THESE. présentée. devant L UNIVERSITE CLAUDE BERNARD- LYON 1. pour l obtention. Du dipôme de doctorat (arrété du 30 mars 1992) M.

Transcription

1 N d ordre : Année 2002 THESE présentée devant L UNIVERSITE CLAUDE BERNARD- LYON 1 pour l obtention Du dipôme de doctorat (arrété du 30 mars 1992) présentée et soutenue publiquement par M. Mounir ERRAMI Le 20 novembre 2002 Titre : Analyse statistique des structures tridimensionnelles de protéines et validation de familles structurales à bas taux d identité. Directeur de thèse : PR. GILBERT DELÉAGE JURY Dr. Jacques CHOMILIER, Rapporteur Dr. Olivier POCH, Rapporteur Dr. Laurent DURET Pr. Bernard ROUX Pr. Gilbert DELÉAGE Pr. Michel VAN DER REST Pr. Gilbert DELÉAGE 1

2 INTRODUCTION RAPPELS BIBLIOGRAPHIQUES LES BASES DE DONNEES PROTEIQUES Les bases de séquences protéiques Les bases généralistes Les bases spécialisées : bases de domaines protéiques et d alignements multiples Les bases de données intégrées Les bases de données structurales Protein Data Bank Les bases de données articulées autour de la PDB DBcat : Le catalogue des bases base de données en biologie Les systèmes d interrogation des bases de données OUTILS BIOINFORMATIQUES D ANALYSE DES SEQUENCES PROTEIQUES Recherche d homologie par comparaison de séquences Définitions Alignement par paire de séquences Application : recherche d homologie dans les bases de séquences Autres outils de recherche d homologie Recherche de motifs (pattern) Utilisation des profils Analyse de la compatibilité de structures secondaires Utilisation des structures tridimensionnelles ETUDE D UNE FAMILLE DE PROTEINES : ALIGNEMENTS MULTIPLES Algorithme d alignement multiple progressif CLUSTALW MultAlin Autres programmes d alignement multiple progressif Algorithmes d alignement multiple itératif et simultané Validation des méthodes d alignement multiple OUTILS BIOINFORMATIQUES D ETUDE DES STRUCTURES SECONDAIRES DES PROTEINES Les structures secondaires des protéines et le diagramme de Ramachandran Moyens d attribution des structures secondaires des protéines à partir des structures tridimensionnelles DSSP Autres outils d attribution automatique des structures secondaires Prédiction des structures secondaires des protéines Méthodes de statistiques linéaires

3 Méthodes basées sur l homologie Méthodes basées sur l apprentissage Apport de l information biologique et méthodes consensuelles OUTILS BIOINFORMATIQUES D ETUDE DES STRUCTURES TRIDIMENSIONNELLES DES PROTEINES Les structures tridimensionnelles des protéines Ponts disulfures Interactions électrostatiques & liaisons hydrogènes Interactions hydrophobes Prédiction des structures tridimensionnelles Modélisation moléculaire par homologie Threading OUTILS BIOINFORMATIQUES D ANALYSE SPECIALISEE DES PROTEINES Profils physico-chimiques Détection de motifs coiled-coils (super hélices) Détection de motifs hélice-coude-hélice (fixation à l ADN) Prédiction de segments trans-membranaires ANALYSE DE LA CONSERVATION DES ACIDES AMINES A ROLE STRUCTURAL AU SEIN DES PROTEINES STRATEGIE GLOBALE MATERIELS ET METHODES Matériel informatique Les langages de programmation C/C++ et la fonction system() Le C Le C La fonction system() Le langage Tcl et le package Tk Protéines de structures connues Création de la base de données d interactions, modifications du programme DSSP Recherche de protéines homologues aux protéines de la PDB Recherche d homologie Constitution des sous-bases de séquences Calcul des alignements multiples Calculs statistiques Conservation des interactions Paires d acides aminés témoins Paramètres statistiques étudiés Analyse de la conservation des glycines Implémentation des concepts et définition des objets en C

4 Matérialisation des interactions Recherche d homologie et alignement multiple Prédictions des structures secondaires Calcul de la conservation des interactions dans les alignements multiples Schéma récapitulatif RESULTATS Développement logiciel Extractblast BioRead Conservation des acides aminés dans les alignements multiples Conservation des ponts disulfures Conservation des interactions électrostatiques Conservation des interactions hydrophobes Conservation des glycines CONCLUSION ET DISCUSSION DES RESULTATS CONCERNANT LA CONSERVATION DES ACIDES AMINES AU SEIN DES ALIGNEMENTS MULTIPLES PERSPECTIVES VALIDATION DES FAMILLES STRUCTURALES A BAS TAUX D IDENTITE, A L AIDE D ALIGNEMENTS MULTIPLES ET DES PREDICTIONS DE STRUCTURES SECONDAIRES MATERIEL ET METHODES Stratégie Alignements de référence SSSD BAliBASE Compatibilité des structures secondaires Prédiction des structures secondaires Calculs des alignements témoins et des paramètres SOV RESULTATS Comparaison des SOV réels et des SOV témoins SSSD BAliBASE EXEMPLE D APPLICATION BIOLOGIQUE DISCUSSION CONCLUSION GENERALE ANNEXES

5 5

6 Introduction Les protéines, macromolécules essentielles à la vie, sont constituées d acides aminés. Pour chaque protéine, les acides aminés qui la constituent s enchaînent les uns à la suite des autres dans un ordre précis, dicté par le code génétique. Cet enchaînement constitue la structure primaire ou séquence de la protéine. La séquence d une protéine est une mine d informations, qu il incombe au biologiste d exploiter au mieux. Les méthodes prédictives actuelles apportent un complément particulièrement utile aux résultats qui peuvent être obtenus par des approches expérimentales biochimiques classiques. Toutefois une méthode prédictive nécessite des connaissances obtenues par l expérience pour la mise au point d algorithmes de prédiction. Les techniques biochimiques modernes ont permis d obtenir très rapidement un nombre impressionnant de données concernant un nombre tout aussi impressionnant de macromolécules biologiques. Sans parler des programmes internationaux de séquençage de génomes complets. L utilisation de l informatique a permis de stocker efficacement cette «monstrueuse» quantité de données : il est assez simple de retrouver une information précise à l aide de systèmes d interrogation particulièrement puissants. Par ailleurs, toutes ces données sont mises à la disposition de toute la communauté scientifique via Internet, probablement la plus grande révolution technologique du siècle écoulé. Toutes ces données ont pu être mises à profit pour l élaboration de méthodes prédictives diverses, utilisant des algorithmes souvent assez complexes. Là encore l apport de l informatique est incontestable en ayant permis d implémenter ces algorithmes. Ainsi le stockage, la vitesse de calcul et la mise à disposition des connaissances font de l informatique un outil indispensable dans le domaine des la recherche scientifique, à tel point que dans le domaine de la Biologie, une discipline en est née : la Bioinformatique. Les enjeux de la Bioinformatique sont divers. D une façon générale, elle apporte une assistance aux biologistes, et leur permet d avoir très rapidement des informations précises, à l aide des méthodes prédictives sur la base de connaissances établies. C est souvent une première étape, une orientation pour aider le biologiste à mettre au point un protocole expérimental, une stratégie. Par conséquent les techniques bioinformatiques ne remplacent pas les techniques biochimiques, elles en sont complémentaires. Devant la croissance explosive du nombre de séquences comparativement aux structures tridimensionnelles, il est indispensable de disposer d outils d analyse des séquences aidant à la prédiction ou à la caractérisation des rôles fonctionnels et surtout structuraux des acides aminés et leur importance au sein des protéines. Il existe deux principaux moyens pour s assurer de l importance des acides aminés au sein d une protéine. Le premier est purement expérimental et consiste à muter l acide aminé (par mutagenèse dirigée par exemple) et à étudier l effet de la mutation sur les propriétés physico-chimiques de la protéine (activité, vitesse de catalyse, stabilité à la température ou à des agents dénaturants...). Cette première méthode est certes fine et élégante, mais aussi relativement 6

7 longue et coûteuse car elle est «lourde» puisqu il n est pas possible d automatiser une telle procédure. Chaque acide aminé doit faire l objet d une investigation qui lui est propre. Ces techniques sont utilisables à «petite échelle» et ne permettent d étudier que quelques acides aminés d une protéine. La seconde, complémentaire de la première consiste à étudier la conservation des acides aminés au sein d une famille protéique. L importance structurale et/ou fonctionnelle des acides aminés doit se traduire par une plus forte conservation de ces derniers dans les familles protéiques. Ceci revient à étudier cette conservation au sein d alignements multiples. Quelles que soient les techniques employées, les très nombreuses expériences de ce type ont permis de dégager certains principes de base comme la conservation des zones hydrophobes dans le cœur des protéines (Markiewics et al., 1994 ; Rennell et al. ; 1991 ), la conservation des caractéristiques physico-chimiques des sites actifs (Lesk & Chothia, 1980 ), ou encore la conservation des résidus polaires aux interfaces protéiques (Hu et al., 2000 ). Il y a eu donc beaucoup d études qui portent chacune sur un aspect bien précis quant à l importance des acides aminés au sein des protéines. La première partie de mon travail de thèse consiste en l étude de la conservation des acides aminés impliqués dans les interactions telles que les ponts disulfures (ou cystines), les interactions électrostatiques et les interactions hydrophobes. Les études menées jusqu ici ne considèrent qu un seul type d interaction voir quelques acides aminés, et par ailleurs aucune n est exhaustive puisqu elles se cantonnent pour la quasi-totalité d entre elles à l étude de quelques protéines. Concernant l étude de la conservation des interactions électrostatiques par exemple, Musafia et al. (1995) utilisent 94 protéines, Schueler et Margalit (1995) quant à eux utilisent 8 familles protéiques. Cependant, on retrouve déjà dans ces travaux, l étude de l influence de l accessibilité et des structures secondaires dans la conservation des acides aminés. Pour notre part, nous avons mis en place une stratégie originale pour l étude statistique exhaustive des structures tridimensionnelles. Nous établissons les relations entre les alignements multiples de séquences et la conservation de caractéristiques structurales particulières au sein de protéines. Nous montrons notamment que les acides aminés impliqués dans les ponts disulfures, les interactions hydrophobes ou électrostatiques sont particulièrement conservés dans les alignements multiples, suggérant l apport potentiel des alignements multiples pour la prédiction des structures tridimensionnelles. Lors de ce travail, nous avons montré que les alignements les plus informatifs sont constitués de séquences apparentées faiblement similaires. Cependant il n est pas aisé de valider des familles structurales à faible similarité. La seconde partie de mon travail de thèse a eu pour but d apporter une solution à ce problème Les protéines peuvent être regroupées en familles et sous-familles, caractérisées par des repliements, des sites et des fonctions caractéristiques. L un des fondements essentiels sur lequel cette classification s établit est la comparaison des séquences protéiques sous la forme d alignements multiples, qui permettent d établir rapidement des prédictions sur les fonctions biologiques, ou même d établir des relations phylogénétiques entre les protéines. Ces alignements multiples, offrent à travers 7

8 l analyse de la conservation des résidus, un moyen rapide de caractériser une protéine. Il est plus aisé d établir ces relations d homologie qui lient les protéines lorsque les séquences sont similaires et présentent une identité élevée (>30%), simplement parce que l homologie est d autant plus évidente que les séquences sont similaires. Ceci n implique pas que des protéines non similaires ne sont pas homologues. Toute la difficulté est de valider les familles protéiques lorsque la similarité est faible. Différentes approches existent, mais elles ont essentiellement comme support l alignement de deux protéines. Une approche consiste à exploiter la transitivité de l homologie et ainsi utiliser une ou des protéines «relais» pour établir les relations entre protéines, à bas taux d identité (Teichman et al., 2000). Une autre solution a été d améliorer les algorithmes de recherche de similarité pour les rendre plus sensibles, c est le cas de PSI-BLAST (Altschul et al., 1997). Enfin, une plus récente consiste à utiliser l information des structures secondaires prédites pour valider la parenté structurale qui lie deux protéines à bas taux d identité (Geourjon et al., 2001). En effet, les prédictions de structures secondaires sont connues pour être des informations particulièrement efficaces pour améliorer les processus de reconnaissance du repliement tridimensionnel (fold recognition) que ce soit par modelisation ab initio ou par threading. Différentes méthodes de prédiction de structure tridimensionnelles basées sur les séquences et utilisant les structures secondaires prédites existent comme GenTHREADER (Jones et al., 1999) ou encore TOPITS (Rost, 1995). Depuis 1998, toutes les méthodes de reconnaissance du repliement efficaces (pour revue, Proteins, supplément 3, 1999) mettent à profit les prédictions de structures secondaires, montrant que les structures secondaires prédites peuvent être particulièrement utiles pour la prédiction des structures tridimensionnelles et donc pour établir les relations structurales entre des protéines de structure inconnue. Un autre outil bioinformatique particulièrement utile pour établir ces relations consiste à calculer et à analyser des alignements multiples. Dans ce domaines, quelques méthodes existent telles que AL2CO pour analyser la conservation des positions (Pei et al., 2001), la méthode de Hertz & Stormo (1999) qui consiste à établir la signification statistique des alignements multiples, ou encore la méthode décrite par Thompson (et al., 2001) qui utilise une fonction de scoring : normd. Dans la seconde partie du travail de thèse, une nouvelle méthode d analyse des alignements multiples est proposée. Celle-ci consiste à exploiter les prédictions des structures secondaires, dans le but de détecter les séquences «intruses» dans un alignement multiple alors que l identité entre les séquences ne distinguent pas ces intrus des autres séquences des alignements multiples. Afin de resituer le cadre du travail présenté, quelques uns des divers outils bioinformatiques disponibles dans le domaine de l étude des protéines seront présentés. Ce premier chapitre de rappels bibliographiques sera aussi l occasion de souligner l importance des bases de données protéiques qui ont permis le développement de méthodes et d algorithmes d analyses des séquences protéiques qui aident à caractériser les protéines sur les plans biochimique, structural et physiologique. 8

9 1. Rappels bibliographiques Le premier réflexe du biologiste qui vient d obtenir la séquence de sa protéine d intérêt est d essayer de tirer toutes les informations possibles afin d approcher ses caractéristiques physicochimiques, structurales et fonctionnelles. La Bioinformatique permet dans un premier temps, grâce aux bases de données biologiques d accéder à toute l information disponible sur un champ d étude précis, une molécule précise, très rapidement. Ces bases de données, fréquemment mises à jour, permettent le développement de méthodes et outils bioinformatiques dont le but est justement d exploiter la séquence protéique afin d en «prédire» diverses informations. Il est possible à partir d une séquence protéique, de rechercher des protéines homologues, des similarités, des sites fonctionnels ou des signatures potentielles, qui peuvent apporter une idée sur la fonction possible d une nouvelle protéine. A l aide des outils d alignements multiples, c est tout un groupe de protéines qui peut être étudié afin d en faire ressortir des caractéristiques communes ou une étude phylogénétique. Ensuite il y a l étude structurale : l analyse de la structure secondaire (le premier niveau d organisation structurale d une protéine), est généralement le point de départ de l étude d une structure protéique avant de passer à l étude de sa structure tridimensionnelle. Parallèlement il est possible de faire des recherches plus spécialisées : la prédiction de zones hydrophobes, de zones accessibles, de zones trans-membranaires, de motifs structuraux La Bioinformatique offre donc beaucoup de méthodes, qui sont autant de moyens de caractériser une protéine nouvelle, et aide ainsi à mieux comprendre les mécanismes qui régissent son fonctionnement. Ces quelques rappels bibliographiques sont l occasion de faire un tour d horizon des principaux outils bioinformatiques à la disposition de la communauté scientifique dans le domaine de la Biologie et plus particulièrement dans le domaine de l étude des protéines Les bases de données protéiques L évolution de la Biochimie et de la Biologie moléculaire ont généré un afflux massif de données qui ont été stockées et centralisées pour une meilleure accessibilité. Cette centralisation des connaissances, afin qu elles soient profitables à tous, n aurait pu se faire sans Internet, formidable outil de communication qui à travers une interface web permet d échanger l information à l échelle planétaire. Ces bases de données sont un élément essentiel et indispensable dans le domaine de l analyse des protéines. Elles représentent la source d information la plus complète et pertinente pour les biologistes. Elles sont aussi l un des fondements sur lequel s appuie le développement des méthodes bioinformatiques d analyse de séquence. L utilité incontestable de ces bases de données se traduit par une évolution de leur taille quasi exponentielle pour beaucoup d entre elles, montrant l intérêt qu elles 9

10 suscitent et le point d honneur que mettent les biologistes à les enrichir aux profit de tous. Il faut aussi ajouter que l évolution des bases de données a été possible grâce l évolution du matériel informatique d une part et la mise au point de systèmes d interrogation performants d autre part Les bases de séquences protéiques Les bases généralistes Les bases dites généralistes sont des bases de données ayant comme «unité de base» la protéine. Celles-ci contiennent généralement la séquence protéique entière, ainsi que d autres informations jugées utiles pour les biologistes a. SWISS-PROT La base de données SWISS-PROT (Bairoch et al., 2000 URL 1) a été créée par Amos Bairoch en 1986 au sein du département de Biochimie Médicale à l Université de Genève. Elle est maintenue depuis 1987 en collaboration avec l EMBL (European Molecular Biology Laboratory). C est le fruit d un partenariat entre le SIB (Swiss Institute of Bioinformatics) et l EBI (European Bioinformatics Institute), antenne de l EMBL située à Hinxton en Grande Bretagne. Sa qualité en a fait sa renommée. Les séquences protéiques de SWISS-PROT sont annotées par les auteurs ou des experts extérieurs, ce qui garantie une information pertinente et sure. La redondance y est très faible, c est donc une base «propre» : toutes les données issues des recherches d auteurs différents mais portant sur une même séquence sont fusionnées. Enfin, elle dispense pour chaque entrée de nombreuses références croisées avec beaucoup d autres banques (60 environ). Au sein de SWISS-PROT chaque entrée (ensemble de données relatives à une séquence protéique) possède un identifiant (champ ou «line-type» ID) ainsi qu un numéro d accession (champ AC) uniques permettant de retrouver aisément une séquence. Chaque entrée est constituée de deux types de données : «un noyau de données» (core data) qui constitue le minimum de données autour duquel s articule le second type de données : les annotations. Le «noyau de données» contient la séquence (champ SQ), les références bibliographiques (champs RN, RT, RF, RA, RX) et les données taxonomiques (source(s) biologique(s) relatives à cette séquence). Les annotations (champs KW, CC, FT), renseignent sur la fonction, les modifications post-traductionnelles, les domaines et sites fonctionnels, les structures secondaires et quaternaires, les similitudes avec d autres protéines, les maladies associées, les variants etc 10

11 // ID STRI_STRGR STANDARD; PRT; 348 AA. AC P09400; DT 01-MAR-1989 (Rel. 10, Created) DT 01-MAR-1989 (Rel. 10, Last sequence update) DT 16-OCT-2001 (Rel. 40, Last annotation update) DE Streptomycin biosynthesis protein stri (EC ). GN STRI. OS Streptomyces griseus. OC Bacteria; Firmicutes; Actinobacteria; Actinobacteridae; OC Actinomycetales; Streptomycineae; Streptomycetaceae; Streptomyces. OX NCBI_TaxID=1911; RN [1] RP SEQUENCE FROM N.A. RC STRAIN=N2-3-11; RX MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] RA Mansouri K., Piepersberg W.; RT "Genetics of streptomycin production in Streptomyces griseus: RT nucleotide sequence of five genes, strfghik, including a phosphatase RT gene."; RL Mol. Gen. Genet. 228: (1991). CC -!- PATHWAY: STREPTOMYCIN BIOSYNTHESIS. CC -!- SIMILARITY: BELONGS TO THE GFO/IDH/MOCA FAMILY. CC CC This SWISS-PROT entry is copyright. It is produced through a collaboration CC between the Swiss Institute of Bioinformatics and the EMBL outstation - CC the European Bioinformatics Institute. There are no restrictions on its CC use by non-profit institutions as long as its content is in no way CC modified and this statement is not removed. Usage by and for commercial CC entities requires a license agreement (See CC or send an to [email protected]). CC DR EMBL; Y00459; CAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR PIR; S17779; S DR InterPro; IPR000683; GFO_IDH_MocA. DR InterPro; Graphical view of domain structure. DR Pfam; PF02894; GFO_IDH_MocA_C; 1. DR ProDom [Domain structure / List of seq. sharing at least 1 domain] DR BLOCKS; P DR DOMO; P DR PRESAGE; P KW Streptomycin biosynthesis; Oxidoreductase; NAD. FT NP_BIND 2 32 NAD (BY SIMILARITY). SQ SEQUENCE 348 AA; MW; B95BCC443EEABDF6 CRC64; MRVGIVGAGR MGRLHARTLL ELPDPPDLVV HDVDPDGAHR LAQELAAGTK AQVTVERELA DTVTKADAIV VATPATQRRA PLLAAARAGL PVFCEKPLTA DETEAAELVE ALAHTRLHVG FQRRCDPEYQ RLRELIAAGE LGRVLLVRCT AFDHRPPADA YEETAGDIFT DCLIHDIDAV HWLTGQPTVA VQADGARLLA GSGYDVATAV LTLADGARAV LSASRLDPHG YDHRVEVLGT KGSLSVGLDA RTPLRLLGQD GTGCPPGPGA QPAYQDFTDR FEAAYRREVL AFVRTVTEGA PSPCTGQEAL RAQRVAAAAG RAARTGTRVE LDPAPHGAPA ALVAGAAR Figure 1 : Exemple du format de données de SWISS-PROT pour une protéine A ce jour, la version la plus récente de SWISS-PROT est la version du 2 Août Elle contient entrées. Au total 7487 espèces différentes sont représentées, de façon inégale puisque 11

12 environ 45% des entrées proviennent de 20 espèces. Notons aussi que 18 espèces servent de modèles : un soin tout particulier leur est apporté dans le domaine de l annotation, le but étant d être aussi exhaustif que possible, aidé par les programmes de séquençage dont leur génome fait l objet. Par ailleurs, les séquences protéiques de l espèce humaine, sont à la base d un projet tout particulier mis en place en 1999 qui consiste en l annotation du protéome humain : Human Proteomic Initiative ou HPI (O Donovan et al., 2001). HPI à été crée dans l espoir de fournir une documentation spécifique et détaillée pour toutes les séquences protéiques issues du séquençage du génome humain. Dans la version 40 de SWISS-PROT, l annotation de 8300 séquences résulte de ce projet. L évolution exponentielle du nombre d entrées au sein de la base SWISS-PROT représente un véritable challenge dans la mesure où il faut malgré tout maintenir l annotation et la faible redondance qui font la qualité de cette base, et incorporer rapidement les nouvelles séquences. Ceci nécessite, pour chaque entrée une analyse fine et représente par conséquent un frein à la croissance SWISS-PROT. Ce paradoxe, selon lequel SWISS-PROT doit être le reflet des connaissances actuelles qui croissent très vite et l annotation qui doit persister a pu être contourné grâce à une base de données annotée automatiquement : TrEMBL b. TrEMBL & ClusTr : 2 bases associées à SWISS-PROT La base de données TrEMBL (Translation of EMBL nucleotide database, Bairoch et al., URL 2) est née en 1996 afin de faire face à l énorme quantité de données issue des différents programmes de séquençage de génomes entiers. Les séquences y sont annotées automatiquement et constituent un complément à la base de données SWISS-PROT. Les séquences protéiques de TrEMBL sont issues de la traduction des séquences codantes (CDS) de la base nucléotidique de l EMBL, puis une étape préliminaire d annotation automatique des séquences traduites est effectuée. Ces annotations sont ensuite revues et mises au niveau du standard SWISS-PROT en vue le leur incorporation dans SWISS-PROT. Ainsi TrEMBL permet en accélérant l annotation, non seulement de maintenir la qualité de la documentation des entrées mais aussi de mettre à disposition rapidement les séquences nouvelles issues de séquençage de génomes. La version 21.6 de TrEMBL du 2 Août 2002 contient environ séquences. TrEMBL est organisée en deux sections SP-TrEMBL et REM-TrEMBL : SP-TrEMBL (SWISS-PROT-TrEMBL) contient environ entrées potentiellement incorporables à SWISS-PROT. Chacune d entre elles possède un numéro d accession SWISS-PROT (AC), et pourront être incorporées dans la version ultérieure de SWISS-PROT. Les séquences restantes soit séquences, constituent REM-TrEMBL (REMaining-TrEMBL), et ne seront pas incorporées à SWISS-PROT car appartenant à une des 6 catégories suivantes : - séquences d Immunoglobuline ou de récepteur de lymphocyte T, - séquences synthétiques, 12

13 - séquences issues de brevets, - fragments de moins 8 acides aminés, - traduction de CDS ne codant pas de véritable protéine, - séquences protéiques tronquées. Avant leur incorporation dans SWISS-PROT, les entrées de SP-TrEMBL subissent un processus de «sélection» en deux étapes : la première consiste éliminer la redondance (O Donovan et al., 1999) en fusionnant automatiquement les séquences à l aide d outils tels que le score CRC (Cyclic Redundancy Check) et la méthode LASSAP (LArge Scale Sequence comparison Package ; Glemet et al ; Codani et al. 1995). Une seconde étape vise à élever le niveau de l annotation en utilisant d autres bases de données telles que PROSITE (base de motifs protéiques ; Hofmann et al, 1999) ou ENZYME (Bairoch et al.,2000). Une troisième base de données est associée à TrEMBL et SWISS-PROT : la base CluSTr (Clusters of SWISS-PROT and TrEMBL proteins ; Kriventseva et al., URL 3). Elle est construite sur la base de la similarité qu il existe entre les différentes séquences de SWISS-PROT et de TrEMBL, en regroupant les séquences (clustering) selon une méthode en deux étapes : la première qui est la comparaison de toutes les séquences deux à deux en utilisant l algorithme de Smith & Waterman (cf a page 28). Puis une seconde étape à l aide de LASSAP pour le regroupement final. Il en résulte la constitution de différents groupes de séquences ayant des niveaux de similarité différents. Ses domaines d applications principaux sont la prédiction de la fonction protéique, l annotation automatique de nouvelles séquences (Fleischmann et al., 1999), la diminution de la redondance au sein des bases de données de séquences protéiques (O Donovan et al., 1999) - aspect dont profitent d ailleurs SWISS-PROT et TrEMBL -, la recherche de nouvelles familles protéiques, l analyse de protéomes (Apweiler et al., 2001), l aide à l analyse phylogénétique. La documentation des données CluSTr intègre des informations quant à la présence de domaines ou sites fonctionnels provenant de bases de données spécialisées telles que InterPro, PROSITE, PRINTS, Pfam, ProDom. ClusTr propose aussi des références croisées avec des bases à caractère structurale telles que HSSP et PDB ( page 21) c. PIR-PSD & les bases associées La base PIR-PSD (Protein Information Ressource Protein Sequence Database ; Barker et al URL 4) est l une des premières base de données biologiques informatisées puisqu elle est disponible sur Internet depuis Elle a été mise en place par le NBRF (National Biomedical Research Foundation - Georgetown University) et fait suite à la publication de «l Atlas of Protein Sequence and Structure» maintenue par Margaret Dayhoff de 1965 à Depuis 1988, le JIPID (Japan International Protein Information Database) et le MIPS (Munich Information center for Protein Sequence) se sont associés au NBRF dans la gestion et le maintien de PIR-PSD. 13

14 PIR-PSD est une base de séquences protéiques annotées, non redondante et proposant des références croisées vers d autres bases. Les principales sources de documentation de PIR-PSD sont les traductions de séquences nucléotidiques contenues dans les bases GenBank, EMBL, DDBJ (Dna Databank of Japan) ainsi que les publications et soumissions directes par les chercheurs. Les séquences sont ensuite comparées, les informations sont fusionnées pour minimiser la redondance, puis annotées. Les séquences sont également classées par : super-familles : deux familles appartiennent à la même super-famille si les longeurs des séquences des deux familles sont comparables, et si les domaines fonctionnels sont présents et retrouvés dans le même ordre au sein des séquences des deux familles ; familles : deux séquences sont de la même famille si elles ont des longueurs proches et au moins 50% d identité de séquences, ce seuil étant appliqué pour PIR-PSD (la classification est automatisée) ; domaines d homologie (informatif sur le plan de l évolution des séquences) ; motifs de séquence (informatif sur la conservation de sites particuliers et de la fonction). L intérêt de cette classification (Barker et al., 1996) à la fois structurale, séquentielle et fonctionnelle a pour but de faciliter la caractérisation d une séquence nouvelle et de mettre en avant les relations séquence-structure-fonction. Ceci permet aussi de détecter et de corriger d éventuelles erreurs dans les annotations des génomes dont les séquences sont issues. Cette classification nécessite de réaliser des alignements multiples de séquences, qui sont stockés au sein d autre bases de données : MIPS-ProtFam, contient des alignements automatiques. PIR-ALN, contient des alignements contrôlés. PIR-PSD dans sa version 73.02, qui date du 2 Août 2002, compte entrées réparties en 4 sousensembles : PIR1 à PIR4. PIR1 et PIR2 contiennent plus de 99% des entrées de PIR-PSD, les séquences ont fait l objet d une analyse poussée, elles sont fortement annotées (avec un léger plus pour PIR1). PIR3 contient les séquences en attente d annotation en vue de leur intégration éventuelle à PIR1 ou PIR2. Enfin PIR4 contient des séquences «non naturelles» (annotées selon la même procédure que PIR1 et PIR2) : traduction de pseudo-gènes, ORFs (Open Reading Frame ou phase ouverte de lecture) non exprimées, séquences synthétiques, etc Autour de PIR-PSD s articulent plusieurs autres bases de données qui ne seront pas décrites dans le détail: ProClass (Huang et al., 2000) qui classe les séquences non-redondantes de PIR-PSD et de SWISS-PROT en fonction des super-familles de PIR et de motifs PROSITE particuliers. iproclass (WU et al., 2001), base de donnée intégrée qui prend en compte les données portant sur la famille, les caractéristiques structurales et fonctionnelles qui proviennent de 14

15 nombreuses bases : PIR-PSD, ProClass, PIR-ALN, PIR-RESID, SWISS-PROT, TrEMBL, Pfam, BLOCKS, PRINTS, PROSITE, PDB et COG. Le haut niveau d intégration permet d obtenir une information plus complète (que ces bases considérées individuellement ne fournissent pas). PIR-RESID (Gravelli, 1999 ; Gravelli et al., 2001) liste les modification posttraductionnelles documentées par des informations à caractère chimique, structurale et bibliographique. PIR-NLR3D (Gravelli et al., 2001), contient des séquences annotées sur la base des informations tridimensionnelles fournies par la PDB. PIR-NREF, récente base puisque la première version date du 23 octobre C est une base de données non redondante de références protéiques qui intègre (à l image de iproclass) des informations provenant des bases : PIR-PSD, SWISS-PROT, TrEMBL, GenPept, RefSeq et PDB. Elle sera utilisée comme source principale à la réalisation des version future de iproclass d. Autres bases de séquences protéiques Il existe diverses autres bases de données dont nous citerons : GenPept : base de séquences issues de la traduction de CDS contenues dans la base de séquences nucléiques GenBank ; ProtoMap (Yona et al., 2000) : classification hiérarchique automatique des protéines de SWISS-PROT et TrEMBL ; KIND (Kallberg et Persson, 1999) : base de séquences non redondante construite à partir de SWISS-PROT, PIR-PSD, TrEMBL et GenPept. IMGT (Lefranc, 2001) et Kabat (Johnson et al., 2001) : base de séquences de protéines à caractère immunologique ; PMD (Kawabata et al., 1999) : base de séquences mutantes naturelles ou artificielles ; Base de séquences protéiques dédiées à des modèles biologiques : YPD (Hodges et al., 1999) dédiée à Saccharomyces cerevisiae, WormPD (Costanzo et al., 2000) dédiée à Caenorhabditis elegans, ou encore DAtA (Palm et al., 2000) dédiée à Arabidopsis thaliana. HCVDB (Hepatitis C Virus Database ; Combet, 2000, URL 29) dédiée aux séquences nucléotidiques et protéiques des virus de l hépatite C 15

16 Les bases spécialisées : bases de domaines protéiques et d alignements multiples. Le processus d analyse de séquence fait intervenir diverses étapes dont l une d entre elle est la comparaison de la séquence nouvelle avec les séquences dans les bases de données qui viennent d être décrites. Mais il convient aussi d étudier des aspects précis, des point plus particuliers tels que la présence de domaines fonctionnels, la recherche de sites permettant de classer la protéine au sein d une famille protéique, examiner la possibilité de modifications post-traductionnelles, de propriétés physico-chimiques précises etc... Afin de pouvoir étudier ces aspects, de nombreuses bases de données dites spécialisées ont vu le jour a. PROSITE PROSITE (Hofmann et al., URL 5) créée en 1988 contient dans sa version 17.18, du 3 Août 2002 un total de 1147 entrées décrivant 1567 motifs et profils caractérisant une particularité biologique précise, structurale ou fonctionnelle. Cette base est très utilisée pour déterminer à quelle famille fonctionnelle appartient une protéine, ainsi que les différentes signatures présentent au sein de cette protéine. Les outils de recherche et de caractérisation des motifs sont très puissants, mais ne permettent pas d identifier avec suffisamment de pertinence des motifs ayant des séquences divergentes, et appartenant à une même famille. C est le cas de certains motifs fonctionnels caractéristiques des protéines de la famille des Immunoglobulines, des Globines ou encore des protéines à domaine SH2 ou SH3 (intervenant par exemple dans la transduction des signaux cellulaires). C est pour répondre à ce problème que les profils ou matrices pondérées ont été introduits dans PROSITE en Ils consistent à l attribution, pour chaque motif, d une table de scores et de coûts en fonction de l occurrence des acides aminés et de gaps à chaque position dans le motif. Le but étant d autoriser les mutations et d arriver à classer une protéine possédant des motifs peu conservés, néanmoins caractéristiques d une famille protéique particulière. Les motifs et profils de PROSITE sont utilisés pour l annotation des entrées d autres bases de données telles que SWISS-PROT b. ProDom ProDom (Corpet et al., URL 6) est une base de domaines protéiques définis à l aide de familles protéiques sous la forme d alignements multiples. La construction des familles est automatisée et se fait à partir des séquences contenues dans SWISS-PROT et SP-TrEMBL, ainsi que d alignements de la base Pfam. Les alignements de ProDom sont construits à l aide de PSI-BLAST, outil permettant de détecter des similarités entre des séquences protéiques ( page 39). La 16

17 procédure étant automatisée, des paramètres (consistancy indicators) ont été introduits afin d estimer la signification biologique du regroupement des séquences : le diamètre (diameter) obtenus à partir des deux membres les plus éloignés d une même famille : plus celui-ci est petit, plus la famille est homogène. Ce paramètre caractérise le groupe ; le rayon de giration (radius of gyration) qui caractérise chaque séquence au sein du groupe. Il permet de savoir si une portion de séquence se rapproche ou au contraire s éloigne du consensus issu du groupe. Au jour du 13 Août 2002, la version de ProDom contient familles de domaines protéiques (dont familles avec au moins 2 séquences). ProDom facilite la compréhension de l arrangement des domaines au sein des familles protéiques complexes, et permet de mettre en évidence les homologies qui peuvent exister entre des protéines modulaires de même familles mais aussi de familles différentes c. Pfam Pfam (Bateman et al., URL 7) est une base de données d alignements multiples de séquences et de profils HMM (Hidden Markov Models) classés par famille protéique. Chaque famille est représentée par deux alignements multiples : le premier constitué de quelques membres représentatifs de la famille et le second constitué de toutes les protéines de cette famille au sens de Pfam : des profils HMM sont construits (à l aide de l outil HMMER) et sont ensuite utilisés pour classer les séquences contenues dans la base séquences protéiques Pfamseq (elle même construite à partir de SWISS-PROT et SP-TrEMBL). Pfam est divisée en deux sous-bases : Pfam-A contient des alignements ayant fait l objet d une vérification manuelle et Pfma-B qui contient des alignements générés automatiquement mais non vérifiés. Le but premier de Pfam est de faciliter la classification et l annotation automatiques de séquences protéiques nouvelles d. DOMO et PRINTS-S DOMO (Gracy & Argos, URL 8), à l image de ProDom, est une base décrivant les domaines que l on peut rencontrer au sein de différentes familles protéiques. Les familles et les domaines sont définis sur la base de la similarité entre les séquences. Celles-ci sont présentées sous la forme d alignements multiples. DOMO utilise les séquences de SWISS-PROT et PIR-PSD, si elles sont non redondantes, complètes et ne comptent pas plus 1000 acides aminés. DOMO, comme ProDom est construite automatiquement : détection, regroupement et recherche de similarités locales précèdent le calcul des alignements multiples des domaines et ainsi la constitution des familles protéiques. 17

18 PRINTS-S (Attwood et al., URL 9) est une base d empreintes (fingerprints). Une empreinte est un ensemble de motifs conservés au sein d alignements multiples. Ces empreintes permettent de travailler sur des séquences relativement divergentes, présentant des motifs peu conservés mais ayant une signification biologique. De fait, PRINTS-S est une source d informations indiquée pour l étude des super-familles de protéines Les bases de données intégrées Les bases intégrées (ou unifiées) apportent une solution au problème de la spécialisation des bases conventionnelles et l éclatement de l information qui en découlent. Ces bases intégrées sont construites à partir de plusieurs autres bases ce qui permet de centraliser les informations, d avoir des bases représentatives des connaissances sur les familles protéiques et d outrepasser les différents systèmes de classifications des protéines en familles ainsi que les formats de présentation adoptés par les autres bases. Par ailleurs, ce type de base permet de détecter les incohérences entre les bases et aide à améliorer leur qualité, par une classification plus fiable et une annotation plus pertinente. Si chaque base a un domaine d application fort, chacune possède aussi des manques. Les unifier revient à pallier les faiblesses des unes par les points forts des autres a. InterPro Le projet InterPro (Apweiler et al., URL 10) résultant d une initiative internationale vise à unifier les bases de signatures et de domaines ProDom, Pfam, PRINTS et PROSITE. L intégration des données commence par la fusion des informations contenues dans chacune des bases : les membres de ces bases sont comparés et ceux qui décrivent des domaines, signatures ou profils communs, sont fusionnés et constituent ainsi une entrée InterPro unique avec un numéro d accession unique. Chaque entrée InterPro contient : une description de la famille protéique, des domaines, des répétitions internes, des modification post-traductionnelles ; une liste des signatures, motifs, profils HMMs ou empreintes associés à la famille ; une annotation résumée à partir des bases membres ; des exemples de séquences représentatives ; les références bibliographiques ; des liens vers d autres bases comme SWISS-PROT et TrEMBL. InterPro propose ainsi une définition des familles protéiques sur la base des systèmes de classification adoptés par d autres bases, représentant en cela une source de choix pour l annotation des séquences. A ce titre, L EBI a choisi d utiliser InterPro et entend ainsi rehausser le niveau de l annotation automatique de la base TrEMBL (Fleischmann et al., 1999). InterPro peut aider à définir de nouvelles signatures ou des groupes de séquences pour lesquelles une signature s avère utile, et ainsi mieux 18

19 caractériser des familles qui ne sont pas clairement définies. Une autre application est l analyse de protéomes eucaryotes : Drosophila melanogaster, Caenorhabditis elegans, et Saccharomyces cerevisiae (Rubin et al., 2000) b. MetaFam MetaFam (Silverstein et al., 2001a ; Silverstein et al., 2001b ; Shoop et al., URL 11), est une base de données unifiée, intégrant de façon non redondante, les séquences issues de SWISS- PROT, PIR, GenPept, TrEMBL et NRL3D. Les séquences y sont regroupées en familles et superfamilles (family superset). Le classement des séquences est fondé sur les regroupements effectués au sein de dix autres bases de données dont Pfam, DOMO, PRINTS-S, PROSITE, PIR-ALN, Blocks+, ProtoMap etc MetaFam procède pour les regroupements en trois étapes : la première consiste éliminer les redondances en attribuant des clés uniques après comparaison des séquences. Ensuite les familles auxquelles appartiennent ces séquences sont recherchées dans les dix bases de données et sont comparées deux à deux (une famille définie dans DOMO est comparée à une famille définie dans PIR. Puis PIR/Pfam, puis DOMO/Pfam etc ). Des pourcentages de ressemblances entre les familles deux à deux sont calculés et sont représentés graphiquement à l aide de MetaFamView (Figure 2). Figure 2 : interface graphique MetaFamViewer. 19

20 L avantage de ce type de représentation réside dans sa convivialité : il est facile d accéder à toutes les informations sur les familles et séquences protéiques disponibles dans toutes les bases de données sur lesquelles MetaFam s appuie. La seule critique que l on peut faire, est la lenteur de chargement des informations au sein de l interface graphique. MetaFam est un outil particulièrement intéressant pour la classification et l annotation d une séquence nouvelle et la comparaison entre familles. MetaFam permet d accéder depuis une base de données unique à une grande quantité d informations dispensées dans d autres bases. Son utilité ne sera pas des moindres si l on en juge par l énorme quantité de données qui est (et sera) issue des programmes de séquençage de génomes entiers c. Blocks+ Blocks+ (Henikoff et al., 1999 ; Henikoff et al., URL 12) est une extension de la base Blocks (Henikoff et Henikoff, 1996) qui contient des alignements de séquences «non gappés» définis en fonction des familles de PROSITE. Blocks+ intègre en plus et de façon non redondante les familles définies dans Pfam, PRINTS, ProDom et DOMO. Blocks+ à une couverture plus large des familles protéiques que les bases sur lesquelles elle s appuie, en outre ceci permet de détecter des omissions dans ses bases membres et de les combler par l ajout de nouvelles familles. De plus pour certaines familles protéiques la classification est plus cohérente, comme par exemple les protéines de la famille SNF2 qui interviennent dans la régulation de la transcription et dans le «remodelage» de la chromatine chez les eucaryotes : cette famille est reconstituée dans Blocks+, alors qu elle est éclatée dans ProDom, Pfam et Domo Les bases de données structurales Si l étude de la séquence d une protéine est un aspect important pour l identifier, la caractériser, et approcher sa fonction, l étude de sa structure tridimensionnelle représente un point fondamental pour réellement comprendre les mécanismes biochimiques, à l échelle atomique, qui régissent sa fonction. La structure tridimensionnelle d une protéine se définit par l arrangement dans l espace de ses atomes constitutifs. Il faut souligner l importance de la connaissance des structures tridimensionnelles, tant dans le domaine de la recherche fondamentale pour comprendre les mécanismes à la base de la vie, que dans la recherche appliquée pour la mise au point de nouvelles molécules thérapeutiques (Drug design), pouvant aider à traiter les dysfonctionnement de certaines protéines à la base de pathologies graves, voire mortelles et pour certaines encore incurables. La Résonance Magnétique Nucléaire (RMN) et la cristallographie, sont les deux techniques utilisées pour déterminer expérimentalement la structure tridimensionnelle d une protéines. Les 20

21 structures ainsi déterminées sont regroupées dans une base de données principale : la Protein Data Bank (PDB) Protein Data Bank La PDB (Berman et al., URL 13) a été mise en place en 1971 au Brookhaven National Laboratories (BNL) en tant qu archives des structures des macromolécules biologiques et comptait alors sept structures. Depuis 1998, le maintien de cette base est sous la responsabilité du Research Collaboratory for Structural Bioinformatics (RCSB). Dès le début des années 80, l évolution des techniques de détermination de structure tridimensionnelles et des systèmes de communication ont permis une forte croissance de la PDB : aujourd hui, dans sa version la plus récente du 6 Août 2002, elle compte en effet environ structures de protéines déterminées expérimentalement. Pour beaucoup d entre elles, ces protéines ont un taux d identité de séquence élevé lorsqu elles sont alignées deux à deux. On considère qu au delà du seuil de 25% d identité de séquence, deux protéines ont des structures tridimensionnelles quasiment superposables (Doolittle, 1981 ; Rost, 1999). A ce titre et sauf cas particulier, ce seuil est le minimum requis pour prédire la structure d une protéine nouvelle à partir d une structure déjà existante. Si on ne considère que les protéines ayant moins de 25% d identité de séquence alignées deux à deux, la PDB ne contient plus qu environ 2000 chaînes, qui sont réellement représentatives des connaissances structurales protéiques actuelles. L évolution de la PDB est très loin de suivre l évolution des bases de données de séquences. C est la conséquence directe des nombreuses difficultés que soulèvent les techniques de détermination de structures que sont la RMN et la cristallographie/diffraction aux rayons X ( page 50). Si la PDB ne compte qu un faible nombre d entrées comparativement aux bases de séquences, elle n en demeure pas moins une base de grande qualité. Les entrées de la PDB contiennent en plus des coordonnées atomiques, toutes les informations techniques concernant l expérimentation ayant permis sa détermination (source, séquence, cofacteur protéique ou prosthétiques, description qualitative de la structure, conditions précises de la cristallisation ou de la solution, traitement des données, affinement des structures, logiciels utilisés ). Les structures déposées dans la PDB sont soumises à une validation qui consiste à une vérification très poussée de la structure (en plus de celle effectuée par les auteurs) : mesures d angles, de liaisons, vérification de la stéréochimie, des distances entre atomes et contacts Par ailleurs des informations quant à la qualité de la structure sont disponibles, une essentielle est la résolution exprimée en Å : la structure est d autant plus précise que celle-ci est petite. Afin de maintenir la haute qualité de cette base de données, un format particulier d organisation des données a été mis au point : le format mmcif (macromolecular Cristallographic Information File ; Bourne et al., 1997), permettant une description plus détaillée des structures. Ce format plus souple, et évolutif, évite les incohérences au sein des fichiers de données. Citons aussi le projet d uniformisation 21

22 des données (Bath et al., 2001), qui vise à convertir les fichiers au formats PDB précédents (encore utilisés par de nombreux logiciels) au format mmcif, conversion qui ne peut être automatisée dans ce sens (alors que l inverse est possible) et qui requiert donc un travail manuel et contraignant Les bases de données articulées autour de la PDB Beaucoup de bases exploitent les données structurales contenues dans la PDB pour les classifier dans un but précis, autrement que descriptif. Ces bases, qui pour certaines tendent à regrouper les protéines à travers leurs caractéristiques structurales et séquentielles, trouveront une grande part de leur application dans le cadre de la génomique structurale. La génomique structurale, désigne le parcours nécessaire, qui à partir d un gène, permet d arriver à la structure tridimensionnelle d une protéine, par le biais de méthodes prédictives et des connaissances structurales, qui ne sont pas exhaustives : il est généralement admis que seules quelques centaines de repliement uniques sont connus (entre 600 et 700) alors que le nombre de repliement possibles s élèverait à un, voire plusieurs milliers de repliements possibles (1000 à ; Chothia, 1992 ; Zhang & DeLisi, 1998 ; Orengo et al., 1999 ; Wolf et al., 2000 ). La génomique structurale va aider à combler ce vide, puisque parmi les séquences issues des génomes, seront choisies celles susceptibles d avoir un repliement unique pour être étudiées en RMN ou cristallographie. Ensuite, à l aide des structures et par comparaison/regroupement, il sera possible d attribuer une fonction à ces protéines et de les replacer dans les voies métaboliques cellulaires. Toutefois, deux questions restent sans réponse : combien de repliements uniques devront être connus avant de pouvoir prédire la structure de la quasi-totalité des protéines? Dans quelle mesure peut-on avoir confiance dans l'attribution de la fonction à partir de la structure? Dans certains cas la comparaison des séquences pour résoudre la structure et la fonction risquent d être délicats : les homologues structuraux très distants sur le plan de leur séquence, mais ayant des fonctions proches ou identiques a. SCOP : Structural Classification Of Protein La base SCOP (Lo Conte et al., URL 14) est une classification des protéines de structure connue, sur la base de leur séquence, leur fonction et leur structures secondaire et tertiaire. L unité véritable de la classification au sein de SCOP est le domaine protéique (zone séquentielle ayant une structure et/une fonction indépendante du reste de la molécule, et que l on peut retrouver dans d autres protéines), permettant une classification aisée des protéines mono-domaine (généralement les protéines petites et moyennes). En ce qui concerne les protéines multidomaines, la classification est moins aisée : l identification des domaines structuraux n est pas simple et par ailleurs les protéines multidomaines n ont généralement que quelques uns de leurs domaines en communs. D où la nécessité d intégrer parallèlement à l information structurale, l information évolutive. SCOP adopte une classification basée sur une hiérarchie à trois niveaux. Le premier est la famille protéique : deux 22

23 protéines sont de la même famille si elles ont au moins 30% d identité de séquences, ou si elles ont des structures et des fonctions très proches (ex : les globines), l origine commune (en terme d évolution) est évidente. Le second niveau est la super-famille : deux familles sont de la même super-famille si leur structure et leur fonction suggèrent un ancêtre commun dans leur parcours évolutif (ex : les domaines constants et variables des Immunoglobulines). Le dernier niveau est le repliement (common fold) : les familles et super-familles ont un repliement commun si elles ont les mêmes éléments de structure secondaire, arrangées de la même façon. Les deux premiers niveaux mettent en commun les protéines ayant des parcours évolutifs reliés ou semblables avec des caractéristiques fonctionnelles communes, alors que le dernier met en commun les protéines ayant subit un processus évolutif chimique et physique, ayant favorisé l émergence, en leur sein, de zones ayant des caractéristiques structurales communes identifiables indépendamment de la séquence et/ou de la fonction. Cette classification a aboutit à quatre groupes de protéines: la classe «toute-α» regroupe les domaines qui sont très majoritairement en hélice α ; la classe «toute-β» regroupe les domaines qui sont très majoritairement en feuillet β ; la classe «α/β» regroupe les domaines dans lesquels il y a une alternance entre les feuillets et hélices ; la classe «α+β» regroupe les domaines constitués des deux types de structures sans aucune régularité dans la disposition. SCOP est une base construite manuellement par inspection visuelle et comparaison des structures fournissant une classification des protéines sur la base des relations structurales ainsi que sur la base de leur parcours évolutif probables b. CATH-PFDB CATH-PFDB (Class, Architecture, Topology, and Homologous superfamily - Protein Family DataBase ; Orengo et al., 1999 ; Pearl et al., URL 15) est une classification hiérarchique (Figure 3) sur la base des similarités de séquence et de structure des protéines de la PDB. On peut distinguer dans cette hiérarchie quatre niveaux de classification : le niveau C (Class) relatif à la composition en structure secondaire et l arrangement de celles-ci. Il y a trois classes principales : α, β, α & β. le niveau A (Architecture) relatif à l arrangement globale et l orientation spatiale des structures secondaires sans prendre en compte leur connectivité ; le niveau T (Topology) qui définit les familles de repliement (fold families) sur la base à la fois de l arrangement des structures secondaires mais aussi de la connectivité des structures, de leur disposition les unes à la suite des autres ; le niveau H (Homologous superfamily) qui regroupe les protéines, qui sur la simple comparaison de leur structures tertiaires et secondaires, semblent avoir un ancêtre 23

24 commun. Les protéines y sont regroupées en familles (sequence families - niveau S). Les protéines d un même niveau S présentent de fortes similitudes dans leur séquences, et par conséquent dans leur structure. Ce type de regroupement permet à partir des informations structurales, de replacer une protéine dans sa famille et sa super-famille et ainsi de caractériser sa fonction. Par exemple, en ce qui concerne les protéines enzymatiques, les auteurs ont montré que dans 96% des cas, un repliement (niveau H et S) correspondait à une fonction, suggérant que la simple classification d une protéine sur la base de sa structure permet d émettre une hypothèse sur sa fonction probable. Il est facile de comprendre l intérêt de cette classification dans le cadre de la génomique structurale. Figure 3 : représentation schématique des niveaux de classification (C)lasse, (A)rchitecture, (T)opologie adoptés dans la base CATH (source URL 15) c. DaliDD/FSSP La base de données FSSP (Fold Classification based on Structure-Structure alignment of Proteins ; Holm & Sander, 1996 ; Holm & Sander, URL 16) est une classification structurale des protéines de la PDB (dont la structure tridimensionnelle est connue). Toutes les chaînes protéiques de plus de 30 résidus sont regroupées après avoir été toutes comparées entre elles donnant lieu, pour chaque famille protéique, à deux groupes principaux : le premier constitué de séquences homologues présentant au moins 25% d identité de séquences et le second constitué de séquences représentatives ne présentant pas une telle homologie (de sorte que la parenté ne peut pas être établie sur la base de l étude des séquences uniquement). Les structures des chaînes représentatives sont ensuite comparées 24

25 entre elles pour l établissement de la classification des repliements, selon une méthode de regroupement hiérarchique, donnant lieu à des alignements structuraux. Chaque entrée de la base FSSP contient deux alignements structuraux : l alignement de la séquence objet avec les séquences représentatives de son groupe et l alignement de cette séquence avec les séquences des protéines qui lui sont homologues. La base FSSP contient, dans sa version du 16 juin 2002, 3242 familles de séquences représentant structures protéiques. La classification est maintenue automatiquement à l aide de Dali et de DaliDD. Le dictionnaire de domaine Dali (DaliDD, Dietmann et al., URL 17) est une taxonomie numérique des structures de la PDB. DaliDD est constitué de façon automatisée sur la base de la comparaison des structures, des fonctions et des séquences. Les domaines sont délimités selon les critères de compacité et de récurrence (Holm & Sander, 1998b). Chaque domaine à un numéro de classification du type DC_l_m_n_p, où (l) est l attracteur dans l espace des repliements, (m) la topologie du repliement, (n) la famille fonctionnelle, (p) la famille de séquence. Le plus haut niveau de la classification (niveau l) regroupe les domaines en fonction de leur composition en éléments structure secondaire et leur motifs structuraux «super-secondaires». Pour couvrir l espace des repliements sur la base des connaissances structurales actuelles, cinq attracteurs (modèle de domaine à structure secondaire, super-secondaire et tertiaire précises) ont été définis pour le niveau l (Figure 4). Attracteur 1 α/β Attracteur 2 Tout-β Attracteur 3 Tout-α Attracteur 4 Tonneaux β antiparallèles Figure 4 : Archétype des structures des cinq attracteurs de Dali (source URL 18) Attracteur 5 α+β Bien que regroupant la plus grande partie des domaines connus, ces cinq premiers attracteurs ne permettent pas de classer tous les domaines. A ces cinq premiers attracteurs s ajoutent deux classes supplémentaires pour les domaines qui sont proches de plusieurs attracteurs, regroupés dans la classe 6, ou pour les domaines qui n ont aucun lien avec aucun des attracteurs, regroupés dans la classe 7. Certains de ces domaines, pourront être classés, en fonction de l évolution des connaissances structurales et la définition de nouveaux attracteurs. Le second niveau (niveau m) est basé sur la topologie du repliement. Ce niveau est définit en fonction de l orientation des éléments des structures secondaires. Les domaines sont regroupés si l orientation et la disposition spatiale des éléments de structure secondaire sont suffisamment proches, c est-à-dire si le Z-score calculé par Dali (programme d alignement des structures tridimensionnelles des domaines) est supérieur à 2 (score seuil déterminé 25

26 empiriquement). Dans ce cas, les domaines ont la même composante (m) dans leur numéro de classification d. Autres bases s articulant autour de la PDB Bien que n ayant pas le souci d être exhaustif, nous citerons dans ce paragraphe quelques autres bases de données structurales. PALI (Phylogeny and ALIgnment of homologous protein structures ; Balaji et al., URL 19) est une base de données qui présente des alignements structuraux de séquences et des arbres phylogénétiques. Les relations mises en avant par PALI aident à mieux comprendre l influence des séquences et de leur mutation sur l évolution des structures. HOMSTRAD (HOMologous STRucture Alignment Database ; Mizuguchi et al., 1998) que l on peut qualifier d équivalent structural de la base de donnée de séquence Pfam (voir c, page 17). HOMSTRAD est une base d alignements structuraux, calculés à l aide de COMPARER (Zhu et al. 1992). Les alignements sont regroupés en 800 familles. Chaque famille est composée de séquences ayant au minimum 90% d identité. La structure de meilleure résolution est utilisée en tant que structure représentative de la famille. MODBASE (Sánchez et al., URL 21) est une base proposant des modèles structuraux générés par le processus MODPIPE incluant PSI-BLAST ( page 39) et MODELLER (programme de modélisation moléculaire à partir d un alignement ; Sali & Overington, 1994). CAMPASS (CAMbridge database of Protein Alignments organised as Structural Superfamilies ; Sowdhamini et al., URL 22) s appuie sur la base SCOP ( a page 22) pour regrouper les séquences en familles et super-familles sous la forme d alignements de séquences calculés par COMPARER, et corrigés pour certains par le programme SEA (Sowdhamini et al., 1996) DBcat : Le catalogue des bases de données en biologie. Afin de compléter cette brève présentation de quelques unes des bases de données les plus utilisées dans le domaine de la protéomique, signalons l existence de DBcat (URL 23), catalogue des bases de données en Biologie, hébergé par le serveur national InfoBioGen. Devant la spécialisation des données, et la création des nombreuses bases de thématique diverses, DBcat, projet en collaboration avec l EBI, se propose de maintenir une liste aussi exhaustive que possible des bases de données biologiques. DBcat est une base de données, qui pour chacune de ses entrées propose : une description de la base, le domaine auquel elle appartient, les noms des auteurs, les références bibliographiques à citer, les adresses web, ftp et postale. 26

27 Domaine Nombre d entrées ADN 87 ARN 29 Protéine 94 Génome 58 Cartographie 29 Structure de protéine 18 Littérature 43 Divers 153 Total 511 Table 1 : domaines et nombre des bases de données listées dans DBcat (2 Août 2002) Les systèmes d interrogation des bases de données Un effort intense a été fourni dans le stockage et la gestion des données, donnant lieu aux nombreuses bases de données dont quelques unes ont été décrites. Ce résultat, dans la collecte des données, est une véritable réussite de la recherche scientifique. Cependant, une telle quantité d information n est réellement profitable que si elle est facilement accessible. D où la nécessité de systèmes d interrogation de bases de données, permettant à l aide de critères précis de retrouver une information particulière et pertinente dans cette masse colossale de données. Il existe plusieurs systèmes d interrogation, pour certains bénéficiant d une interface web et permettant à l aide de mots clefs concernant des champs (auteur, source, fonction ) et d opérateurs logiques tels que AND (et), OR (ou), NOT (non), de retrouver aisément une information concernant un sujet précis, de réaliser des regroupements pour étudier un problème particulier Ces systèmes comme ACNUC (Gouy et al., 1985), Entrez (Wheeler et al., 2001) ou SRS (Etzold et al., 1996) sont particulièrement efficaces. SRS est probablement l un des plus intéressants, car associé à une interface Web, il est adaptable à n importe quelle base de données, pour peu que celle-ci soit stockée sous la forme de fichier texte ASCII. En outre, ce système permet l interrogation simultanée de plusieurs banques de données Outils bioinformatiques d analyse des séquences protéiques Les outils bioinformatiques disponibles offrent plusieurs alternatives : comparer la séquence d intérêt à celles qui sont connues, rechercher des motifs particuliers ou signatures fonctionnelles permettant de rattacher la protéine à une famille fonctionnelle. Ensuite il peut être judicieux d aligner ces protéines par le calcul d un alignement multiple afin de mettre en exergue les régions conservées, 27

28 offrant une base de travail pour l étude expérimentale approfondie de sa fonction. D autres outils bioinformatiques permettent de prédire les régions hydrophobes (trans-membranaire par exemple), des régions accessibles (antigènes potentiel pour la synthèse d anticorps de détection), des régions d interaction avec d autres molécules comme les motifs d interaction avec l ADN. Ainsi la Bioinformatique offre un panel d outils dans le domaine de l analyse de séquence des protéines, qui judicieusement combinés sont des moyens efficaces et rapides pour l étude d une protéine dont seule la séquence est connue. Néanmoins les déductions obtenues in silico doivent être vérifiées par des approches expérimentales in vitro et in vivo Recherche d homologie par comparaison de séquences Définitions Le terme «homologie» sous-entend que les séquences (protéiques ou nucléiques) ont dans leur évolution un ancêtre commun. C est une notion purement qualitative, et transitive (si A est homologue à B et B est homologue à C, alors C est homologue à A). L homologie peut concerner des protéines existant chez différentes espèces, ces protéines sont alors qualifiées de protéines orthologues. L homologie peut aussi concerner des protéines d une même espèce, ces protéines sont des protéines paralogues. L homologie est à ne pas confondre avec la similarité, qui est une notion quantitative indiquant à quel degré deux séquences se ressemblent. La similarité est exprimée le plus souvent sous la forme d un pourcentage calculé à partir de l alignement des séquences d intérêt, soit en considérant la conservation stricte des mêmes résidus aux mêmes positions des séquences (identités), soit en considérant la conservation des mêmes propriétés physico-chimiques aux mêmes positions (acide, basique ). Lorsque deux protéines sont fortement similaires, elles sont homologues. En revanche l absence de similarité ne signifie pas que les protéines ne sont pas homologues. La comparaison de séquence peut se faire soit de façon globale sur toute la longueur des séquences par alignement, soit de façon locale, par la recherche de courtes portions de séquence présentant une ou plusieurs caractéristiques particulières (domaine, signature, site, région hydrophobe ) avec des outils de recherche plus spécialisés Alignement par paire de séquences a. Principe et algorithme Aligner deux séquences revient à les «superposer» physiquement de façon à pouvoir les comparer et à faire ressortir les régions identiques, qui au cours de l évolution ont été conservées. Ce procédé repose sur l hypothèse de la micro-évolution par mutation ponctuelle. On peut observer trois types de mutations à l origine de la divergence des séquences protéiques : les substitutions, les insertions et les délétions. Au sein d un alignement, les insertions et les délétions (indels) sont le plus 28

29 souvent matérialisées par un le caractère (-) ou par le caractère (.). Aligner deux séquences de façon optimale consiste à positionner les indels de façon à faire correspondre un maximum d acides aminés entre les deux séquences à l aide d une matrice de substitution ( a.i page 31), soit sur la base de l identité stricte, soit sur la base de la conservation d une propriété particulière (taille, polarité, hydrophobie, réactivité chimique ). La technique principalement utilisée pour trouver l alignement optimal de deux séquences est l algorithme de programmation dynamique introduit par Needleman & Wunsch (1970). Considérons un graphe à deux dimensions : une pour chacune des deux séquences. Aligner de façon optimal ces deux séquences, revient à trouver à l intérieur de ce graphe le meilleur chemin pour le traverser, position par position, sachant qu une insertion ou délétion se matérialise par un portion verticale ou horizontale, alors que la conservation se matérialise par une portion parallèle à la diagonale. La programmation dynamique est basée sur le raisonnement suivant : chaque sous-chemin qui termine à un point situé sur le chemin optimal est lui même le chemin optimal qui conduit jusqu à ce point. En d autres termes le chemin optimal peut être trouvé par extension des sous-chemins optimaux. A l aide de cet algorithme, tel qu il a été définit par Needleman & Wunsch, l alignement optimal doit inclure les séquences dans leur intégralité. L alignement obtenu est global. Ce type d algorithme fonctionne bien lorsque les séquences présentent des similitudes sur toute leur séquence. Cependant les protéines ayant une organisation modulaire (Baron et al., 1991 ; Doolittle & Bork, 1993) se prêtent beaucoup moins à ce type d alignement car seuls certains domaines peuvent être conservés et/ou peuvent apparaître selon un ordre différent. Ensuite Beaucoup d autres algorithmes heuristiques ont été publiés jusqu à ce que Smith & Waterman (1981) proposent leur version modifiée de l algorithme de programmation dynamique, qui est aujourd hui l un des fondements sur lequel s appuie l alignement de séquences et les applications qui en découlent. Cet algorithme, a stratégie locale, vise à identifier à l intérieur du graphe (donc à l intérieur des séquences) tous les segments communs par des étapes d extension, et relie les principaux segments, de telle sorte que mathématiquement, il n y ait pas de meilleur alignement entre ces deux séquences. Cette méthode repose sur un système de calculs de scores (scoring) représentés par une matrice, où chaque élément représente le taux de similarité existant entre les deux portions de séquences se terminant par cet élément (Figure 5). 29

30 0 b 1 b 2 b j-1 b j b j+1 b m-1 b m a 1 0 a 2 0 a i-1 0 H i-1, j-1 H i-1, j a i 0 H i, j-1 H i, j a i+1 0 a n-1 0 a n 0 H n,m Figure 5 : matrice de similarité entre deux séquences (tiré de Smith & Waterman, 1981). Les deux séquences étudiées sont représentées par deux ensembles : A=(a 1,, a i,, a n) et B=(b 1,, b j,, b m ). L algorithme permet d obtenir une matrice de scores H qui va indiquer le lieu et la taille des indels à placer pour aligner les deux séquences de façon mathématiquement optimale. Afin de se préserver des valeurs négatives, il est postulé que : H k,0 = H 0,l = 0 avec 0 k n et 0 l m La méthode consiste à trouver le chemin qui maximisera le score au sein de cette matrice, sachant qu un saut vertical ou horizontal matérialise une insertion. Les insertions sont pénalisantes : à chaque insertion est appliquée la pénalité W k =r+kt où r est la pénalité d ouverture d un gap (insertion), t la penalité d extension sur une position de ce gap et k la longueur du gap. Généralement la pénalité d extension est plus faible (1-2) que la pénalité d ouverture (10-15 avec la matrice BLOSUM62), de façon à mimer les processus évolutifs qui tendent à privilégier une insertion unique plus longue, plutôt que de nombreuses petites insertions. Pour chaque position dans la matrice le score s(a i,b j ) est tiré d une matrice similarité appropriée (cf a.i page 31). Chaque élément de la matrice H i,j représente la similarité entre deux segments, l un se terminant par a i, l autre par b j et est caractérisé par : H ij H i 1, j 1 + S(a = MAX MAX H MAX H i, j l { i k,j Wk } { W } i, b j ) Ce qui signifie que la valeur du score de similarité pour les fragments se terminant par a i et b j est obtenue comme suit : si les acides aminés sont similaires alors H i-1,j-1 + S(a i,b j ) s applique ; si l acide aminé a i est la terminaison d une suppression de longueur k acides aminés alors MAX{H i-k,j - W k } s applique ; l 30

31 si l acide aminé b j est la terminaison d une suppression de longueur l acides aminés alors MAX{H i-l,j - W l } s applique ; sinon les acides aminés a i et b j n appartiennent pas à des segments similaires et un 0 est appliqué de façon à éviter les valeurs négatives. L alignement optimal correspond au chemin qui maximise le score. Le chemin est reconstitué à partir de plusieurs segments optimaux obtenus à l aide des scores de similarité H i,j de plus fortes valeurs. Ces valeurs marquent la fin des segments optimaux. Pour retrouver le début de chaque segment il est nécessaire de «remonter» la matrice jusqu à obtenir la valeur 0. Ce processus est répété afin d obtenir tous les segments qui sont alors reliés entre eux pour obtenir l alignement mathématiquement optimal avec la matrice de substitution choisie a.i. Matrices de substitutions La comparaison des séquences implique la comparaison des acides aminés qui les constituent. Les matrices de substitutions sont des échelles qui quantifient la ressemblance entre les acides aminés. La plus simple d entre elle est la matrice identité, qui répond à la loi du tout ou rien. Cependant celle-ci ne prend pas en compte le fait que certains acides aminés ont des propriétés biochimiques proches (l acide glutamique et l acide aspartique par exemple), expliquant les mutations conservatrices observées dans les protéines homologues. Il est donc plus intéressant de posséder une échelle graduée, plus fine, prenant en compte la nature biochimique des acides aminés (plus que leur simple nom) et donc plus pertinente du point de vue biologique a.ii. Les matrices PAM Les matrices PAM (Point-Accepted-Mutation ; Dayhoff et al., 1978) sont les premières qui furent largement utilisées pour la comparaison des séquences. Il en existe plusieurs selon la divergence observée, générée au cours de l évolution. La première PAM1 est établie sur 1 PAM. L unité PAM représente la divergence pour laquelle 1% des acides aminés ont changé, c est une distance dans l échelle de l évolution, totalement indépendante du temps nécessaire pour observer ces changements (le modèle est Markovien). Si les changements étaient purement aléatoires, la fréquence des substitutions serait déterminée par la fréquence des résidus (background frequencies Bfreq). Cependant, dans les protéines homologues, la fréquence des mutations observées (target frequencies Tfreq) sont biaisées par les mutations qui n influent pas sur la fonction de la protéine (mutation conservatrice ou acceptée). Les scores donnés par les matrices PAM sont proportionnels au logarithme du rapport Bfreq/Tfreq. L utilisation du logarithme népérien est simplement mathématique et permet d accélérer la vitesse des calculs pour obtenir les autres matrices PAM. En effet, seule la matrice PAM1 est obtenue à partir de l observation des mutations au sein de protéines homologues (1% d acides aminés mutés). Ensuite, c est par extrapolation que les autres matrices sont obtenues à 31

32 différentes distances en multipliant la matrice PAM1 par elle-même, comme PAM250 pour une distance de 250 PAM (matrice PAM1 élevée à la puissance 250) ou encore PAM 200 à une distance de 200 PAM. La matrice PAM250 (Figure 6) autorise 250 mutations pour une séquence de 100 acides aminés : du fait des mutations silencieuses (synonymes) et des mutations reverses, cela correspond à environ 20% d'identité (il est possible de diverger au maximum jusqu à 6% d identité par extrapolation pour PAM800 et plus). Plusieurs matrices PAM sont disponibles (Altschul, 1991). Selon la divergence observée entre les séquences, différentes matrices PAM sont à utiliser (Figure 7). Ainsi pour réaliser une recherche dans les bases de données, PAM120 est indiquée. Les matrices à moins forte valeur de PAM sont plus appropriées pour comparer des séquences homologues (ou suspectées comme telles) et inversement. D une manière générale, c est surtout PAM250 qui est la plus utilisée lorsque l on n a pas d a priori sur l homologie qui lie les séquences ou lorsqu elles sont divergentes. Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A Arg R Asn N Asp D Cys C Gln Q Glu E Gly G His H Ile I Leu L Lys K Met M Phe F Pro P Ser S Thr T Trp W Tyr Y Val V Figure 6 : matrice PAM250. Chaque élément M ij est égal à la valeur logarithmique du rapport Bref/Tref multipliée par 10 et arrondie à l entier le plus proche. M ij 10*(log 10(Bfreq/Tfreq) ij) a.iii. Les matrices BLOSUM Les matrices de substitutions BLOSUM (BLOcks SUbsitution Matrix) sont basées sur la même idée que les matrices PAM mais ont été créées avec une approche différente, notamment pour l estimation des fréquences Tfreq (Henikoff & Henikoff, 1992). Les matrices sont établies en utilisant les alignements locaux de la base de données Blocks (cf c p20), contenant des séquences plus divergentes que celles utilisées pour l établissement des matrices PAM, mais possédant des régions communes similaires. Les matrices BLOSUM ne sont pas définies par extrapolation, mais sur la base d une observation réelle. Il existe plusieurs matrices BLOSUM selon le taux d identité maximal entre les séquences, ainsi BLOSUM62 à été établie par l observation des séquences ayant au maximum 62% d identité entre elles. Comme pour les matrices PAM, selon l homologie liant les séquences à aligner 32

33 on utilisera des versions différentes de BLOSUM : les matrices BLOSUM de faible valeur sont équivalentes aux matrices PAM de forte valeur et sont indiquées pour comparer des séquences distantes (Figure 7). Comparativement aux matrices PAM, les matrices BLOSUM donnent généralement des résultats plus cohérents du point de vue biologique. Ceci tient principalement au fait que les matrices PAM incluent des séquences entières avec des régions qui peuvent être très divergentes, alors que les matrices BLOSUM utilisent des alignements locaux (même si les séquences intégrales sont plus divergentes, il y a une meilleure cohérence biologique). De plus, les matrices BLOSUM étant plus récentes, elles incluent plus de données biologiques que les matrices PAM a.iv. Les matrices physico-chimiques et structurales Ces matrices sont obtenues en comparant les propriétés physico-chimiques des acides aminés, comme par exemple leur caractères hydrophile ou hydrophobe. C est le cas des matrices d hydrophobie (Levitt, 1976 ; Kyte & Doolittle, 1982) basées sur des mesures d énergie libre de transfert des résidus depuis l eau vers l éthanol, ou encore la matrice de structure secondaire (Levin et al., 1986) basée sur la propension d'un acide aminé à être dans une conformation donnée. L évolution constante du nombre de structures tridimensionnelles connues a permis le développement de matrices basées sur l observation des structures comme la matrice de Johnson & Overington (1993) obtenue à partir de l étude de 235 structures réparties en 65 familles. D autres existent comme SDM et HSDM (Prlic et al., 2000). Celles-ci ont été obtenues à l aide de 122 paires de protéines homologues (URL 27). Ce type de matrice est indiqué pour l étude de protéines homologues à faible similarité a.v. Choix et efficacité des matrices Bien que de nombreuses matrices existent, il n existe pas de matrice idéale. La matrice à choisir pour comparer des séquences dépend évidemment de la nature des séquences et seul le biologiste peut choisir la matrice qui conviendra le mieux à ses travaux. Il peut être bon d utiliser pour une même comparaison, différentes matrices. Très schématiquement, on peut conférer aux matrices PAM et BLOSUM les domaines d application suivant : Figure7 BLOSUM 80 PAM 1 BLOSUM 62 PAM 120 BLOSUM 45 PAM 250 Séquences moins divergentes Recherche dans les bases de données Séquences plus divergentes Figure 7 : domaines d utilisation des matrices PAM et BLOSUM Testées à l aide des programmes de recherche de similarité tels que BLAST ou FASTA ( page 35), les matrices basées sur les comparaison de séquences comme la matrice BLOSUM, ou les matrices structurales donnent de meilleurs résultats que les matrices PAM (Johnson & Overington, 33

34 1993 ; Henikoff & Henikoff, 1993 ; Pearson 1995 ; Henikoff & Henikoff, 2000). Selon le «contexte local» au sein des séquences, il peut être intéressant de changer de matrice, en fonction par exemple des structures secondaires et de l accessibilité des résidus comparés (Koshi & Goldenstein, 1995) b. Score et signification statistique des alignements Les matrices de similarité confèrent à la comparaison des séquences un caractère biologique, puisqu elles sont établies sur la base des propriétés biochimiques et structurales des résidus. Pour chaque alignement, il est possible de calculer un score qui témoigne de la qualité avec laquelle les séquences ont été alignées avec la matrice choisie. Cependant il reste utile de vérifier si l alignement observé, avec un score donné, témoigne d une réelle homologie entre les séquences et à une véritable signification biologique. Ceci est indispensable pour la recherche de séquences homologues au sein des bases de données. Il faut estimer le score maximal qui serait le fruit du hasard, obtenu avec des séquences de même composition et dans les mêmes conditions. Pour les alignements globaux, il n y a pas de théorie mathématique capable d expliquer, et donc de prévoir, la distribution des scores. Le seul moyen d estimer cette distribution est empirique : il faut calculer des alignements avec des séquences générées aléatoirement, de même longueur et de même composition puis en déduire les scores (Fitch, 1983). En revanche, il est possible de simplifier le problème en étudiant la distribution des scores obtenus avec des alignements locaux non gappés (Hight Scoring Pair, HSP), pour lesquels cette distribution peut être exprimée mathématiquement (Karlin & Altschul, 1990). La distribution aléatoire des scores pour les HSPs peut être estimée à l aide d une fonction de distribution de valeur extrême (extreme value distribution) montrant que le score normalisé S est : S = λs-ln(nm) où S est le score de similarité nominal, n et m les longueurs des séquences. Les deux paramètres, λ et K, sont des constantes déterminées analytiquement et dépendent de la matrice de substitution et de la fréquence des résidus dans les séquences. Ayant un score S, la probabilité (p-value) qu un alignement présente un score identique (x) ou meilleur de façon hasardeuse est donné par la relation : P(S x)=1-exp(-kmn.e -λx ) Plus cette probabilité est faible, plus l alignement est statistiquement significatif, pointant une probable homologie biologique. A cette probabilité, il faut relier la valeur E (Expected value) qui représente le nombre d alignements attendus pouvant avoir un score égal ou supérieur, toujours par le biais du hasard : E(S x)= Kmn.e -λx Une valeur de E faible, permet d affirmer l homologie qu il existe entre les séquences comparées, la réciproque n est pas vraie : une valeur de E forte ne permet pas d infirmer la possibilité d une homologie entre les séquences. Ces paramètres sont souvent utilisés dans les programmes de recherches de similarité comme BLAST et FASTA ( page 36) et sont utiles pour juger la 34

35 pertinence des résultats issus du criblage des bases de données. Dans ce cas, les résultats sont directement dépendants de la qualité de la base de données criblée : ils sont d autant meilleurs que la redondance est faible. Si cette théorie est valable pour les alignements non gappés, elle semble aussi s appliquer aux alignements gappés, mais cela n a pas été vérifié de façon formelle, d ailleurs les paramètres λ et K ne peuvent pas être calculés, ils sont estimés à l aide de simulations informatiques (Waterman & Vingron, 1994 ; Altschul & Gish, 1996) Application : recherche d homologie dans les bases de séquences. L algorithme de Smith & Waterman permet d aligner de façon optimale deux séquences et ainsi analyser leur parenté biologique. En comparant à l aide de cet algorithme une séquence d intérêt avec toutes celles qui sont présentes dans les banques, il est possible de retrouver dans une base de séquences, les protéines qui lui sont proches. Le programme SSEARCH (Smith & Waterman, 1981), implémentation directe de l algorithme de Smith & Waterman, est justement utilisé à ce titre et garantit des résultats sûrs. Néanmoins, cet algorithme demande beaucoup de temps de calcul et de ressources mémoire, créant ainsi une forte limitation dans l emploi du programme SSEARCH pour la recherche d homologie dans les bases de données. Il y a deux solutions à ce problème. La première consiste à utiliser un matériel approprié et spécifique, dédié à ce type de recherche rendant la vitesse d exécution inégalable (Shpaer et al., 1996). Mais ce gain se fait au détriment de l universalité du programme puisqu il faut disposer de ce matériel précis. La seconde solution, plus universelle et donc beaucoup plus intéressante consiste à combiner l algorithme de programmation dynamique avec des étapes heuristiques, de façon à minimiser le nombre des calculs à réaliser et ainsi augmenter l efficacité de l algorithme. L efficacité dont il s agit ici se traduit par le meilleur compromis entre vitesse d exécution, sensibilité et spécificité. Une meilleure sensibilité autorisera une meilleure détection pour les paires de séquences qui sont très éloignées mais reliées sur le plan biologique, en d autres terme une meilleure sensibilité permet de détecter plus de «vrais positifs». La spécificité évitera d inclure les séquences qui ne sont pas reliées parmi celles qui le sont, donc, une spécificité plus grande, évitera la détection des «faux positifs». Mathématiquement ces notions sont traduites de la façon suivante : Sensibilité = VP/(VP+FN) Spécificité = VN/(VN+FP) avec VP, le nombre de vrais positifs (séquences détectées et effectivement reliées), FN le nombre des faux négatifs non détectés (séquences non détectées mais reliées), FP le nombre des faux positifs détectés (séquences détectées mais non reliées) et VN le nombre de vrais négatifs (séquences non détectées et non reliées). Un programme est d autant meilleur que spécificité, sensibilité et vitesse d exécution sont élevées, ce qui n est pas chose aisée à développer, si l on considère la taille toujours 35

36 croissante des bases de données. Le fait d introduire des étapes heuristiques permet surtout d augmenter la vitesse de calcul et d obtenir les résultats dans un temps raisonnable. Cependant, ces étapes font appel à des approximations qui provoquent une légère perte en sensibilité (tous les vrais positifs ne sont pas détectés). Une des stratégies employée par ces méthodes heuristiques consiste à décomposer une séquence en de courtes successions de lettres appelées mots (word). Ces méthodes, introduites au début des années 80 (Wilbur & Lipman, 1983) sont basées sur la recherche et la comparaison des mots. Le succès des programmes BLAST et FASTA, les deux implémentations heuristiques les plus connues, tient au fait qu elles sont particulièrement rapides pour une sensibilité qui reste très acceptable. Elles sont basées sur l idée simple que deux séquences reliées ont au moins un mot en commun (word hit) a. FASTA Le programme FASTA (Pearson & Lipman, 1988 ; Pearson, 1990) détecte les alignements optimaux entre les séquences à l aide d une matrice de substitution. L algorithme FASTA fait intervenir plusieurs étapes. La première consiste à détecter toutes les identités entre les séquences. L emploi d une table de recherche (lookup table) facilite et accélère cette phase. Puis une étape de filtration vise à ne considérer que les alignements locaux pour lesquelles un nombre minimal de lettres consécutives sont alignées. Ce nombre est fixé par le paramètre ktup, permettant ainsi une sélection des alignements locaux à examiner : ceux-ci doivent avoir au moins ktup lettres consécutives alignées. Par conséquent, plus ktup est élevé, plus la vitesse augmente (puisque l on sélectionne moins d alignement). Cependant, ce gain en rapidité se fait au détriment de la sensibilité car en augmentant la valeur de ktup, il est plus difficile (ou impossible) de détecter les séquences reliées mais éloignées. Pour chaque alignement obtenu, FASTA attribue un score init1 selon une méthode heuristique, en fonction de la densité en identités partagées. Seuls les segments représentant les alignements avec les scores les plus élevés sont conservés. Ceux qui sont situés sur la même diagonale sont fusionnés et un nouveau score initn est calculé pour l ensemble, le score init1 est attribué au segment le mieux aligné. Ensuite, un alignement local optimum est calculé dans une bande étroite du graphe, centré sur le segment de score init1 et englobant les autres, en autorisant les insertions/délétions. Un score opt est attribué à chaque alignement local ainsi obtenu. Les alignements optimaux sont ensuite recalculés avec l algorithme de Smith & Waterman. Pour chaque séquence sujette identifiée par FASTA, seul l alignement optimal est fourni à l utilisateur. FASTA donne le résultat de la recherche sous la forme d un fichier texte qui présente toutes les séquences sujettes trouvées dans la base de données de recherche (Figure 8). 36

37 >>sw GALR_ECOLI (P03024) Galactose operon repressor. (343 aa) initn: 105 init1: 78 opt: 147 Z-score: bits: 42.9 E(): Smith-Waterman score: 147; % identity (27.273% ungapped) in 113 aa overlap (5-117:3-112) Exampl MKKITIYDLAELSGVSASAVSAILNGNWKKRRISAKLAEKVTRIAEEQGYAINRQASMLR :: :.:.:.:::...::..:.. :. :.:: : :.: :.: : sw GA MATIKDVARLAGVSVATVSRVINNSPKASEAS-RLA--VHSAMESLSYHPNANARALA Exampl SKKSHVIGMIIPKYDNRYFGSIAERFEEMARERGLLPIITCTRRRPELEIEAVKAMLSWQ.....:......::... :..:. :..:.. :.:.... sw GA QQTTETVGLVVGDVSDPFFGAMVKAVEQVAYHTGNFLLIGNGYHNEQKERQAIEQLIRHR Figure 8 : exemple d un résultat obtenu par FASTA. Un même recherche FASTA sur une séquence requête permet d obtenir plusieurs alignements avec plusieurs séquences sujettes. Un seul alignement est représentée ici. FASTA fournit depuis sa version 2.0, une évaluation quant à la signification des résultats par le biais du Z-score. Le Z-score est obtenu de la façon suivante : S (a + b.ln(n)) Z = var Le Z-score est la régression linéaire, représentée par le terme (a + b ln(n)), calculée à partir d un échantillon de séquence de la banque qui ne comprend pas les séquences reliées ayant un fort score. Le terme var est la variance des scores normalisés. La distribution du Z-score suit une distribution de valeur extrême, et l on peut en déduire une valeur E (Expected value) qui donne le nombre d alignements attendus avec un score égal ou supérieur, avec une séquence de longueur (d) donnée et dans une base de taille donnée (D). 1 exp( e E(Z > x) = 1,282Z 0,5772 d ) D Plus la valeur de E est faible et plus le résultat trouvé par FASTA est pertinent b. BLAST BLAST (Basic Alignment Search Tool ; Altschul et al., 1990) a amélioré la recherche de similarité et a permis d évaluer la signification statistique des alignements. Une innovation apportée par BLAST est la recherche de mots voisins (neighborhood words) : un mot est trouvé (hit) si le score 37

38 calculé (à l aide d une matrice de substitution) est supérieur ou égale à un score T. Cette stratégie permet de rechercher des mots de plusieurs lettres (valeur élevé de ktup) donc d améliorer la rapidité du programme. T est le paramètre déterminant pour la rapidité et la sensibilité, ktup est rarement modifié (ktup = 3) : si T est élevé, alors le nombre de hits sera réduits et la recherche sera particulièrement rapide. A l inverse si T est faible, la recherche sera plus lente, mais les protéines reliées les plus distantes pourront être trouvées. BLAST recherche des mots, puis étend l alignement entre les séquences aux deux extrémités (HSP). Cette extension est réalisée tant que le score de l alignement est supérieur à un score seuil S (que l utilisateur peut fixer). Ce processus d extension représente 90% du temps de calcul de BLAST. Depuis la version 2.0 du programme, les gaps sont traités de manières explicite, améliorant la sensibilité de la recherche : les résidus au centre d une HSP servent de graine (seed) pour initier un processus de programmation dynamique qui étend l alignement à gauche et à droite (avec introduction de gaps). Dans ce processus, les cellules du graphe qui sont utilisées ne font pas chuter le score de l alignement locale d une valeur trop importante (qui reste inférieure à un seuil). Ce qui signifie, que contrairement à FASTA, BLAST ne se limite pas à la bande diagonale du graphe de recherche. Ce processus est répété pour toutes les HSPs, permettant d identifier tous les alignements gappés non chevauchants. BLAST est donc plus exhaustif que FASTA (qui lui ne fournit que le meilleur alignement). BLAST existe dans une version itérative plus sensible : PSI-BLAST ( page 39) Autres outils de recherche d homologie Recherche de motifs (pattern) La présence d un motif (suite de résidus précis dans un ordre précis) dans les séquences de protéines peut être le signe d une fonction précise ou d une particularité biologique. La recherche de tels motifs, sous la forme d expressions régulières peut permettre de replacer une protéine dans sa famille protéique. Tout le problème est d être suffisamment spécifique tout en étant flexible et en autorisant la recherche de motifs dégénérés. La solution la plus simple consiste à autoriser un certain nombre de mutations dans le motif. Mais si pour des raisons biologiques, des positions sont plus importantes que d autres et doivent être strictement conservées, cette solution est peu efficace. Il faut pénaliser plus lourdement la mutation des positions les plus importantes. Ceci a été mis à profit au sein de l algorithme PATTINPROT (Blanchet, 1999). PATTINPROT définit deux scores : Sc 0 qui la fréquence du motif (en fonction de sa composition) et Sc seuil = 10 τ log Sc 0. τ est le taux de similarité minimal voulu lors de la recherche, τ est inférieur à 1. Sc seuil est supérieur à Sc 0. Un motif est trouvé dans une séquence si son score calculé est compris entre Sc 0 et Sc seuil. Le score est calculé sur une fenêtre de la taille du motif. Si le résidu à la position i satisfait le motif, le score de la position i est égale à celui de la position i-1. Sinon Sc (i) =Sc (i-1) /P (i) où P (i) est la pénalité à la position i. Donc Sc (i) 38

39 augmente d autant plus que P (i) est petit. Si Sc (i) > Sc seuil, la fenêtre est déplacée sinon la séquence correspondant au motif est donnée pour résultat à l utilisateur. L innovation consiste à prendre pour pénalité la fréquence de la position : si plusieurs résidus sont autorisées à la même position i, alors la pénalité est la somme des fréquences. Donc P (i) est d autant plus grand. Par conséquent, Sc (i) augmentera moins vite pour les positions dégénérées que lorsque la position doit être strictement conservée (P (i) sera faible). Ainsi PATTINPROT favorise les motifs où les positions strictes sont conservées, pour une meilleure pertinence biologique Utilisation des profils Les profils sont représentés par des matrices de scores spécifiques de la position (PSSM, Position- Specific Scoring Matrix). Ces matrices sont bidimensionnelles, les lignes sont les positions, les colonnes représentent les résidus possibles. Les profils ressemblent aux matrices de similarité avec l utilisation d un score à chaque case (entre chaque résidu de la séquence et les 20 autres possibles) : si le score est positif, il y a une similarité, sinon il y a une dissimilarité. Les profils sont plus complexes que les matrices de substitution. Ils fournissent, sous la forme de deux colonnes supplémentaires, des pénalité d insertion d un gap et son extension, à chaque position. Selon leur mode de détermination (matrices utilisées) il existe des profils moyens et des profils évolutifs (ces derniers étant plus sensibles). Les profils constituent un moyen simple de représenter l information contenue dans un alignement de séquences homologues (Gribskov & Veretnik, 1996). Le programme PSI-BLAST (Position Specific Iterative BLAST), version modifiée de BLAST utilise des profils. Une première recherche est effectuée par BLAST. A l issue de cette recherche, une matrice PSSM est calculée à partir des résultats obtenus. Cette matrice remplace la matrice de départ pour effectuer une nouvelle recherche. Le cycle est répété plusieurs fois. Si aucune nouvelle séquence répondant au profil n est trouvé, alors le cycle s interrompt, le programme a «convergé». Ce programme est très sensible, c est l un des meilleurs outils de détection d homologues distants à partir des séquences protéiques Analyse de la compatibilité de structures secondaires. Les structures secondaires représentent le premier niveau d organisation structurale des protéines ( page 45). Les acides aminés ont pour beaucoup des chaînes latérales hydrophobes. La chaîne peptidique est hydrophile. Ce caractère amphipathique déstabilisant est compensé par la formation, localement, de configurations régulières en hélice (la plus fréquente étant l hélice α) ou en feuillet. Un moyen d outrepasser la divergence des séquences pour retrouver la parenté entre les protéines, est d analyser la compatibilité des structures secondaires. Cette quantification est possible grâce au facteur de compatibilité de structure secondaire SOV (Zemla et al., 1999) : 39

40 Sov N = i minov(sq, St) + δ(sq, St) [ ] len(sq) maxov(sq, St) H,E, C S(i) où N est la longueur de l alignement sans les gaps ; len est longueur du segment ; H, E et C les trois états de structures secondaires (Helix, Extended, Coil), minov est la longueur de chevauchement des structures secondaires entre la séquence requête Sq et la séquence cible St ; maxov la longueur maximale de chevauchement des structures secondaires entre Sq et St et δ est défini par : δ(sq,st)=min{(maxov(sq,st)-minov(sq,st)) ; minov(sq,st) ; len(sq/2) ; len(st/2)} minov Séquence 1 E SS R Séquence 2 E SS R maxov Figure 9 : représentation des paramètres maxov et minov. ESSR représente un élément de structure secondaire. Alors qu il est reconnu que le seuil d identité minimal pour la sélection d une empreinte structurale afin de modéliser la structure d une séquence protéique doit être de 25 à 30%, l utilisation du paramètre SOV au sein de la méthode PROCSS (PROtein Compatibility from Secondary Structure ; Geourjon et al., 2001) permet d abaisser ce seuil à 10% avec l apport de l information contenue dans les structures secondaires. En effet, à bas taux d identité (en dessous de 25%), les similarités de séquences ne sont plus suffisantes pour apporter les preuves de la parenté structurale entre deux séquences. Le SOV apporte une dimension supplémentaire qui permet d éclater l information contenue dans l alignement d une paire de séquences, autorisant un pouvoir discriminant plus fort. Il devient alors possible de valider les homologues structuraux à bas taux d identité comme le montre la Figure 10. En effet, nous pouvons constater qu en appliquant un seuil de 60% pour le paramètre SOV, il est possible d établir la parenté structurale qui peut exister entre deux séquences même lorsque le taux d'identité se situe entre 10 et 30%. Le paramètre SOV est un outil particulièrement intéressant dans la mesure où il apporte une nette amélioration des processus de modélisation moléculaire par homologie en augmentant le nombre d empreintes potentiellement utilisables. A ce titre, le paramètre SOV est utilisé dans les processus de modélisation moléculaires automatiques dispensés à travers le web comme Geno3D (Combet et al., 40

41 URL 31) au sein du serveur d analyse de séquence NPS@ (URL 28 ; Network Protein Sequence analysis ; Combet et al., 2000) Figure 10 : Distribution des paires de protéine en fonction de la compatibilité des structures secondaires expérimentales mesurée en utilisant le paramètre Sov. (faux : cercles, vrais : croix) Utilisation des structures tridimensionnelles. Les structures sont plus conservées que les séquences. L utilisation des structures tridimensionnelles permet de d identifier des relations biologiques entre des protéines. Ceci peut être particulièrement intéressant lorsque les séquences ont trop divergé pour être analysées à l aide d un alignement significatif. Dans ces conditions, l information d une structure tertiaire peut servir de base pour générer un profil, contre lequel la compatibilité d une séquence est testée (threading, Bowie et al., 1991) Etude d une famille de protéines : alignements multiples La recherche d homologie permet de constituer un jeu de séquences de protéines apparentées. L étape suivante, consiste à aligner toutes ces protéines ensemble, afin de mettre en avant les caractéristiques conservées (sites, propriétés biochimiques, zones particulières ) et de mieux comprendre les processus évolutifs ayant produit ces séquences. Différentes stratégies existent pour aligner des séquences : progressive, itérative, locale et globale (pour revue : Thompson et al., 1999 ; Notredame, 2002). 41

42 Algorithme d alignement multiple progressif L algorithme de programmation dynamique garantit l alignement optimal entre des séquences. Pour des raisons de temps et de besoins en ressources mémoires, son usage se limite à l alignement d un petit nombre de séquences. Pour aligner un nombre plus élevé de séquences, plusieurs algorithmes heuristiques ont été développés, comme les algorithmes progressifs (Feng & Doolitle, 1987 ; Barton & Sternberg, 1987). L approche progressive consiste à élaborer graduellement un alignement multiple en exploitant les relations phylogénétiques entre les séquences (Sankoff, 1975). Une première étape consiste à décomposer un alignement de N séquences en N alignements de 2 séquences, en appariant les protéines les plus proches entre elles par programmation dynamique (après avoir réalisé Nx(N-1)/2 comparaisons). L étape suivante consiste à aligner toutes ces paires. Cette approche, heuristique et progressive a l avantage d être simple, rapide, et sensible. Cependant elle ne garantit pas l alignement optimal CLUSTALW A partir de la comparaison des séquences par paires, CLUSTALW calcule une matrice de distances utilisée pour construire un dendogramme (arbre de distance) selon l algorithme des plus proches voisins (neighbour joining ; Thompson et al., 1994). Cet arbre sert de base à la construction de l alignement multiple. Au fur et à mesure de la construction de l alignement, les gaps sont crées, en tenant compte des pénalités d insertion et d extension entrées par l utilisateur. Généralement les pénalités privilégient les extensions de gaps, plutôt que de nombreuses insertions. D autres pénalités spécifiques des positions sont calculées en fonction de la nature des résidus présents à chaque position et à partir d une table de pénalisation déduite d alignement structuraux (Pascarella & Argos, 1992). Enfin, les caractéristiques physico-chimiques locales sont prises en compte (e.g. insertion de gaps plus facile dans les zones hydrophiles) MultAlin MultAlin (Corpet, 1988) est basé sur le même principe que CLUSTALW, avec des étapes supplémentaires : à partir des paires alignées, une nouvelle matrice est construite et utilisée pour reconstruire l alignement multiple. L approche est répétée plusieurs fois, jusqu à ce que le processus converge. Généralement peu de cycles suffisent (2 ou 3) Autres programmes d alignement multiple progressif D autres programmes existent et différent essentiellement par le mode de calcul du dendogramme qui sert à construire l alignement multiple : 42

43 MULTAL (Taylor, 1988), utilise un algorithme de branchement séquentiel (sequential branching) pour créer un arbre, en alignant d abord deux séquences, puis ajoute à cette paire les séquences les unes après les autres. MULTALIGN (Barton & Sternberg, 1987) et PILEUP créent l arbre à l aide de la méthode UPGMA (Unweighted Pair-Group Method using Arithmetic average; Sneath & Sokal, 1973) PIMA (Smith & Smith, 1992) aligne les motifs les plus conservés, par programmation dynamique locale Algorithmes d alignement multiple itératif et simultané. L approche progressive, rapide et simple, est avantageuse. Cependant, si au cours du processus progressif, des résidus sont mal alignés, une correction ne pourra pas être réalisée. Ceci est encore plus sensible lorsque les séquences sont très divergentes. Plusieurs autres programmes d alignement multiple adoptent d autres approches que l approche progressive. L algorithme MSA (Multiple Sequence Alignment ; Lipman et al., 1989 ; Gupta et al., 1995) adopte une stratégie simultanée : la programmation dynamique est appliquée de façon simultanée aux paires de séquences et à l ensemble des séquences. La première étape consiste à calculer le graphe standard de programmation dynamique pour toutes les paires parmi N séquences. Pour tous les sommets, un coût est calculé pour l alignement multiple optimal passant par ces sommets. Ensuite, un graphe de programmation à N dimensions est considérés, mais MSA ne prend en compte que les sommets compatibles avec ceux des graphes par paires. SAGA (Sequence Alignment by Genetic Algorithm ; Notredame & Higgins, 1996 ) utilise un algorithme génétique : SAGA mime les processus évolutifs supposés avoir conduit la séquence ancestral vers les séquences à aligner, le but étant d optimiser la fonction de cohérence COFFEE (Consitency based Objective Function For Alignement Evaluation ; Notredame et al., 1998). COFFEE mesure la qualité de l alignement en vérifiant la cohérence entre l alignement multiple et les paires alignées selon CLUSTALW. La méthode T-COFFEE (Notredame et al., 2000) utilise aussi ce principe, les alignements produits sont de meilleur qualité et la perte de vitesse est faible. DIALIGN (Morgenstein et al., 1998) réalise l alignement multiple en comparant des segments plutôt que les résidus, un peu comme une matrice de points. Les segments sont ensuite incorporés à l alignement par une approche itérative. PRRP (Gotoh, 1996) optimise un alignement multiple progressif à l aide d une approche itérative : un alignement global est divisé en deux sous-groupes de séquences. L étape est répétée avec les sousgroupes et ainsi de suite. Ensuite les groupes sont alignés. DCA (Divide and Conquer Alignment ; Stoye et al., 1997) utilise une approche identique. 43

44 HMMT (Eddy, 1995) utilise un recuit simulé (simulated annealing) pour établir un modèle probabiliste Markovien des mutations, capable de représenter les séquences à aligner. Progressif Local PIMA DIALIGN Global MULTAL CLUSTAL MULTALIGN PILEUP PRRP SAGA HMMT Itératif Figure 11 : Schéma représentant quelques programmes d alignement multiple en fonction des stratégies qu ils adoptent (source Thompson et al., 1999) Validation des méthodes d alignement multiple Beaucoup d algorithmes différents existent. Chacun d entre eux à ses forces et ses faiblesses. Un moyen de vérifier la qualité des programmes est de les tester sur des alignements multiples de référence, comme ceux de BAliBASE (Thompson et al., 1999 ; Bahr et al., 2001 ; page 123) ou encore les alignements structuraux utilisés dans l étude de Briffeuil (et al., 1998). Ce type de validation est un point indispensable au développement de nouvelles méthodes d alignement multiple. En ce qui concerne l utilisateur, il doit s assurer de la validité d un alignement, voire tester plusieurs programmes et analyser les résultats. Il peut par exemple coupler l information des séquences à celle des structures secondaires ou repérer de sites particuliers, afin de mieux positionner les gaps et ainsi obtenir un alignement plus pertinent et plus informatif. 44

45 1.4. Outils bioinformatiques d étude des structures secondaires des protéines Les structures secondaires des protéines et le diagramme de Ramachandran La nature des atomes de la chaîne peptidique (H, N, C, O) permettent aux atomes d établir entre eux des liaisons hydrogènes, qui vont favoriser la stabilité des structures protéiques. Lorsque ces liaisons établissent un réseau régulier, on observe des éléments de structure secondaire. Les plus fréquents sont l hélice α et les brins β (Pauling & Corey, 1951). L hélice α se forme lorsque des liaisons hydrogènes s établissent entre les résidus en position i et les résidus en position i+4. Ce sont les hélices les plus fréquentes. Il en existe d autres : hélices 3 10 (liaisons entre les résidus i et i+3), ou hélices π (liaisons entre les résidus i et i+5). Les brins β n existent pas à l état isolés mais s assemblent pour former des feuillets (superstructure secondaire). Ces feuillets sont parallèles ou anti-parallèles suivant l orientation des brins β qui les composent. La formation des feuillets se fait par un réseau de liaisons hydrogènes entre des résidus qui sont en général plus éloignés dans la séquence protéique que dans le cas des hélices α. Figure 12 : représentation du réseau de liaisons hydrogènes (pointillés) d une hélice α (à gauche) et d un feuillet β anti-parallèle (à droite). Des paramètres géométriques représentant les degrés de libertés d une chaîne péptidique permettent de définir l état de structure secondaire des acides aminés (Figure 13-A). Les acides aminés ont tendance à adopter des valeurs d angles (Φ,Ψ) appartenant à des intervalles précis (Ramachandran et al., 1968 ; Figure 13-B). L observation statistique de ces paramètres pour les protéines de structures connues, à permis la définition de règles structurales exploitées par les programmes d attribution automatique de structure secondaire. 45

46 A ) Φ Ψ N Φ C O Ψ C α B ) Figure 13 : A) angles (Φ,Ψ) sur le squelette carbonné. B) diagramme de Ramachandran pour la protéine pdb1aos (réalisé avec Swiss PDB Viewer). Chaque point représente la valeur du couple (Φ,Ψ) pour un acide aminé. Ce diagramme est composé de trois régions principales : les régions très favorables, les régions favorables et les régions défavorables. Les régions très favorables et favorables correspondent aux éléments de structures secondaires réguliers. Les régions défavorables représentent les couples (Φ,Ψ) tels que les contraintes stériques (dues à la présence de la chaîne latérale) sont énergétiquement défavorables et par conséquent rarement observés. Ce diagramme est utile pour valider les modèles structuraux (90% des résidus doivent se trouver dans les régions très favorables) Moyens d attribution des structures secondaires des protéines à partir des structures tridimensionnelles. Il est assez simple de déterminer la position des structures secondaires à partir des structures tridimensionnelles des protéines. Plusieurs programmes existent, ils s accordent assez bien sur la localisation et l identification des structures secondaires. Cependant ils s accordent rarement sur la localisation exact (début et fin) de ces éléments. 46

47 DSSP DSSP (Dictionary of Secondary Structures of Proteins ; Kabsch & Sander, 1983), est le programme d attribution automatique le plus ancien et le plus connu. DSSP recherche les liaisons hydrogènes et détecte les réseaux réguliers pour localiser les éléments de structures secondaires. La détection des liaisons est établie à l aide du calcul d énergie, en fonction de la distance (d) entre le donneur et l accepteur et de l angle (θ) formé par «accepteur - donneur hydrogène» : E= 332 x q1q2 x (1/d(ON) + 1/d(OH) 1/d(CN)) avec : q1 et q2 charges partielles sur les atomes accepteurs et donneurs, d représente la distance en Å entre atomes. Si E est inférieure à -0,55 Kcal/mole, DSSP détecte une liaison hydrogène (la liaison hydrogène idéale a une énergie de -3 Kcal/mole, avec d=2,9å et θ=0 ). En plus d attribuer les structures secondaires, DSSP donne d autres informations, comme par exemple l accessibilité des résidus ou encore la localisation des ponts disulfures Autres outils d attribution automatique des structures secondaires. Il existe plusieurs autres outils d attribution de structures secondaires, différents quant à la définition des éléments de structure secondaire qu ils emploient, mais aussi quant à l algorithme d attribution des structures. DEFINE (Richards et al., 1988) utilise les distances entre les résidus et plus particulièrement entre les carbones α de la chaîne principale. STRIDE (Frishman et al., 1995) analyse la disposition des liaisons hydrogènes couplée à la mesure d angles dièdres (torsional angles). Enfin nous citerons P- SEA (Protein Secondary Element Assignment ; Labesse et al., 1997), qui utilise les valeurs de distance entre les carbones α ( i à i+3 et i à i+4), ainsi que la mesure de différents angles (dièdres, et α). P- SEA réalise une première attribution à partir des distances, puis une seconde à partir des angles. Le consensus issu des deux attributions est retenue comme attribution finale. Devant ces nombreux algorithmes, des méthodes consensuelles ont été testées. L étude menée par Colloc h (et al., 1993) utilise un consensus issu de DSSP, DEFINE et P-Curve (Sklenar et al., 1989) sur un ensemble de 154 protéines, et montre que ce type de méthode consensus atténue les désaccords. Il en résulte une prédiction de meilleure qualité Prédiction des structures secondaires des protéines La prédiction des structures secondaires est particulièrement informative, que ce soit pour replacer une protéine dans sa famille structurale, pour élaborer un modèle tridimensionnel notamment pour affiner les alignements entre l empreinte et la séquence nouvelle ou encore pour aider à résoudre les 47

48 structures par RMN. La prédiction des structures secondaires représente donc une part importante de l étude structurale d une protéine Méthodes de statistiques linéaires a. Méthode Chou & Fasman Cette méthode (Chou & Fasman, 1978) est l une des premières méthodes tentant d établir les états de structure secondaire des séquences protéiques. Elle repose sur les préférences des résidus à être dans un état conformationnel particulier (hélice, feuillet, apériodique). Ces préférences sont définies selon des règles purement empiriques. La qualité de prédiction pour trois états (Q 3 ) est de 52%. Donc assez faible puisqu elle fait à peine mieux que le hasard. Cette méthode a l avantage d être simple, rapide et facilement compréhensible par les biologistes b. Méthodes GOR Il existe quatre versions de méthodes GOR ( I à IV). Elles sont toutes basées sur la théorie de l information directionnelle, qui prend en compte l environnement des résidus à prédire. Dans sa première version, la méthode GOR (Garnier et al., 1978) considère l information apportée par les 8 résidus précédents et suivants, qui encadrent le résidu à prédire (environnement, préférences structurales et nature biochimique). Plusieurs versions ce sont succédées, jusqu à la version IV (Garnier et al., 1996), qui prend en compte l information de toutes les paires possibles dans la fenêtre de 17 résidus. GOR IV a un Q 3 de 64,4% c. Méthode DPM DPM (Double Prediciton Method ; Deléage & Roux, 1987) réalise ses prédictions en deux étapes. Une première phase de prédiction est réalisé à l aide de paramètres de type Chou & Fasman. Ensuite, une seconde prédiction est réalisée pour définir la classe structurale de la protéine. Ces deux phases permettent d obtenir des paramètre optimums pour la prédiction finale, avec un Q 3 moyen de 61,3% d. Méthode DSC DSC (King & Sternberg, 1996) est une méthode statistique qui combine différent aspects de la prédiction des structures secondaires (effets de bord, préférences structurales, hydrophobie, position des insertions et délétions dans les alignements multiples ) en un vecteur à dix composantes. Ces vecteurs sont mis à profit pour la prédiction des éléments de structures secondaires. Le Q 3 de cette méthode est de 70,1%. 48

49 e. Méthode PREDATOR PREDATOR (Frishman & Argos, 1996) exploite l information contenue dans les structures tridimensionnelles. L algorithme prédit les résidus potentiellement impliqués dans des liaisons hydrogènes au sein d une séquence protéique. Cette prédiction statistique est établie sur l occurrence (observée dans une base de structures) des résidus à être pris dans des ponts β (β-bridge) pour le prédiction des feuillets β, ou dans des liaisons (i/i+4) pour la prédiction des hélices α. Le Q 3 de PREDATOR est de 68% et peut atteindre 75% si l on intègre l information apportée par des séquences similaires (à la séquence à prédire) Méthodes basées sur la similarité a. Méthode de Levin Cette méthode (Levin et al., 1988) est basée sur le concept des plus proches voisins (nearest neighbour) : de courtes séquences similaires ont tendance à adopter des repliements semblables. La séquence à prédire est découpée en heptapeptides à l aide d une fenêtre glissante. Ces derniers sont comparés à une bibliothèque d héptapeptides à l aide d une matrice de similarité spécifique. L état structural de chaque résidu est attribué en fonction de cette comparaison, à l aide d un score. La qualité de prédiction est de 62,2% b. Méthode SIMPA96 SIMPA96 (Levin, 1997) est une amélioration de la méthode de Levin. La matrice de similarité utilisée est BLOSUM62 ( a.iii page 32), la fenêtre considérée est de 13 à 17 résidus, et le calcul des scores est amélioré. La qualité de prédiction est de 67,7% et peut atteindre 72,8% en utilisant un alignement multiple de séquences similaires à la protéine à prédire c. Méthodes SOPM & SOPMA SOPM (Self Optimized Prediction Method, Geourjon & Deléage, 1994) est basée sur la méthode des plus proches voisins (comme les méthodes de Levin). L algorithme de cette méthode optimise les paramètres de prédiction à l aide d une sous-base de séquences similaires, spécialement construite pour la protéine à prédire. Le Q 3 de SOPM est de 69%. SOPMA (Geourjon & Deléage, 1995) est une évolution de SOPM : SOPMA prend en compte l information contenue dans l alignement multiple des séquences de la même famille que la protéine dont on veut prédire la structure, apportant ainsi des informations biologiques utiles pour l amélioration de la prédiction, puisque le Q 3 moyen atteint 72,5%. 49

50 Méthodes basées sur l apprentissage a. Méthode PHD PHD (Rost et al., 1994) utilise un double niveau de réseaux de neurones à couche cachée. PHD se fonde sur l information contenue dans un alignement multiple de séquences reliées à la séquence à prédire sous la forme d un profile dérivé qui sert d entrée au réseau de neurone de premier niveau. Ce réseau de neurones de premier niveau prédit les structures secondaires, le réseau du deuxième niveau corrige cette prédiction en intégrant les prédiction sur les résidus adjacents de façon à supprimer les prédictions aberrantes (HEHH => HHHH). Le Q 3 de cette méthode est de 72,5%. PHD peut aussi être utilisée pour prédire les hélices trans-membranaires (PHDhtm) et calculer l accessibilité des résidus (PHDacc) b. Méthode HNN HNN (Hierarchical Neural Networtk ; Guermeur, 1997) utilise également un double réseau de neurones. C est une amélioration de la méthode de Qian & Snejnowski (1998). L architecture algorithmique est mieux adaptée, et la méthode s aide de paramètres physico-chimiques pour la prédiction des états structuraux. Le Q 3 est de 65,4% en utilisant la seule séquence à prédire Apport de l information biologique et méthodes consensuelles. Les méthodes utilisant l information apportée par des séquences similaires à la protéines à prédire sont plus performantes (DSC, SOPMA, PHD, SIMPA), ce qui montre l utilité de replacer une protéine dans sa famille pour mieux la caractériser. Un autre moyen d améliorer les prédictions consiste à utiliser des consensus (Table 19 page 125) ou encore de combiner les méthodes par régression linéaire multiple (Guermeur et al., 1999 ; Pan, 2001) Outils bioinformatiques d étude des structures tridimensionnelles des protéines Les structures tridimensionnelles des protéines La structure tridimensionnelle est la structure active et fonctionnelle de la protéine. Elle correspond à l agencement des atomes dans l espace. Grâce au repliement, des résidus éloignés dans la séquence, peuvent être regroupés dans l espace pour former un site catalytique, une zone d interaction particulière 50

51 L un des plus grands défis de la Bioinformatique dans le domaine de la protéomique est la prédiction de la structure tridimensionnelle d une protéine sur la base de sa seule séquence. Les méthodes expérimentales de détermination des structures tridimensionnelles des protéines que sont la RMN et la cristallographie ont des limites difficilement surmontables. La première difficulté est liée à la surproduction de la protéine, afin d obtenir au minimum 10 mg d un échantillon extrêmement pur et dans un état natif (la protéine doit être fonctionnelle, ce qui garantit un bon repliement). Ce qui est d autant plus difficile lorsqu il s agit de surproduire des protéines multimériques, membranaires, ou ayant des modifications post-traductionnelles (puisque les micro-organismes utilisés ne sont pas capables de les reproduire). Sans oublier qu il faut enrichir les échantillons (sans les dénaturer) en atomes lourds pour la détermination des phases en cristallographie (processus essentiel dans l interprétation des cartes de diffraction) et en 15 N, 13 C, 2 D pour avoir des spectres lisibles en RMN. Ensuite il faut considérer les difficultés inhérentes aux techniques de détermination des structures, qui sont lourdes (du fait de l appareillage qu elles nécessitent), coûteuses en temps et en argent, et très délicates dans leur mise en oeuvre : l étude des peptides de plus de 50kDa (500 acides aminés) pose problème en RMN, même si les évolutions récentes ont permis de repousser cette limite dans certains cas jusqu à 150kDa (Pervushin et al ; Riek et al., 1999). Quant à la cristallographie, le principal obstacle réside dans l obtention d un cristal de bonne qualité et permettant d obtenir des cartes de diffraction interprétables, et cette phase est plus un art qu une science Dès lors, les méthodes prédictives sont particulièrement intéressantes, et sur la base des connaissances structurales actuelles il est possible d obtenir par prédiction des structures tridimensionnelles des protéines proches des structures réelles. Mais là encore il y a plusieurs limites dont une importante : tous les repliements (folds) uniques ne sont pas encore connus, et le seul moyen de les déterminer sont la RMN et la cristallographie (et dans une moindre mesure la microscopie électronique), le tout étant de choisir les protéines pouvant avoir un repliement encore inconnu. Le séquençage de génomes eucaryotes sera particulièrement utile puisqu il fournira un nombre important de séquences candidates. Les séquences permettront de savoir à l avance si une protéine a des chances d avoir un repliement encore inconnu. Ainsi les efforts des cristallographes et «RMNistes» seront concentrés sur les protéines pouvant avoir un fold encore non déterminé afin de compléter nos connaissances structurales et de pouvoir prédire «plus et mieux» les structures de nouvelles protéines Ponts disulfures Le groupement thiol (-SH) d une cystéine, peut s oxyder et se lier à un autre groupement thiol porté par une autre cystéine proche dans l espace. Se forme alors un pont disuflure ou cystine, qui a un rôle fondamental dans la stabilisation des structures tridimensionnelles protéiques. Ce sont les seuls acides aminés qui permettent l établissement, au sein des protéines, de liaisons covalentes entre des 51

52 acides aminés distants dans la séquence, mais proches dans l espace. Ces ponts peuvent servir à la multimérisation en unifiant différentes chaînes peptidiques, comme les chaînes A et B de l insuline Interactions électrostatiques & liaisons hydrogènes Les seuls ponts disulfures ne sont pas suffisants à l établissement des structures tridimensionnelles protéiques. D autres interactions existent comme les interactions entre les acides aminés chargés (ioniques) ou par des liaisons hydrogènes. A chaque interaction électrostatique est associé un potentiel énergétique défini par : E ij = 332.q i.q j /(D.r ij ) avec q : charge sur l atome, D : constante diélectrique du milieux, r ij : distance entre les atomes impliqués. Cette formule montre que l énergie d interaction n est favorable (donc négative) que si q i et q j sont opposées. Cette énergie varie de façon inversement proportionnelle à la distance entre les atomes impliqués. Enfin E ij est d autant plus élevée (en valeur absolue) que la constante diélectrique est faible, donc que l environnement est hydrophobe (comme dans le cœur des protéines). Du point de vue énergétique, il est plus favorable d apparier des acides aminés de charges opposées, plutôt que de les laisser isolés. Un tiers des résidus chargés sont impliqués dans des interactions électrostatiques (Burley & Petsko, 1985). Les liaison hydrogènes, entre les chaînes latérales et le solvant ou entre atomes de chaînes latérales sont stabilisantes. Les liaisons hydrogènes intra-protéiques sont d autant plus stabilisantes qu elles sont enfouies. L énergie de liaison varie de façon inversement proportionnelle à la distance entre atomes élevée à la puissance Interactions hydrophobes Les interactions hydrophobes sont fondamentales pour le repliement des protéines. Ces interactions sont provoquées par la tendance qu ont les atomes et les groupements non polaires à fuir le milieu aqueux environnant pour des raisons thermodynamiques. Cette fuite permet aux éléments hydrophobes de se regrouper et de diminuer leur surface de contact avec le solvant. Dans une protéine, cela se traduit généralement par l exposition des chaînes latérales polaires à la surface et l enfouissement des chaînes latérales hydrophobes dans le cœur. L énergie de liaison varie de façon inversement proportionnelle à la distance entre atomes élevée à la puissance 6. Cet effet hydrophobe est un paramètre déterminant dans la mesure où il gouverne les premières phases du repliement. Les résidus hydrophobes, vont rapprocher les acides aminés tels que les cystéines et les résidus chargés pour que les interactions puissent se faire (Tsai et al.,1997, Dill et al., 1993). Plusieurs travaux ont mis en évidence que la caractère hydrophobe est bien conservé qu il soit exposé ou enfoui, suggérant un rôle important de l effet hydrophobe dans le maintien et la stabilité des structures protéiques. 52

53 Prédiction des structures tridimensionnelles Modélisation moléculaire par homologie Les protéines homologues, avec des séquences fortement similaires ont des structures tridimensionnelles proches. Il est donc possible d utiliser la structure connue, d une protéine homologue qui sert d empreinte. Les coordonnées atomiques de cette empreinte sont affectées à la séquence nouvelle. Le seuil de similarité nécessaire pour réaliser cette modélisation est variable, et dépend de la longueur de l alignement (Sander & Schneider, 1991). Cependant, nous pouvons décrire trois cas principaux : plus de 60% d identité entre les séquences : la modélisation est automatique ; entre 30 et 60% d identité, la modélisation est manuelle ; à moins de 30%, la modélisation n est pas raisonnable, il est nécessaire de disposer d autres arguments. Dans ce dernier cas, le plus fréquent, et sans doute le plus intéressant, d autres éléments sont nécessaires pour valider le choix de l empreinte. L étude de la compatibilité des structures secondaires (Geourjon et al., 2001 ; page 39) peut permettre dans certains cas d abaisser le seuil d identité à 10% entre l empreinte et la protéine d intérêt. Si toutefois, on ne dispose pas d une empreinte réunissant les conditions adéquates, il est aussi possible de réaliser une modélisation par fragments, en utilisant différentes empreintes selon le segment de la protéine à modéliser (Jones & Thirup, 1986 ; Levitt, 1992). Le programme COMPOSER (Blundell et al., 1987) a été développé dans ce but. En fin de processus une étape de régularisation du modèle est nécessaire. Le plus souvent, ceci est réalisé par minimisation d énergie sur la base de la chimie théorique (distances et angles de liaison) Threading Le threading (ou enfilage) consiste à utiliser les motifs structuraux connus pour y «enfiler» la séquence. On estime que pour une séquence dont on ne connaît pas la structure et pour laquelle il n existe pas d empreinte satisfaisante, il y a une chance sur deux que son repliement soit déjà connu. Par threading, on identifie les repliements les mieux adaptés à une séquence en utilisant des profils dérivés de structures tridimensionnelles connues (Bryant & Lawrence, 1993) Outils bioinformatiques d analyse spécialisée des protéines Profils physico-chimiques Ces méthodes consiste à définir de manière statistique, en utilisant une fenêtre glissante, les caractéristiques physico-chimiques d une séquence. Il existe une cinquantaine d échelle physico- 53

54 chimiques (URL 30), les plus connues sont : l hydrophobie (Kyte & Doolittle, 1982), l antigénie (Hopp & Woods, 1983), l hydrophilie (Parker et al., 1986), le caractère trans-membranaire (Argos et al., 1982) Détection de motifs coiled-coils (super hélices) Ces motifs sont des hélices oligomérisées enroulées les unes autour des autres pour former des super hélices. Ces motifs sont caractéristiques des protéines de fixation à l ADN ou des protéines trans-membranaires des enveloppes de virus. Dans ces structures, les résidus présents toutes les sept positions sont équivalents : les coiled-coils sont des répétitions d héptapeptides, dans lesquels les résidus 1 et 4 assurent les contacts entre hélices, les autres constituent les surfaces. Plusieurs programmes de prédiction des coiled-coils existent : COILS (Lupas et al., 1991), PAIRCOIL (Berger et al., 1995) et MULTICOIL (Berger et al., 1997). Afin d établir avec le plus de certitude possible la présence ce coiled-coils, il est conseillé de combiner ces programmes : COILS est moins spécifique, alors que PAIRCOIL/MULTICOIL sont moins sensibles Détection de motifs hélice-coude-hélice (fixation à l ADN) La méthode Dodd & Egan (1990) fournit un score de prédiction lorsqu un motif de fixation à l ADN est détecté. Ce score est basé sur l utilisation d une matrice de scores dérivée de 91 séquences présentant un motif hélice-double-hélice Prédiction de segments trans-membranaires Ces segments sont assez souvent en hélices et assez rarement sous forme de brin β (en forme de barrils). La prédiction de ce type de segments est intéressante que ce soit pour l élimination de protéine membranaire pour une étude structurale expérimentale (très difficile), ou encore pour déterminer la localisation cellulaire d une protéine. Il existe plusieurs méthodes, parmi les plus efficaces : PHDhtm (Rost et al., 1996) et SignalP (Nielsen et al., 1999), deux méthodes d apprentissage. SignalP prédit les peptides signaux d ancrage à la membrane (à l aide d un modèle probabiliste Markovien). PHDhtm permet en plus de prédire la topologie des protéines en précisant les résidus intra et extra cellulaires. Une autre méthode plus récente est basée sur le point d inversion d ondelette (wavelet change-point ; Lio & Vannuci, 2000). Le principe est la détection de doubles inversions brutales des propriétés hydrophobes d une séquence pour localiser les portions transmembranaires. 54

55 55

56 2. Analyse de la conservation des acides aminés à rôle structural au sein des protéines. Partant du constat selon lequel les structures sont plus conservées que les séquences (Chothia & Lesk, 1986), nous espérons montrer une plus forte conservation des acides aminés impliqués dans des interactions. Nous savons aujourd hui que deux protéines homologues (ayant au moins 30% d identité de séquence) adoptent des structures tridimensionnelles proches. Cependant les mécanismes moléculaires qui régissent cette loi sont encore inconnus. Ceci devient d autant plus intrigant lorsque l on sait que des protéines peuvent être homologues avec des taux d identité pouvant descendre jusqu à 10% après évolution. Une façon d apporter une réponse à cette question, consiste à démontrer qu à de tels taux d identité, les acides aminés impliqués dans des interactions sont préférentiellement conservés, permettant ainsi de garder la propriété structurale. Il n existe aucune étude exhaustive de la conservation des acides aminés impliqués dans les interactions, réalisée pour toutes les protéines de structures connues, et pour ces trois types d interaction. C est pourquoi nous avons réalisé une telle étude. Grossièrement, notre stratégie (détaillée dans le paragraphe suivant) vise à analyser la conservation des interactions au sein d alignements multiples contenant une protéine de structure connue ainsi que les protéines qui lui sont apparentées, dont les structures ne sont pas forcément connues. Cette étude est entièrement automatique, la rendant exhaustive et objective. Le but de cette étude est de mettre en avant les relations séquence-structure qui aideront à déterminer des règles structurales ayant un double emploi potentiel : apporter les premières bases à la mise en place d algorithme de prédiction des interactions faibles au sein des structures, à partir de la séquence, et éventuellement en considérant d autres aspects obtenus par prédiction (hydrophobie, structures secondaires ). Ce type d algorithme serait d une aide considérable non seulement pour faire avancer la modélisation ab initio, mais aussi pour étayer les techniques de validation des modèles structuraux que l on peut obtenir avec des techniques de modélisation moléculaire, par homologie, ou sous contraintes RMN, ou encore par des techniques de threading ; apporter des éléments de validation des alignements multiples contenant une ou plusieurs structures connues. En effet, l observation de la conservation des acides aminés impliqués dans les interactions, sera un argument supplémentaire pour la validation automatique des alignements multiples et des familles protéiques. Par ailleurs, les informations apportées par cette étude, peuvent être intégrées au sein des programmes d alignements multiples, pour aider à calculer des alignements plus pertinents du point de vue biologique. 56

57 2.1. Stratégie globale Afin de déterminer les relations séquence-structure, un procédé automatique original a été mis en place (Figure 14). Structure tridimensionnelle (fichier PDB). DSSP modifié Base de données d interactions Ponts disulfures Ponts Salins Interactions Hydrophobes Recherche de séquences similaires Sous-base de séquences Extractblast & Extractfasta Alignement Multiple Analyse de la conservation des interactions Figure 14 : stratégie d analyse de la conservation des interactions au sein des alignements multiples. Ce procédé, entièrement automatisé a été construit dans un souci d exhaustivité. Le programme global fait intervenir différents sous-programmes. Ainsi, à partir d un fichier PDB contenant la structure d une protéine, l analyse de la conservation des interactions au sein de la famille protéique de cette protéine, est automatique. Ce procédé est donc applicable à tous les fichiers PDB, permettant une analyse exhaustive de toutes les protéines de structures connues. Nous allons maintenant présenter les outils mis en place et utilisés afin de réaliser notre étude statistique Matériels et méthodes Matériel informatique Les différents programmes développés l ont été sous trois systèmes différents : IRIX (Silicon Graphics) LINUX (Redhat) et Windows (Microsoft). Les systèmes IRIX et LINUX sont des 57

58 implémentations du système d exploitation UNIX. Ce système est très intéressant pour le développement car il est robuste, et présente une capacité multitâche. Quant à Windows, il fût utilisé pour le développement de l interface graphique BioRead. Nom de la machine Type et OS Programmes utilisés Pc-bioinfo 2 PC MEDION Windows 98 Pentium III 650 Mhz Disque 5 GO et RAM 192 MO Microsoft Office Visual Studio Rasmol, SwissPDBViewer Netscape communicator Mktclapp/Tcl-Tk Pc-mod PC GATEWAY Windows 98 Redhat Linux Staroffice gcc (compilateur) AnTheProt Pentium II G6-450 Mhz MMX Disque 10 G0 et RAM 256 MO Saab Origin 2000 SGI IRIX 6.4 Quadri-processeurs R à 195 Mhz Disque 54 MO et RAM 1000 MO CC (compilateur C++) cc (compilateur C) FASTA, BLAST, SSEARCH, CLUSTALW, MPSA Table 2 : matériels informatiques utilisés pour le développement au laboratoire Les langages de programmation C/C++ et la fonction system() Le C Le langage C est une langage de troisième génération, typé, structuré et compilé. Il fût développé à partir de 1970 par Denis Ritchie aux laboratoires Bell. Ce langage est lui-même dérivé de deux autres langages antérieurs le B et le BPCL. Le C utilise le typage de données en procurant des types prédéfinis (void, int, double ). Le C permet aussi à l utilisateur de définir de nouveaux types de données à l aide du mot clé typedef ou même des structures entières de données (typedef struct). Un des avantages du C est qu il est compilé. Il n est donc pas lié à un matériel donné. Ceci est d autant plus vrai qu il existe une version normalisé du C : C ansi définie par l American National Standardization Institute. Cette normalisation a permis d établir une version «universelle du C» et à éliminer toute les variantes de ce langage qui représentaient un obstacle au caractère portable des programmes écrits en C : un même programme peut être exécuté sur des machines différentes, à condition que les fichiers sources soient soumis à une phase de compilation sur ces machines. La compilation consiste à traduire les instructions écrites en C (de haut niveau) en langage machine (de 58

59 bas niveau). Une autre des caractéristiques intéressante du C est l existence d un pré-processeur, qui permet l inclusion de fichier d en-tête (#include <stdlib.h>), la définition de lexème (#define SALTBRIDGE_DIST 3.0) ou la compilation conditionnelle par définition d une constante symbolique appropriée (#ifdef OS_UNIX), utile pour différencier les différents systèmes d exploitations (UNIX, Windows, LINUX ). Le C propose des fonctionnalités de gestion dynamique des ressources mémoire à l aide de fonction d allocation (malloc, calloc, realloc) et de libération (free). Ces fonctions font du C un langage particulièrement puissant, car il permet d utiliser la mémoire en fonction des besoins, pour mettre à profit toutes les ressources disponibles, sans gaspillage inutile. De plus le C permet d utiliser des pointeurs sur des zones mémoires, aidant à obtenir des processus très rapides puisque cela évite les phases de copie des données. Ce langage a été utilisé au cours de ce travail, notamment pour modifier DSSP ( page 47), un programme d attribution des structures secondaires écrit en C Le C++ Le C++ est une extension du C développée par Bjarne Strousup au début des années 80. Le C++ fournit des fonctionnalités qui ré-haussent le C, offrant en plus des possibilités pour la programmation orientée objets (POO). Le C++ repose sur quatre piliers de la POO : l encapsulation, le masquage, l héritage et le polymorphisme. l encapsulation et le masquage des données : il est possible de regrouper plusieurs données et fonction au sein d une classe ou objet. Ainsi les données sont encapsulées, ce qui améliore la cohérence du programme. Le C++ permet aussi de masquer des données et donc de les protéger, évitant ainsi les modifications provoquées par des anomalies du programme. Les classes permettent de modéliser les objets de la vie courante et aident à établir une architecture plus claire et plus efficace ; l héritage et le polymorphisme : l héritage permet de définir une nouvelle classe en utilisant une classe déjà définie. Ces notions améliorent la réutilisabilité du code, le rendant très souple. Ainsi, il est toujours possible d améliorer le code, ou de définir de nouveaux objets adaptés, sans pour autant modifier tout le programme. Le polymorphisme ou héritage multiple, résout les problème lié à l héritage simple, «en croisant» différents objets pour obtenir un nouvel objet (oiseau + cheval = pégase). Le C++ comme le C est livré avec des bibliothèques standards indispensables au programmeur. Elles réunissent les fonctions couramment utilisées : gestion entrées/sorties, fonctions mathématiques, gestion des chaînes de caractères, dates 59

60 La fonction system() La fonction system(char *) est très utile, car elle permet d exécuter un programme depuis un autre. Lorsque l instruction system(ligne_de_commande) est rencontrée, le programme principal stoppe momentanément son exécution, le temps que l instruction ligne_de_commande s exécute. Après exécution, le programme principal reprend son exécution Le langage Tcl et le package Tk Le langage Tcl et un langage de script, interprété et relativement simple. Il offre plusieurs fonctionnalités : manipulation de variables, définition de fonctions, exécution conditionnelle, gestion de boucle. Voici l exemple d une fonction qui prend en entrée un nombre n et une puissance p et qui fournit le résultat n p. proc power {n p} { #définition de la fonction power set result 1 # on fixe result = 1 while {$p > 0} { # tant que le contenu de p est supérieur à 0 set result [expr $result * $base] # result = result * n set p [expr $p - 1] # on décrémente p de -1 } return $result #renvoi du résultat. } Cet exemple illustre la simplicité du langage Tcl. Pour accéder au contenu d une variable, il faut ajouter le signe $ devant le nom de cette variable. La fonction expr exécute une opération mathématique, la fonction set est utilisée pour affecter une valeur à une variable. La fonction proc exécute une boucle p fois et multiplie le nombre n par lui même à chaque boucle. Les commandes Tcl ont trois sources principales. La première sont les commandes fournies avec l interpréteur Tcl lui-même (builtin commands). La deuxième source sont les procédures (fonctions) que l on définit à l aide du mot clé proc, comme pour la fonction power. Enfin la dernière source sont les commandes personnelles que l on peut écrire selon un mécanisme d extension en C et C++. Les «packages» regroupent plusieurs commandes définies par le mécanisme d extension. Ceci permet d utiliser les packages appropriés à l application que l on veut développer. L extension la plus connue est l extension Tk, qui fournit des fonctionnalités graphiques. Il est ainsi assez facile de définir rapidement les éléments graphiques qui vont constituer une application. En deux lignes de code, il est possible de créer un bouton, lorsque l on clique dessus l application se ferme : instruction pour définir le bouton et la fonction associée : button.b text {bouton de sortie} command exit #défini l élément pack.b #affiche l élément : 60

61 Figure 15 : création d un bouton de commande en Tcl/Tk. Un clique sur le bouton provoque la sortie de l application et la fermeture des fenêtres. La combinaison Tcl/Tk allie la simplicité du codage et la rapidité de la mise en place d éléments graphiques. De plus, le code est facilement portable, puisqu il suffit simplement de disposer de la librairie Tcl/Tk appropriée au système d exploitation. Ce langage a été utilisé pour le développement de BioRead. Le langage Tcl/Tk n est utilisé que pour gérer l environnement graphique, mais les fonctions plus complexes sont écrites en C++ (pour une exécution plus rapide) Protéines de structures connues Nous avons utilisé toutes les protéines de structure connue (en janvier 2000) ayant moins de 25% d identité de séquences deux à deux, soit un total de 1567 protéines dans cette étude (Annexe C) Création de la base de données d interactions, modifications du programme DSSP Nous avons crée une banque de données qui répertorie les interactions dans les protéines, à l aide d une version modifiée du programme DSSP ( page 47). DSSP donne la structure secondaire des protéines à partir de leur structure tridimensionnelle. Ce choix représente un double avantage. Tout d abord, il n est pas nécessaire de coder un programme spécifique pour relire les fichiers PDB, puisque DSSP le fait. Ensuite, DSSP permet de calculer l accessibilité des résidus, qui est l un des paramètres que nous avons pris en compte. La modification du programme ne s est pas avérée simple, puisqu à la base, DSSP a été écrit en Pascal et a été traduit en Fortran, puis en langage C. Si bien que le code source en langage C est difficile à lire et à comprendre. Le seul fichier à modifier est le fichier DsspCMBI.c. La plus grande difficulté a été de placer correctement les modifications pour arriver à récupérer les informations intéressantes, sans alourdir le programme ni trop le ralentir. Quelles que soient les interactions considérées, celles-ci ont été définies sur la base de la proximité spatiale entre les groupements chimiques des acides aminés. Pour chaque acide aminé les atomes des groupements qui ont été considérés sont listés Table 3. 61

62 Nom de l'aa Synonyme Atomes fonctionnels à rechercher dans le fichier PDB Type pour programmation Gly G GLY Arg R NH1, NH2 BASE Asp D OD1, OD2 ACIDE Cys C SG CYS Glu E OE1, OE2 ACIDE His H ND1, CD2, CE1, NE2 BASE Ile I CD1 HYDROPHOBE Leu L CD1, CD2 HYDROPHOBE Lys K NZ BASE Met M CE HYDROPHOBE Phe F CD1, CD2, CE1, CE2, CZ HYDROPHOBE Trp W CD1,CD2, CE2, CE3, CZ2, CZ3, NE1, CH2 HYDROPHOBE Val V CG1, CG2 HYDROPHOBE Table 3 : atomes considérés pour la recherche de contacts et types affectés aux résidus. Pour les résidus non listés, le type considéré est le type NUL. Les coordonnées atomiques (x, y, z) des atomes des groupements chimiques présentés Table 3 sont utilisées dans la recherche des contacts. En ce qui concerne le stockage de données, celui-ci a été organisé au sein de structures ou objets. Bien que le langage C ne soit pas fortement orienté objet, il permet de définir des structures de données en regroupant les données au sein d une même entité, qui peut être considérée comme un objet. J ai donc défini une structure myaa (Code 1) : typedef struct myaa{ char name; char LeterTo3Code[5]; /*nom a trois lettres de l'aa*/ long position; /*position dans la PDB=position vraie*/ char chain; /*identifiant chaine*/ char Grpname[5]; /*Groupement(Grpt) atomique*/ float Grpcoord[3]; /*coordonnées du Grpt atomiques */ ABTYPE type; /*type ACIDE,BASE,CYS,HYDROPHOBE ou NUL*/ char altlocation; /*idem PDB*/ char icode; /*idem PDB*/ BOOL AAtag; /*étiquette de marquage*/ long resnumero; /*donne le numéro un au premier aa*/ /* A noter que chaque aa a deux atomes chargés au max. Chaque atome a trois coordonnées*/ }myaa; /*structure d'un objet Grpt d' un AA ex : NH2 de l'arg ou OE1 de ASP*/ Code 1 : structure de données d un objet myaa. Les lignes ent /* et */ sont des commentaires. Ce code a été placé dans le fichier DsspCMBI.c 62

63 Un objet myaa (Code 1) est en réalité un atome de groupement chimique particulier. Par exemple l acide glutamique donnera lieu à deux objets myaa, un premier pour l atome OE1 et un second pour l atome OE2. Les éléments contenus dans myaa sont le nom de l acide aminé à une lettre (char name), ses coordonnées (tableau à 1 dimension et 3 cases : float Grpcoord[3]), son type chimique (ABTYPE type), le numéro du résidu dans la séquence (long resnumero), et pour des raisons techniques, l étiquette de marquage (BOOL AAtag). Le programme DSSP lit le fichier PDB ligne à ligne grâce à la fonction de lecture : myaa * Readcard(cardcontents *cardinfo, struct LOC_Inputcoordinates *LINK) Cette dernière a été modifiée pour construire les objets myaa et pour renvoyer un pointeur sur ces objet myaa. A chaque appel de la fonction Readcard(), un objet myaa est crée, stocké en mémoire et un pointeur et renvoyé par la fonction Readcard() pour être récupéré dans la fonction appelante comme nous le verrons plus loin. Avant de rechercher les interactions, il faut stocker en mémoire tous les objets myaa que l on trouve dans un fichier PDB. Pour chaque fichier PDB, tous les objets myaa sont stockés sous la forme d un tableau de pointeurs (dont la taille en mémoire est définie de façon dynamique) : myaa **pmyaa. La fonction Inputcoordinates() de DSSP appelle la fonction readcard() en boucle, pour chaque ligne du fichier PDB. Les objets myaa, sont stockés dans un tableau au sein de la fonction Inputcoordinates(). 63

64 myaa **Inputcoordinates(long *lchain_, int *ipmyaa) {... int imyaa=0 myaa *thismyaa=null; /*pointeur sur un objet myaa*/ myaa **pmyaa=null; /*tableau de pointeurs sur objet myaa*/... do{/*debut de la boucle pour la lecture du fichier PDB*/ thismyaa=readcard(&cardinfo, &V) ;/*création d un objet myaa*/... /*réallocation dynamique de mémoire pour le tableau pmyaa*/ pmyaa=(myaa **) realloc (pmyaa,(imyaa+1)*sizeof(myaa *)); /*stockage du pointeur thismyaa à la suite dans le tableau*/ pmyaa[imyaa]=thismyaa; /*incrémentation du nombre d éléments dans le tableau*/ imyaa++ ;... }while (!(finish limit))/*fin de la boucle de lecture*/... *ipmyaa=imyaa ;/*stockage du nombre d éléments dans le tableau pmyaa*/ return pmyaa ;/*renvoie du tableau myaa pour le récupérer à la sortie de la fonction Inputcoordinates*/ } Code 2 : principales modifications apportées à la fonction Inputcoordinates() de DSSP. Pour simplifier, les modifications de la fonction Inputcoordinates() ont plusieurs rôles : récupérer un pointeur sur chaque objet myaa crée lors de l appel en boucle de la fonction readcard() ; compter le nombre de ces objets pour allouer de façon dynamique la taille du tableau de pointeur pmyaa ; stocker tous les pointeur au sein du tableau pmyaa ; renvoyer à la fin du traitement le tableau pmyaa pour l utiliser ensuite lors de la recherche des contacts. Ensuite il faut définir les structures pour les interactions. C est la structure pmyaapair (Code 3). 64

65 typedef struct pmyaapair{ myaa *myaa_bas; /*AA bas de l intéraction*/ myaa *myaa_acd; /*AA acd de l intéraction */ int tagsalt; /*étiquette numérique de l intéraction*/ float dist; /*distance entre les 2 aas de l intéraction*/ SALTYPE slt_type; /*type INTRA- ou INTER- chaine*/ BOOL is_acdtagged; /*repère pour accélérer Printout()*/ BOOL is_bastagged; /*repère pour accélérer Printout()*/ BOOL is_tagged; /*repère pour accélérer Printout()*/ int acdacc; /*accessibilité de l'aa acd*/ int basacc; /*accessibilité de l'aa bas*/ char acd_struct; /*structure secondaire de l'aa acd*/ char bas_struct; /*structure secondaire de l'aa*/ int bas_reseqnum; /*numérotation aa_bas colonne 1 DSSP*/ int acd_reseqnum; /*numérotation aa_acd colonne 1 DSSP*/ float fglypsi; /*uniquement pour les glycines*/ float fglyphi; /*uniquement pour les glycines*/ }pmyaapair; /*structure d'un objet interaction*/ Code 3 : structure de données d un objet pmyaapair Cette structure a été définie au départ pour les interactions électrostatiques, expliquant la nomenclature utilisée. Elle a été appliquée à tous les types d interaction (hydrophobes et disuflures). Cette structure contient deux pointeurs sur deux objets myaa (*myaa_acd et *myaa_bas), puisque chaque interaction est considérée comme comptant deux acides aminés, ou deux groupements chimiques. Afin de ne considérer que les interactions intra-chaîne, le type d interaction (SALTYPE slt_type) est stocké, il est soit intra-chaîne (INTRA) soit inter-chaîne (INTER). Le stockage des valeurs d accessibilité des acides aminés se fait au niveau de la structure pmyaapair (int acdacc et int basacc) et non pas au niveau des acides aminés myaa. Ceci peut sembler absurde, mais la faible commodité du code permet difficilement de faire autrement. En effet, le calcul de l accessibilité est un traitement ultérieur à la lecture du fichier PDB, il n est donc pas possible de les stocker à la volée lors de la création des objets myaa. Par ailleurs, ceci évite de faire appel au pointeur *myaa_acd ou *myaa_bas non seulement pour stocker l information, mais aussi pour la restituer au moment opportun. Le traitement est moins lourd et surtout un peu plus rapide. C est pourquoi j ai préféré ce type de stockage, sans parler du gain de temps à éviter la résolution de problèmes liés à la conception du programme DSSP. L étape suivante consiste à effectuer la recherche de contacts. Nous disposons maintenant d un tableau contenant les pointeurs sur les objets myaa et leurs coordonnées, ainsi que d une structure 65

66 matérialisant les interactions entre les atomes. Les interactions sont détectées par un calcul de distance entre les atomes chimiques de tous les objets myaa stockés. En considérant les coordonnées atomiques, la distance entre deux atomes appartenant à deux objets myaa distincts myaa1 et myaa2 de coordonnées respectives x 1, y 1, z 1 et x 2, y 2, z 2 est la suivante : D=[(x 1 -x 2 ) 2 + (y 1 -y 2 ) 2 + (z 1 -z 2 ) 2 ] 1/2 Cette opération est effectuée entre tous les objets myaa du tableau deux à deux. Sans oublier de considérer le type de groupement et le seuil de distance en fonction du type d interaction. Nous avons choisi d établir la présence des interactions uniquement sur la base des distances entre atome pour deux raisons. La première est purement pratique. La distance entre les atomes est le paramètre le plus important dans la définition de l énergie d une interaction. Prendre en compte la valeur de la constante diélectrique du milieu aurait compliqué les algorithmes pour un résultat sans doute très proche voir identique. De plus, définir les interactions sur la base des énergies nécessite la définition d un seuil énergétique, qui aurait été arbitraire. La seconde raison de ce choix est que nous voulons analyser la conservation corrélée des acides aminés en contact dans l espace, la distance est donc un paramètre suffisant. Nous avons procédé à l analyse visuelle d une cinquantaine de structures pour vérifier que les contacts ainsi déterminés étaient effectivement observés. L interaction électrostatique est considérée comme existante si un objet myaa de type ACIDE est au maximum à 3.0 Å d un objet myaa de type BASE. En ce qui concerne les interactions hydrophobes, les deux objets myaa de type HYDROPHOBE doivent être à un maximum de 3.3 Å. Enfin, concernant les ponts disulfures, la distance entre deux atomes de souffre des groupements thiol (atomes SG selon la nomenclature PDB) doit être au maximum de 3.0 Å. Ces paramètres ont donné naissance à trois fonctions de recherche d interaction, une pour chaque type d interaction. Les trois sont basées sur le même modèle. Elle reçoivent en entrée le tableau de pointeurs sur les objets myaa et retourne un tableau de pointeurs sur les interactions pmyaapair, listant ainsi toutes les interactions trouvées dans une structure protéique. Ces fonctions de recherche gèrent elles aussi les ressources mémoire de façon dynamique. pmyaapair ** saltpair_seek(myaa **pmyaa, int imyaa, int *i2aapair) pmyaapair ** SSbond_seek(myAA **pmyaa, int imyaa, int *i2aapair) pmyaapair ** Allpair_seek(myAA **pmyaa, int imyaa, int *i2aapair) Bien que DSSP repère déjà les ponts disulfures, il nous a parut bon de les répertorier en utilisant ces modifications, de façon à vérifier la fiabilité des modifications. Nous avons constaté que la fonction 66

67 SSbond_seek permet de retrouver les ponts disulfures indexés par DSSP, prouvant que les modifications sont parfaitement valides et fonctionnelles (résultats non présentés). L avant-dernière étape, consiste à récupérer l accessibilité des résidus après que celle-ci ait été calculée par DSSP. Le moyen le plus simple a été de la stocker lors de l écriture du fichier sortie de DSSP généré à l aide de sa fonction printout(). Ce fichier résultat contient l accessibilité totale des résidus en Å 2. C est dans cette fonction que quelques lignes de codes ajoutées affectent à chaque objet pmyaapair l accessibilité calculée des résidus, ainsi que les éléments de structures secondaires auxquels appartiennent les acides aminés impliqués. La dernière étape consiste à renvoyer le résultat. Les modifications apportées ont permis de récupérer les informations recherchées sur la sortie standard selon la forme suivante : > chemin/nom du fichier PDB Séquence du de la protéine de la PDB TRUE : AA1 position1- AA2 position2 Dist = acc1: acc2: ss1: ss2: Le tag «TRUE» ou «FALSE» indiquent s il y a interaction ou non, selon la distance entre les fonctions chimiques. AA1 et AA2 sont les résidus contenant les fonctions chimiques en question. Dist est la distance entre les fonction chimique en Å. Acc1 et acc2 sont les valeurs d accessibilité des résidus 1 et 2 en Å 2. Ss1 et Ss2 sont les éléments de structures secondaires auxquels appartiennent les acides aminés 1 et 2. Un exemple de sortie pour la recherche des interactions électrostatiques est présenté Figure 16. >/bioinfo/db/pdb/entries/pdb1a9o.ent MQNGYTYEDYQDTAKWLLSHTEQRPQVAVICGSGLGGLVNKLTQAQTFD... TRUE : GLU LYS 270 Dist = acc1:39 acc2:70 Ss1: Ss2:H TRUE : ASP ARG 210 Dist = acc1:13 acc2:67 Ss1:S Ss2:H FALSE : GLU 8 - HIS 230 Dist = acc1:96 acc2:8 Ss1:H Ss2:H Figure 16 : exemple de fichier résultat donné par le programme DSSPm Le programme DSSP est appelé en boucle sur tous les fichiers PDB. Un petit programme loop_dssp_pdb a été écrit dans ce but. Il prend en entrée un listing des entrées PDB, il génère un fichier résultat listant les interactions pour toutes les protéines de la PDB, selon le modèle détaillé précédemment. Notre base de données est constituée de trois fichiers résultats générés à l aide de DSSPm : allpdb25cys qui répertorie les ponts disulfures dans les protéines de la PDB. allpdb25hyd3.3 qui répertorie les interactions hydrophobes dans les protéines de la PDB. allpdb25sb3.0 qui répertorie les interactions électrostatiques dans les protéines de la PDB. 67

68 Les modifications apportées au programmes DSSP représentent un peu plus de 2100 lignes de codes en langage C, réparties en différents endroits dans le fichier DsspCMBI.c. Ce nouveau programme obtenu sera référencé dans la suite du rapport sous le nom de DSSPm Recherche de protéines homologues aux protéines de la PDB Recherche d homologie Afin de constituer une sous-base de séquences apparentées, pour chaque protéine de la PDB, une recherche d homologie dans la base de données SWISSPROT+SPTrEMBL a été effectuée pour chacune d entre elles en utilisant deux programmes principaux : BLAST et FASTA. BLASTp permet de rechercher les similitudes locales, alors que FASTA permet de rechercher les similitudes globales. Les paramètres de recherche utilisés sont les paramètres standards, par défaut. Ces programmes génèrent des fichiers résultats sous des formes difficilement utilisables. Il a donc fallu relire ces fichiers, re-formater les données, puis extraire les séquences intéressantes. Ainsi pour chaque protéine de la PDB, le but est de constituer à partir des résultats des BLAST et FASTA, une sous-base de séquences échantillonnée, non redondante, que l on espère être pertinente du point de vue biologique. Les fichiers résultats de BLAST et FASTA étant écrits dans différents formats, deux programmes différents ont été mis au point pour relire et traiter les résultats : Extractblast et Extractfasta. Les premiers résultats ont vite montré que l emploi de BLAST était plus indiqué. De plus, devant le nombre élevé de fichier BLAST et FASTA à analyser manuellement ou plutôt visuellement lors du développement d Extractblast et Extractfasta, j ai choisi de développer une interface graphique relativement simple, dont le but était uniquement de faciliter la tâche : BioRead. Ces programmes ayant été utilisés, nous les décrirons brièvement ici et donnerons quelques informations quant aux paramètres utilisés pour comprendre comment les sous-bases de séquences ont été constituées à l aide d Extractblast. La description complète des programmes utilisés (Extractblast, Extractfasta et BioRead) se trouve dans la partie «Résultats» de ce rapport Constitution des sous-bases de séquences Cette phase vise à constituer à partir des résultats BLAST une sous-base de séquences non redondante. Cette sous-base se veut être un échantillon représentatif des séquences proches existantes dans les bases de données de recherche. Une procédure de sélection automatique des séquences, adaptée aux résultats obtenus pour chaque protéine a été effectuée grâce à Extractblast. Voici la ligne de commande utilisée : Extractblast i BlastFile o outfile r remfile Z e 1e-6 a start z stop l len T 68

69 Ces paramètres ont fait l objet de nombreux tests et d une longue phase de développement afin de les optimiser pour obtenir les meilleurs résultats. Voici le détail des paramètres : l option i permet de spécifier le fichier BLAST à traiter ; BlastFile représente le nom (chemin complet) du fichier BLAST à traiter ; l option o permet de spécifier le fichier qui contiendra les séquences sélectionnées ; outfile représente le nom (chemin complet) du fichier contenant la sous-base issue de l extraction ; l option r évite la redondance en éliminant toutes les séquences identiques. Les séquences éliminées sont stockées dans le fichier remfile ; l option Z est utilisée pour ne sélectionner qu une séquence trouvée par BLAST avec une E-value de 0. Il arrive que plusieurs séquences soient trouvées avec une E-value nulle, elles sont donc très proches voire identiques. Cette option permet de ne prendre qu une seule de ces séquences. Là encore le but étant de diminuer la redondance. l option e spécifie la E-value seuil, au dessus de laquelle les séquences ne sont plus sélectionnées. Lors de cette étude, le seuil est fixé de manière classique à 1e-6. Lorsque des séquences sont trouvées par BLAST avec une E-value inférieure à ce seuil, celles-ci sont considérées comme reliées et faisant partie de la même famille protéique. Elles sont donc sélectionnées. Les options a et -z permettent de spécifier un segment particulier sur la protéine requête. Seront sélectionnées les séquences qui auront des régions communes avec ce segment. Lorsqu une structure protéique PDB compte plusieurs interactions, ces options permettent de spécifier le segment protéique qui les contient toutes. Comme par exemple pour les ponts disulfures : Séquence PDB S S S S CYS 35 CYS 80 CYS 172 CYS 220 Figure 17 : schématisation d une séquence de structure connue et de deux ponts disulfures et La Figure 17 schématise une séquence avec deux ponts disulfures. Dans ce cas les bornes fixées seront a 30 z 225. On étend à +/- 5 acides aminés de chaque côté (dans la mesure du possible) afin d éviter les effets de bord dans les alignements multiples qui seront calculés avec ces séquences. Ici, la portion contient toutes les interactions. Toutes les protéines ayant une région commune à celle-ci seront ainsi sélectionnées. 69

70 l option l spécifie la longueur seuil. Seules les séquences ayant une portion commune avec la séquence requête, et ayant une longueur supérieure ou égale à cette longueur seront sélectionnées. Avec la protéine schématisée Figure 17, le seuil serait égal à ( ), soit une longueur minimale de 196. Ceci nous assure d avoir dans les alignements, les portions homologues à celles qui contient toutes les interactions dans la structure PDB. De plus, les alignements obtenus ne contiendront que peu de gaps dans les portions d intérêt. Enfin l option T, appelle une fonction d échantillonnage. Cette option permet de réaliser, à partir des résultats de la recherche BLAST, un échantillon représentatif des séquences trouvées. La fonction d échantillonnage réalise une sélection par palier : une seule séquence est sélectionnée par palier p donné par la formule : p = i= n 1 i= 1 log(e (i) ) + log(e n 1 Avec E = E-value tel que 0 < E 1e-6, n le nombre des séquences vérifiant la condition précédente. La valeur du palier p, est l écart moyen entre les log(e) successifs des séquences. Dès lors que les valeurs log(e) entre deux séquences sont distantes de p, alors la seconde séquence est sélectionnée, et est utilisée comme référence pour la sélection de la séquence suivante, etc Finalement, sont sélectionnées toutes les séquences vérifiant toutes ces conditions. Pour récapituler voici les conditions de sélection pour la constitution des sous-bases de séquences apparentées à la protéine PDB de départ : si plusieurs séquences ont une E-value nulle, une seule d entre elles est sélectionnée ; une seule séquence est sélectionnée par palier p, tant que E-value 1e-6 ; sont sélectionnées toutes les séquences ayant un segment homologue à la protéine de la PDB, équivalent à celui qui contient toutes les interactions du type considéré, avec une taille minimum ; chaque segment de séquence de la sous-base constituée est unique ; la redondance en est absente ; cette sous-base contient la protéine PDB de départ. Ce choix de sélection est issu d une longue phase de test et de mise au point pour optimiser les paramètres présentés. Ces paramètres ont été définis notamment pour maximiser la conservation des cystéines impliquées dans les ponts disulfures. Les conditions de sélection devaient refléter la très nette conservation de ces cystéines, comparativement aux cystéines réduites. Nous avons d ailleurs pu constater que ces évolutions étaient aussi visibles sur la conservation des autres interactions. Citons par exemple le paramètre de palier p. Au départ celui-ci était fixe ( p = 1 ; p = 1,1 ; p = 1,2 ). Les résultats obtenus (non présentés) ont montré qu il était préférable de l adapter aux résultats de ) (i + 1) 70

71 recherche BLAST, au cas par cas. D où la définition d un palier p pour chaque fichier. De même pour la valeur seuil de E qui fût fixée à 1e-6. De nombreux tests ont montré que cette valeur est la plus propice à de meilleurs résultats. Quand à la définition de la longueur minimum et des bornes (spécifiée avec les options a et -z ), là encore, ces paramètres ont été optimisés pour des résultats plus probants. Ce processus de sélection des séquences est une phase très critique, dans la mesure où il conditionne la représentativité des séquences dans les alignements multiples, la qualité des alignements qui seront obtenus, et donc la qualité des statistiques qui seront calculées quant à la conservation des acides aminés impliqués dans les interactions. Le but de cette phase de sélection est de permettre d obtenir des alignements multiples représentatifs des homologies présentes dans les bases de données de recherche. Nous les voulons aussi divergents que possible afin d autoriser des mutations, en espérant que celles-ci n affecteront que dans une moindre mesure, les acides aminés impliqués dans les interactions considérées. Il devrait s en suivre une plus forte conservation de ces derniers par rapport aux mêmes acides aminés libres Calcul des alignements multiples Pour chaque protéine de la PDB, la sous-base de séquences est utilisée pour calculer un alignement multiple à l aide de CLUSTALW dans sa version 1.8, avec les paramètres standards. On obtient ainsi pour chacune des protéines de la PDB, un alignement de protéines qui lui sont proches, et qui ont en commun la portion contenant les interactions d un type particulier (hydrophobes, électrostatiques, disulfures). Ces alignements vont être utilisés pour le calcul des statistiques, notamment la conservation des acides aminés impliqués dans ces interactions. Concernant l étude des cystéines, la coexistence des cystéines réduites et des cystéines oxydées étant rares, nous avons été contraints d utiliser des alignements différents pour l analyse de ces deux populations de cystéines Calculs statistiques Conservation des interactions Les interactions sont définies sur la base de la distance existant entre deux groupements chimiques. Ces interactions sont repérées à l aide du programme DSSPm (DSSP modifié) et stockées dans une banque de données. Nous avons étudié trois types principaux d interactions : les interactions électrostatiques, les interactions hydrophobes et les ponts disulfures. Lorsqu une interaction a été repérée dans une structure protéique et listée à l aide DSSPm dans le fichier résultat adéquat (allpdb25cys, allpdb25hyd3.3 ou allpdb25sb3.0), la première étape vise à identifier l interaction au sein de l alignement multiple correspondant. On considère que l interaction 71

72 est conservée dans une séquence si les deux acides aminés impliqués dans l interaction sont présents, ou si des acides aminés de même type les remplacent (mutations compensatrices). Les types des acides aminés sont répertoriés dans la Table 3 (page 62). La Figure 18 représente un alignement (fictif) et une interaction électrostatique répertoriée dans la séquence PDB entre les acides aminés R10 et D40. Dans cet alignement cette interaction est conservée à 50%. On s intéresse donc à la conservation corrélée d un couple d acides aminés et non pas à la conservation des acides aminés individuellement. La conservation f (ou fréquence) d une interaction peut être exprimée mathématiquement selon la formule :. f a(i)b(j) =N a(i)b(j) /n avec n le nombre de séquences dans l alignement, N a(i)b(j) le nombre de séquences de l alignement où un acide aminé de type a est présent à la position i et un acide aminé de type b est présent à la position j. Les types considérés dépendent de l interaction en question (Table 3 page 62). Dans le cas des interactions électrostatiques, les permutations sont considérées comme une conservation : D10-K40 équivaut à R10-E40. La représentation mathématique de f sous-entend que chaque interaction est considérée comme binaire (implique deux acides aminés), ce qui en pratique n est pas totalement vrai (sauf pour les ponts disulfures), puisque les interactions électrostatiques et les interactions hydrophobes peuvent être plus complexes et peuvent faire intervenir plus de deux acides aminés (trois ou quatre, voire davantage). Considérer plusieurs positions pour une interaction est l un des travaux qu il faudra réaliser, cependant ceci risque de compliquer singulièrement les programmes, que ce soit pour leur détection, le calcul statistique ou encore pour la réalisation de témoins de comparaison. La complexité des interactions est un paramètre relativement lourd à considérer, et pourra l être ultérieurement, si toutefois les résultats encouragent une telle démarche. séquence PDB ALTERTHTPRTLKMIEVAGIPVVELMDSKSPCLDIAVGFDNFEAAR séquence 2 DATGATNPDKISALCQQAGVPTVNLDLPGS--LSPSVISDNYGGAK séquence 3 IFTDTQGQIKISKHANECGLPTIHTPSKTK--LQPSVFYCVFPGSK séquence 4 KDDAGPCDINILGECNLSGEFWLVKPLLER--LGIRVRADIPGDAR numérotation Figure 18 : alignement fictif d une séquence PDB avec trois autres séquences. Les rectangles représentent les positions impliquées dans une interaction électrostatique au sein de la structure PDB (entre R10 et D40) Paires d acides aminés témoins «Il faut comparer ce qui est comparable». Puisque nous nous sommes intéressés à la conservation corrélée des acides aminés en interaction deux à deux, les témoins doivent reproduire ce schéma. Il 72

73 s agit de constituer des paires d acides aminés témoins, contenant des acides aminés non impliqués dans une interaction. Ce paires sont réalisées de façon aléatoire. Les témoins réalisés ici, le sont pour des raisons statistiques uniquement, et n ont aucune signification biologique. Concernant les cystéines, les paires témoins ont été réalisées avec des cystéines réduites. En ce qui concerne les interactions électrostatiques et hydrophobes, nous avons utilisé deux méthodes pour réaliser ces paires témoins. La première a consisté à repérer les acides aminés de même type et suffisamment distants. Les valeurs de distance choisies l ont été arbitrairement : ont été considérées les acides aminés distants de 15 à 16 Å. La limite inférieure nous assure d avoir des acides aminés trop éloignés pour être en contact. La distance supérieure a été fixée de façon à minimiser le nombre de paires témoins. Par ailleurs nous avons fixé une limitation : un résidu ne peut pas faire partie de deux paires témoins différentes. Cette phase a pu être réalisée grâce au programme DSSPm. Le résultat donné par DSSPm présente des interactions marquées de deux étiquettes (Figure 16, page 67). L étiquette «TRUE» marque les interactions vraies, l étiquette «FALSE» marque les paires témoins formées d acides aminés distants de 15 à 16 Å. Par la suite, nous nous sommes rendu compte que cette façon de faire n était pas adaptée, notamment pour les interactions électrostatiques : compte tenu de la taille des protéines, il est possible que deux acides aminés distants de 15 à 16 Å l un de l autre, soient à la surface, opposés l un à l autre. Or, les acides aminés chargés, présents à la surfaces des protéines, ont un rôle essentiel dans leur solvatation au sein des milieux biologiques aqueux. Ces paires témoins peuvent être particulièrement conservées et ainsi provoquer une minimisation des différences de conservation entre ces témoins et les interactions. Nous avons donc opté pour une seconde méthode de constitution des témoins : tous les acides aminés d un type donné et non impliqués dans une interaction, sont répertoriés au sein des séquences. Des paires sont formées par brassage aléatoire des positions. Plusieurs brassages sont effectués. L effet du nombre de brassage est pris en compte. Les conservations témoins ont été calculées après 10, 100, 1000 brassages. Un brassage est une étape au cours de laquelle on forme des paires entre tous les acides aminés au hasard. Lorsque on réalise 10 brassages, cette opération est réalisée 10 fois. La conservation des paires témoins est calculée après chaque brassage. La conservation témoin finale est une moyenne de toutes les conservations calculées après chaque brassage. Par exemple, lorsqu on a répertorié n acides aminés de type ACIDE et n acides aminés de type BASE dans une structure PDB, on a n(n-1) paires témoins possibles. Après 10 brassages nous avons 10n(n-1) paires témoins, après 100 brassages 100n(n-1) paires témoins et après 1000 brassages, 1000n(n-1) paires témoins, qui servent au calcul de la conservation témoin moyenne. Cette seconde méthode a permis d améliorer légèrement les résultats. 73

74 Paramètres statistiques étudiés a. Identité et conservation globale dans les alignements Il était bon de connaître l influence de l identité moyenne et de la conservation globale des acides aminés dans les alignements. En effet, on peut s attendre à des variations selon la valeur de ces taux. L identité a été estimée en comptant le nombre de positions strictement conservées (inchangées) dans l alignement. Ce nombre est divisé par la longueur de l alignement, donnant ainsi le taux d identité. La conservation globale a été estimée à l aide du programme AL2CO (Pei et al., 2001). AL2CO est un programme qui calcule un indice de conservation pour chaque position d un alignement en fonction de la fréquence des acides aminé. Afin de privilégier la ressemblance structurale des acides aminés pour le calcul de l indice de conservation, nous avons utilisé la matrice structurale HSDM (Homologous Structure-Derived Matrix, Prlic et al., 2000). La ligne de commande utilisée est la suivante : Al2CO i infile o outfile c 2 s hsdm AL2CO génère un fichier résultat (outfile), qui donne un indice de conservation pour chaque position. Un indice moyen est calculé pour chaque alignement. Dans un premier temps nous avons vérifié les possibilités du programme AL2CO à calculer un indice de conservation représentatif de l alignement. Pour cela, AL2CO a été utilisé sur les alignements test de BAliBASE, et comparé au résultats obtenus sur les alignements équivalents (avec les mêmes séquences) calculés par CLUSTALW. Les résultats (non présentés) montrent que l indice de conservation est légèrement meilleur pour les alignements de BAliBASE, démontrant la capacité du programme à calculer un indice représentatif de l alignement. Ceci montre par ailleurs l efficacité du programme d alignement multiple CLUSTALW, qui calcule des alignements proches de ceux de BAliBASE (ayant fait l objet d optimisations manuelles). Le programme AL2CO a donc été utilisé sur les alignements calculés pour les protéines de la PDB. L étude de ces paramètres permet d analyser la corrélation entre la conservation des interactions dans les alignements et l indice de conservation globale, ou l identité d un alignement. Les notions d indice de conservation globale et d identité étant proches, nous nous attendons à obtenir des résultats cohérents entre ces deux paramètres b. Accessibilité des résidus au solvant Le programme DSSP calcule l accessibilité des résidus selon l algorithme de Lee & Richards (1971). Cet algorithme (geodesic sphere integration algorithm) consiste à échantillonner la surface de la protéine au moyen d une sphère de 1,4 Å de diamètre (équivalent au diamètre d une molécule 74

75 d eau). L accessibilité calculée représente la surface totale des résidus, en Å 2 en contact avec cette sphère. L accessibilité totale d un résidu est la somme des accessibilités de ses atomes. L accessibilité relative d un résidu est sa surface accessible divisée par sa surface totale c. Structures secondaires Les structures secondaires ont été prédites pour toutes les protéines des alignements, puisque dans chaque alignement, toutes les protéines à l exception de la protéine PDB n ont pas de structure connue. En revanche pour la protéine PDB, bien qu ayant sa structure, il est plus cohérent de prédire sa structure secondaire, plutôt que de la déterminer à partir de la structure tridimensionnelle, comme DSSP le fait. Les prédictions de structures secondaires ne sont pas fiables à 100%. Les méthodes utilisées réalisent par endroit de mauvaises prédictions (30% environ). Ces erreurs sont reproductibles selon la configuration locale des séquences. Par conséquent, il est plus judicieux de prédire toutes les séquences, même celles issues de la PDB, de façon à reproduire les mêmes erreurs aux mêmes endroits. Cette constatation rejoint les résultats de Geourjon et al. (2001) : l utilisation des structures secondaires prédites est plus fiable et plus sensible que l utilisation des structures secondaires observées (obtenues avec DSSP) pour établir les relations d homologie entre des protéines distantes de structures tridimensionnelles connues. Par ailleurs, nous avons choisi d utiliser trois méthodes prédictives basées sur des algorithmes et des théories différentes ( page 47) DSC, SOPMA et PHD. La prédiction finale retenue est un consensus calculé à partir des trois méthodes. Ce consensus donne de meilleurs résultats, puisqu il a tendance à conserver les accords entre les méthodes et à atténuer les désaccords. (Table 19 page 125) Analyse de la conservation des glycines L architecture logicielle bioinformatique mise en place nous a permis d établir un diagramme de Ramachandran pour tous les résidus de la PDB (Figure 19). Cette analyse nous a conduit à définir assez grossièrement les régions favorables et défavorables du diagramme de Ramachandran (Figure 20). De par sa petite taille, la glycine est le seul résidu capable d adopter des combinaisons d angles (Φ,Ψ) qui le situent dans les zones interdites du diagramme de Ramachandran. Il nous semble donc intéressant de voir si cette spécificité est à l origine d une conservation préférentielle des glycines situées dans ces zones interdites du diagramme comparativement aux glycines ayant des valeurs de combinaison d angles (Φ,Ψ) plus favorables. 75

76 Figure 19 : diagrammes de Ramachandran pour les alanines, phényl-alanines et glycines de la PDB réalisés à l aide de DSSPm. Les zones encadrées en noires représentent les zones favorables. Les glycines témoins ont été choisi dans ces zones, les glycines d intérêt ont été choisies à l extérieur de ces zones. 76

77 Le Code 3 (page 65) présente la structure d un objet pmyaapair, utilisé pour modifier le programme DSSP. Deux variables float fglypsi et float fglyphi sont utilisées pour stocker les valeurs d angles et ainsi repérer les glycines intéressantes et les glycines témoins. C est l une des fonctionnalités qui a été ajouté au programme DSSPm. -37, ,5 138, Angle Φ (degrés) Angle Ψ (degrés) Figure 20 : Définition simplifiée de la zone défavorable du diagramme de Ramachandran. Les glycines intéressantes ont été choisies dans cette zone, les glycines témoins ont été choisies dans les zones représentées en blanc. Cette zone a été définie après observation des diagrammes réalisés pour tous les résidus de la PDB (Figure 19) Implémentation des concepts et définition des objets en C++ Cette partie technique a pour but d expliquer le travail effectué pour agencer toutes les étapes qui, à partir d une structure PDB, permettent d obtenir la conservation des interactions dans un alignement multiple contenant la séquence PDB et certaines protéines qui lui sont apparentées. Nous montrerons aussi, que le procédé mis en place a permis de réaliser une étude statistique exhaustive sur toutes les protéines de la PDB présentant entre elles moins de 25% d identité de séquence Matérialisation des interactions Le langage C++ est un langage fortement orienté objet. Les objets sont définis au sein de classes qui contiennent des données spécifiques à l objet, mais aussi des fonctions qui lui sont propres. C est 77

78 le principe de l encapsulation des données. Pour chaque protéine de la PDB, une première phase consiste à récupérer et stocker les informations concernant les interactions présentes dans la base de données générée à l aide de DSSPm. Ces données sont stockées dans un objet de classe totseq (Code 4). La fonction readtotfile_one_seq() est fondamentale. Celle-ci permet de construire un objet totseq à partir de la base de donnée, et de remplir ses champs de données qui sont la séquence PDB et le nom de la protéine (char * seq ; char * nomseq), les positions des résidus en interactions sotckées dans deux tableaux d entiers (int * pos1 ; int * pos2). Sont stockées également dans des tableaux, les accessibilités de ces acides aminés (int * acc1, int * acc2), ainsi que les éléments de structures secondaires auxquels appartiennent ces acides aminés (char * secondstruct1, char * secondstruct2). class totseq { public: void deftot_entry(char*,char*,int*, int*, bool*, int*, int*, char*, char*, int ); char* lire_entryseq(){return seq;} char* lire_entrynom(){return nomseq;} int liretotcouple(){return totcouple;} int min; int max; friend void readtotfile_one_seq(char* argvinput, char* argvoutput, char * runfile) ; void Delete_Totseq(); private: char * seq; char * nomseq; int * pos1; int * pos2; int * access1; int * access2; char * secondstruct1; char * secondstruct2; bool * value; int totcouple; }; Code 4 : définition d un objet totseq, dans le fichier totfile.h 78

79 La fonction readtotfile_one_seq() est au centre de tout le procédé : en plus de construire l objet totseq équivalent à chaque protéine et ses interactions, elle appelle toutes les fonctions qui vont dans un premier temps effectuer la recherche BLAST, puis effectuer la sélection à l aide d Extractblast, réaliser l alignement, et effectuer les calculs de conservation des interactions au sein de ce dernier. Ces étapes, à l exception de l analyse statistique, sont effectuées grâce à l utilisation de la fonction system(ligne_de_commande_unix) ( page 58) Recherche d homologie et alignement multiple Nous possédons un objet totseq qui matérialise pour chaque protéine les interactions. Après avoir crée l objet totseq, la fonction readtotfile_one_seq()appelle le programme BLAST. Avant l appel de BLAST, la séquence de la protéine PDB en question est écrite au format adéquat dans un fichier (seqout) qui servira d entrée au programme BLAST. L appelle du programme se fait à l aide de la ligne de commande suivante : system("blastall sgi -p blastp -i seqout -d /SPTrembl/trall.seq -a 4 -o blastout"); Le programme BLAST donne un fichier blastout résultat. Ce fichier sert d entrée au programme Extractblast : system("extractblast -i blastout -T -R rem -o blastselect e 1e-6 l len a start z stop -Z"), Les paramètres d extraction ont été détaillés dans le page 68. Ces paramètres d extraction permettent d obtenir une sous-base de séquences apparentées à la protéine PDB en question. La sousbase est écrite selon un format approprié dans le fichier blastselect qui sert d entrée au programme CLUSTALW (dans sa version parallèle open MP réalisée au sein de l équipe par le Dr C. Blanchet) pour calculer l alignement multiple : system ("clustalw-mp infile blastselect TYPE PROTEIN outfile align.aln"); On obtient donc un alignement multiple contenant la protéine PDB et les protéine sélectionnées automatiquement après une recherche d homologie dans SWISSPROT+SPTrEMBL à l aide de BLAST. Ces lignes de commandes ont été volontairement simplifiées. En réalité les noms des fichiers, principalement les fichiers d alignements, ont été associés à un compteur numérique pour les différencier et les retrouver aisément. Ainsi les alignements ont pu être stockés, ce qui a permis de réaliser les statistiques plusieurs fois, sans avoir à recalculer les alignements multiples pour chacune des protéines de la PDB. 79

80 Prédictions des structures secondaires Cette phase de l étude a été réalisée par le Dr. Christophe Geourjon. Il est le concepteur d un programme, écrit en Fortran, qui à partir d un alignement de séquence au format CLUSTALW, génère un fichier au format MPSA (Blanchet et al., 2000), contenant les prédictions de structures secondaires DSC, SOPMA et PHD, ainsi qu un consensus qui est la prédiction retenue Calcul de la conservation des interactions dans les alignements multiples. Des fonctions de lecture des fichiers d alignements multiples, compatibles avec les formats CLUSTALW et MPSA ont été écrites. Nous avons mis à profit les propriétés du langages C++ par la définition de deux objets principaux : l objet Sequence et l objet fileclustal. Ce choix est simple : chaque fichier d alignement multiple contient plusieurs séquences avec un nom, une séquence, et éventuellement les prédiction de structures secondaires associées. Toutes les données d une séquence sont regroupées dans un objet Sequence. Et tous les objets Sequence, sont regroupés dans un objet fileclustal représentant au fichier alignement a. L objet Sequence L objet séquence (Code 5) contient le nom de la séquence dans l alignement (char * S_seqname), la séquence dans l alignement (char * S_seq), et les prédictions de structures secondaires (char * S_secstr). Les gaps dans les séquences sont conservés. La classe d objet fileclustal est déclarée comme «amie» (friend). Ce détail technique à son importance : ceci permet d outrepasser l encapsulation, et autorisera les fonctions de la classe fileclustal, à accéder aux données privées de la classe Sequence. 80

81 class Sequence { public: Sequence(); ~Sequence(){delete []S_seqname; delete []S_seq; delete []S_secstr ;} friend class fileclustal; void defseqname(char *seq); void defseq (char *seq); void sequencedestrcuct(){delete [] S_seqname;delete [] S_seq;} char *readseqname(){return S_seqname;} char *readseq(){return S_seq;} private: char *S_seqname; char *S_seq; char *S_secstr; }; Code 5 : définition d un objet Sequence dans le fichier stat_sequence.h Les objets séquences sont construits par deux fonctions de lecture des alignements compatibles avec les formats CLUSTALW (readclustal()) et MPSA (readmpsass()). L une ou l autre est appelée automatiquement selon le type de fichier à lire b. L objet fileclustal Cet objet représente un fichier d alignement multiple (Code 6). Il contient plusieurs séquences, donc plusieurs objets Sequence sous la forme d un tableau d objets (Sequence * pclustal). Cet objet contient l identité dans l alignement (float C_alignID) et le nombre de séquences alignées (Clustal_entries). Beaucoup de fonctions sont associées à cet objet, à commencer par la fonction amie readtotfile_one_seq(). Puisque c est elle qui appelle le programme d alignement, elle construit aussi l objet fileclustal. Pour remplir les champs privés de cet objet, la fonction doit donc être déclarée amie. 81

82 class fileclustal { public: fileclustal():mask(false),c_nameformat(0),c_seqformat(0) ~fileclustal(){} friend void readtotfile_one_seq(char* argvinput, char* argvoutput,char * runfile); void displayclustal (); void displayclustalmask (); int readentries (){return Clustal_entries;} void pclustalconstruct(char*argv); void pid_mask(); void paa_conserv(char*); void paa_homol_conserv(char*); void write_clustal_file(char*); void SalBriSeek(char*,char*); void Clustal2Fasta(int); float readalignid(){return C_alignID;} void pclustaldestruct(); float Qualign(); void SbStat(totseq, int, char*, char*) ; void HydStat(totseq, int, char*, char*) ; void Couple_Stat( totseq,int,char*,char*); private: Sequence * pclustal; int Clustal_entries; Sequence * pclustal_mask; bool Mask; int C_nameformat, C_seqformat; float C_alignID; char * C_alignfilename; float m_alignquality; }; Code 6 : définition de l objet fileclustal dans le fichier stat_fileclustal.h 82

83 Les fonctions associées servent essentiellement à manipuler les fichiers d alignement multiple. Il y a aussi trois fonctions de calculs statistiques sur les interactions : SbStat(totseq, int, char*, char*) (analyse des interactions électrostatiques) HydStat(totseq, int, char*, char*) (analyse des interactions hydrophobes) Couple_Stat( totseq,int,char*,char*); Couple_Stat() sert à l analyse des ponts disulfures (elle peut aussi servir à l analyse de toutes les autres interactions). Elle est aussi beaucoup plus complexe, et permet notamment l analyse de la conservation des acides aminés individuellement, ainsi que la composition des séquences locales encadrant les positions impliquées dans les interactions. Elle fût la première à être développée, mais sa complexité se paie par sa gourmandise en terme de ressources et sa lenteur. C est pourquoi les autres fonctions (SbStat() et HydStat()) ont été développées. Celles-ci sont moins lourdes et réalisent l analyse statistique des couples d acides aminés, ainsi que le brassage aléatoire des positions pour la réalisation des témoins. Ces fonctions prennent en entrée un objet totseq, qui contient les positions des interactions dont on veut calculer la conservation. En effet, à chaque alignement correspond l objet totseq qui a servi à le constituer grâce à la fonction readtotfile_one_seq(). Du fait de la présence de gap, il y a une phase de correction des positions entre celles données par l objet totseq et les positions dans l alignement, afin de se situer au bon endroit lors du calcul de la conservation Schéma récapitulatif Grâce à l architecture logicielle mise en place (Figure 21), il a été possible de réaliser une analyse statistique exhaustive. La fonction readtotfile_one_seq() est récursive. Elle est appelée en boucle, tant que toutes les protéines de la PDB n ont pas été analysées. Si les modifications apportées à DSSP, et les lignes de code nécessaires à l élaboration d Exctrablast ne sont pas prises en compte, cette architecture représente un total avoisinant 4000 lignes de codes écrites en C++. 83

84 Base de données d interactions b allpdbcys allpdbhyd3. Protein Data Bank-25% b DSSPm d 3 allpdbsb3.0 Objet totseq system() F Blast system() F RESULTATS b CoupleStat() F SbStat() F HydStat() F IndivStat() F MotifCons() F Recalage des positions (gaps dans les alignements) Extractblast d system() F Objet fileclustal readclustal() F readmpsass() F CLUSTALW Prediction de structuctures secondaires readtotfile_one_seq() F Figure 21 : schéma simplifié de l architecture mise en place pour l analyse de la conservation des interactions structurales au sein d alignements multiples. (b) bases de données, (F) fonctions principales, (d) programmes développés Résultats Tout d abord sont présentés les logiciels développés, puisque cette phase a constitué une part importante de mon travail. Seront présentés trois logiciels, qui ont été utilisés au sein du laboratoire, et qui sont donc pleinement fonctionnels. Ces logiciels sont tous disponibles sur ma page internet personnelle (URL 26, section «Software Development»). Dans un second temps, seront présentés les résultats du travail de recherche, visant à effectuer une analyse statistique de la conservation des interactions dans les alignements multiples de séquences. 84

85 Développement logiciel a. Extractfasta La stratégie d analyse des interactions faisait intervenir au départ des recherches FASTA et SSEARCH plutôt que des recherches BLAST. Devant le manque d outil informatique pour le traitement de ces fichiers résultats, il a été nécessaire de développer ce logiciel. Son rôle est de constituer une base de données de séquences à partir des résultats de recherche FASTA ou SSEARCH obtenus. Ce programme est l équivalent d Extracblast pour les fichiers résultats FASTA ou SSEARCH. Son architecture ne sera pas détaillée, elle est très semblable à celle d Extracblast qui elle en revanche sera détaillée, puisque ce programme fût particulièrement utilisé lors du travail de recherche. Extractfasta permet de réaliser une base de données, échantillonnée et non redondante à partir des fichiers résultats FASTA et SSEARCH. Ce programme est utilisable avec une simple ligne de commande, selon les options voulues. Il est fonctionnel sous UNIX, linux et Win9X. Une différence toutefois pour Win9X : les options sont introduites avec un signe «=» supplémentaire : voici deux exemples d appels à Extracfasta : Extractfasta i fichier_fasta o fichier_result pour UNIX et linux ; WinExFasta.exe i= fichier_ssearch o= fichier_result pour Win9X En fin de traitement, Extractfasta (comme Extractblast) fournit un récapitulatif quant au nombre de séquences sélectionnées avec chaque option (Figure 23, page 91). Les fonctionnalités d Extractfasta sont détaillées dans l Annexe A (page 138). Ce sont au total 3500 lignes de codes qui ont été écrites en C++ pour l élaboration d Extractfasta. Extractfasta n est fonctionnel que pour le traitement des fichiers FASTA et SSEARCH à caractère protéique Extractblast Etant donné l utilisation importante qui a été faite du programme Extracblast, son architecture sera détaillée. Par ailleurs, ceci permettra aussi d illustrer les détails de la conception d Extractfasta puisque ces deux programmes ont des architectures voisines. Enfin, comme pour Extractfasta, seront détaillées les fonctionnalités intéressantes d Extractblast qui ont largement été mises à profit lors de l analyse statistique sur les structures tridimensionnelles protéiques a. Architecture Chaque fichier résultat BLAST contient différents alignements entre la séquence requête et la une séquence sujette trouvée par BLAST. Deux objets ont été définis lors de l écriture du code d Extractblast Blast_entry et fileblast. L objet Blast_entry matérialise un alignement (Code 85

86 7), et regroupe les informations proposées par BLAST : les noms de la séquence sujette (char * sbjname) et de la banque dont elle est issue (char * bankname), les séquences sujettes (char * sbjseq) et requêtes (char * queryseq) alignées, le z-score (float score), la E-value (double expect), le nombre de gaps dans chacune des séquences (int gapquery, int gapsbj), le nombre d identité (int identities), les positions de début et de fin d alignement pour la séquence requête (unsigned long int qstart, unsigned long int qstop) et la séquence sujette (unsigned long int sstart, unsigned long int sstop), ainsi que les indications quant au cadre de lecture pour les séquences nucléiques (char * strand_or_frame, int frame). Plusieurs fonctions sont associées à cet objet dont deux importantes : defblastentry() qui construit l objet en lui passant en argument toutes les variables qui viennent d être citées. La seconde fonction importante : readblast()va être appelée pour lire un fichier BLAST et, stocker ces variables pour les passer à la fonction defblastentry(). La fonction readblast() sert aussi à stocker les objets dans un tableau, qui est utilisé pour la construction du second objet : fileblast. class Blast_entry { public: Blast_entry(); virtual ~Blast_entry(); friend class fileblast; friend int readblast(blast_entry*&,char*,int,blastfiletype&); void defblastentry (char* bkname, char *sbname, char *qseq, char *sbseq, char *com, int id, int pos, float scx, double ex, char *strfr, BlastFileType bft); void indicate(){indicator=true;} bool readindicator(){return indicator;} void defposition(ulong sttq, ulong stpq, ulong stts, ulong stps){ qstart = sttq; qstop = stpq; sstart = stts; sstop= stps;} protected: char * bankname; char * sbjname; char * queryseq; char * sbjseq; char * comment; int identities; int positives; float score; double expect; 86

87 }; int gapquery; int gapsbj; int sbj_length; char * strand_or_frame; int frame; bool indicator; unsigned long int qstart; unsigned long int qstop; unsigned long int sstart; unsigned long int sstop; Code 7 : définition d un objet Blast_entry, dans le fichier Blast_entry.h L objet fileblast représente les informations contenues dans un fichier résultat (Code 8). Il contient trois tableaux (ou pointeurs) d objets Blast_entry : un qui contient tous les alignements du fichier BLAST (Blast_entry * pfblast), un second qui contient les alignements retenus après sélection (Blast_entry * pfblastselect), et enfin un dernier qui contient les alignements rejetés par le processus de sélection (Blast_entry * pfblastremoved). Ensuite une information particulièrement importante est le type de fichier BLAST (BlastFileType ThisFileType). Extractblast est fonctionnel avec tous les fichiers BLAST. Pour chaque type de fichiers des fonctionnalités particulières ont été implémentées et sont détaillées Annexe B (page 141). Une ligne de code, ajoutée dans Blast_entry.h permet de spécifier les valeurs possibles des variables de type BlastFileType : enum BlastFileType {blastp,blastn,tblastn,blastx,tblastx,psi_blast}; Le type de fichier BLAST est reconnu automatiquement et pour chaque objet fileblast, la valeur adéquate est affectée à la variable ThisFileType (qui est du type BlastFileType). Les fonctions associées à l objet fileblast, sont les fonctions de manipulations de fichiers et de sélection des alignements intéressants pour ensuite extraire les séquences sujettes contenues dans ces alignements. La fonction lengthextract() permet de sélectionner les séquences sujettes avec une longueur minimum. La fonction Expectextract() sert à sélectionner les séquences trouvées avec une E- value inférieure à un seuil. Les fonctions Stepextract() et StepRatioExtract1_2() réalisent des sélections par palier. La fonction STRFRextract() permet de choisir les «frames» (cadre de lecture) ou les «strands» (brin d acide nucléique avec un orientation précise) d interêt pour la sélection des séquences sujettes alignées avec ces frames ou ces strands. La fonction removal() élimine les séquences sujettes redondantes. La fonction Positionextract() quant à elle permet de définir le segment intéressant de la séquence requête. 87

88 class fileblast { public: void lengthextract(int ); void Expectextract(double ); void Stepextract(float ); void StepRatioExtract1_2(float ); void pfblastconstruct(char*, int); void displaytab(char*, int); void STRFRextract(char*); void removal(); void displayremoval(char*,int); void Positionextract(ulong,ulong); int readblastselected(){return Blastselected;} int readblastentries(){return Blastentries;} private: int Blastentries; int Blastselected; int Blastremoved; Blast_entry * pfblast; Blast_entry * pfblastselect; Blast_entry * pfblastremoved; bool selection; BlastFileType ThisFileType; }; Code 8 : définition d un objet fileblast dans le fichier fileblast.h Un total de 2500 lignes de codes en langage C++ constituent le code source de Extractblast. 88

89 Fichier BLAST readblast() F pfblastconstruct() F * PfBlast P Pointe sur Blast_entry (alignement 1) Blast_entry (alignement 2) Blast_entry (alignement 3) Blast_entry (alignement n) OP Fichier de toutes les séquences lengthextract() F Expectextract() F Stepextract() F StepRatioExtract1_2() F STRFRextract() F Objet fileblast * PfBlastselect P Pointe sur Blast_entry (Selectionné 1) Blast_entry (selectionné 2) Blast_entry (selectionné 3) Blast_entry (selectionné m) OP Fichier des séquences sélectionnées removal() F * PfBlastremoved P Pointe sur Blast_entry (rejeté 1) Blast_entry (rejeté 2) Blast_entry (rejeté 3) Blast_entry (rejeté p) OP Fichier des séquences non sélectionnées Figure 22 : architecture mise en place pour l élaboration d Extractblast. (OP) objets Blast_entry pointés, (P) pointeurs fileblast sur tableaux d objets Blast_entry, (F) fonctions. 89

90 b. Fonctionnalités Extractblast propose plusieurs fonctionnalités, qui pour certaines sont spécifiques des types de fichier BLAST. En effet, BLAST existe dans différentes versions : BLASTp est utilisé pour effectuer une recherche d homologie avec un séquence requête protéique dans une base de séquences protéiques. PSI-BLAST version améliorée de BLASTp. Il est plus sensible car il établit un profil positionnel à partir des premiers «hits» trouvés. PSI-BLAST propose donc plusieurs «run». Il faut tenir compte de ce paramètre afin de pouvoir travailler sur les séquences d un run particulier. BLASTx est utilisé pour effectuer une recherche d homologie avec une séquence requête nucléique dans une base de séquences protéiques. BLASTx réalise 6 traductions car il y a 6 frames ou cadres de lecture numérotés de 3 à +3 (trois sur le brin requête, trois sur le brin complémentaire). tblastn est utilisé pour effectuer une recherche d homologie avec une séquence requête protéique dans une base de séquences nucléiques. tblastn réalise pour chaque séquence de la base nucléique 6 traductions. BLASTn est utilisé avec une séquence requête nucléique dans une base de séquences nucléiques. Les alignements spécifient l orientation des brins (Plus/Minus strands). Il faut pouvoir sélectionner les séquences sujettes alignées selon une orientation précise de la séquence requête. tblastx est utilisé avec une séquence requête nucléique dans une base de séquences nucléiques. A la différence de BLASTn, tblastx traduit d abord la séquence requête (selon 6 cadres de lecture). Les séquences protéiques obtenues sont comparées avec les 6 traductions de chacune des séquences de la base nucléique. Extractblast reconnaît automatiquement le type de fichier BLAST à traiter et permet de travailler avec tous ces types de fichier. Avec les fichiers de type BLASTn, Extractblast permet de sélectionner les séquences sujettes alignées avec une orientation précise de la séquence requête (Plus/Minus). Avec les fichiers de type BLASTx, tblastx il est possible de choisir un cadre de lecture particulier de la séquence requête. Ne seront sélectionnées que les protéines alignées avec la traduction de la séquence protéique selon ce cadre de lecture précis. Toutes les fonctionnalités d Extractblast sont détaillées Annexe B (page 141). Extractblast est fonctionnel sous UNIX, linux et Win9X. Les conventions d appel au programme sont les mêmes que pour Extractblast (ajout d un signe «=» après les options sous WIN9X, l exécutable sous WIN9X est WinExBlast.exe). Enfin Extractblast propose aussi un récapitulatif du processus de sélection (Figure 23). 90

91 Figure 23 : récapitulatif d un processus de sélection effectué avec WinExBlast.exe (sous WIN98) BioRead Ce logiciel est l implémentation graphique des programmes Extractfasta et Extractblast. Ce programme a eu simplement pour but d aider à l analyse et la visualisation d un grand nombre de fichiers BLAST et FASTA, nécessaires au développement d Extractfasta et Extractblast. Ensuite, lorsque ces programmes étaient développés, leur code fut lié à celui de BioRead, de façon à intégrer les fonctionnalités d Extraction. Ce programme a été écrit en langage Tcl/Tk avantageux à plus d un titre : simple, rapide à coder et facilement portable. Cependant les fonctions plus complexes, nécessitent d être écrites dans un langage plus efficace : C++. Ceci est possible grâce à l utilisation d un programme «adaptateur» : Mktclapp (URL 24). BioRead est un éditeur des fichiers BLAST, FASTA et SSEARCH. Il offre une coloration des résidus conservés au sein des alignements présentés. Ceci rend les fichiers plus faciles à lire et à analyser. BioRead est une application de type MDI (Multiple Document Interface) permettant d ouvrir simultanément plusieurs fichiers. Le menu offre la possibilité d effectuer une extraction et de constituer une sous base de données. Le type de fichier est reconnu automatiquement et la disponibilité des fonctions du menu s adapte. 91

92 Figure 24 : interface graphique BioRead sous windows (WinBioRead). Ouverture d un fichier BLAST. 1- Menu adapté au fichier. 2- Coloration des noms de séquences trouvées (en bleu) et des résidus en fonction de leur conservation dans les alignements (rouge=identité, vert=similaire). 3- Jauge d état d avancement du processus de coloration. 4- Liste des fichiers ouverts (double-clique pour passer de l un à l autre). 5- Fichier affiché à l écran. L utilisateur peut étudier simultanément plusieurs fichiers, donc essayer plusieurs paramètres pour l extraction des fichiers afin de garder les plus appropriés. Pour réaliser l extraction, des boites de dialogues s affichent pour permettre à l utilisateur de paramétrer sa sélection. Il y a deux types de boites de dialogue en fonction du type de fichier (BLAST ou FASTA/SSEARCH). 92

93 Figure 25 : boite de dialogue pour l extraction des séquences depuis un fichier PSI-BLAST. 1- Options pour le fichier d entrée, résultats et éventuellement pour l élimination des séquences redondantes. 2- Options sur les positions, la longueur et la E-value seuil. 3- Options spécifiques aux fichiers PSI-BLAST, par défaut, le numéro du dernier run est affiché. 4-Options pour les fichiers BLAST de type n, x, tn, tx. Selon le type de fichier, les options s activent ou de se désactivent de façon à aider l utilisateur. 1 2 Figure 26 : boite de dialogue pour les fichiers FASTA ou SSEARCH. 1- Options pour les fichiers. 2- Options de longueur, de positions et de E-value seuil pour la sélection des séquences sujettes. Après l extraction, une petite fenêtre récapitulative informe l utilisateur sur le nombre de séquences qui ont été sélectionnées avec les paramètres choisis. Le fichier résultat est affiché automatiquement à l utilisateur. 93

94 Figure 27 : affichage du résultat et fenêtre récapitulative quant au processus de sélection des séquences. Ce logiciel a nécessité 1050 lignes de code en Tcl/Tk ainsi que 1010 lignes de codes en C++ pour la gestion des documents et le lien entre les fonctionnalités et le graphisme. Au total, si l on prend en compte Extractblast et Extractfasta, BioRead représente un peu plus de 7000 lignes de code. Ce logiciel est particulièrement simple. Il dispose encore de peu de fonctionnalités et a été développé simplement pour aider à l analyse des fichiers BLAST et FASTA, lors de la mise au point des programmes d extraction. D autres fonctionnalités seront ajoutées. Par exemple permettre à l utilisateur de sélectionner uniquement les séquences de son choix. Une autre fonctionnalité serait de présenter les résultats BLAST ou FASTA sous la forme d un alignement multiple, de façon à repérer les zones les plus conservées dans le fichier de recherche. Il serait aussi bon de donner à l utilisateur la possibilité d aligner les séquences à l aide de différents programmes (CLUSTAL, MULTALIN ) et la possibilité de visualiser les arbres phylogénétiques issus des alignements. Ainsi BioRead se voudrait aussi un éditeur d alignement multiple. Cependant, il faut souligner que d autres éditeurs très complets existent tels que ceux qui sont développés et utilisés au sein de notre équipe : MPSA (Multiple Protein Sequence Analysis ; Blanchet et al., 2000) ou encore ANTHEPROT (ANalyse THE PROTein, Deléage et al., 2001). Le logiciel BioRead n était pas un objectif mais un outil utilitaire pratique pour mettre au point les différents paramètres d Extractblast et Extractfasta. 94

95 Conservation des acides aminés dans les alignements multiples Conservation des ponts disulfures La diversité des protéines au sein d une même famille protéique s explique par la suite d événements qui ont provoqué des mutations, insertions et délétions au sein d une séquence ancestrale. Une famille protéique est un ensemble de protéines ayant des séquences plus ou moins différentes. Mais la notion de famille implique aussi que la fonction et/ou la structure ait/aient été conservée(s), malgré les évènements liés à l évolution. Trois éléments principaux ont permis cet état de chose. Le premier est dû à la dégénérescence du code génétique. Plusieurs codons codent le même acide aminé. La mutation d un nucléotide ne suffit pas forcément à changer un acide aminé. Le deuxième élément est dû à la nature des acides aminés : une mutation peut provoquer le remplacement d un acide aminé par un autre avec des propriétés biochimiques proches. Enfin le dernier élément est simplement la conservation des acides aminés clés comme les cystéines. Les processus évolutifs ont dû épargner les cystéines importantes pour l établissement et le maintien des structures tridimensionnelles des protéines. Par conséquent, une différence doit apparaître entre la conservation des cystéines réduites et la conservation des cystéines oxydées au sein d alignements multiples représentatifs de ces structures. La stratégie mise en place nous a permis d analyser la conservation des ponts disulfures dans les protéines de structure connue. Pour valider notre stratégie, nous avons vérifié que celle-ci met en évidence une conservation préférentielle des cystéines oxydées. Conservation (%) Tous les alignements alignements de moins de 10 séquences alignements de plus de 10 séquences Figure 28 : conservation des ponts disulfures (gris) et des paires témoins de cystéines réduites (hachures). 95

96 Effectifs Tous les Alignements de moins Alignements de plus de alignements de 10 séquences 10 séquences Nombre d alignements 440(SS)/282(SH) 263(SS)/161(SH) 177(SS)/121(SH) Nombre de ponts disulfures Nombre de paires témoins Table 4 : effectifs étudiés pour l analyse de la conservation des cystéines oxydées et réduites. Les alignements pour l analyse des cystéines réduites (SH) et des cystéines oxydées (SS) sont différents (cf page 71 ) La Figure 28 montre le résultat de l analyse statistique de la conservation des cystéines oxydées et des cystéines réduites. Sur l ensemble des alignements étudiés, la conservation des ponts disulfures est de 94,5% en moyenne contre 57,6% pour les paires témoins formées de cystéines réduites. Si l on considère les alignements de plus de dix séquences, cette différence s accroît puisque les ponts disulfures sont conservés à 90% alors que les paires témoins sont conservées à 35%. Il existe donc une corrélation entre la conservation des acides aminés dans les alignements multiples et leur importance pour la structure des protéines. Ces résultats prouvent la validité de la stratégie bioinformatique appliquée et de l architecture logicielle mise en place. Nous avons utilisé les mêmes outils bioinformatiques pour étudier la conservation des interactions électrostatiques et hydrophobes dans les alignements multiples. Cett étude statistique montre aussi qu il relativement rare d observer, au sein de la même protéine la présence de plusieurs cystéines réduites et oxydées. En d autres termes, si une protéine possède plusieurs cystéines, alors il y a de fortes chances pour qu elles soient toutes dans le même état d oxydo-réduction. Dans notre base de séquences, 597 protéines possèdent au moins un pont disulfure (trouvé avec le programme DSSPm). Parmi elles, seules 34 possèdent aussi au moins 2 cystéines réduites, soit 5,7% ce qui est assez faible. Nous n avons pas étudié la conservation des ponts disulfures dans le détail. Le souci majeur était de valider notre stratégie et les programmes développés Conservation des interactions électrostatiques. Comme dans le cas des cystéines, les acides aminés chargés importants pour la structure protéique doivent être conservés au cours de l évolution. Cependant les interactions électrostatiques sont beaucoup plus faibles que les ponts disulfures. De plus les acides aminés chargés ont différents rôles au sein des protéines : solvatation des molécules dans les milieux physiologiques, reconnaissance et interactions avec d autres partenaires, régulation allostérique, catalyse enzymatique... En conséquence, la conservation des acides aminés chargés ne peut pas être imputée exclusivement à leur importance 96

97 structurale. Cette étude à pour but de déterminer dans quelle mesure, le rôle structural des résidus chargés (en interactions) influe sur leur conservation. Lors de cette analyse, nous avons tenu compte de l accessibilité, de la taille des alignements, de l identité et de la conservation globale dans les alignements, afin de déterminer l influence de ces différents paramètres sur la conservation des interactions a. Conservation globale des interactions électrostatiques dans les alignements La Figure 29 montre le résultat de l analyse statistique. La conservation des interactions électrostatiques est 63,5% contre 54,3% pour les paires témoins. La différence est donc sensible, mais assez faible. La conservation varie selon la taille des alignements, puisque pour les alignements de moins de 10 séquences les interactions sont conservées à 71,2% (62% pour les paires témoins). Alors que pour les alignements de plus de 10 séquences, la conservation des interaction diminue à 55,1% (42,8% pour les témoins). La différence de conservation entre interactions et témoins croît légèrement avec la taille des alignements. Cependant, même si cette différence est réelle, elle est assez faible, et semble difficilement exploitable à des fins prédictives. Nous avons revu la définition de nos paires témoins. En effet, les paires témoins sont constituées de deux acides aminés de charges opposées distants de 15 à 16 Å. Or du fait de la taille des protéines, lorsque résidus sont éloignés d une telle distance, ils ont de fortes chances d être accessibles au solvant. Aussi leur conservation peut être imputable à leur rôle dans la solvatation des molécules, créant ainsi un biais. Conservation (%) tous alignements alignements de moins de 10 sequences alignements de plus de 10 sequences Figure 29 : conservation des interactions électrostatiques (gris) et des paires témoins (hachures) dans les alignements multiples de séquences. Les paires témoins sont constituées par deux acides aminés de charges opposés distants de 15 à 16 Å. Les témoins sont réalisés à l aide de DSSPm. 97

98 Effectifs Tous les alignements Alignements de moins de 10 séquences Alignements de plus de 10 séquences Nombre d alignements Nombre de ponts salins Nombre de paires témoins Table 5 : effectifs étudiés pour l analyse de la conservation des interactions électrostatiques. Les alignements comptant moins de quatre séquences alignées ont été exclus b. Redéfinition des témoins et effet du nombre de brassages aléatoires Nous avons redéfini les paires témoins : au sein d une séquence, sont utilisés tous les acides aminés chargés qui n interviennent pas dans une interaction électrostatique (selon DSSPm). Des paires sont formées entre des acides aminés de charges opposées de façon aléatoire par «brassage». A l issu de chaque brassage on obtient un lot de paires témoins. Nous avons aussi étudié l effet du nombre de brassages aléatoires. Effectifs Tous les alignements Alignements de moins de 10 séquences Alignements de plus de 10 séquences Nombre d alignements Nombre de ponts salins Nombre de paires témoins avec 10 brassages Nombre de paires témoins avec 100 brassages Nombre de paires témoins avec 1000 brassages Table 6 : effectifs étudiés pour l analyse de la conservation des interactions électrostatiques lors de la redéfinition des paires témoins. 98

99 conservation (%) tous alignements alignements de moins de 10 sequences alignements de plus de 10 sequences Ponts salins témoins(15-16a) témoins10 témoins100 témoins1000 Figure 30 : Effet de la redéfinition des témoins et du nombre de brassages aléatoires réalisés pour la constitution des témoins. Avec témoins(15-16a) : témoins définis à l aide de DSSPm, une paire est constituée des deux acides aminés de charges opposées distant de 15 à 16 Å de distance. Témoins10 : témoins obtenus avec 10 brassages aléatoires. Témoins100 : témoins obtenus avec 100 brassages aléatoires. Témoins1000 : témoins obtenus avec 1000 brassages aléatoires. Un brassage aléatoire est une opération au cours de laquelle on apparie de façon aléatoire tous les acides aminés chargés d une séquence. Ces acides aminés ne sont pas impliqués dans des interactions électrostatiques. Les appariements se font entre les acides aminés de charges opposées. La conservation est calculée pour chaque paire et après chaque brassage aléatoire. Les résultats présentés Figure 30 montrent que cette nouvelle définition des témoins augmente très légèrement les différences de conservation. Ces témoins sont légèrement moins conservés. Pour plus de clarté et afin de faciliter la comparaison, les résultats sont reportés Table 7. Les paires témoins nouvellement définies ont une conservation d environ 2% plus faible en moyenne que ne l était la conservation des témoins définis d après la distance entre les acides aminés (15 à 16 Å). Le nombre de brassages n a quasiment aucun effet sur les valeurs de conservation des témoins. 99

100 Conservation % Tous les alignements Alignements de moins de 10 séquences Alignements de plus de 10 séquences Ponts Témoins Témoins Témoins Témoins salins (15-16 Å) 10 Brassages 100 Brassages 1000 Brassages Moyenne Ecart-type Témoins brassés 64,37 54,28 52,22 52,28 52,20 52,23±0,04 71,20 62,00 60,24 60,31 60,23 60,26±0,05 55,05 42,76 40,39 41,18 41,13 40,90±0,44 Table 7 : résultats des conservations des interactions électrostatiques et des paires témoins avec différents nombre de brassages aléatoires. Ces résultats montrent que les acides aminés chargés impliqués dans des interactions sont plus conservés que les acides aminés chargés libres (non impliqués dans une interaction électrostatique). La différence existe, mais reste trop faible pour être mise à profit dans une méthode de prédiction des interactions électrostatiques sur la base de la seule séquence. Un autre thème de l étude concerne les permutations corrélées. Est-ce que les permutations corrélées au sein des positions en interactions sont la preuve de la présence d une interaction entre les deux acides aminés qui permutent? Les résultas présentés Table 8 montre que les acides aminés permutent légèrement plus lorsqu ils sont impliqués dans une interaction électrostatique (12,4 contre 8,07 pour les témoins). Cependant cette différence est relativement faible. Taux de permutations Ponts salins Témoins1000 Différence Tous alignements 12,41 8,07 4,33 Alignements de moins de 10 séquences 4,62 3,03 1,59 Alignements de plus de 10 séquences 26,16 17,44 8,72 Table 8 : taux de permutations corrélées pour les ponts salins et les témoins obtenus avec 1000 brassages. Le taux de permutation est le nombre de permutations observées rapportées au nombre de paires étudiés. Une permutation est observée lorsqu il y a inversion des charges impliquées dans une interaction par rapport à la séquence PDB de l alignement. A chaque fois qu il y a une inversion, une permutation est comptabilisée c. Relation entre l identité moyenne des alignements et la conservation des interactions électrostatiques 100

101 La Figure 31 montre que la conservation des ponts salins et des paires témoins augmentent avec le taux d identité dans alignements. La différence de conservation entre les interactions et les témoins est d autant plus importante que l identité moyenne dans les alignements est faible. A 5% d identité la différence atteint un maximum de 12,61 alors qu à 50% d identité elle n est que de 8% En conclusion, la divergence favorise la conservation préférentielle des interactions électrostatiques (comparativement aux témoins). Conservation (%) Différence simple Id<5% 5%< =Id <=50% 50%< =Id <=100% Figure 31 : représentation des conservations des interactions électrostatiques (gris) et de la conservation des témoins (hachures) en fonction de l identité moyenne des alignements. La droite représente la différence simple entre les conservations des ponts salins et des paires témoins, l axe des ordonnées correspondant est à droite. Les témoins sont obtenus après 1000 brassages aléatoires. Le sigle «Id» représente l identité moyenne des alignements d. Relation entre la conservation globale dans les alignements et la conservation des interactions électrostatiques L identité au sein d un alignement multiple n est pas un paramètre suffisamment fin. L identité ne prend en considération que les positions strictement conservées. Elle ne reflète pas la conservation réelle au sein d un alignement. Une position peut être conservée à 90% ou à 10%, l identité n en tient pas compte. Afin de contourner ce problème, nous avons utilisé le programme AL2CO. Ce programme calcule pour chaque position de l alignement un indice de conservation en utilisant une matrice structurale (HSDM) qui sert à pondérer les résultats. Nous avons calculé pour chaque alignement un indice de conservation moyen, représentatif du taux de conservation globale dans les alignements (cf a, page 74). Tous les alignements ont été soumis à AL2CO (Figure 32). Deux groupes d alignements ont été constitués avec des effectifs comparables (nombre et taille des alignements proches) : un premier groupe d alignement avec un indice élevé, et un second avec un indice faible (Figure 33). Les 101

102 alignements sélectionnés ont tous au moins une quinzaine de séquences, ils sont plus propices à l étude de la conservation des interactions. moyenne de l'indice Al2Co 0-0,05-0,1-0,15-0,2-0,25-0,3-0,35-0,4 Indices élevés Indices faibles -0,45-0, Nombre de séquences dans les alignements Figure 32 : indice moyen AL2CO pour les alignements utilisés dans l analyse de la conservation des interactions électrostatiques. Les points sélectionnés sont reportés sur la figure suivante. indice Al2Co moyen 0-0,05-0,1-0,15-0,2-0,25-0,3-0,35-0,4-0,45-0, Nombre de séquences dans les alignements Figure 33 : indice moyen AL2CO des alignements sélectionnés pour la constitution des deux groupes d alignements. Les ronds représentent les alignements à indice élevé, les losanges représentent les alignements à indice faible. 102

103 Nombre d alignements Nombre moyen de séquences Indice AL2CO moyen Alignements à indices faibles Alignements à indices élevés , ,04 Table 9 : alignements sélectionnés avec l indice AL2CO moyen. La Figure 34 présente les résultats de l analyse. La conservation des interactions et des témoins (1000 brassages) est plus faible dans les alignements à indice faible, ce qui est normal du fait de la plus grande divergence des séquences. En revanche la différence de conservation est d autant plus élevée que l indice de conservation est faible : pour les alignements à indices faibles (-0,29), la différence de conservation atteint 20,10% pour descendre à 13,13% pour les alignements à indices élevés (-0,04). Ces résultats confirment l observation réalisée avec l influence de l identité : la conservation préférentielle des résidus formant des interactions électrostatiques est d autant plus marquée que les séquences au sein des alignements sont plus divergentes. De plus les différences décelées sont plus élevées montrant que la similarité globale est un paramètre plus intéressant à considérer que la simple identité stricte. Conservation (%) Différence de conservation 25,00 20,00 15, , Alignements à indices faibles Alignements à indices élevés 5,00 0,00 Figure 34 : analyse de la conservation des interactions et des paires témoins (1000 brassages) en fonction de l indice de conservation moyen obtenu avec AL2CO. Les interactions sont en orange, les témoins en vert. La droite représente la variation de la différence de conservation, l axe des ordonnées correspondant est à droite. 103

104 e. Relation entre l accessibilité des interactions électrostatiques et leur conservation dans les alignements multiples En surface, les charges des résidus chargés, provoquent pour des raisons énergétiques, un recrutement de molécules d eau ou d ions qui vont servir d écran et éviter les répulsions entre charges identiques, permettant du coup la solvatation de la molécule. En revanche, dans le cœur des protéines, l absence de molécules d eau implique des contraintes énergétiques, qui favorisent l appariement des acides aminés de charges opposées, puisque le phénomène «écran» n est pas possible. L accessibilité des interactions peut donc influer sur la conservation des interactions. Afin de caractériser les interactions les plus enfouies, nous fixons un seuil arbitraire de 10 Å 2 d accessibilité. Sont considérés les interactions formées par deux acides aminés ayant une accessibilité totale inférieure ou égale à 10 Å 2. Pour ces interactions, nous retrouvons les mêmes tendances : conservation préférentielle des interaction plus nette dans les alignements les plus grands (Figure 35). Dans les alignements de moins de 10 séquences les interactions sont conservées à 82,50% contre 71,23% pour les témoins, soit une différence simple de 11,27. Alors que dans les alignements de plus de 10 séquences, les interactions sont conservées à 72,59%, et les témoins à 41,57%, soit une différence simple qui atteint 31,02%. Par conséquent, nous constatons encore une fois que la divergence tend à être plus favorable à la conservation des interactions qu à la conservation des paires témoins. Conservation (%) tous les alignements alignements de moins de 10 séquences alignement de plus de 10 séquences Figure 35 : conservation des interactions et des paires témoins formées de deux acides aminés ayant une accessibilité totale de moins de 10 Å 2. Les témoins (hachures) ont été obtenus avec DSSPm. Chaque paire témoin est composée de deux acides aminés de charges opposées distants de 15 à 16 Å. L accessibilité est déterminée à l aide de DSSPm. Les valeurs de conservation des acides aminés chargés enfouis sont plus élevées que les valeurs obtenues lors de l analyse globale (Table 10). La différence est surtout importante pour les 104

105 alignements les plus grands : elle atteint 31,02, alors qu elle n est que de 12,29 pour la totalité des interactions (indépendamment de l accessibilité des acides aminés). Ces valeurs sont cohérentes avec le fait que les d acides aminés enfouis ont intérêt à s apparier pour des raisons énergétiques et ainsi stabiliser la structure protéique. Les effectifs utilisés pour cette étude (Table 11). sont relativement réduits ce qui pose le problème de la représentativité et il faut donc considérer les résultats avec soin. Ces effectifs montrent néanmoins un élément statistique supplémentaire. Le nombre de ponts salins et le nombre de paires témoins ayant servis à l étude de l effet de l accessibilité sont comparables, puisque nous avons 277 ponts salins et 233 paires témoins. Cependant les effectifs de départ utilisés lors de l analyse globale sont loin d être égaux, puisque nous avons 3075 ponts salins et 8198 paires témoins. Or le seul critère qui a été appliqué pour la sélection des interactions et des témoins est l accessibilité, qui nous conduit aux effectifs obtenus (277 ponts salins et 233 paires témoins). Par conséquent, seuls 2,84% des paires témoins totales sont enfouies alors que cette proportion est de 9% pour les interactions salines. Ceci montre deux choses : la propension des acides aminés chargés à «éviter» les zones les plus enfouies des protéines et la propension à former des interactions lorsque les acides aminés chargés sont dans les zones enfouies. Accessibilité 10 Å 2 Analyse globale ( a page 97) Conservation (%) Ponts salins T(15-16) Différence Ponts salins T(15-16) Différence Tous alignements 79,40 59,04 20,36 64,37 54,28 10,09 Alignements de moins de 10 séquences Alignements de plus de 10 séquences 82,50 71,23 11,27 71,20 62,00 9,20 72,59 41,57 31,02 55,05 42,76 12,29 Table 10 : conservations des interactions et des paires témoins enfouies comparées aux valeurs obtenues lors de l analyse globale. Les témoins (T15-16) sont obtenus avec DSSPm. 105

106 Accessibilité 10 Å 2 Analyse globale ( a page 97) Effectifs Alignements Ponts salins T(15-16) Alignements Ponts salins T(15-16) Tous les alignements Alignements de moins de 10 séquences Alignements de plus de 10 séquences Table 11 : effectifs utilisés pour l analyse des interactions et des paires témoins enfouies comparés aux effectifs utilisés lors de l analyse globale f. Prise en compte des structures secondaires dans la définition des interactions et des paires témoins Nous avons pris en compte les structures secondaires : une paire (interaction ou témoin) est conservée si les acides aminés sont conservés et si l état structural de chacun des acides aminés est conservé. Les résultats présentés Figure 36 montrent que l on retrouve ici la même évolution en fonction de la taille des alignements : une conservation préférentielle des interactions plus nette lorsque les alignements sont plus grands (comptent plus de 10 séquences). La considération des structures secondaires tend à augmenter très légèrement les différences de conservation entre les interactions et les témoins comparativement à l analyse globale (Table 12). Rappelons que lors de l analyse globale (cf a page 97) les interactions ne sont définies que par la nature biochimique des acides aminés, les états structuraux ne sont pas pris en compte. 106

107 Conservation (%) tous les alignements alignements de moins de 10 sequences alignements de plus de 10 sequences Figure 36 : Effet de la prise en compte des structures secondaire dans les définitions des interactions électrostatiques (gris) et des paires témoins (hachures, témoins obtenus avec 1000 brassages). Conservation des ponts salins Conservation des paires témoins Différence simple Sans prise en compte des SS Avec prise en compte des SS 63,5 54,3 9,2 56,3 46,5 9,8 Table 12 : comparaison des valeurs de conservations avec et sans prise en compte des états de structures secondaires (SS) des acides aminés impliqués. Les structures secondaires sont prédites par trois méthodes : DSC (citer ou renvoi), SOPMA, PHD. La prédiction retenue est un consensus de ses trois méthodes Conservation des interactions hydrophobes a. Conservation globale des interactions hydrophobes dans les alignements et effet de la définition des témoins. Les résultats sont proches de ceux observés pour les interactions électrostatiques (Figure 37). Les interactions sont plus conservées que les témoins. La différence de conservation entre les témoins et les interactions est réelle, mais est relativement faible. De plus on retrouve la même variation avec la taille des alignements. Les conservations diminuent lorsque les alignements sont plus grands. La différence de conservation entre les interactions et les témoins croît avec la taille des alignements : cette différence est de 6,45 pour les alignements de moins de 10 séquences, pour passer à 10,8 lorsque les alignements comptent plus de 10 séquences. 107

108 Conservation (%) Tous les alignements alignements de moins de 10 séquences alignements de plus de 10 séquences Figure 37 : Conservation des interactions hydrophobes (gris) et des paires témoins (hachures) dans les alignements multiples de séquences. Les paires témoins sont constituées par deux acides aminés hydrophobes distants de 15 à 16 Å, à l aide de DSSPm. Conservation (%) alignements de moins de 10 séquences alignements de plus de 10 séquences Int. Hydrophobes témoins (15-16A) témoins10 témoins100 témoins1000 Figure 38 : Effet de la redéfinition des témoins et du nombre de brassages aléatoires réalisés pour la constitution des témoins. Avec témoins(15-16a) : témoins définis à l aide de DSSPm, une paire est constituée des deux acides aminés de charges opposées distant de 15 à 16 Å de distance. Témoins10 : témoins obtenus avec 10 brassages aléatoires. Témoins100 : témoins obtenus avec 100 brassages aléatoires. Témoins1000 : témoins obtenus avec 1000 brassages aléatoires. La Figure 38 montre l effet du nombre de brassages pour les témoins redéfinis (de la même façon que pour les interactions électrostatiques, cf b page 98). Cette nouvelle définition est assez intéressante, au moins pour les alignements de moins de 10 séquences, puisque ceux-ci sont moins conservés. 108

109 La différence de conservation est légèrement plus élevée avec les nouveaux témoins (Table 13). Pour les alignements de moins de 10 séquences, celle-ci passe de 6,45 (ancienne définition : 15 à 16 Å) à 10 (nouvelle définition : brassages aléatoires). Différence de Conservation Alignements de moins de 10 séquences Alignements de plus de 10 séquences Témoins Témoins Témoins Témoins (15-16 Å) 10 Brassages 100 Brassages 1000 Brassages 6, ,97 10,01 10,8 11,89 11,95 11,97 Table 13 : différences de conservations des interactions hydrophobes et des paires témoins avec différents nombre de brassages aléatoires. Effectifs Tous les alignements Alignements de moins de 10 séquences Alignements de plus de 10 séquences Nombre d alignements Nombre d interaction hydrophobes Nombre de témoins (15-16 Å) Nombre de paires témoins avec 10 brassages Nombre de paires témoins avec 100 brassages Nombre de paires témoins avec 1000 brassages Table 14 : effectifs étudiés pour l analyse de la conservation des interactions électrostatiques lors de la redéfinition des paires témoins b. Identité et similarité globales dans les alignements : relations avec la conservation des interactions hydrophobes. La question est de savoir si, comme dans les cas des interactions, la divergence des séquences au sein des alignements multiples est plus favorable à la conservation des interactions hydrophobes qu à la conservation des témoins. Nous avons procédé exactement de la même manière que pour les interactions électrostatiques ( a page 97). 109

110 Les valeurs de conservations augmentent lorsque l identité globale dans les alignements augmente (Figure 39), ce qui n a rien d étonnant. En revanche, la différence de conservation ne varie pas pour les alignements les plus divergents à moins de 5% d identité de séquence, et les alignements ayant entre 5 à 50% d identité de séquences. La différence est de l ordre de 8,4 pour ces deux groupes d alignements. Par conséquent, au-delà d une certaine divergence (ici à moins de 50% d identité), les mutations qui touchent les acides aminés hydrophobes semblent indifférentes à leur rôle structural. Conservation(%) Id<5% 5%< =Id <=50% 50%< =Id <=100% Différence simple Figure 39 : représentation des conservations des interactions hydrophobes (gris) et de la conservation des témoins (hachures) en fonction de l identité moyenne des alignements. La courbe représente la différence simple entre les conservations des interactions hydrophobes et des paires témoins, l axe des ordonnées correspondant est à droite. Les témoins sont obtenus après 1000 brassages aléatoires. Le sigle «Id» représente l identité moyenne des alignements. L identité donne une idée assez grossière de la divergence des séquences dans les alignements multiples. La similarité globale est une mesure plus fine que le pourcentage d identités strictes. Nous avons donc mis à profit le programme AL2CO pour étudier la relation entre la similarité globale et la conservation des interactions hydrophobes. Dans un premier temps nous avons sélectionné (comme dans le cas des interactions électrostatiques) deux groupes d alignements en fonction de l indice AL2CO moyen : un premier pour lequel la similarité globale est faible (indice faible) et un second ayant un indice moyen élevé (Figure 40). 110

111 0 A 0 B -0,1 Indices élevés -0,1 Indice Al2Co -0,2-0,3 Indices faibles Indice Al2Co -0,2-0,3-0,4-0,4-0, Nombre de séquences -0, Nombre de séquences Figure 40 : A) indice moyen AL2CO pour les alignements utilisés dans l analyse de la conservation des interactions électrostatiques. B) indice moyen AL2CO pour les alignements sélectionnés. La Figure 41 représente la relation entre la similarité globale des alignements multiples et la conservation des interactions hydrophobes. Dans les alignements divergents (indice faible), les valeurs de conservations sont plus faibles. Il en va de même pour la différence de conservation entre interaction et témoins, qui croît lorsque la similarité globale dans les alignements est plus importante. La divergence des séquences n est donc pas favorable à la conservation préférentielle des interactions hydrophobes, comme ce fût le cas pour les interactions électrostatiques. Cette constatation va dans le même sens que l observation faite concernant l identité : au-delà d une certaine divergence, les mutations sont indifférentes au rôle structural des acides aminés hydrophobes. Cette observation peut être expliquée par le fait que les acides aminés hydrophobes, contrairement aux résidus chargés, ne s attirent pas entre eux, mais se retrouvent en fuyant le milieu aqueux environnant. Il n y a donc pas de spécificité propre qui peut expliquer la conservation corrélée entre deux positions hydrophobes comme dans le cas des cystéines, ou dans le cas d acides aminés de charges opposées. 111

112 Conservation (%) Différence de conservation Alignements à indices faibles Alignements à indices élevés 0 Figure 41 : analyse de la conservation des interactions hydrophobes (gris) et des paires témoins (1000 brassages, hachures) en fonction de l indice de conservation moyen obtenu avec AL2CO. La droite représente la variation de la différence de conservation, l axe des ordonnées correspondant est à droite c. Relation entre l accessibilité des interactions hydrophobes et leur conservation dans les alignements multiples Nous avons suivi le même raisonnement que pour les acides aminés chargés. Dans le cas des résidus hydrophobes, il est intéressant d étudier la conservation, non pas des résidus enfouis, mais des résidus exposés. L exposition de résidus hydrophobes est défavorable du point de vue thermodynamique. Par conséquent, ces résidus hydrophobes exposés ont un rôle biologique expliquant leur présence, il est donc possible qu ils soient plus conservés. La Table 15 présente les résultats d analyse. Sont pris en compte les interactions formées par deux résidus hydrophobes ayant chacun une surface accessible (selon DSSP) au minimum de 30 Å 2. Ce seuil est fixé arbitrairement, afin d avoir un effectif suffisant d interactions hydrophobes exposés (Table 16). L effet de l accessibilité est très faible. D une façon générale, les interactions exposées sont moins conservées que celle qui sont enfouies, ce qui est normal, pour des considérations thermodynamiques. Cependant on peut constater que la différence de conservation est légèrement plus élevée entre les interactions et les témoins exposés qu entre les interactions et les témoins enfouis. On observe donc un très légère conservation préférentielle des interactions hydrophobes accessibles. 112

113 Accessibilité > 30 Å 2 Analyse globale ( a page 107) Conservation (%) Int. Hydrophobes T(15-16) Différence Int. Hydrophobes T(15-16) Différence Tous alignements 64,60 54,47 10,13 76,38 66,66 9,71 Alignements de moins de 10 séquences Alignements de plus de 10 séquences 71,05 65,00 6,04 80,13 73,68 6,45 62,46 50,96 11,49 75,12 64,32 10,80 Table 15 : conservations des interactions hydrophobes et des paires témoins exposées comparées aux valeurs obtenues lors de l analyse globale. Les témoins (T15-16) sont obtenus avec DSSPm. La Table 16 présente les effectifs utilisés pour l étude de l accessibilité. Une remarque intéressante, mais peu étonnante ressort de la comparaison de ces effectifs. Parmi les 6902 paires témoins de l étude globale 1240 sont constituées de deux acides aminés ayant chacun au moins 30 Å 2 de surface accessible, soit une proportion d environ 20%. Cette proportion est bien moindre pour les interactions hydrophobes puisqu elle est de 6% seulement. Ceci s explique par le fait que les interactions hydrophobes regroupent des résidus dans l espace, créant une zone hydrophobe plus importante qui a moins de chance d être accessible, alors que les témoins sont constitués de résidus distants de 15 à 16 Å. Accessibilité > 30 Å 2 Analyse globale ( a page 107) Effectifs Alignements Int Hydrophobes T(15-16) Alignements Int Hydrophobes T(15-16) Tous les alignements Alignements de moins de 10 séquences Alignements de plus de 10 séquences Table 16 : effectifs utilisés pour l analyse des interactions hydrophobes et des paires témoins exposées comparés aux effectifs utilisés lors de l analyse globale. 113

114 Conservation des glycines. La spécificité des glycines réside dans leur pouvoir à adopter des combinaison d angles (Φ,Ψ) qui les situent dans la zone interdite du diagramme de Ramachandran (Figure 20 page 77). De ce point de vue, les glycines ayant adopté ces angles peuvent être difficilement remplacées. Les logiciels bioinformatiques et l architecture logicielle développés nous ont permis de comparer la conservation des glycines dans ces zones interdites à la conservation des glycines dans les zones favorables qui font office de témoins. Cette analyse a l intérêt, en plus de son caractère exhaustif de vérifier l hypothèse de départ : les glycines des zones interdites sont plus conservées que les glycines témoins (Figure 42). La différence de conservation est sensible. Par ailleurs, la divergence est un facteur favorable à la conservation préférentielle des glycines d intérêt puisque ce sont dans les alignements les plus grands que la différence de conservation est la plus importante (les alignements les plus grands sont aussi ceux où les séquences sont les plus divergentes comme en atteste la Table 17). Les alignements multiples sont donc une des bases à considérer pour s orienter vers la prédiction des glycines dans ces zones. Ceci peut être intéressant pour orienter des expériences de mutagénèse ou pour vérifier et étoffer les moyens de prédiction des structures. Conservation (%) Tous les alignements alignements de moins de 10 séquences alignements de plus de 10 séquences Figure 42 : conservation des glycines des zones interdites du diagramme de Ramachandran (gris) comparées aux glycines dans les zones favorables du diagramme (hachures). 114

115 Tous les alignements Alignements de moins de 10 séquences Alignements de plus de 10 séquences Identité moyenne (%) 18,95 26,36 11,50 Nombre d alignements Nombre de glycines d intérêt Nombre de glycines témoins Table 17 : identité moyenne des alignements multiple et effectifs étudiés pour l analyse de la conservation des glycines. Les alignements de moins de quatre séquences n ont pas été retenus (représentants 3159 glycines d intérêt) Conclusion et discussion des résultats concernant la conservation des acides aminés au sein des alignements multiples. L analyse de la conservation des ponts disulfures est concluante puisqu elle met nettement en évidence la conservation des cystéines oxydées au sein des alignements multiples. Ces résultats démontrent le bien fondé de notre stratégie ainsi que l utilité des programmes développés. Par ailleurs, les valeurs de conservations et les différences décelées sont particulièrement élevées. Elles sont donc statistiquement significatives. Par conséquent, la conservation des cystéines dans les alignements multiples peut servir de base au développement d algorithmes prédictifs. La dernière méthode en date (Fiser et Simon, 2000) est basée sur la conservation des cystéines dans les alignements multiples. La qualité de prédiction de cette méthode s élève à 82%, démontrant l utilité de l information contenue dans une alignement de séquence pour la prédiction des états d oxydation des cystéines. La conservation des ponts disulfures est plus nette dans les alignements comptant un nombre élevé de séquences (au moins 10). Les alignements sont des outils qui représentent l effet de l évolution et les conséquences des mutations ayant aboutit à une famille protéique. Plus la famille est hétérogène, et plus les acides aminés conservés sont représentatifs et importants pour la fonction biologique et/ou le maintien de la structure protéique. Une des phases clé de notre étude est la sélection des séquences depuis les fichiers BLAST résultats. C est pour constituer des sous-bases de séquences échantillonnées et représentatives des protéines de structures connues que nous avons développé Extractblast. Ainsi, avec une procédure de sélection par palier, il est plus facile d obtenir un échantillon représentatif, non biaisé, des séquences protéiques apparentées. On obtient une sous-base non redondante, dans laquelle le but est d autoriser suffisamment de divergence, tout en maintenant la parenté structurale. Ceci explique la conservation plus nette des ponts disulfures lorsque les alignements comptent plusieurs séquences : du fait de la sélection par palier, on a une meilleure représentation de l effet de l évolution sur une protéine ancestrale. Les cystéines qui ne sont pas fondamentales au maintien de la structure ont 115

116 d autant plus de chances de disparaître que le nombre de représentants dans la famille protéique est important. A l inverse les cystéines clés, sont forcément épargnées. En autorisant donc plus de divergence, il est plus facile de mettre en évidence les cystéines oxydées, essentielles au maintien de la structure protéique. Mais trop de divergence peut aussi conduire au calcul d alignements qui ne sont pas suffisamment pertinents du point de vue biologique et donc de mauvaise qualité (longues insertions, insertions mal placées, structure secondaires non conservées ). De ce point de vue, un travail important reste à fournir pour la validation automatique des alignements multiples. Nous ne disposons actuellement pas d outil automatique permettant d estimer la pertinence biologique et la qualité d un alignement multiple. Ces constatations valables pour les ponts disulfures le sont aussi pour les interactions électrostatiques et les interactions hydrophobes. En outre c est dans la divergence que l on observe une conservation préférentielle plus marquée des interactions, même si la divergence a un effet moindre dans le cas des interactions hydrophobes. Il y a plusieurs explications à cela. Tout d abord ces interactions ne sont pas aussi fortes que les ponts disulfures. Il est toujours possible pour une protéine de mettre en place d autres interactions faibles (interactions hydrophobes, interactions électrostatiques, liaisons hydrogènes) pour compenser l absence d une interaction. Concernant les ponts salins, Musafia et al. (1995) ont étudié la conservation des ponts salins complexes (impliquant au moins trois acides aminés différents). Leur étude portait sur 94 protéines de structures connues. Leurs résultats montrent que la plupart de ces ponts salins complexes ne sont pas conservés, mais ils sont remplacés par des ponts salins proches ou par d autres interactions (interactions hydrophobes et liaisons hydrogène). De plus ces ponts salins font intervenir plusieurs acides aminés. La disparition d un ou deux acides aminés ne suffit pas toujours à l élimination du pont salin en lui même. Russell & Barton (1994), après avoir étudié la conservation des interactions électrostatiques sur 607 paires de protéines de structures connues, démontrent que beaucoup des interactions faibles ne sont pas conservées au sein des paires protéiques, bien que les protéines aient des structures proches. Leur conclusion est qu il ne faut pas chercher à expliquer la conservation des structures tridimensionnelles dans la conservation des acides aminés impliqués dans les interactions, mais plus par la conservation des caractéristiques globales (enfouissement des acides aminés hydrophobes, exposition des acides aminés chargés ). Cependant on peut faire une critique à cette dernière étude : il est difficile de parler de conservation lorsque les alignements ne comptent que deux séquences protéiques. C est d ailleurs cette opinion qui nous à amené à ne considérer que les alignements comptant au moins quatre séquences. Une autre explication de la faible conservation relative des interactions est que les structures protéiques ne sont pas figées, elles sont dynamiques. La dynamique des structures se fait par la modulation des interactions faibles. Par conséquent certaines interactions peuvent être déterminées expérimentalement et ne pas persister dans la structure de la protéine, et inversement. 116

117 Un autre élément à prendre en considération est la polyvalence des acides aminés impliqués dans les interactions. Pour les interactions électrostatiques : du fait de leur charges, les résidus sont impliqués dans différents processus : catalyse enzymatique, régulation allostérique, interaction et reconnaissance avec d autres partenaires (protéines, acides nucléiques, ligands ). Quant aux acides aminés hydrophobes, leur conservation peut être due à leur rôle dans la constitution des zones hydrophobes internes des protéines globulaires. L exclusion d eau aboutit à un abaissement de la constante diélectrique dans cette zone, favorisant les échanges électroniques, phénomènes fréquents dans les processus de catalyse réactionnelle. Ces acides aminés hydrophobes sont aussi très importants dans les interactions avec d autre partenaires, ou avec les membranes biologiques. En conséquence, il n est pas possible d imputer la conservation des acides aminés chargés ou hydrophobes uniquement à leur rôle structural, puisqu ils en ont d autres qui sont tout aussi importants pour les fonctions des protéines. En plus de l information des séquences dans les alignements, nous avons essayé d exploiter l information des structures secondaires (obtenues par prédiction à partir des séquences). Nous avons pu constater (dans le cas des interactions électrostatiques) que la considération des états de structures secondaires n améliorent que très légèrement les résultats. Leur apport est donc négligeable. Il convient de rappeler les paramètres de sélection des séquences à partir des fichier BLAST résultats pour le calcul des alignements multiples : le seuil de E-value imposé est de 1e-6. Or lorsque l on a des séquences trouvées avec des E-value inférieures à ce seuil, les structures secondaires sont conservées. Pour avoir un réel effet des structures secondaires, il serait bon de réaliser des extractions avec un seuil plus élevé comme 1e-4 par exemple (le seuil reste à déterminer de façon à optimiser les résultats). Ceci autoriserait une divergence plus grande des séquences, mais aussi une divergence plus importante des structures secondaires. Ce sont des conditions plus appropriées pour observer l effet de la prise en compte de structures secondaires, puisque les résultats précédents montrent clairement que la divergence des séquences dans les alignements offre une conservation préférentielle des interactions plus nette. De la même manière, une plus grande divergence des structures secondaires peut améliorer les résultats. Un effort important a été fourni pour réaliser une étude aussi exhaustive et objective que possible. Nous sommes malgré tout liés à la taille de la PDB et aux critères de sélections des séquences et des alignements. Néanmoins, nous considérons avoir atteint cet objectif. Les études précédentes sur le sujet sont beaucoup plus restrictives, ce qui n empêche pas nos résultats d être cohérents avec les études précédentes. Nos résultats apportent des données chiffrées aux grands principes généraux qui restent valables. Un paramètre important de notre étude sur les interactions est l accessibilité des acides aminés. En effet, la conservation des interactions electrostatiques est particulièrement importante pour les acides aminés enfouis au cœur des protéines. Ceci est probablement dû à la nature déstabilisante des charges isolées dans le cœur des protéines, du fait de l absence des molécules d eau et du phénomène d écran dont elles sont à l origine. L accessibilité est le paramètre le plus concluant puisque c est en 117

118 considérant l accessibilité des interactions et des paires témoins que les variations de conservation sont les plus importantes. Néanmoins, ce paramètre conduit à restreindre les effectifs, nous obligeant à considérer les résultats avec soin : il est difficile de généraliser, même si nos résultats sont cohérents avec les données de la littérature (résumées ci-dessous). L accessibilité reste probablement le paramètre le plus important dans le cadre du développement d un algorithme prédictif. La corrélation entre l accessibilité des résidus et la conservation des interactions électrostatiques dans les alignements multiples a fait l objet d autres travaux. Schueler & Margalit (1995) ont réalisé leur étude sur 8 familles de protéines de structures connues. L études des ponts salins conservés et des ponts salins non conservés dans les structures n a révélé aucune différence de conservation dans les alignements multiples, même en considérant les éléments de structures secondaires impliqués. Toutefois, ils ont mis en évidence le fait que la conservation des interactions électrostatiques dans les alignements multiples est d autant plus forte que les acides aminés impliqués sont enfouis. Cette constatation est aussi retrouvée dans les travaux de Fiser & Simon (1996) portant sur 81 protéines de structures connues. Cependant, ces travaux s attardent plus sur la conservation individuelle des acides aminés plutôt que sur la conservation des interactions. Enfin, concernant l accessibilité, plusieurs expériences de mutations, ont montré que les ponts salins en surface ont un rôle mineur dans la stabilité des structures protéiques (Horovitz et al., 1990 ; Sali et al., 1991). Ainsi, si les interactions en surface ne sont pas essentielles, elles peuvent disparaître sans trop de conséquences pour la stabilité protéique. Quant aux interactions hydrophobes nous avons retrouvé des notions déjà démontrées. La première est la propension des acides aminés hydrophobes à fuire le solvant pour se retrouver dans les zones enfouies des protéines, allant dans le sens de travaux de calorimétrie à haute résolution, de mutagénèses dirigées (Matsumura et al., 1988 ; Kellis et al., 1989), de mécanique statistique (Wertz & Schegara, 1978 ; Guy, 1985) ou encore d étude de conservation des résidus topohydrophobes dans les familles structurales (Poupon & Mornon, 1998). Une autre observation cohérente avec les données de la littérature, concerne la bonne conservation du caractère hydrophobe indépendamment de l accessibilité des résidus (Ladunga & smith, 1997 ; Lawrence et al., 1987), puisque nous avons montré que l accessibilité n a qu une influence négligeable sur la conservation des interactions hydrophobes. Un élément n a pas été pris en compte lors de l étude de la conservations des interactions : le nombre d acides aminés qui séparent les acides aminés impliqués dans les interactions. De ce point de vue, l étude de Brocchieri & Karlin (1995) montrent qu il y a une corrélation entre la distance des acides aminés impliqués dans les interactions et leur accessibilité : les acides aminés enfouis en interaction sont généralement éloignés c est à dire séparés au minimum de 20 acides aminés voire au delà de 50 résidus (interactions hydrophobes). Inversement pour les interactions de surfaces (interactions électrostatiques) qui sont formées d acides aminés proches : séparés de 1 à 4 acides aminés. 118

119 Concernant l étude des glycines, nous avons montré que lorsque celles-ci sont dans les zones défavorables du diagramme de Ramachandran, elles ont tendance à être plus conservées dans les alignements multiples. Et ceci est d autant plus vrai que les séquences des alignements divergent. Cependant, la conservation de ces glycines n est pas aussi importante que nous l espérions : ces résidus dans les zones interdites du diagramme de Ramachandran sont difficilement remplaçables. Dès lors comment peut-on expliquer que la différence de conservation entre les glycines dans les zones défavorables du diagramme et les glycines témoins soit aussi faible? De récents travaux de Pal & Chakrabarti (2002) apportent certaines précisions à ce sujet. Ces glycines peuvent être remplacées par des résidus tels que Ser, Asn, Thr et Cys qui se situent en bordure d hélice ou de feuillet et sont généralement pris dans des interactions faibles, expliquant l adoption de couples (Φ,Ψ) dans les zones défavorables du diagramme. Dans cette étude des acides aminés à rôle structural, nous retrouvons un caractère particulièrement important qui est la divergence des séquences. Il convient donc d essayer de mettre à profit ce critère pour l étude des séquences protéiques, de façon à en tirer autant d informations structurales que possible Perspectives Ce travail montre que les alignements multiples de séquences contiennent de l information, et représente des outils qui peuvent aider à mieux exploiter les séquences protéiques afin d en tirer autant d informations structurales que possible. Nous avons mis en évidence la tendance des acides aminés particuliers pour la structure (en interaction et glycine dans les zones interdites) à être plus conservés que leurs homologues lorsqu ils n ont pas ce rôle structural. Cependant ces résidus n ont pas toujours uniquement ce rôle structural, expliquant que ces conservations ne sont pas exploitables pour la mise au point d algorithmes prédictifs, qui permettrait à partir d une séquence de prédire les positions en interaction. Une constatation particulièrement intéressante qui ressort de ce travail est que la divergence favorise la conservation des acides aminés clés pour la structure protéique. Il est intéressant de pouvoir exploiter des alignements de séquences apparentées aussi divergentes que possibles. Il faut donc être capable de constituer de tels alignements et de disposer de moyen de valider ces familles structurales à bas taux d identité. De ce point de vue, les outils de validation automatique manquent. Une première perspective est de développer un tel outil. C est ce qui sera exposé dans la suite de ce rapport. Une autre perspective intéressante, consiste à voir s il est possible (bien que ne pouvant développer un algorithme prédictif des interactions), de trouver des interactions par comparaisons. La méthode consisterait à prendre en compte les informations contenues dans la PDB, sous la forme d une base de données d interactions comme celle constituée lors de ce travail. Sont réalisées, à partir 119

120 d une séquence, toutes les paires de résidus de charges opposées, ou de résidus hydrophobes. Ensuite en prenant en compte l accessibilité prédite, la distance entre les résidus, les structures secondaires prédites d essayer de retrouver des interactions dans la base précédemment constituée. En croisant les résultats pour les interactions hydrophobes, les interactions électrostatiques, voir les liaisons hydrogènes, il devrait être possible de repérer des protéines de la PDB correspondantes pour tous les types d interactions. Le système aurait l avantage d être rapide et d être indépendant des séquences. Les applications peuvent être diverses : amélioration de la qualité des modèles et des outils de modélisation, validation des alignements multiples structuraux. Un autre champ d application peut être la recherche d empreinte à bas taux d identité. L un des problèmes qui se pose est que pour la recherche d une empreinte structurale, la première étape est systématiquement une recherche d homologie sur la base des séquences à l aide d outils tels que BLAST ou FASTA. Nous sommes contraints de passer par les séquences et donc limités par les possibilités de détection de ces programmes de recherche d homologie. Certes, l utilisation d autres informations en aval de ces programmes, comme les structures secondaires prédites, permet de discriminer à bas taux d identité entre homologues structuraux et faux positifs. Malgré tout, la première étape de recherche de similarité sur la base des séquences reste le facteur limitant. Une recherche d homologie, sur la base de la conservation des interactions tridimensionnelles (même prédites), pourrait permettre dans certains cas de s affranchir des limitations des programmes comme BLAST ou FASTA et de détecter des homologues que ces programmes ne détectent pas à partir des séquences. Ceci peut s avérer particulièrement intéressant dans le cas de modélisation moléculaire par threading ou par homologie notamment pour les protéines dites «orphelines» (qui n ont pas d homologue structuraux après recherche sur la base des séquences). Tout la question est de savoir dans quelle mesure un tel outil peut être mis au point et dans quelle mesure il est possible de faire confiance à l utilisation d un tel outil. 120

121 121

122 3. Validation des familles structurales à bas taux d identité, à l aide d alignements multiples et des prédictions de structures secondaires. La classification des protéines sur la base de leur séquence est un moyen est très fiable pour caractériser les protéines. Cependant, cette stratégie est limitée par la divergence des séquences. Etablir la parenté entre les protéines d après les séquences n est possible que lorsque la similarité est au minimum de 25%. Dans le cas contraire, les séquences ne suffisent pas pour établir les relations biologiques entre les protéines. A bas taux d identité, Geourjon (et al., 2001) ont montré que l étude de la compatibilité des structures secondaires peut être utilisé pour la comparaison de deux séquences ( page 39). Nous avons voulu étendre l observation aux alignements multiples à forte divergence, composés de séquences présentant de faibles similarités. Ces alignement très divergents ne sont pas toujours pertinents du fait de la présence de séquences non reliées aux autres du point de vue biologique. Il serait profitable de pouvoir détecter une séquence intruse dans les alignements multiples, lorsque les taux d identité entre cette séquence et les autres ne permettent pas d établir une discrimination fiable. Nous avons développé un moyen automatique pour valider les familles structurales de protéines au sein d alignements multiples à bas taux d identité (10 à 30%). Notre méthode consiste à analyser l accord des structures secondaires prédites sur les séquences alignées. Nous montrons qu il est alors possible de détecter au sein d un alignement multiple à bas taux d identité les séquences n ayant pas de lien structural avec les autres séquences de l alignement, et ainsi de valider les familles structurales à bas taux d identité Matériel et méthodes Stratégie. Est ce que le paramètre de compatibilité de structure secondaire SOV (Structural OverLap ; Rost et al., 1994) peut efficacement permettre la validation des familles structurales à bas taux d identité? Quelle est la limite d utilisation de ce paramètre? Pour répondre à ces questions, nous avons développé une stratégie qui consiste à comparer le SOV calculé sur des alignements de référence. Ce SOV est comparé à un SOV témoin, calculé sur des alignements témoins. Pour chacun des alignements de référence, nous avons procédé en trois étapes. Les alignements témoins sont obtenus à partir des alignements de référence, dans lesquels une séquence est modifiée, par brassage aléatoire, de sorte qu elle ne soit pas reliée aux autres séquences du point de vue biologique. Ensuite les structures 122

123 secondaires sont prédites sur les séquences alignées. Enfin les paramètres SOV sont calculés et comparés par le calcul d une différence corrigée : SOV Alignements de référence. Les alignements de référence sont des alignements structuraux. L alignement structural est plus pertinent du point de vue biologique lorsque le taux d identité est bas, puisqu il est obtenu après superposition des structures tridimensionnelles, assurant un alignement optimal des séquences de sorte que la structure, et éventuellement la fonction soient conservées. Deux sources principales d alignements structuraux ont été utilisées : la base SSSD (Friedberg et al., 2000) et BAliBASE (Bahr et al., 2001) SSSD La base SSSD est obtenue à partir de la base de données d alignements structuraux DAPS (Distant Aligned Protein Sequences, Rice et Eisenberg, 1998 ; URL 25). SSSD contient 126 paires de structures alignées ayant en moyenne 12% d identité de séquence (8 à 13%) et ayant plus de 30 résidus, avec des taux de gap variables (0 à 60%). Ces alignements incluent des structures protéiques déterminées avec une résolution minimale de 3.5 Å. La similarité entre les séquences pour chacune des 126 paires de séquences alignées est en dessous du seuil de détection de l algorithme de programmation dynamique de Smith & Waterman BAliBASE BAliBASE (version 1.0) est une base d alignements structuraux multiples contenant 5 groupes d alignements ou références constitués de 142 alignements structuraux (Table 18). Les alignements de la référence 1 contiennent des séquences de longueurs proches, équi-distantes du point de vue de leur similarité, et le pourcentage d identité des séquences deux à deux se situe dans un intervalle précis. Les alignements de la référence 2 contiennent des séquences très proches ayant au minimum 25 % d identité par paire, ainsi que des séquences «orphelines» qui sont reliées à la famille protéique du point de vue de leur structure, mais avec des séquences divergentes puisqu elles ont au maximum 20% d identité avec les autres séquences de l alignement. Les alignements de la référence 3 contiennent jusqu à quatre familles protéiques par alignement avec un maximum de 25% d identité entre deux séquences provenant de différentes familles. Les références 4 et 5 contiennent des alignements présentant des longues extensions aux extrémités N-terminales ou de longues insertions aux extrémités C-terminales. Toutes ces références ont été crées dans le but de couvrir la plupart des cas biologiques et des difficultés que peuvent rencontrer les programmes d alignement, offrant ainsi des alignements 123

124 «tests» pour apprécier la qualité des programmes d alignements multiples (Karplus & Hu, 2001 ; Thompson et al., 1999). Nombre d alignements Référence 1 <100 residus 200<300 residus >500 residus Taux de gap (%) Séquences éliminées Id<25% (set1) / <Id<40% (set2) / Id>35% (set3) / Référence / Référence / Extensions (ref. 4) Insertions (ref. 5) Alignements Taux de gaps / / Séquences éliminées Table 18 : status de BAliBASE version 1.0. Nombre d alignements dans chaque référence. (source : Thompson et al., 1999). Pour chaque alignement, le taux de gaps moyen est calculé pour chacune des séquences. Cette moyenne est obtenue à partir de toutes les paires possibles entre cette séquence et toutes les autres de l alignement. Si le taux de gap moyen est supérieur à 30%, la séquence est éliminée de l étude (les paramètres SOV calculés avec ces paires ne sont pas considérés). Ces deux sources d alignements structuraux ont été utilisées car elles sont complémentaires. En effet, les alignements SSSD présentent des alignements de deux séquences avec des taux d identité relativement constants et des taux de gap variables, ce qui permettra de connaître l influence du taux de gap sur le pouvoir discriminant du paramètre SOV. Les alignements de BALiBASE quant à eux permettront d étudier la corrélation qu il existe entre le taux d identité des séquences et le paramètre SOV au sein d un alignement multiple Compatibilité des structures secondaires La compatibilité des structures secondaires a été déterminée par le calcul du paramètre SOV ( page 39) Prédiction des structures secondaires Le calcul du paramètre SOV nécessite de disposer des structures secondaires des séquences protéiques. Celles-ci ont été déterminées par l utilisation de trois méthodes prédictives : SOPMA (Geourjon & Deleage, 1995), DSC (King et al., 1997) et PHD (Rost et al., 1994). L utilisation de 124

125 plusieurs méthodes de prédiction basées sur des théories totalement différentes permet de dégager une prédiction consensus dans laquelle les accords entre les méthodes sont généralement plus conservés que les désaccords. La prédiction finale obtenue est plus cohérente, puisque en tenant compte de théories différentes, on y retrouve les prédictions identiques ou proches données par toutes les méthodes. Q3 % Méthode de prédiction Coil Hélice Feuillet Moyenne SOPMA DSC PHD SOPMA-DSC-PHD* *Prédiction consensus basée sur les trois autres méthodes, calculée sur NPS@ (Combet et al., 2000) Table 19 : qualité de prédiction des méthodes de prédiction des structures secondaires. Q3 est la qualité de prédiction lorsque trois états sont considérés (Hélice, feuillets, Coil) Calculs des alignements témoins et des paramètres SOV Les alignements témoins sont générés à partir des alignements de référence, et contiennent une séquence «intruse», qui n a aucun lien biologique avec les autres séquences de l alignements. Dans le cas des paires alignées de SSSD, chaque alignement permet d obtenir deux groupes d alignements témoins. Le premier groupe d alignements contient la séquence 1 native et la séquence 2 modifiée. Celle-ci est obtenue en attribuant, de façon aléatoire, les positions aux acides aminés qui constituent la séquence 2, en conservant les pourcentages d identité et de gap entre les deux séquences. Le but de cette étape vise à éliminer la parenté structurale entre les séquences. Cette opération est réalisée trois fois, donnant lieu à un premier groupe de trois alignements. Le deuxième groupe d alignements témoins est construit de la même manière, avec les séquences 1 modifiées et les séquences 2 natives. Le paramètre SOV est calculé sur les six paires d alignements témoins et pour l alignement réel. Ce procédé est appliqué à tous les alignements de SSSD. 125

126 Attribution aléatoire des positions aux acides aminés de la séquence 1 et 2 en conservant les taux d identité et de gap constants. Séquence 1 Séquence 2a Séquence 1 Séquence 2b SOPMA DSC PHD SOPMA DSC PHD SOV1_2a SOV1_2b Séquence 1 Séquence 2 Alignement SSSD de référence Séquence 1 Séquence 2c Séquence 1a Séquence 2 SOPMA DSC PHD SOPMA DSC PHD SOV1_2c SOV2_1a Séquence 1b Séquence 2 SOPMA DSC PHD SOV2_1b Séquence 1c Séquence 2 SOPMA DSC PHD SOV2_1c Sov réel Ecartype Sov témoin Ecartype Figure 43: calculs des paramètres SOV réels, des alignements témoins et des paramètres SOV témoins. Les séquences aléatoires (pointillés) sont obtenues par brassage aléatoire d une séquence de l alignement de référence (trait plein). Lors du brassage, les taux de gap et d identités doivent rester constants. Pour chaque séquence, l opération est répétée trois fois, pour compenser l effet du hasard. Ainsi, pour chaque alignement de SSSD, on obtient six alignements témoins. Les structures secondaires sont prédites, et les paramètres SOV sont calculés. Le SOV témoin moyen obtenu avec les alignements témoins est comparé au SOV réel moyen obtenu avec les alignements SSSD, par le calcul de la différence corrigée : SOV = SOV réel (SOV SOVréel SOVtémoin Avec SOV réel : la moyenne des SOV sur les alignements réels ; σ SOVréel : l écart-type sur SOV réel ; SOV témoin : la moyenne des SOV sur les alignements témoins ; σ SOVtémoin : l écart-type sur SOV témoin. témoin + σ + σ ) Le même processus est appliqué aux alignements multiples de BAliBASE (Figure 44). Pour chaque alignement multiple, le paramètre SOV réel est calculé pour toutes les paires de l alignement, il est comparé au SOV témoin obtenu à partir de toutes les paires témoins possibles, dans lesquelles une séquence à été modifiée de façon aléatoire. Ainsi pour un alignement multiple de n séquences, on obtient au total n(n-1) paires témoins possibles. Ces paires sont recalculées trois fois, soit un total de 3n(n-1) paires témoins sur lesquelles un SOV témoin moyen est calculé. 126

127 Alignement mutliple de BAliBASE n=3 séquences séquence réelle 1 séquence Sov1_2 brassée 2 séquence ignorée 3 séquence brassée séquence réelle 1 Sov2_1 2 séquence ignorée 3 Gaps et Identité 1 Gaps et Identité constants entre 2 constants entre 1 et et 3 1 entre 2 et 1 2 entre 2 et 3 3 Sov1_3 Sov2_3 séquence brassée séquence Sov3_1 ignorée séquence réelle entre 3 et 1 2 entre 3 et 2 3 Sov3_2 n(n-1)x3 = 18 alignements témoins Figure 44 : obtention des alignements témoins avec un alignement multiple de BAliBASE. La séquence en pointillés est obtenue par brassage aléatoire, en conservant les taux de gap et d identité constants avec la séquence en trait foncé. La séquence en trait clair est ignorée. L opération est réalisée avec toutes les paires possibles. Pour chaque paire, l opération est répétée 3 fois Résultats Grâce à la complémentarité des bases d alignements de référence, nous avons pu étudier l effet du taux de gap sur le pouvoir discriminatoire du paramètre SOV (SSSD). Nous avons ensuite mis en évidence l effet du taux d identité dans les alignements multiples sur les valeurs de SOV (BAliBASE). Nous avons ainsi pu déterminer les limites d utilisation du paramètre SOV ainsi que son apport sur des alignements multiples de séquences protéiques pour aider à valider les familles structurales à bas taux d identité Comparaison des SOV réels et des SOV témoins SSSD Afin de déterminer l influence du taux de gap dans les paires de séquences, la différence corrigée SOV est représentée en fonction du taux de gap dans les alignements (Figure 45). 127

128 SOV % SOV réel et SOV témoin pour SSSD Taux de gap (%) A sov % SOV pour SSSD Taux de gap (%) B Figure 45 : valeurs de SOV pour SSSD. A) SOV réel (carrés) et SOV témoin (cercles) sur les alignements de référence de SSSD et les alignements témoins (Figure 43). B) Comparaison à l aide de la différence corrigée SOV. Il apparaît une différence significative entre les SOV réels et les SOV témoins. Il est possible à l aide du paramètre SOV de discriminer, dans une zone de 8 à 13% d identité, les paires de séquences biologiquement reliées de celles qui ne le sont pas jusqu à un taux de gap de 30%. Au delà, SOV n est plus suffisant pour permettre une discrimination fiable. Nous remarquons aussi que SOV est d autant meilleur que le taux de gap est faible, ce qui est compréhensible dans la mesure où, il n est pas possible de d affecter une structure secondaire à un gap. En présence de gaps, le SOV réel diminue rendant SOV trop faible pour être discriminant BAliBASE L étude des variations du paramètre SOV sur les paires de séquences de SSSD nous a permis de définir un seuil maximum de gap à 30%. Ce seuil est appliqué aux alignements de BAliBASE. Pour chaque alignement, et pour chacune des séquences, le taux de gap moyen entre cette séquence et les autres séquences de l alignement est calculé. Pour les séquences des alignements des références 1 à 3, ce taux de gaps moyen est inférieur à 30%. Ces séquences sont donc toutes incluses dans l étude. Les extensions dans les alignements de la référence 4 nous ont conduit à écarter 73 séquences (la référence 4 comptent 108 séquences dans 12 alignements). Pour ces 73 séquences le taux de gap moyen est supérieur à 30%. De même pour la référence 5 (qui compte 100 séquences dans 12 alignements), nous avons écarté 16 séquences de notre étude. Au total ce sont que 92 % de l effectif de BAliBASE qui présentent un taux de gap inférieur à 30% (Table 18 page 124) et qui ont donc été utilisés dans notre étude. BAliBASE, en fournissant des alignements représentatifs de divers cas biologiques, sous la forme d alignements multiples ayant des taux d identité variables, nous a permis d étudier les possibilités discriminatoires du paramètre SOV en fonction des taux d identité des alignements multiples. Nous avons pu constater pour toutes les références qu au dessus de 30 à 40% d identité, le paramètre SOV 128

129 ne permet plus de distinguer de façon fiable, au sein d un alignement multiple, la présence d une séquence «intruse» n ayant pas de lien biologique vrai avec le reste des séquences de l alignement (Figure 46-A). Notons aussi que le pouvoir de discrimination du paramètre SOV est d autant plus fort que le taux d identité est faible, SOV passe de 17% à 10% d identité de séquence pour descendre à 9% lorsque l identité est de 40% (Figure 46-A). Cette tendance générale que l on observe pour tous les alignements de BAliBASE se retrouve aussi sur les références considérées de façon individuelle, avec néanmoins certaines variations. Nous constatons notamment que de SOV tend à s atténuer plus rapidement pour la référence 1 (Figure 46-B,C,D) puisque à 40% d identité, SOV est de 1,3%, alors qu il est de l ordre de 15% pour les références 2 et 3 (Figure 46-E,F), 7% pour la référence 4 et enfin 5 % pour la référence 5 (Figure 46-G,H). Finalement, la courbe obtenue avec BAliBASE dans son ensemble (Figure 46-A), peut servir de courbe de calibration de SOV identité-dépendante. Lorsqu une séquence présente un taux d identité moyen dans alignement multiple, pour prédire cette séquence comme reliée aux autres, celle-ci doit avoir un SOV calculé supérieur à celui donné par la courbe étalon de BAliBASE, au même taux d identité. Dans le paragraphe suivant, un exemple illustre l utilisation de cette courbe et l efficacité des prédictions du paramètre SOV. 129

130 20 BAliBASE A 35 Référence 1 set 1 B Sov Identité (%) entre les séquences 2à 2 Sov Identité (%) entre les séquences 2à Référence 1 set 2 C Référence 1 set D Sov 10 5 Sov Identité (%) entre les séquences 2à 2 Identité (%) entre les séquences 2à 2 Sov Référence 2 E Référence Identité (%) entre les séquences 2à 2 Sov Identité (%) entre les séquences 2à 2 F Référence 4 G Référence H Sov Sov Identité (%) entre les séquences 2à 2 Identité (%) entre les séquences 2à 2 Figure 46: représentations graphiques de SOV en fonction de l identité moyenne entre les séquences deux à deux. 130

131 3.3. Exemple d application biologique Afin de vérifier concrètement l utilité du paramètre SOV pour valider les familles structurales à bas taux d identité nous avons choisi de démontrer l efficacité du paramètre SOV, en utilisant PSI- BLAST (Altschul et al., 1997 ; page 39). Ce programme est reconnu pour être l outil de recherche d homologues distants, basé sur les séquences, le plus performant. Ce programme est donc le candidat idéal pour comparer les résultats et démontrer l efficacité du paramètre SOV. La protéine Q925W1 est un inhibiteur de protéase à serine de 346 résidus. Une recherche d homologie est effectuée à l aide de PSI-BLAST (version 2.2.1) dans la base de données TrEMBL (version 70). Toutes les séquences trouvées dans le dernier «run» (#4) sont sélectionnées si elles sont trouvées avec une E-value supérieure à 0,01, et si elles présentent une région commune d au moins 150 résidus entre les positions 30 et 200 de la protéine Q925W1. Ce sont donc les séquences les plus divergentes qui sont sélectionnées, séquences pour lesquels les paramètres statistiques ne permettent pas de se prononcer sur la parenté entre ces protéines et la protéine Q925W1. Toutes ces séquences sont alignées, les structures secondaires sont prédites et les paramètres SOV et SOV sont calculés (Table 20). Lorsque la E-value est élevée (0,01 à 10), il n est pas possible d établir le lien biologique entre les protéines en se basant sur les E-values ou sur les taux d identités. Ceci est particulièrement vrai pour la protéine Q9UZM4, trouvée avec une E-value de 0,18, alors que les prédictions du paramètre SOV identifient clairement cette protéine comme non reliée à la famille biologique de Q925W1. En effet, en appliquant un SOV seuil de 60% il est possible d établir la parenté structurale entre des protéines, même à bas taux d identité (Geourjon et al., 2001). Or Q9UZM4 présente un SOV moyen calculé (sur les séquences de l alignement multiple) de 40%, elle n est donc pas reliée à la famille de Q925W1. Ceci illustre le fait que le paramètre SOV est utilisable sur des alignements multiples. De plus, les valeurs de SOV, étayent cette prédiction. Pour Q9UZM4, SOV est de 11 et le pourcentage d identité moyen pour cette séquence dans l alignement multiple est de 11%. Or à 11% d identité, le seuil minimum de SOV (déterminé avec BAliBASE) est de 17. Par conséquent, Q9UZM4 ne présente pas un SOV suffisant pour être rattachée à la famille de Q925W1. Par ailleurs, il est possible d effectuer une comparaison entre Q9UZM4, Q29014 et Q9AU61, puisque ces trois protéines ont des taux d identité moyens quasi-identiques, de l ordre de 10% (Figure 47). Nous pouvons constater que Q29014 et Q9AU61 présentent des valeurs de SOV supérieures au seuil minimum. Elles sont donc prédites comme reliées à la famille de Q925W1. Il est important de noter que les valeurs de E-values pour ces protéines sont supérieures à celle de Q9UZM4. D un point de vue statistique, selon PSI-BLAST, ces deux protéines ont moins de chances d être liées à Q925W1 que Q9UZM4. Malgré cela, les prédictions du paramètre SOV affectent correctement la parenté à chacune 131

132 des protéines, démontrant toute l efficacité et l utilité de ce paramètre. Les prédictions du paramètre SOV, sont appuyés par les résultats obtenus avec SCOP (version 1.59). Nom Psi-Blast Evalue Psi-Blast Identité Overlap Id Sov Sov Seuil minimal Sov (BAliBASE) Prédiction classification SCOP Q925W1 (Requête) ,5 Réliée Lipocalin Q9DBJ9 1E ,5 Réliée Lipocalin Q , ,5 Réliée Lipocalin Q , Reliée Lipocalin Q , ,9 Reliée Lipocalin Q9UZM4 0, ,1 Non Reliée P-LOOP nucleotide triphosphate hydrolase AAL , ,8 Reliée Lipocalin Q9SM43 1, Reliée Lipocalin Q , ,5 Reliée Lipocalin AAL , ,8 Reliée Lipocalin Q9AU61 7, Reliée Lipocalin Table 20 : SOV et SOV pour les protéines sélectionnées à l issue de la recherche PSI-BLAST (version 2.2.1). La protéine requête est Q925W1. La base de données de recherche est TrEMBL (version 70). Le sigle Id (colonne 5) représente l identité moyenne d une séquence avec les autres séquences de l alignement multiple. Les protéines sont alignées à l aide de ClustalW (version 1.8), les paramètres SOV sont calculés sur le serveur NPS@. La seuil minimum de SOV est déterminé en utilisant la courbe de calibration de BAliBASE (Figure 47- A). Toutes les protéines, à l éxception de Q9UZM4, sont prédites comme reliées à Q925W1, puisque les valeurs de SOV sont supérieures au seuil minimal de BAliBASE. Q9UZM4, Q29014, Q9AU61 (gras) présentent une identité moyenne de 10% dans l alignement multiple. Q29014 et Q9AU61 sont prédites comme reliée. Il faut aussi remarquer que ces protéines sont trouvées avec des E-values plus élevées que Q9UZM4. Les résultats de SCOP (version 1.59 ; URL 14) permettent de vérifier la cohérence des prédictions du paramètre SOV. Ces résultats démontrent que les structures secondaires prédites, aident à détecter les intrus dans un alignements multiples, même lorsque les taux d identité entre les séquences sont faibles. En conséquences, le paramètre SOV est un outil qui permet la validation de familles structurales à bas taux d identité à l aide de prédictions fiables et pertinentes, avec une réelle signification biologique. Ces prédictions peuvent être réalisées sur le serveur d analyse de séquence NPS@ (URL 28). 132

133 SOV R e , Courbe de Calibration 0 0 BAliBASE Identité (%) Figure 47 : SOV pour les séquences de l alignement multiple accompagnée de leur E-value donnée par PSI-BLAST (R = Requête). = séquence predite non reliée avec SOV et trouvée avec PSI-BLAST ; = séquence prédite reliée avec SOV Discussion Il a été précédemment montré que l information apportée par les structures secondaires permet d identifier des protéines homologues sur le plan de leur structure avec des séquences relativement divergentes (Geourjon et al., 2001). C est par le biais du paramètre SOV qu il est possible de discriminer les paires de séquences reliées sur le plan biologique, de celles qui ne le sont pas lorsque leur identité est de l ordre de 10 à 20%. L information apportée par le paramètre SOV est utilisée essentiellement lors d approches structurales, dans le domaine de la modélisation moléculaire, que ce soit par homologie à bas taux d identité (Geourjon et al., 2001) ou par les techniques de threading (Jones et al., 1999). Notre étude sur la base de données SSSD, contenant des paires de séquences alignées ayant entre 8 et 13% d identité, confirme le pouvoir discriminatoire du paramètre SOV. Par ailleurs, nous avons pu constater sur les paires de séquences de SSSD, que le domaine de validité du paramètre s étend jusqu à 30% de gaps, offrant une plage d utilisation très confortable. S il est indéniable que le paramètre SOV est un outil particulièrement intéressant pour la comparaison de deux séquences, il n a jamais été mis à profit dans les alignements multiples de séquences. Ici nous proposons une nouvelle application des informations apportées par la compatibilité des structures secondaires au sein d alignements multiples à bas taux d identité de séquences. En effet l étude des alignements de BAliBASE montre que le paramètre SOV permet de détecter, au sein d un alignement multiple à bas 133

134 taux d identité, la présence d une séquence n ayant pas de lien biologique avec le reste des séquences de l alignement. Cette détection est d autant plus facile que le taux d identité est bas, et elle devient plus difficile lorsque le taux d identité dépasse 30%. Cette limite supérieure n est pas réellement un inconvénient, puisqu il est difficile de concevoir que deux protéines partageant 30% d identité aient des structures différentes. Par ailleurs cette limite est aussi attribuable aux conditions expérimentales. En effet, les alignements témoins sont obtenus par modification aléatoire des positions au sein d une séquence témoin, en conservant les taux de gap et d identité entre les deux séquences (l une native, l autre ayant été modifiée et considérée comme intruse) qui servent au calcul du SOV témoin. Or lorsque le taux d identité entre deux séquences dépasse 30%, sachant que les modifications apportées à l une ou l autre séquence doivent conserver ce taux, elles restent reliées du point de vue de leur structure, et le SOV témoin se rapproche du SOV réel, rendant la différence trop faible pour avoir un SOV significatif. En revanche SOV est d autant meilleur lorsque le taux d identité est bas, rendant la détection d une séquence intruse particulièrement efficace, puisqu elle s avère être la plus fiable lorsqu elle est la plus difficile : à faible taux d identité de séquence et en ne considérant que l information apportée par les séquences, il est très risqué de se prononcer sur la relation biologique qui peut unir des séquences. Dans ces conditions, l étude de la compatibilité des structures secondaires trouve toute son utilité, et apporte une aide considérable pour s assurer des relations de parenté qui unissent les séquences au sein d alignements multiples à bas taux d identité. 134

135 135

136 4. Conclusion générale La principale motivation à la base de ce travail était de mettre à profit les alignements multiples de séquences protéiques pour analyser la conservation des interactions au sein des structures protéiques, mais aussi pour apporter des outils automatiques qui peuvent aider à analyser la pertinence de ces alignements. Dans un premier temps, nous avons mis en place une stratégie bioinformatique originale, à l aide de laquelle nous avons réalisé une étude statistique exhaustive des structures tridimensionnelles protéiques, en relation avec les alignements multiples des séquences (URL 26). Cette stratégie a nécessité une phase de développement importante, puisqu il a fallu modifier le programme DSSP pour obtenir une base de données exploitable et développer les outils bioinformatiques nécessaires. Trois logiciels principaux sont issus de ce travail : Extractblast, Extractfasta et BioRead, qui sont disponibles via internet. Tout ces outils ont été mis à profit au sein d une architecture logicielle plus complexe, mise en place pour étudier les interactions de toutes les protéines de structures connues. Nous avons validé cette architecture logicielle en étudiant la conservation des ponts disulfures. Nous avons pu montré la très nette conservation des cystéines oxydées, montrant l apport potentiel des alignements multiples dans la prédiction des états d oxydation des cystéines et donc dans la prédiction de caractéristiques structurales. Cette stratégie fût ensuite appliquée aux interactions électrostatiques et hydrophobes. Nous avons pu dégager certains principes connus, en les étayant par des valeurs chiffrées pour déterminer la contribution du rôle structural des résidus à l origine de leur conservation dans les alignements multiples. Le rôle structural favorise la conservation des résidus dans les alignements multiples. Cette contribution du rôle structural dans la conservation est sensible, et dépend de différents facteurs. Tout d abord cette contribution est d autant plus importante que les alignements comptent un nombre élevés de séquence. Ce sont dans les alignements les plus grands que la conservation préférentielle des interactions est la plus importante. Ensuite, l accessibilité est un paramètre influant sur la conservation des interactions électrostatiques, puisque la conservation préférentielle des interactions électrostatiques est très nette lorsque l on considère les interactions enfouies. Ce paramètre à moins d influence dans le cas des interactions hydrophobes, allant dans le sens de travaux précédents. Quant à l état de structure secondaire des interactions, ce paramètre semble peu informatif, ce qui est relativement compréhensible compte tenu de nos conditions d étude (sélection des séquences à l aide d Extractblast). Nous avons aussi constaté que l identité et la similarité globales dans les alignements sont des facteurs intéressants, puisqu il apparaît clairement que les alignements les plus divergents semblent les plus informatifs. En effet, les résidus ayant des caractéristiques structurales particulières, sont d autant plus conservés dans un alignement (comparativement aux témoins) que les séquences qui constituent l alignement sont divergentes. Cette première partie du travail a permis de confirmer certains principes généraux, à l aide d une stratégie originale et des outils bioinformatiques développés. Ce travail montre aussi que la prédiction des 136

137 interactions tridimensionnelles à partir des séquences protéiques nécessitera l emploi d alignements multiples. Cependant cet objectif est ambitieux : le développement d une méthode prédictive sur la base des connaissances structurales actuelles est difficile. Il existe encore la possibilité d effectuer des comparaisons dans la base de données que nous avons développé, en prenant en compte l accessibilité prédite, les structures secondaires prédites, le nombre de résidus entre les résidus en interactions, les caractéristiques physico-chimiques des régions encadrant ces résidus, pour essayer de retrouver à partir d une séquence de structure inconnue, des interactions possibles répondant à ces critères, observés sur les structures connues. A l issue de cette première phase du travail, nous avons voulu mettre à profit le fait que les alignements les plus divergents sont aussi les plus informatifs. Cependant, il n est pas aisé d établir la parenté des protéine lorsque leur séquences sont divergentes et présentent moins de 25% d identité de séquences. Nous avons donc développé une méthode qui permet à partir d un alignement multiple de séquences, de détecter les séquences «intruses» n ayant pas de parenté avec les autres séquences de l alignement. Cette méthode s appuie sur la prédiction des structures secondaires et l analyse de leur compatibilité dans les alignements multiples. Les expériences réalisées, notamment la comparaison avec PSI-BLAST, programme réputé pour sa capacité à détecter les homologues distants, montrent clairement l efficacité de notre méthode. A ce titre, ce travail sera publié dans la revue Bioinformatics. Cette méthode automatique fournit donc un moyen de s assurer de la cohérence des alignements multiples et peut être utilisée pour réaliser de manière itérative, les alignement les plus divergents possibles et donc les plus informatifs. Par ailleurs cette méthode peut être utiles dans d autres domaines : la caractérisation et la classification des protéines, l amélioration des alignements multiples de séquences et des outils d alignements et la modélisation des structures de protéines. 137

138 5. Annexes Annexe A : Fonctionnalités d Extractfasta La ligne de commande «Extractfasta h» appelle la fonction d aide (en anglais) qui présente un résumé rapide sur l emploi des fonctionnalités disponibles : Usage : Extractfasta -i <input file> -o <output file> -w [<output sequence maximal width>] -b [full extraction, all following options are disabled excepted -m option.] -m [work only with matching regions.] -e [<maximal expect>] -l [<minimal length >] -a [<start query>] -z [<stop query>] -r [<output file for removed sequences>] -d [<minimal expected ratio for sequence selection>] -s [<expect threshold to start ratio selection with -d option>] -p [<output file for unselected sequences with -d option>] -h [<help>] Les options i <nom_fichier_fasta> et o <nom_fichier_sélection>. Ces options indiquent le fichier FASTA à traiter et le fichier qui contiendra la base de séquences après sélection. L option w <largeur> est une option de formatage. Elle indique le nombre d acides aminés des séquences sujettes à écrire par ligne. L option b. Lorsque celle-ci est spécifiée, elle provoque une désactivation de toutes les options de sélection, à l exception de l option m. Toutes les séquences sont sélectionnées. L option m. Le format des fichiers résultats FASTA n est pas toujours très «propre» (contrairement à ceux donnés par BLAST). Les alignements présentés sont souvent plus longs que les portions des séquences qui sont réellement alignées. Cette option, lorsqu elle est spécifiée, permet de ne considérer que les régions réellement alignées. Lorsqu elle n est pas spécifiée, c est tout l alignement FASTA qui retenu. Cette option est un peu une option de nettoyage L option e <seuil_e-value>. Celle-ci introduit un seuil de E-value au dessous duquel toutes les séquences sont sélectionnées. Les séquences trouvées par FASTA sont associées à une E- value, qui représente la probabilité d obtenir un alignement de la séquence requête avec une séquence 138

139 de même composition que la séquence sujette trouvée, dans une banque de séquences données. Plus la E-value est faible, plus le lien de parenté qui unit deux séquences est fort. L option l <seuil_longueur>. Celle-ci introduit un seuil de longueur : ne seront sélectionnées que les séquences ayant au minimum cette longueur. Cette option permet d obtenir une base de données homogène en terme de longueur, ce qui est essentiel, surtout pour les alignements multiples calculés, qui représentent souvent la phase suivante. Les options -a <début_requête> -z <fin_requête>. Ces options permettent d introduire la zone intéressante sur la séquence requête. Ainsi seront retenues toutes les séquences sujettes trouvées ayant une portion commune à la portion de la séquence requête spécifiée par ces options. La sélection est une sélection partielle. Ces options sont indépendantes l une de l autre, il est possible de ne spécifier qu une seule des deux. Dans ce cas début_requête est égal à 1 si seule -z est spécifiée, et fin_requête est égal à la position du dernier acide aminé de la séquence requête si seule -a est spécifiée. Dans le cas où début_requête est supérieur à fin_requête, les valeurs de début_requête et de fin_requête sont inversées. L option r <nom_fichier>. Cette option permet d éliminer la redondance dans la base de séquences issue de la sélection. Lorsque des séquences sont identiques, un seul exemplaire est gardé, les autres séquences sont éliminées et écrites dans le fichier spécifié par nom_fichier. L option d <Evalue_ratio>. Cette option permet une sélection par palier. Ainsi il est possible de créer un échantillon en ne sélectionnant qu une séquence par palier Evalue_ratio. Evalue_ratio doit être supérieur à 1. Si le ratio des E-value entre deux séquences est supérieur ou égal à Evalue_ratio, la deuxième est sélectionnée et sert de référence pour la sélection de la séquence suivante. Si l option s n est pas spécifiée, toutes les séquences avec une E-value nulle sont sélectionnées. La première séquence ayant une E-value non nulle est sélectionnée et sert de première séquence de référence pour la sélection. L option s <seuil_e-value>. Cette option n est valide que si l option d est activée. Celle-ci introduit le seuil de E-value à partir duquel la sélection par palier débute : toutes les séquences ayant une E-value inférieure à ce seuil sont sélectionnées. La première séquence ayant une E-value supérieure ou égale à ce seuil est sélectionnée et sert de première séquence de référence pour la sélection par palier. L option p <nom_fichier>. Cette option n est valide que si l option d est activée. Toutes les séquences qui ne sont pas sélectionnées lors de la sélection par palier sont écrites dans ce fichier. Toutes ces options sont indépendantes et offrent diverses possibilités de sélection. Les séquences sélectionnées satisfont toutes les exigences imposées par les options qui sont appelées. Exemples d appels à Extracfasta : Extractfasta i fichier_fasta o fichier_result pour UNIX et linux ; 139

140 WinExFasta.exe i= fichier_ssearch o= fichier_result pour Win9X 140

141 Annexe B : Fonctionnalités d Extractblast De même que pour Extracfasta, La ligne de commande «Extractblast h» appelle la fonction d aide (en anglais) qui présente un résumé rapide sur l emploi des fonctionnalités disponibles : Usage : Extractfasta -i [inputfile] -o [outputfile in FASTA format] -w [<width format for output file>] default=60 -e [<maximal expect allowed>] -l [<minimal length allowed>] -r [<output file>] output file for removed sequences. -R [<run number for psi-blast input file>] -s [<frame or strand in query>] -a [<query start>] -z[<query stop>] define a query range. -t [<percent>] for StepRatioExtract1_2(). -T [<percent>] for StepExtract(). -h for this help Les options i, -o, -w, -r, -e, -l. Elles ne seront pas détaillées puisqu elles équivalent à celles d Extractfasta. Les options t, -T. Elles ont été développées essentiellement pour le travail de recherche, celles-ci permettent une extraction par palier ( ). L option R <numero_run>. Cette option est spécifique au fichier de type PSI-BLAST. Elle indique le numéro du «run» à partir duquel on souhaite extraire les séquences. Si aucun numéro n est spécifier et que le fichier est au format PSI-BLAST, alors le dernier «run» sera automatiquement sélectionné. L option s <brin_ou_frame>. Cette option est spécifique aux fichiers de type BLASTn, BLASTx et tblastx. Avec BLASTn, l appel «s +» ou «s plus» permet de sélectionner les séquence sujettes alignées avec la même orientation que la séquence requête. L appel «s -» ou «s minus» permet de sélectionner les séquences sujettes ayant l orientation inverse par rapport à celle de la séquence sujette. Avec les fichiers BLASTx et tblastx, il faut spécifier le cadre de lecture d intérêt de la séquence requête : l appel «s +1» ou «s 1» permettra de sélectionner les séquences sujettes alignées avec une traduction selon le cadre de lecture +1. A noter que dans ces types de fichier, il arrive fréquemment que les séquences sujettes trouvées soient présentées selon une orientation «minus» dans les alignements. Extracblast tient compte de l orientation et replace la 141

142 séquence sujette selon son orientation plus. Les séquences dans les fichiers résultats sont toutes présentées dans leur orientation «plus». Les options a <début_requête> et z <fin_requête> sont identiques à celles d Extractfasta. Cependant il faut apporter certaines précisions. Les positions à préciser à l aide de ces options dépendent de la séquence requête. si elle est protéique, il faut donner les postions protéiques. Si elle est nucléique, il faut donner les positions nucléiques (Table 21). Ceci est un peu particulier pour les fichiers BLASTx et tblastx, puisque la séquence requête est nucléique, mais le fichier résultat présente des alignements protéiques. Extractblast réalise la conversion : les positions nucléiques sont converties en positions protéiques. Une correction est apportée si les positions nucléiques entrées ne sont pas multiples de 3. Dans ce cas la borne inférieure est minorée au multiple de 3 le plus proche. La borne supérieure est majorée au multiple de 3 le plus proche. Cette phase permet de compléter le segment nucléique de façon à avoir un segment comptant un nombre de nucléotides multiples de 3 et donc un nombre d acides aminés entier. Type de fichier BLAST (B) Séquence requête (positions à fournir) Séquences sujettes dans le fichier résultat BP,PSI-B,TBN Protéique Protéique BX,TBX Nucléique Protéique BN Nucléique Nucléique Table 21 : type des séquences requêtes et sujettes pour chaque type de fichier BLAST. Comme Extractfasta, les options présentées sont toutes indépendantes. Les séquences sélectionnées satisfont toutes les exigences imposées à l aide de ces options. Les conventions d appel au programme sont les mêmes que pour Extractblast (ajout d un signe «=» après les options sous WIN9X, l exécutable sous WIN9X est WinExBlast.exe). 142

143 Annexe C : codes PDB des protéines étudiées. 10mh 11as 14ps 153l 16vp 1a02 1a04 1a0e 1a0i 1a0n 1a0p 1a0r 1a11 1a12 1a13 1a16 1a17 1a1d 1a1m 1a1p 1a1q 1a1r 1a1w 1a22 1a23 1a26 1a28 1a2o 1a2z 1a31 1a34 1a3c 1a3g 1a3k 1a3r 1a40 1a41 1a48 1a49 1a4a 1a4g 1a4i 1a4l 1a4s 1a4t 1a4y 1a53 1a56 1a5a 1a5j 1a5k 1a5r 1a5t 1a63 1a67 1a69 1a6a 1a6c 1a6d 1a6f 1a6i 1a6j 1a6l 1a6q 1a6r 1a71 1a73 1a75 1a79 1a7a 1a7d 1a7j 1a7k 1a7m 1a81 1a82 1a87 1a8h 1a8l 1a8m 1a8r 1a8x 1a8y 1a93 1a95 1a9n 1a9o 1a9x 1aa8 1aar 1ab4 1ab8 1abe 1abr 1abw 1ac5 1aca 1acc 1ad2 1ad3 1ad7 1adn 1adt 1adz 1ae4 1ae9 1aep 1aer 1af0 1af2 1af7 1afh 1afi 1afo 1afr 1afw 1ag9 1agi 1agr 1agx 1ah5 1ah8 1ah9 1ahj 1ahk 1ahu 1ai4 1ai9 1aj0 1aj1 1aja 1aje 1aji 1ajr 1ak0 1ak6 1akh 1akp 1al0 1al3 1al4 1alo 1alu 1am2 1am4 1am7 1amf 1amo 1amp 1amt 1amu 1amx 1an2 1an7 1anp 1aoa 1aoc 1aod 1aoh 1aol 1aom 1aon 1aop 1aot 1aox 1aoz 1ap0 1ap8 1apm 1apn 1aq0 1aq3 1aq6 1aqi 1ar1 1arb 1as1 1as7 1ash 1asy 1at0 1atf 1ati 1atn 1atr 1au1 1aua 1aui 1aun 1auo 1auv 1auw 1auy 1auz 1avc 1avd 1avg 1avo 1avp 1avq 1aw1 1aw7 1aw8 1awc 1awj 1ax4 1ax8 1axc 1axj 1axk 1ay0 1ay1 1ay2 1ayl 1ayx 1az0 1azs 1azy 1b04 1b05 1b0l 1b0n 1b0p 1b0u 1b0z 1b12 1b23 1b24 1b25 1b27 1b29 1b33 1b34 1b35 1b37 1b3m 1b3n 1b3o 1b3q 1b3t 1b3u 1b42 1b43 1b4a 1b4f 1b4g 1b4m 1b4q 1b4u 1b57 1b59 1b5d 1b5t 1b63 1b64 1b65 1b66 1b6b 1b6c 1b6g 1b6r 1b6t 1b6u 1b71 1b72 1b73 1b75 1b77 1b78 1b7a 1b7b 1b7e 1b7g 1b87 1b89 1b8b 1b8d 1b8f 1b8g 1b8i 1b8m 1b8t 1b8w 1b8x 1b90 1b9h 1b9l 1b9n 1b9u 1b9w 1b9x 1ba3 1ba5 1bah 1bai 1bak 1bal 1bam 1baq 1bax 1bb1 1bb8 1bbn 1bbt 1bby 1bc6 1bc9 1bcc 1bcf 1bcm 1bcp 1bcs 1bd3 1bdb 1bdc 1bdf 1bdx 1bdy 1be3 1be9 1bef 1bei 1bev 1bf2 1bfd 1bg1 1bg3 1bg6 1bgl 1bgp 1bgt 1bgx 1bh8 1bhe 1bhi 1bhj 1bht 1bi0 1bi5 1bi6 1bia 1bif 1bih 1bik 1bip 1biq 1bj4 1bj5 1bja 1bjp 1bjq 1bjt 1bjx 1bk0 1bk9 1bkb 1bkc 1bkd 1bkj 1bkq 1bku 1bl1 1bl8 1bla 1ble 1bli 1bll 1bm8 1bml 1bmt 1bmv 1bmy 1bn8 1bnc 1bnk 1bnl 1bo1 1bo4 1bo6 1bo7 1bob 1boe 1boh 1boj 1bol 1boo 1bow 1boy 1bp1 1bp7 1bpo 1bpx 1bqc 1bqf 1bqh 1bqn 1bqq 1bqs 1bqu 1bqv 1br6 1brl 1brm 1bs0 1bs2 1bs4 1bs9 1bsh 1bsl 1bsv 1bsx 1bt1 1bt4 1bt6 1btd 1bte 1btk 1bts 1bu2 1bu6 1buk 1buo 1bus 1buy 1bv8 1bvb 1bvn 1bvp 1bvq 1bvz 1bw0 1bw8 1bwm 1bwp 1bwv 1bwz 1bxd 1bxe 1bxi 1bxl 1bxm 1bxw 1by1 1by2 1by8 1byh 1byk 1byl 1byr 1byt 1byu 1byw 1byy 1bzd 1bzi 1bzk 1c03 1c04 1c05 1c0a 1c0d 1c0m 1c17 1c1f 1c1g 1c1k 1c1z 1c28 1c2a 1c2p 1c39 1c3c 1c3d 1c3m 1c3p 1c3q 1c47 1c4a 1c4h 1c4k 1c4z 1c5e 1c7h 1c7u 1c8z 1c9b 1c9k 1c9u 1ca1 1ca9 1can 1cb7 1cb8 1cbf 1cbk 1cby 1cbz 1cc1 1ccd 1cd1 1cd3 1cd5 1cdd 1cdg 1cdl 1cdm 1cdz 1ce4 1cef 1cel 1cem 1cen 1ceu 1cez 1cf1 1cf4 1cf7 1cf9 1cfb 1cfe 1cff 1cfm 1cfr 1cfs 1cg2 1cg7 1cgm 1ch6 1chc 1chk 1chm 1chr 143

144 1ci0 1cia 1cid 1cii 1civ 1cja 1cjb 1cjc 1cjd 1cje 1cjx 1cjy 1ck7 1cke 1ckm 1ckq 1ckr 1ckv 1clc 1cli 1clq 1clw 1cm0 1cm5 1cma 1cmk 1cmx 1cn3 1cn4 1cne 1cns 1cnt 1cnv 1coj 1coo 1coy 1coz 1cp3 1cp7 1cpo 1cpt 1cq3 1cqq 1cqt 1cqv 1cqx 1cqz 1cr5 1crk 1csm 1ct5 1ct9 1cts 1cun 1cur 1cv8 1cvi 1cvj 1cvm 1cvr 1cw0 1cw1 1cwp 1cwv 1cww 1cwx 1cx1 1cx8 1cxp 1cy1 1cyf 1cyw 1cz1 1cz4 1cz7 1czf 1czs 1d02 1d09 1d0b 1d0g 1d0k 1d0n 1d0q 1d0s 1d1d 1d1f 1d1q 1d1r 1d2d 1d2f 1d2i 1d2r 1d2s 1d2z 1d3b 1d3y 1d4a 1d4b 1d4t 1d5r 1d5y 1d6j 1d7l 1d7o 1d8b 1d8c 1d8d 1d8h 1d8j 1d8y 1d9e 1d9j 1d9v 1d9x 1dab 1db1 1db3 1dbd 1dbf 1dbg 1dbh 1dbi 1dce 1dcf 1dch 1dci 1dcq 1dcs 1dd1 1dd5 1dd9 1ddc 1ddd 1ddf 1ddm 1ddq 1ddt 1ddz 1de0 1de3 1dek 1deo 1deq 1der 1dew 1df3 1dfa 1dfw 1dfx 1dg3 1dgi 1dgu 1dgy 1dh7 1dhl 1dhn 1dhp 1dhr 1dhs 1dhy 1di6 1dih 1dil 1din 1dio 1diz 1dj0 1dj3 1dj7 1djf 1djg 1djn 1dkg 1dki 1dkr 1dkv 1dkx 1dl2 1dlc 1dli 1dlm 1dlp 1dlx 1dlz 1dm0 1dm9 1dml 1dmu 1dn1 1dn2 1dnv 1dny 1do0 1do8 1doa 1doi 1dom 1dop 1dor 1dp5 1dpb 1dps 1dq8 1dqg 1dqr 1dqs 1dqu 1dqv 1dqw 1dro 1dsr 1dt9 1dth 1dtj 1dto 1du2 1du8 1duj 1dul 1dun 1dv4 1dva 1dvc 1dve 1dvj 1dvk 1dvp 1dw0 1dwa 1dwn 1dx8 1dxx 1dxz 1dyn 1dz1 1dz7 1dzf 1dzl 1dzr 1e0b 1e0d 1e0j 1e0n 1e1c 1e1d 1e1y 1eba 1ebf 1ebg 1ebm 1ebo 1ebt 1ec9 1ecf 1eci 1ecr 1ecx 1ecy 1edg 1edi 1edq 1edu 1ee7 1eee 1ef1 1ef6 1ef8 1efb 1efd 1efg 1efj 1efu 1efv 1efz 1eg0 1eg9 1ega 1egc 1egh 1egl 1egt 1egy 1eh5 1eh6 1ehi 1ehs 1ei1 1ei3 1eia 1eiy 1ej3 1ej4 1ej5 1ejf 1ejh 1ek9 1ekc 1el6 1elq 1em2 1emz 1en7 1eni 1env 1enw 1eo0 1eol 1eps 1eq6 1eqd 1eqf 1eqs 1eqz 1erk 1es0 1esc 1esl 1esp 1ete 1etf 1etp 1eul 1euq 1eut 1euv 1evu 1ew6 1ewi 1ex1 1ex2 1ext 1eza 1ezk 1f15 1f1z 1f52 1fad 1fba 1fbn 1fbr 1fcb 1fcd 1fce 1fct 1fds 1fea 1fep 1fgj 1fgs 1fha 1fhi 1fht 1fin 1fiy 1fji 1flc 1flt 1flx 1fmd 1fmk 1fmt 1fnf 1foh 1fok 1fps 1frf 1fsd 1fsu 1fsz 1ft1 1ftr 1fug 1fui 1fum 1fvp 1fyc 1gab 1gb4 1gba 1gc1 1gca 1gce 1gdi 1gdt 1gff 1gfl 1gky 1gla 1gln 1glv 1gnc 1gnd 1gnk 1gof 1gow 1gp1 1gpc 1gpe 1gpm 1gr2 1grj 1gso 1gtx 1gup 1gux 1gym 1ha0 1hbi 1hcw 1hcy 1hdj 1hei 1hjr 1hkg 1hlg 1hoe 1hpb 1hpc 1hqi 1hre 1hrt 1hst 1htn 1hul 1hur 1hwg 1i16 1iaf 1ial 1iao 1idj 1ife 1ifl 1ifm 1ifp 1iga 1ign 1igr 1ihv 1iie 1iiv 1ikn 1il7 1ilm 1ilp 1ima 1imp 1ina 1inm 1inp 1iob 1ira 1irf 1irl 1irs 1ite 1ixm 1jac 1jda 1jdb 1jdw 1jen 1jer 1jfr 1jkm 1jkw 1jlx 1jmc 1joa 1jot 1joy 1js4 1jsu 1jsw 1jvr 1jwe 1kan 1kb7 1kbp 1kcw 1kdx 1kit 1kjs 1kmm 1koa 1kpt 1kvd 1kwa 1kzu 1lar 1lau 1lba 1lbe 1lbg 1lbs 1lbu 1ldl 1ldt 1lef 1lih 1lim 1ljr 1lmd 1lmk 1lml 1loi 1lox 1lre 1lrv 1lsg 1lt3 1ltr 1lut 1lxa 1lyl 1mab 1mae 1mas 1mbb 1mec 1mek 1mfo 1mg1 1mgt 1mhd 1mhy 1mi2 1mio 1mjh 1mka 1mkc 1mla 1mli 1mlp 1mmh 1mmo 1mms 1mn1 1mol 1mos 1mpr 1mpy 1mro 1msk 1msl 1mud 1mug 1mut 1mxl 1n2c 1nar 1nas 1nba 1nbc 1ncj 1ndl 1ndx 1nf1 1nfi 144

145 1nfk 1nfn 1ngl 1nlr 1nmt 1noe 1nrn 1nsf 1nst 1nsy 1ntc 1nub 1nuk 1oac 1obr 1occ 1ocr 1oef 1ofg 1oil 1om2 1onr 1ont 1opm 1opr 1ort 1osp 1otc 1otg 1p23 1p32 1p35 1pbw 1pce 1pcf 1pcu 1pdg 1pdo 1pef 1pfk 1pfo 1pfs 1pfx 1pg1 1pgj 1pgn 1phz 1pii 1pin 1pjb 1pjr 1pln 1plq 1plu 1pmi 1pne 1pnf 1poc 1poi 1pov 1pow 1ppr 1prc 1pre 1prh 1prr 1prx 1ps1 1ps2 1psc 1psd 1pse 1psr 1psz 1pto 1pvi 1pvl 1pya 1pyi 1pym 1pyt 1qa7 1qab 1qap 1qax 1qaz 1qb0 1qb7 1qba 1qbc 1qbe 1qbk 1qc6 1qcl 1qcn 1qcr 1qct 1qd1 1qd5 1qdb 1qdd 1qdl 1qdn 1qex 1qey 1qf6 1qf8 1qfc 1qfe 1qfh 1qfj 1qfm 1qfq 1qft 1qfw 1qfx 1qfy 1qg1 1qg3 1qg8 1qg9 1qgc 1qgi 1qgk 1qgn 1qgo 1qgt 1qgv 1qgw 1qgx 1qh3 1qhf 1qhl 1qhs 1qhz 1qi9 1qip 1qiu 1qj2 1qj8 1qjq 1qjs 1qk9 1qki 1qkl 1ql0 1qla 1qle 1qlm 1qlo 1qls 1qlw 1qlx 1qma 1qme 1qmg 1qmh 1qmm 1qmt 1qnf 1qo0 1qo7 1qor 1qou 1qow 1qoy 1qp6 1qp8 1qqe 1qqg 1qqt 1qqv 1qr0 1qr5 1qr7 1qrj 1qrl 1qrn 1qrq 1qrr 1qs0 1qs1 1qs3 1qsa 1qsm 1qsn 1qt2 1qtf 1qtp 1qtr 1qtw 1qu0 1qu2 1qu5 1qu6 1qun 1qup 1quq 1qur 1quu 1qva 1qvc 1qyp 1rdr 1rea 1rec 1reg 1rep 1rfa 1rfs 1rgs 1rh4 1ril 1rl2 1rla 1rlr 1rlx 1rmd 1rmg 1rot 1rp1 1rpb 1rpj 1rpr 1rpx 1rrp 1rss 1rsy 1rtu 1rux 1rvv 1ryp 1scc 1sce 1scg 1scu 1ser 1sfc 1sft 1shc 1shk 1sid 1sig 1skn 1sli 1slm 1sml 1smt 1smv 1snp 1sox 1spf 1spi 1spp 1ssn 1ssr 1stm 1svb 1svp 1sw6 1t7p 1tbd 1tc3 1tce 1tdj 1tf6 1tfr 1tgo 1thr 1tht 1tia 1tii 1tmf 1tmo 1tns 1tof 1tol 1tpg 1trr 1tsg 1tsr 1tub 1tul 1tvs 1twp 1tya 1tyf 1ubp 1ucy 1uok 1uox 1uro 1ush 1vcb 1vcc 1vfr 1vhh 1vhr 1vid 1vie 1vig 1vmo 1vnc 1vok 1vpc 1vpp 1vpu 1vsg 1vtk 1vtp 1wai 1wbc 1wbr 1wct 1wer 1wgi 1wio 1wjb 1wkt 1wtu 1wwc 1x11 1xat 1xbr 1xer 1xna 1xo1 1xpa 1xsm 1xyf 1yac 1ycp 1ycq 1ycr 1ycs 1ylv 1yrg 1yst 1ytf 1ytn 1yua 1yub 1zfj 1znb 1zpd 1zug 1zxq 262l 2a0b 2abk 2ahj 2ak3 2ant 2ap2 2arc 2arn 2azo 2bb2 2bbk 2bbm 2bbv 2bce 2bct 2bid 2bos 2bpa 2btb 2btf 2btv 2c17 2cav 2cbl 2cpg 2crx 2cua 2cut 2dap 2dhq 2dld 2dpm 2ebn 2eze 2ezi 2ezm 2fcb 2ffh 2fmr 2fua 2g3p 2gap 2gat 2gli 2gmf 2gsa 2hdc 2hdh 2hgs 2hmx 2hpd 2hrv 2iad 2ilk 2jhb 2lbp 2lfb 2mlp 2msh 2mta 2mys 2nad 2nef 2nll 2nmb 2nmt 2nr1 2pcd 2pia 2pld 2por 2prd 2pth 2rap 2rmc 2rmp 2sas 2scp 2seb 2shp 2sqc 2tbv 2tdt 2thi 2tld 2tps 2tys 2ucz 2up1 2vsg 2wpo 3bta 3cbh 3dpa 3eng 3hts 3itr 3kvt 3ldh 3lri 3lyn 3mra 3msp 3nla 3pgk 3prg 3pva 3rhn 3std 3tmk 3ygs 4bcl 4dpv 4gat 4nos 4pro 4sod 5acn 5eat 5r1r 6cmh 6ins 6pax 7mdh 7odc 8tfv 9gaf 145

146 Annexe D : URLs URL 1 SWISS-PROT URL 2 EMBL nucleotide database URL 3 CluSTr URL 4 Protein Information Ressources URL 5 PROSITE URL 6 ProDom URL 7 Pfam URL 8 DOMO URL 9 PRINTS URL 10 InterPro URL 11 MetaFam URL 12 Blocks URL 13 PDB URL 14 SCOP URL 15 CATH URL 16 FSSP URL 17 DaliDD URL 18 DALI (Figure 4) URL 19 PALI URL 20 HOMSTRAD 146

147 URL 21 MODBASE URL 22 CAMPASSE URL 23 DBcat URL 24 Mktclapp homepage URL 25 DAPS URL 26 Page personnelle URL 27 : matrices SDM, HSDM URL 28 : Serveur NPS@ URL 29 : HCVDB URL 30 : échelles physicochimiques URL 31 : Geno3D 147

148 P1 Altschul SF ; Amino acid substitution matrices from an information theoretic perspective. J Mol Biol. 219: (1991). P2 Altschul SF, Gish W ; Local alignment statistics. Methods in Enzymology 266: (1996). P3 Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ ; Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25: (1997). P4 Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM ; InterPro--an integrated documentation resource for protein families, domains and functional sites. Bioinformatics 16: (2000). P5 P6 Apweiler R, Biswas M, Fleischmann W, Kanapin A, Karavidopoulou Y, Kersey P, Kriventseva EV, Mittard V, Mulder N, Phan I, Zdobnov E; Proteome Analysis Database: online application of InterPro and CluSTr for the functional classification of proteins in whole genomes. Nucleic Acids Res. 29 :44-8 (2001). Argos P, Rao JK, Hargrave PA. ; Structural prediction of membrane-bound proteins. Eur J Biochem. 128: (1982). P7 Attwood TK, Croning MD, Flower DR, Lewis AP, Mabey JE, Scordis P, Selley JN, Wright W ; PRINTS-S: the database formerly known as PRINTS. Nucleic Acids Res. 28:225-7 (2000). P8 Bahr A, Thompson JD, Thierry JC, Poch O ; BAliBASE (Benchmark Alignment database): enhancements for repeats, transmembrane sequences and circular permutations. Nucleic Acids Res. 29:323-6 (2001). P9 Bairoch A ; The ENZYME database in Nucleic Acids Res. 28:304-5 (2000). P10 P11 P12 P13 Bairoch A, Apweiler R ; The SWISS-PROT protein sequence database and its supplement TrEMBL in Nucleic Acids Res. 28 :45-48 (2000). Balaji S, Sujatha S, Kumar SS, Srinivasan N ; PALI-a database of Phylogeny and ALIgnment of homologous protein structures. Nucleic Acids Res. 29:61-5 (2001). Barker WC, Garavelli JS, Hou Z, Huang H, Ledley RS, McGarvey PB, Mewes HW, Orcutt BC, Pfeiffer F, Tsugita A, Vinayaka CR, Xiao C, Yeh LS, Wu C ; Protein Information Resource: a community resource for expert annotation of protein data. Nucleic Acids Res. 29:29-32 (2001). Barker WC, Pfeiffer F, George DG ; Superfamily classification in the PIR-International Protein Sequence Database, Methods in Enzymology 266:59-71 (1996). P14 Baron M, Norman DG, Campbell ID ; Protein modules. Trends Biochem Sci. 16:13-7 (1991). P15 P16 Barton GJ, Sternberg MJ; A strategy for the rapid multiple alignment of protein sequences. Confidence levels from tertiary structure comparisons. J Mol Biol. 198: (1987). Bateman A, Birney E, Durbin R, Eddy SR, Howe KL, Sonnhammer EL ; The Pfam protein families database. Nucleic Acids Res. 28:263-6 (2000). 148

149 P17 P18 P19 P20 Baxevanis AD, Ouellette BFF ; Bioinformatics : A Practical Guide to the Analysis of Gens and Proteins. Methods of bioligical analysis, volume 38. Ed : Wiley-Liss (1998). Berger B, Singh M ; An iterative method for improved protein structural motif recognition. J Comput Biol. 4: (1997). Berger B, Wilson DB, Wolf E, Tonchev T, Milla M, Kim PS ; Predicting coiled coils by use of pairwise residue correlations. Proc Natl Acad Sci U S A. 92: (1995). Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE ; The Protein Data Bank. Nucleic Acids Res. 28: (2000). P21 Bhat TN, Bourne P, Feng Z, Gilliland G, Jain S, Ravichandran V, Schneider B, Schneider K, Thanki N, Weissig H, Westbrook J, Berman HM ; The PDB data uniformity project. Nucleic Acids Res. 29:214-8 (2001). P22 Blanchet C ; Logiciel MPSA et ressources bioinformatiques client-serveur Web dédiés à l analyse de séquences de protéine (1999). Thèse : Université Claude Bernard Lyon 1, France. P23 P24 P25 P26 Blanchet C, Combet C, Geourjon C, Deleage G ; MPSA: integrated system for multiple protein sequence analysis with client/server capabilities. Bioinformatics. 16:286-7 (2000). Blundell TL, Sibanda BL, Sternberg MJ, Thornton JM ; Knowledge-based prediction of protein structures and the design of novel molecules. Nature. 326: (1987). Bourne PE, Helen M. Berman MH, Brian McMahon B, Keith D.Watenpaugh KD, John WestbrookJ, Paula M.D.Fitzgerald PMD ; The Macromolecular Crystallographic Information File (mmcif). Methods in Enzymology 277: (1997). Bowie JU, Luthy R, Eisenberg D. ; A method to identify protein sequences that fold into a known three-dimensional structure. Science 253: (1991). P27 Briffeuil P, Baudoux G, Lambert C, De Bolle X, Vinals C, Feytmans E, Depiereux E ; Comparative analysis of seven multiple protein sequence alignment servers: clues to enhance reliability of predictions. Bioinformatics. 14: (1998). P28 P29 P30 Bryant SH, Lawrence CE ; An empirical energy function for threading protein sequence through the folding motif. Proteins. 16:92-112(1993). Burley SK, Petsko GA ; Aromatic-aromatic interaction: a mechanism of protein structure stabilization. Science 229:23-8 (1985). Chothia C, Lesk AM ; The relation between the divergence of sequence and structure in proteins. EMBO J. 5:823-6 (1986). P31 Chothia C ; Proteins. One thousand families for the molecular biologist. Nature. 357:543-4 (1992). P32 P33 Chou PY, Fasman GD ; Prediction of the secondary structure of proteins from their amino acid sequence. Adv Enzymol Relat Areas Mol Biol. 47: (1978). Codani JJ, Glemet E ; Parallelism in LASSAP, a large scale sequence comparison package. Proceedings of HPCN95 Conference, Milan. Lecture Notes in Computer Sciences, 919 : (1995). 149

150 P34 P35 P36 P37 P38 Colloc'h N, Etchebest C, Thoreau E, Henrissat B, Mornon JP ; Comparison of three algorithms for the assignment of secondary structure in proteins: the advantages of a consensus assignment. Protein Eng. 6: (1993). Combet C ; HCVDB : une base de données de séquences du virus de l'hépatite C interconnectée au Webiciel NPS@ d'outils bioinformatiques d'analyses de séquences et de structures. (2001). Thèse. Université Denis Diderot, Paris 7, France. Combet C, Blanchet C, Geourjon C, Deleage G ; NPS@: network protein sequence analysis. Trends Biochem Sci. 25: (2000). Corpet F ; Multiple sequence alignment with hierarchical clustering. Nucleic Acids Res. 16: (1988). Corpet F, Servant F, Gouzy J, Kahn D ; ProDom and ProDom-CG: tools for protein domain analysis and whole genome comparisons. Nucleic Acids Res. 28:267-9 (2000). P39 Costanzo MC, Hogan JD, Cusick ME, Davis BP, Fancher AM, Hodges PE, Kondu P, Lengieza C, Lew-Smith JE, Lingner C, Roberg-Perez KJ, Tillberg M, Brooks JE, Garrels JI ; The yeast proteome database (YPD) and Caenorhabditis elegans proteome database (WormPD) : comprehensive resources for the organization and comparison of model organism protein information. Nucleic Acids Res. 28:73-6 (2000). P40 Dayoff MO, Schwartz RM, Orcutt BC ; A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure, ed. (Washington DC, : National Biomedical Research Foundation) Vol 5., Suppl. 2, P41 Deitel et Deitel ; Comment programmer en C++. Ed : Rynald Goulet (1998). P42 P43 P44 P45 P46 Deleage G, Combet C, Blanchet C, Geourjon C ; ANTHEPROT: an integrated protein sequence analysis software with client/server capabilities. Comput Biol Med. 31: (2001). Deleage G, Roux B ; An algorithm for protein secondary structure prediction based on class prediction. Protein Eng. 1: (1987). Dietmann S, Park J, Notredame C, Heger A, Lappe M, Holm L ; A fully automatic evolutionary classification of protein folds: Dali Domain Dictionary version 3. Nucleic Acids Res. 29:55-7 (2001). Dill KA, Fiebig KM, Chan HS ; Cooperativity in protein-folding kinetics. Proc Natl Acad Sci. U S A. 90: (1993). Dodd IB, Egan JB ; Improved detection of helix-turn-helix DNA-binding motifs in protein sequences. Nucleic Acids Res. 18: (1990). P47 Doolittle RF ; Similar amino acid sequences: chance or common ancestry? Science 214: (1981). P48 Doolittle RF, Bork P ; Evolutionarily mobile modules in proteins. Sci Am. 269:50-6 (1993). P49 P50 Eddy SR ; Multiple alignment using hidden Markov models. Proc Int Conf Intell Syst Mol Biol. 3: (1995). Etzold T, Ulyanov A, Argos P ; SRS: information retrieval system for molecular biology data banks. Methods in Enzymology 266: (1996). 150

151 P51 P52 P53 Feng DF, Doolittle RF ; Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25: (1987). Fiser A, Simon I, Barton GJ ; Conservation of amino acids in multiple alignments: aspartic acid has unexpected conservation. FEBS Lett. 397:225-9 (1996). Fiser A, Simon I; Predicting the oxidation state of cysteines by multiple sequence alignment. Bioinformatics 16:251-6 (2000). P54 Fitch, WM ; Random sequences. J. Mol. Biol. 163: (1983). P55 P56 P57 P58 P59 P60 P61 P62 P63 P64 P65 P66 P67 Fleischman W, Moeller S, Gateau A, Apweiler R ; A novel method for automatic functional annotation of proteins. Bioinformatics 15 : (1999). Fleischmann W, Moller S, Gateau A, Apweiler R ; A novel method for automatic functional annotation of proteins. Bioinformatics 15: (1999). Friedberg I, Kaplan T, Margalit H ; Evaluation of PSI-BLAST alignment accuracy in comparison to structural alignments. Protein Sci. 9: (2000). Frishman D, Argos P ; Incorporation of non-local interactions in protein secondary structure prediction from the amino acid sequence. Protein Eng. 9: (1996). Frishman D, Argos P ; Knowledge-based protein secondary structure assignment. Proteins. 23: (1995). Garavelli JS ; The RESID Database of protein structure modifications. Nucleic Acids Res. 27:198-9 (1999). Garavelli JS, Hou Z, Pattabiraman N, Stephens RM ; The RESID Database of protein structure modifications and the NRL-3D Sequence-Structure Database. Nucleic Acids Res. 29: (2001). Garnier J, Gibrat JF, Robson B. GOR method for predicting protein secondary structure from amino acid sequence. Methods Enzymol. 266: (1996). Garnier J, Osguthorpe DJ, Robson B ; Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. J Mol Biol. 120: (1978). Geourjon C, Combet C, Blanchet C, Deleage G ; Identification of related proteins with weak sequence identity using secondary structure information. Protein Sci. 10: (2001). Geourjon C, Deleage G ; SOPM: a self-optimized method for protein secondary structure prediction. Protein Eng. 7: (1994). Geourjon C, Deleage G ; SOPMA: significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments. Comput Appl Biosci. 11:681-4 (1995). Glemet E,Codani JJ ; Lassap : a large scale sequence comparison package. Comp. Appl. Biosci., 13 : (1997). 151

152 P68 P69 P70 P71 P72 P73 P74 P75 P76 P77 Gotoh O ; Significant improvement in accuracy of multiple protein sequence alignments by iterative refinement as assessed by reference to structural alignments. J Mol Biol. 264: (1996). Gouy M, Gautier C, Attimonelli M, Lanave C, di Paola G ; ACNUC--a portable retrieval system for nucleic acid sequence databases: logical and physical designs and usage. Comput Appl Biosci. 1: (1985). Gracy J, Argos P ; Automated protein sequence database classification. II. Delineation Of domain boundaries from sequence similarities. Bioinformatics 14: (1998). Gribskov M, Veretnik S ; Identification of sequence pattern with profile analysis. Methods Enzymol. 266: (1996). Guermeur Y ; Combinaison de classifieurs statistiques, application à la prédiction de la structure secondaire des protéines. Thèse de doctorat de l Université Paris 6, Paris (1997). Guermeur Y, Geourjon C, Gallinari P, Deleage G ; Improved performance in protein secondary structure prediction by inhomogeneous score combination. Bioinformatics. 15: (1999). Gupta SK, Kececioglu JD, Schaffer AA ; Improving the practical space and time efficiency of the shortest-paths approach to sum-of-pairs multiple sequence alignment. J Comput Biol. 2: (1995). Guy HR ; Amino acid side-chain partition energies and distribution of residues in soluble proteins. Biophys J. 47:61-70 (1985). Harrison M, McLennan M ;Effective Tcl/Tk programming : writing better programs with Tcl and Tk. Ed : Addison Wesley (1998). Henikoff JG, Greene EA, Pietrokovski S, Henikoff S ; Increased coverage of protein families with the blocks database servers. Nucleic Acids Res. 28: (2000). P78 Henikoff JG, Henikoff S ; Blocks database and its applications. Methods in Enzymology 266: (1996). P79 Henikoff S, Henikoff JG ; Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A. 89: (1992). P80 Henikoff S, Henikoff JG ; Amino acid substitution matrices. Adv Protein Chem. 54:73-97 (2000). P81 P82 P83 P84 Henikoff S, Henikoff JG ; Performance evaluation of amino acid substitution matrices. Proteins 17:49-61 (1993). Henikoff S, Henikoff JG, Pietrokovski S ; Blocks+: A non-redundant database of protein alignment blocks dervied from multiple compilations. Bioinformatics 15:471-9 (1999). Hertz GZ, Stormo GD ; Identifying DNA and protein patterns with statistically significant alignments of multiple sequences. Bioinformatics. 15: (1999). Hodges PE, McKee AH, Davis BP, Payne WE, Garrels JI ;The Yeast Proteome Database (YPD): a model for the organization and presentation of genome-wide functional data. Nucleic Acids Res. 27:69-73 (1999) 152

153 P85 P86 Hofmann K, Bucher P, Falquet L, Bairoch A ; The PROSITE database, its status in Nucleic Acids Res. 27: (1999). Hofmann K, Bucher P, Falquet L, Bairoch A ; The PROSITE database, its status in Nucleic Acids Res. 27:215-9 (1999). P87 Holm L and Sander C ; Mapping the protein universe. Science 273: (1996). P88 Holm L, Sander C ; Dictionary of recurrent domains in protein structures. Proteins :88-96 (1998b). P89 Holm L, Sander C ; Touring protein fold space with Dali/FSSP. Nucleic Acids Res. 26:316-9 (1998). P90 P91 P92 Hopp TP, Woods KR ; A computer program for predicting protein antigenic determinants. Mol Immunol. 20:483-9 (1983). Horovitz A, Serrano L, Avron B, Bycroft M, Fersht AR ; Strength and co-operativity of contributions of surface salt bridges to protein stability. J Mol Biol. 216: (1990). Hu Z, Ma B, Wolfson H, Nussinov R ; Conservation of polar residues as hot spots at protein interfaces. Proteins 39: (2000). P93 Huang H, Xiao C, Wu CH ; ProClass protein family database. Nucleic Acids Res. 28:273-6 (2000). P94 P95 P96 P97 P98 Iwaasa,H.; Takagi,T.; Shikama,K.; Protozoan myoglobin from Paramecium caudatum. Its unusual amino acid sequence. J. Mol. Biol. 208 :355-8 (1989) Johnson G, Wu TT ; Kabat Database and its applications: future directions. Nucleic Acids Res. 29:205-6 (2001). Johnson MS, Overington JP ; A structural basis for sequence comparisons. An evaluation of scoring methodologies. J Mol Biol. 233: (1993). Jones DT, Tress M, Bryson K, Hadley C ; Successful recognition of protein folds using threading methods biased by sequence similarity and predicted secondary structure. Proteins. 37: (1999). Jones TA, Thirup S ; Using known substructures in protein model building and crystallography. EMBO J. 5: (1986). P99 Kallberg Y, Persson B ; KIND-a non-redundant protein database. Bioinformatics 15:260-1 (1999). P100 Karlin S, Altschul SF ; Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc Natl Acad Sci U S A. 87: (1990). P101 Karplus K, Hu B ; Evaluation of protein multiple alignments by SAM-T99 using the BAliBASE multiple alignment test set. Bioinformatics. 17: (2001). P102 Kawabata T, Ota M, Nishikawa K ; The protein mutant database. Nucleic Acids Res. 27:355-7 (1999). 153

154 P103 Kellis JT Jr, Nyberg K, Fersht AR ; Energetics of complementary side-chain packing in a protein hydrophobic core. Biochemistry 28: (1989). P104 Kernighan BW, Ritchie DM ; Le langage C. Ed : Masson (1992). P105 King RD, Saqi M, Sayle R, Sternberg MJ. DSC: public domain protein secondary structure predication. Comput Appl Biosci. 13:473-4 (1997). P106 Koshi JM, Goldstein RA ; Context-dependent optimal substitution matrices. Protein Eng. 8:641-5 (1995). P107 Krinventseva EV, Fleischmann W, Zdobnov EM, Apweiler R ; CluSTr : a database of clusters of SWISS-PROT+TrEMBL proteins. Nucleic Acids Res. 29:33-6 (2000). P108 Kyte J, Doolittle RF ; A simple method for displaying the hydropathic character of a protein. J Mol Biol. 157: (1982). P109 Labesse G, Colloc'h N, Pothier J, Mornon JP ; P-SEA: a new efficient assignment of secondary structure from C alpha trace of proteins. Comput Appl Biosci. 13:291-5 (1997). P110 Labesse G, Colloc'h N, Pothier J, Mornon JP. P-SEA: a new efficient assignment of secondary structure from C alpha trace of proteins. Comput Appl Biosci. ;13:291-5 (1997). P111 Ladunga I, Smith RF ; Amino acid substitutions preserve protein folding by conserving steric and hydrophobicity properties. Protein Eng. 10: (1997). P112 Lamarine M ; Prédiction du repliement peptidiqu grâce aux invariants structuraux de protéines homologues (2001). Thèse. Université Pierre et Marie Curie, Paris 6, France. P113 Lawrence C, Auger I, Mannella C ; Distribution of accessible surfaces of amino acids in globular proteins. Proteins 2: (1987). P114 Lee B, Richards FM ; The interpretation of protein structures: estimation of static accessibility. J Mol Biol. 55: (1971). P115 Lefranc MP ; IMGT, the international ImMunoGeneTics database. Nucleic Acids Res. 29:207-9 (2001). P116 Lesk AM, Chothia C ; How different amino acid sequences determine similar protein structures: the structure and evolutionary dynamics of the globins. J Mol Biol. 136: (1980). P117 Levin JM, Garnier J ; Improvements in a secondary structure prediction method based on a search for local sequence homologies and its use as a model building tool. Biochim Biophys Acta. 955: (1988). P118 Levin JM, Robson B, Garnier J ; An algorithm for secondary structure determination in proteins based on sequence similarity. FEBS Letters 205: (1986). P119 Levitt M ; Accurate modeling of protein conformation by automatic segment matching. J Mol Biol. 226: (1992). P120 Levitt M ; A simplified representation of protein conformations for rapid simulation of protein folding. J. Mol. Biol., 104: (1976). 154

155 P121 Liberty J, Hord M ; Le langage C++. Collection "le programmeur". Ed : S&SM (1998). P122 Lipman DJ, Altschul SF, Kececioglu JD ; A tool for multiple sequence alignment. Proc Natl Acad Sci U S A. 86: (1989). P123 Lo Conte L, Ailey B, Hubbard TJ, Brenner SE, Murzin AG, Chothia C ; SCOP: a structural classification of proteins database. Nucleic Acids Res. 28:257-9 (2000). P124 Lupas A, Van Dyke M, Stock J ; Predicting coiled coils from protein sequences. Science. 252: (1991). P125 Markiewicz P, Kleina LG, Cruz C, Ehret S, Miller JH ; Genetic studies of the lac repressor. XIV. Analysis of 4000 altered Escherichia coli lac repressors reveals essential and non-essential residues, as well as "spacers" which do not require a specific sequence. J Mol Biol. ;240: (1994). P126 Matsumura M, Yahanda S, Yasumura S, Yutani K, Aiba S ; Role of tyrosine-80 in the stability of kanamycin nucleotidyltransferase analyzed by site-directed mutagenesis. Eur J Biochem : (1988). P127 Mizuguchi K, Deane CM, Blundell TL, Overington JP ; HOMSTRAD: a database of protein structure alignments for homologous families. Protein Sci. 7: (1998). P128 Morgenstern B, Frech K, Dress A, Werner T ; DIALIGN: finding local similarities by multiple sequence alignment. Bioinformatics. 14:290-4 (1998). P129 Muchielli-Giorgi MH ; Analyse et prédiction des contacts entre les chaînes latérales des protéines (1999). Thèse. Université Denis Diderot, Paris 7, France. P130 Musafia B, Buchner V, Arad D ; Complex salt bridges in proteins: statistical analysis of structure and function. J Mol Biol. 254: (1995). P131 Needleman SB, Wunsch CD ; A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol. 48: (1970). P132 Nielsen H, Brunak S, von Heijne G ; Machine learning approaches for the prediction of signal peptides and other protein sorting signals. Protein Eng. 12:3-9 (1999). P133 Notredame C ; Recent progress in multiple sequence alignment: a survey. Pharmacogenomics. 3: (2002). P134 Notredame C, Higgins DG, Heringa J. T-Coffee: A novel method for fast and accurate multiple sequence alignment. J Mol Biol. 302: (2000). P135 Notredame C, Higgins DG; SAGA: sequence alignment by genetic algorithm. Nucleic Acids Res. 24: (1996). P136 Notredame C, Holm L, Higgins DG ; COFFEE: an objective function for multiple sequence alignments. Bioinformatics. 14: (1998). P137 O Donovan C, Martin MJ, Glemet E, Codani JJ, Apweiler R ; Removing redundancy in SWISS- PROT and TrEMBL. Bioinformatics 15 : (1999). 155

156 P138 O'Donovan C., Apweiler R., Bairoch A.; The human proteomics initiative (HPI). Trends Biotechnol. 19: (2001). P139 Orengo CA, Pearl FM, Bray JE, Todd AE, Martin AC, Lo Conte L, Thornton JM ; The CATH Database provides insights into protein structure/function relationships. Nucleic Acids Res. 27:275-9 (1999). P140 Pal D, Chakrabarti P ; On residues in the disallowed region of the Ramachandran map. Biopolymers 63: (2002). P141 Palm CJ, Federspiel NA, Davis RW ; DAtA: database of Arabidopsis thaliana annotation. Nucleic Acids Res. 28:102-3 (2000). P142 Pan XM ; Multiple linear regression for protein secondary structure prediction. Proteins. 43:256-9 (2001). P143 Parker JM, Guo D, Hodges RS ; New hydrophilicity scale derived from high-performance liquid chromatography peptide retention data: correlation of predicted surface residues with antigenicity and X-ray-derived accessible sites. Biochemistry. 25: (1986). P144 Pascarella S, Argos P ; Analysis of insertions/deletions in protein structures. J Mol Biol. ;224: (1992). P145 Pauling L, Corey RB ; The structures of proteins : two hydrogen-bonded helical configurations of the polypeptide chain. Proc Natl Acad Sci USA 37: (1951). P146 Pearl FM, Martin N, Bray JE, Buchan DW, Harrison AP, Lee D, Reeves GA, Shepherd AJ, Sillitoe I, Todd AE, Thornton JM, Orengo CA ; A rapid classification protocol for the CATH Domain Database to support structural genomics. Nucleic Acids Res. 29:223-7 (2001). P147 Pearson WR ; Comparison of metnods for searching protein sequences databases. Protein Science 4: (1995). P148 Pearson WR ; Rapid and Sensitive Sequence Comparison with FASTP and FASTA. Methods in Enzymology183:63-98 (1990). P149 Pearson WR, Lipman DJ ; Improved Tools for Biological Sequence Analysis. Proc Natl Acad Sci U S A 85: (1988). P150 Pei J, Grishin NV ; AL2CO: calculation of positional conservation in a protein sequence alignment. Bioinformatics. 17: (2001). P151 Pervushin K, Riek R, Wider G, Wuthrich K ; Attenuated T2 relaxation by mutual cancellation of dipole-dipole coupling and chemical shift anisotropy indicates an avenue to NMR structures of very large biological macromolecules in solution. Proc. Natl. Acad. Sci. 94: (1997). P152 Poupon A, Mornon JP ; Populations of hydrophobic amino acids within protein globular domains: identification of conserved "topohydrophobic" positions. Proteins 33: (1998). P153 Prlic A, Domingues FS, Sippl MJ ; Structure-derived substitution matrices for alignment of distantly related sequences. Protein Eng. 13: (2000). P154 Ramachandran GN, Sasisekharan V ; Conformation of polypeptides and proteins. Adv Protein Chem. 23: (1968). 156

157 P155 Rennell D, Bouvier SE, Hardy LW, Poteete AR ; Systematic mutation of bacteriophage T4 lysozyme. J Mol Biol. 222:67-88 (1991). P156 Richards FM, Kundrot CE ; Identification of structural motifs from protein coordinate data: secondary structure and first-level supersecondary structure. Proteins. 3:71-84 (1988). P157 Riek R, Wider G, Pervushin K, Wuthrich K ; Polarization transfer by cross-correlated relaxation in solution NMR with very large molecules. Proc. Natl. Acad. Sci. 96: (1999). P158 Rost B ; TOPITS: threading one-dimensional predictions into three-dimensional structures. Proc Int Conf Intell Syst Mol Biol. 3: (1995). P159 Rost B ; Twilight zone of protein sequence alignments. Protein Eng. 12:85-94 (1999). P160 Rost B, Sander C, Schneider R ; PHD--an automatic mail server for protein secondary structure prediction. Comput Appl Biosci. 10:53-60 (1994). P161 Rost B, Sander C, Schneider R ; Redefining the goals of protein secondary structure prediction. J Mol Biol. 235:13-26 (1994). P162 Rubin GM, Yandell MD, Wortman JR, Gabor Miklos GL, Nelson CR, Hariharan IK, Fortini ME, Li PW, Apweiler R, Fleischmann WCherry JM, Henikoff S, Skupski MP, Misra S, Ashburner M, Birney E, Boguski MS, Brody T, Brokstein P, Celniker SE, Chervitz SA, Coates D, Cravchik A, Gabrielian A, Galle RF, Gelbart WM, George RA, Goldstein LS, Gong F, Guan P, Harris NL, Hay BA, Hoskins RA, Li J, Li Z, Hynes RO, Jones SJ, Kuehl PM, Lemaitre B, Littleton JT, Morrison DK, Mungall C, O'Farrell PH, Pickeral OK, Shue C, Vosshall LB, Zhang J, Zhao Q, Zheng XH, Lewis S ; Comparative genomics of the eukaryotes. Science 287: (2000). P163 Russell RB, Barton GJ ; Structural features can be unconserved in proteins with similar folds. An analysis of side-chain to side-chain contacts secondary structure and accessibility. J Mol Biol. 244: (1994). P164 Sali A, Overington JP ; Derivation of rules for comparative protein modeling from a database of protein structure alignments. Protein Sci. 3: (1994). P165 Sali D, Bycroft M, Fersht AR ; Surface electrostatic interactions contribute little of stability of barnase. J Mol Biol. 220: (1991). P166 Sanchez R, Pieper U, Mirkovic N, de Bakker PI, Wittenstein E, Sali A ; MODBASE, a database of annotated comparative protein structure models. Nucleic Acids Res. 28:250-3 (2000). P167 Schueler O, Margalit H ; Conservation of salt bridges in protein families. J Mol Biol. 248: (1995). P168 Shoop E, Silverstein KA, Johnson JE, Retzel EF ; MetaFam: a unified classification of protein families. II. Schema and query capabilities. Bioinformatics 17: (2001). P170 Shpaer EG, Robinson M, Yee D, Candlin JD, Mines R, Hunkapiller ; Sensitivity and selectivity in protein similarity searches: a comparison of Smith-Waterman in hardware to BLAST and FASTA. Genomics 38: (1996). P171 Silverstein KA, Shoop E, Johnson JE, Retzel EF ; MetaFam: a unified classification of protein families. I. Overview and statistics. Bioinformatics 17: (2001b). 157

158 P172 Sklenar H, Etchebest C, Lavery R ; Describing protein structure: a general algorithm yielding complete helicoidal parameters and a unique overall axis. Proteins. 6:46-60 (1989). P173 Smith RF, Smith TF ; Pattern-induced multi-sequence alignment (PIMA) algorithm employing secondary structure-dependent gap penalties for use in comparative protein modelling. Protein Eng. 5:35-41 (1992). P174 Smith TF, Waterman MS ; Identification of common molecular subsequences. J Mol Biol. 147:195-7 (1981) P175 Smith TF, Waterman MS ; Identification of common molecular subsequences. J Mol Biol. 147:195-7 (1981). P176 Sneath PHA and Sokal RR; Numerical Taxonomy ; W.H Freeman and company, San Francisco, California,USA, (1973). P177 Sowdhamini R, Burke DF, Huang JF, Mizuguchi K, Nagarajaram HA, Srinivasan N, Steward RE, Blundell TL ; CAMPASS: a database of structurally aligned protein superfamilies. Structure 6: (1998). P178 Sowdhamini R, Rufino SD, Blundell TL ; A database of globular protein structural domains: clustering of representative family members into similar folds. Fold Design 1: (1996). P179 Stoye J, Moulton V, Dress AW ; DCA: an efficient implementation of the divide-and-conquer approach to simultaneous multiple sequence alignment. Comput Appl Biosci. 13:625-6 (1997). P180 Strousup B ; Le langage C++. Ed : CampusPress France (1999). P181 Taylor WR ; A flexible method to align large numbers of biological sequences. J Mol Evol. 28 (1-2):161-9 (1988). P182 Thompson JD, Higgins DG, Gibson TJ ; CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22: (1994). P183 Thompson JD, Plewniak F, Poch O ; A comprehensive comparison of multiple sequence alignment programs. Nucleic Acids Res. 27: (1999). P184 Thompson JD, Plewniak F, Poch O ; A comprehensive comparison of multiple sequence alignment programs. Nucleic Acids Res. 27: (1999). P185 Thompson JD, Plewniak F, Ripp R, Thierry JC, Poch O ; Towards a reliable objective function for multiple sequence alignments. J Mol Biol. 314: (2001). P186 Tsai J, Gerstein M, Levitt M ; Simulating the minimum core for hydrophobic collapse in globular proteins. Protein Sci. 6: (1997). P187 Waterman MS, Vingron M ; Rapid and accurate estimates of statistical significance for sequence data base searches. Proc Natl Acad Sci U S A. 91: (1994). P188 Wertz DH, Scheraga HA ; Influence of water on protein structure. An analysis of the preferences of amino acid residues for the inside or outside and for specific conformations in a protein molecule. Macromolecules 11:9-15 (1978). 158

159 P189 Wheeler DL, Church DM, Lash AE, Leipe DD, Madden TL, Pontius JU, Schuler GD, Schriml LM, Tatusova TA, Wagner L, Rapp BA ; Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 29:11-6 (2001). P190 Willms G ; Grand livre C++. Ed : Micro Application (1999). P191 Wolf YI, Grishin NV, Koonin EV ; Estimating the number of protein folds and families from complete genome data. J Mol Biol. 299: (2000). P192 Wu C, Xiao C, Hou Z, Huang H, Barker WC ; iproclass: an integrated, comprehensive and annotated protein classification database. Nucleic Acids Res. 29:52-4 (2001). P193 Yona G, Linial N, Linial M ; ProtoMap: Automatic classification of protein sequences and hierarchy of protein families. Nucleic Acids Res. 28:49-55 (2000). P194 Zemla A, Venclovas C, Fidelis K, Rost B ; A modified definition of Sov, a segment-based measure for protein secondary structure prediction assessment. Proteins. 34:220-3 (1999). P195 Zhang C, DeLisi C ; Estimating the number of protein folds. J Mol Biol. 284: (1998). 159

Montrer encore