MÉMOIRE. Bases de données et outils d analyse pour la génomique bactérienne



Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Introduction aux bases de données: application en biologie

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Extraction d information des bases de séquences biologiques avec R

Base de données bibliographiques Pubmed-Medline

Big data et sciences du Vivant L'exemple du séquençage haut débit

Bibliographie Introduction à la bioinformatique

MABioVis. Bio-informatique et la

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Identification de nouveaux membres dans des familles d'interleukines

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

7. Recherche des essais

Perl Orienté Objet BioPerl There is more than one way to do it

Analyse des données de séquençage massif par des méthodes phylogénétiques

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Chapitre 1 : Introduction aux bases de données

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis

Introduction au Data-Mining

INF6304 Interfaces Intelligentes

Résonance Magnétique Nucléaire : RMN

LE CHEMINEMENT COMPLEXE D UN VACCIN

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Introduction à la B.I. Avec SQL Server 2008

Les OGM. 5 décembre Nicole Mounier

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Conférence technique internationale de la FAO

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

La gestion des correctifs de sécurité avec WinReporter et RemoteExec

d évaluation Objectifs Processus d élaboration

Mieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

Nom de l application

COMMENT LIRE UN DEVIS DE CREATION DE SITE WEB?

Rédiger et administrer un questionnaire

Base de données relationnelle et requêtes SQL

Code d'éthique de la recherche

Modernisation et gestion de portefeuilles d applications bancaires

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

HighPush. document /06/2009 Révision pour version /11/2008 Revision pour la /10/2008 Documentation initiale.

Système d information pour la gestion d un réseau d Université

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Logiciel XLSTAT version rue Damrémont PARIS

Orientations pour la gestion documentaire des courriels au gouvernement du Québec

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

Génétique et génomique Pierre Martin

Cellules procaryotes Service histologie Pr.k.mebarek

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

La visio-conférence holographique : Pourquoi? Comment?

EXCEL TUTORIEL 2012/2013

Transmission d informations sur le réseau électrique

E-COMMERCE VERS UNE DÉFINITION INTERNATIONALE ET DES INDICATEURS STATISTIQUES COMPARABLES AU NIVEAU INTERNATIONAL

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Introduction MOSS 2007

Module BDR Master d Informatique (SAR)

Windows Internet Name Service (WINS)

Introduction aux concepts d ez Publish

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Convergence Grand public professionnelle

Rapport d'analyse des besoins

Le scoring est-il la nouvelle révolution du microcrédit?

Instructions relatives à la soumission d une question sur le sujet d étude

Cours Base de données relationnelles. M. Boughanem, IUP STRI

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Utiliser un tableau de données

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

La sécurité dans un réseau Wi-Fi

La virtualisation des serveurs ou «loin des yeux, loin de l esprit»...

Présentation Générale

AA-SO5 KIDA/GSOV/VAMDC

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

La classification automatique de données quantitatives

Bases de données et outils bioinformatiques utiles en génétique

Serveur Appliance IPAM et Services Réseaux

A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Source :

Bases de données des mutations

Groupe Eyrolles, 2006, ISBN :

Recherche et veille documentaire scientifique

Les Réseaux sans fils : IEEE F. Nolot

Bientôt plus d'1 Français sur 10 client d'une banque en ligne.

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Transcription:

MÉMOIRE présenté devant l Université Claude Bernard LYON 1 pour l obtention de L HABILITATION À DIRIGER DES RECHERCHES par Guy PERRIÈRE soutenance prévue le 27 juin 2000 Bases de données et outils d analyse pour la génomique bactérienne Jury : MM. A. BAIROCH A.J. COZZONE P. DESSEN C. GAUTIER D. KAHN B. LABEDAN J.-L. RISLER Laboratoire de Biométrie et Biologie Évolutive, UMR CNRS n 5558 Université Claude Bernard Lyon 1 43, bd. du 11 novembre 1918 69622 Villeurbanne Cedx

TABLE DES MATIÈRES INTRODUCTION...1 I. BANQUES DE DONNÉES...3 1. LES BANQUES GÉNÉRALISTES...3 1.1. BANQUES DE SÉQUENCES NUCLÉOTIDIQUES...3 1.1.1. DONNÉES...3 1.1.2. FORMAT DE STOCKAGE...5 1.1.3. DISTRIBUTION ET MISE À JOUR...6 1.2. BANQUES DE SÉQUENCES PROTÉIQUES...7 1.2.1. TREMBL ET GENPEPT...7 1.2.2. SWISS-PROT...7 1.2.3. PIR...9 1.2.4. AUTRES BANQUES...9 1.3. INTERÊT ET LIMITES DES BANQUES GÉNÉRALISTES...10 2. BANQUES SPÉCIALISÉES...11 2.1. BANQUES THÉMATIQUES...11 2.1.1. STRUCTURES MOLÉCULAIRES...11 2.1.2. SÉQUENCES ET STRUCTURES DE RNA...13 2.1.3. FAMILLES DE GÈNES...13 2.1.4. DOMAINES PROTÉIQUES...15 2.1.5. SIGNATURES PEPTIDIQUES...17 2.2. BANQUES GÉNOMIQUES...18 2.2.1. PROCARYOTES...18 2.2.2. SACCHAROMYCES CEREVISIAE...19 2.2.3. DROSOPHILA MELANOGASTER...20 2.2.4. HOMO SAPIENS...21 2.2.5. AUTRES...21 3. SYSTÈMES D INTERROGATION...21 3.1. LA PRÉDOMINANCE D INTERNET...22 3.2. ACNUC...23 3.3. SRS...24 3.4. ENTREZ...26 3.5. ACEDB...27 II. DÉVELOPPEMENTS INFORMATIQUES...29 1. LE SERVEUR DU PBIL...29 1.1. MISE EN PLACE...29 1.2. ACCÈS AUX BANQUES...30 1.2.1. RÉCUPÉRATION DES SÉQUENCES...30 1.2.2. RECHERCHE DE SIMILARITÉS ET ALIGNEMENTS...31 1.2.3. AUTRES FONCTIONNALITÉS...31 1.3. ANALYSE MULTIVARIÉE...32 1.3.1. ANALYSE FACTORIELLE DES CORRESPONDANCES...32 1.3.2. ANALYSE DISCRIMINANTE DES CORRESPONDANCES...35 1.3.3. ANALYSE EN COORDONNÉES PRINCIPALES...36 i

III. 1.4. APPLICATIONS ASSOCIÉES...38 1.5. BILAN DE L UTILISATION DU SERVEUR...40 2. EMGLIB...40 2.1. MOTIVATION...41 2.2. CONTENU DE LA BANQUE...41 2.2.1. SÉQUENCES...41 2.2.2. USAGE DU CODE...42 2.2.3. INFORMATIONS COMPLÉMENTAIRES...44 2.3. ACCÈS AUX DONNÉES...45 2.4. PERSPECTIVES...47 3. HOBACGEN...47 3.1. MOTIVATION...47 3.2. CONSTRUCTION DE LA BANQUE...48 3.3. ACCÈS AUX DONNÉES...51 3.3.1. CLIENT JAVA...52 3.3.2. SERVEUR...54 3.3.3. ACCÈS PAR LE WEB...55 3.4. COMPARAISON AVEC D AUTRES SYSTÈMES...55 3.5. ÉVOLUTIONS FUTURES...56 RÉSULTATS BIOLOGIQUES...57 1. LOCALISATION SUBCELLULAIRE DES PROTÉINES...57 1.1. MATÉRIEL ET MÉTHODES...57 1.2. RÉSULTATS...58 1.3. DISCUSSION...60 2. RÉPARTITION ASYMÉTRIQUE DES GÈNES...61 2.1. MATÉRIEL ET MÉTHODES...62 2.2. RÉSULTATS...62 2.3. DISCUSSION...64 3. VARIATIONS DE COMPOSITION EN BASES ET TRANSFERTS HORIZONTAUX...64 3.1. DÉTECTION PAR APPROCHES INTRINSÈQUES...65 3.2. MATÉRIEL ET MÉTHODES...66 3.3. RÉSULTATS...67 3.4. DISCUSSION...69 CONCLUSIONS PERSPECTIVES...71 1. BANQUES DE DONNÉES DE GÈNES HOMOLOGUES...71 2. TRANSFERTS HORIZONTAUX...72 3. GÉNOMIQUE DES BACTÉRIES ENDOCYTOBIOTIQUES...73 RÉFÉRENCES BIBLIOGRAPHIQUES...75 ANNEXE : TITRES ET TRAVAUX...89 ii

INTRODUCTION INTRODUCTION Au cours des cinq dernières années, la bioinformatique moléculaire a connu un essor extraordinaire. Cet essor est bien sûr lié à l aboutissement de nombreux projets de séquençage, projets ayant conduit à l arrivée d énormes quantités de données dont il faut maintenant tirer le plus d informations possibles. Si, dans un premier temps, les génomes séquencés étaient ceux de procaryotes, nous arrivons maintenant au stade où des génomes d eucaryotes pluricellulaires commencent à être disponibles : Caenorhabditis elegans, Drosophila melanogaster, et bientôt l Homme. Cependant, même dans le cas d organismes au génome compact comme les bactéries et les archées, les quantités de données brutes disponibles sont déjà trop importantes pour pouvoir être analysées manuellement (en particulier pour tout ce qui concerne l annotation des séquences). L outil informatique est donc désormais considéré comme un complément indispensable de la biologie moléculaire expérimentale. Ce développement de la bioinformatique a été rendu possible par les énormes progrès réalisés au niveau des capacités de calcul et de stockage des ordinateurs. Sans ces progrès, il n eût pas été envisageable de construire des banques capables de manipuler l intégralité des séquences biologiques publiées ou de développer des logiciels susceptibles d effectuer des traitements sur de très larges sous-ensembles de ces banques. De façon concommitante, au fur et à mesure que les capacités des ordinateurs progressaient, les possibilités d accès aux données et aux programmes se voyaient multipliées du fait du développement d Internet, en particulier grâce au World-Wide Web. Comme ce protocole permettait de construire des interfaces à des programmes situés sur des serveurs distants, il a suffi de deux années après son introduction pour qu il soit possible d utiliser pratiquement n importe quelle banque ou logiciel d analyse des séquences sur un serveur Web dédié. Cette possibilité supprima un des principaux facteurs limitant l utilisation de ces programmes : la nécessité d effectuer une installation locale ou d avoir un compte sur un centre serveur. Avec la disponibilité d un nombre considérable de séquences appartenant à des taxons parfois fort lointains du point de vue phylogénétique, une branche de la bioinformatique a alors connu un développement particulier : la génomique comparative. En effectuant des comparaisons de séquences (par exemple au moyen d alignements) entre plusieurs organismes, il est possible d enrichir les connaissances que l on a sur un gène ou un groupe de gènes. C est en utilisant cette approche que sont le plus souvent effectuées des assignations de fonction ainsi que de nombreuses études ayant trait à la phylogénie moléculaire. Du fait de l importance de cette approche pour tout ce qui touche à l analyse des génomes microbiens, la revue Microbial and Comparative Genomics a d ailleurs été récemment créée. Cependant, il ne faudrait pas penser que la bioinformatique s est mise à exister depuis cinq ou six ans seulement. Mon recrutement au CNRS, en 1992, s est fait sur un poste flêché ayant trait au développement de banques de données en biologie moléculaire. Par ailleurs, l équipe «Biométrie Moléculaire, Évolution et Structure de Génomes» du Laboratoire de Biométrie et Biologie Évolutive est impliquée dans ce - 1 -

INTRODUCTION domaine depuis plus de vingt ans! Dès mon intégration dans cette équipe, je me suis intéressé au développement d outils pour l analyse des génomes bactériens. Plus particulièrement j ai participé à la construction de plusieurs banques de données de séquences et à la conception de logiciels permettant d accéder à ces banques et à en traiter les données. Mon travail ne s est cependant pas limité à une activité de génie logiciel puisque j ai été le premier utilisateur de ces outils afin d obtenir des résultats biologiques nouveaux. Ce mémoire se présente donc comme un bilan de mes travaux récents (depuis 1995) dans ce domaine. Ne sont donc pas abordés les développements plus anciens que j ai pu effectuer dans la continuité de ma thèse sur la base de connaissance ColiGene (1992-93), ou pendant mon année de mise à disposition au Japon sur la banque de séquences NRSub (1994-95). Le plan de cet ouvrage est le suivant : le premier chapitre est consacré à un «état de l art» dans le domaine des banques de séquences. Il décrit tout d abord les principales collections généralistes de séquences nucléotidiques et protéiques puis s attache à montrer quelles sont leurs limites. Ensuite sont décrites quelques unes des banques spécialisées qui ont été développées dans le but de répondre à ces limitations. Ce chapitre se termine sur un aperçu des différents systèmes d interrogation à la disposition des utilisateurs pour accéder aux banques. Le deuxième chapitre expose les différents développements informatiques auxquels j ai participé. Ces développements ayant été effectués en collaboration (ou à la suite de fortes interactions) avec d autres chercheurs de mon équipe ou d équipes extérieures. Ainsi le travail que j ai effectué sur le serveur du Pôle Bio-Informatique Lyonnais est typiquement un exemple de tâche impliquant la collaboration de plusieurs autres personnes. Parmi les autres outils à la construction desquels j ai participé, figurent la banque de séquences de génomes complets microbiens EMGLib et la banque de gènes homologues de procaryotes HOBACGEN. Le troisième chapitre présente les différents résultats biologiques que j ai pu obtenir avec les différents outils que j ai développés. Tout d abord est présenté un résultat sur la localisation subcellulaire des protéines de bactéries Gram négatives, résultat obtenu au moyen d une méthode d analyse multivariée d introduction relativement récente : l analyse discriminante des correspondances. Ensuite, est décrite une étude sur l asymétrie de localisation des gènes entre le brin direct et le brin retardé du chromosome bactérien. Enfin, je montre en quoi l existence de variations dans la composition en base des chromosomes bactériens peut conduire à une surestimation du nombre de gènes prédits comme ayant été obtenus par transfert horizontal. Pour conclure, plusieurs projets de recherche en continuité avec les travaux exposés dans cet ouvrage sont présentés. Un premier groupe de projets concerne la construction de nouvelles banques utilisant le modèle de données et le système d interrogation d HOBACGEN. Une autre voie en cours d exploration est celle de la recherche de gènes obtenus par transfert horizontal chez plusieurs groupes d espèces bactériennes : des organismes «modèles», comme Escherichia coli, mais également des pathogènes humains ou végétaux. Le dernier projet concerne l étude de la génomique des bactéries endocytobiotiques des arthropodes, qu il s agisse de parasites du genre Buchnera ou de symbiotes comme Wolbachia. - 2 -

BANQUES DE DONNÉES I. BANQUES DE DONNÉES Depuis que les biologistes travaillent avec des séquences en grande quantité c est-àdire depuis le développement et la généralisation de l utilisation des méthodes rapides de séquençage la nécessité d organiser et d accéder aisément à ces données s est fait ressentir. Les premières banques de données en biologie moléculaire concernèrent les informations structurales sur les protéines, puis, très rapidement, les séquences protéiques et nucléotidiques. Il existe des banques généralistes, dans lesquelles sont stockées les séquences provenant de tous les organismes, et des banques spécialisées qui se consacrent plus particulièrement à un organisme ou à une thématique donnée. L existence de ces banques a nécessité le développement de systèmes d interrogation permettant d accéder aux données qu elles contiennent. Ce chapitre se propose donc de faire un tour d horizon de ces différents systèmes. 1. LES BANQUES GÉNÉRALISTES Cette section présente les principales collections généralistes de séquences nucléotidiques et protéiques ainsi que les centres de saisie qui leur sont associés. Nous verrons en particulier comment les données sont collectées et sous quel format elles sont stockées et rendues publiques. Par la suite, j exposerai les principales limitations de ces systèmes, limitations qui sont en partie responsables du développement des banques spécialisées. C est d ailleurs du fait de ces limitations que plusieurs banques spécialisées ont été développées dans notre équipe, certaines étant décrites plus en détail dans le deuxième chapitre. 1.1. BANQUES DE SÉQUENCES NUCLÉOTIDIQUES Il existe trois banques généralistes de séquences nucléotidiques publiquement accessibles de par le monde : l EMBL (Baker et al., 2000) en Europe, GenBank (Benson et al., 2000) aux États-Unis, et la DDBJ (Tateno et al., 2000) au Japon. La banque EMBL a été créée en 1980 à Heidelberg, et elle est maintenue depuis 1994 par l EBI (European Bioinformatic Institute), à Cambridge. GenBank a été mise en place en 1979 au LANL (Los Alamos National Laboratory), à Los Alamos. Depuis 1992 elle est maintenue au NCBI (National Center for Biotechnology Information), à Bethesda. Enfin, la DDBJ a débuté son activité en 1984. Cette banque a été créée et est toujours maintenue au NIG (National Institute of Genetics), à Mishima. Ces trois centres étant également en charge de la saisie et de la distribution des données. 1.1.1. DONNÉES Les données proviennent dans 95 % des cas de soumissions directes effectuées par les auteurs, soumissions réalisées désormais quasi-exclusivement par l intermédiaire du réseau Internet. En effet, la plupart des revues de biologie moléculaire n acceptent de - 3 -

CHAPITRE I publier des séquences que si celles-ci sont dotées d un numéro d accession fourni par les banques. Il convient donc, dès l obtention d une nouvelle séquence, de soumettre celle-ci au centre de saisie le plus proche géographiquement. Les 5 % de séquences restants sont extraits de la littérature scientifique (notamment les documents de brevets). Il est à noter que la collecte des séquences via les publications représente un travail long, difficile, beaucoup moins précis que les soumissions directes. Les séquences recueillies par les trois centres sont échangées quotidiennement, ceci de façon à obtenir un ensemble de données aussi complet et cohérent que possible. La conséquence de ceci est qu en pratique, ces trois banques n en font qu une car leur contenu est identique à plus de 99,9 %. Ceci amène régulièrement les responsables des centres de saisie à se poser la question de l utilité de la maintenance de trois banques différentes. Il existe ainsi depuis longtemps un projet de fusion d EMBL, de GenBank et de la DDBJ en un seul système. Depuis leur création au début des années 80, la taille de ces banques n a cessé de croître. Si l on regarde l allure de cette croissance, on constate qu elle peut être approximativement assimilée à une exponentielle pour les séquences nucléotidiques (Figure I.1). Par contre, le nombre de séquences protéiques croît beaucoup moins vite. L accélération constatée en 1995 correspond au développement des techniques de PCR (Polymerase Chain Reaction) et à l arrivée massive des EST (Expressed Sequence Tags) et des STS (Sequence-Tagged Sites), largement utilisés pour l étude des génomes eucaryotes (Venter, 1991). log(taille) 10 9,5 9 8,5 8 7,5 7 6,5 6 5,5 5 09/83 07/85 05/87 03/89 01/91 11/92 09/94 07/96 05/98 Date Figure I.1. Croissance en taille des banques nucléotidiques GenBank ( ) et EMBL ( ), et des banques protéiques PIR ( ) et SWISS-PROT ( ). Au moment où sont écrites ces lignes, les génomes complets de 22 bactéries, six archées, et trois eucaryotes (Saccharomyces cerevisiae, C. elegans et D. melanogaster) sont disponibles. Par ailleurs, c est d ores et déjà près de 75 % du génome humain qui est accessible. La base de données GOLD (Genome On Line Database) permet de suivre la progression des différents projets de séquençage en cours 1. C est ainsi qu il existe plus de 100 projets pour des organismes procaryotes (dont une majorité de bactéries pathogènes) et 31 pour des organismes eucaryotes. 1 http://geta.life.uiuc.edu/~nikos/genomes.html - 4 -

BANQUES DE DONNÉES 1.1.2. FORMAT DE STOCKAGE EMBL, GenBank et la DDBJ sont distribuées par les centres sous la forme d un ensemble de fichiers plats (environ une centaine) regroupant les séquences en fonction de critères taxonomiques (procaryotes, virus, primates, etc.) ou de leur origine (brevets, EST et STS). À l intérieur de ces fichiers, chaque séquence est contenue dans une structure appelée «entrée», une entrée comprenant une quantité variable d informations liée à la séquence considérée (comme sa structure, son rôle biologique, ainsi que la mention de l organisme dont elle est issue). Les informations en question sont introduites au niveau de «champs» bien définis. Le format de stockage utilisé par EMBL est différent de celui utilisé conjointement par GenBank et la DDBJ. Cette différence ne porte que sur la façon de représenter les données et la philosophie générale des deux systèmes est la même. Le format utilisé par EMBL étant cependant plus simple à utiliser si l on se place dans la perspective d une structuration des données au moyen d un SGBD (Système de Gestion de Bases de Données). Dans ce format, les champs sont identifiés à l aide d un code à deux lettres localisé dans les deux premières colonnes du fichier (Figure I.2). Dans le cas de GenBank et de la DDBJ, ces champs sont indiqués par des identificateurs organisés sur deux niveaux, la séparation entre ces différents niveaux étant repèrable par une indentation différente. Des informations d ordre général sont disponibles au niveau de sept champs. Le champ ID (LOCUS, dans le cas de GenBank et de la DDBJ) correspond au nom de l entrée, son statut, la nature de la molécule séquencée et sa longueur. AC (ACCESSION) contient un ou plusieurs numéros d accession, uniques pour l ensemble des banques. SV (VERSION) reprend les numéros d accession du champ AC et en plus leur ajoute un numéro de version. À chaque modification de l entrée, ce numéro de version est incrémenté. DE (DEFINITION) contient ce que l on appelle la définition de la séquence. Il s agit de quelques lignes, fournies par les auteurs, décrivant sommairement le contenu de l entrée (noms des gènes, fonction des protéines pour lesquelles ils codent, etc.) DT est spécifique au format EMBL et contient la date de création de l entrée (première ligne) ainsi que la date de dernière modification (deuxième ligne). Une liste de mots-clés figure au niveau du champ KW (KEYWORDS). CC (COMMENT) permet l introduction de références croisées avec d autres banques ainsi que des commentaires. Ces commentaires peuvent être introduits par les auteurs, ou bien par les personnes en charge de la saisie des séquences dans les centres. La classification taxonomique de l organisme dont est issue la séquence est introduite au niveau de trois champs. OS (SOURCE) contient le nom de l espèce, OC (ORGANISM) sa position dans l arbre, et OG permet de préciser si la séquence provient d un organelle (mitochondrie ou chloroplaste) de l espèce considérée. La classification qui figure dans ces champs est fort ancienne et comporte de nombreuses inexactitudes, ceci alors que le NCBI propose sur son site Web un arbre des espèces beaucoup plus récent et complet 2. Un projet de migration des différentes banques généralistes vers cette taxonomie étant d ailleurs prévu. Les références bibliographiques nécessitent six champs. RN (REFERENCE) contient le numéro de la référence, RP spécifie quelle est la région de la séquence concernée par cette référence, RX (MEDLINE) renvoie au numéro d accession de cette référence dans la banque de données bibliographique Medline, RA (AUTHORS) contient les noms des auteurs, RT (TITLE) donne le titre de l article, et enfin, RL (JOURNAL) donne la référence proprement dite (nom du journal, volume, pagination et année de publication). 2 http://www.ncbi.nlm.nih.gov/taxonomy/taxonomyhome.html/ - 5 -

CHAPITRE I ID ECINTER standard; DNA; PRO; 2509 BP. XX AC M63497; X53729; XX SV M63497.1 XX DT 28-MAR-1991 (Rel. 27, Created) DT 05-JUL-1999 (Rel. 60, Last updated, Version 7) XX DE E.coli intergenic region between iclr and acek genes. XX KW acek gene; iclr gene; isocitrate dehydrogenase kinase/phosphatase. XX OS Escherichia coli OC Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; OC Escherichia. XX RN [1] RP 1-2509 RX MEDLINE; 91138981. RA Galinier A., Bleicher F., Negre D., Perriere G., Duclos B., Cozzone A.J., RA Cortay J.-C.; RT "Primary structure of the intergenic region between acek and iclr in the RT Escherichia coli chromosome"; RL Gene 97:149-150(1991). XX CC SWISS-PROT; P11071; ACEK_ECOLI CC SWISS-PROT; P16528; ICLR_ECOLI CC SWISS-PROT; P23325; YJAC_ECOLI [ ] XX FH Key Location/Qualifiers FH FT source 1..2509 FT /db_xref="taxon:562" FT /organism="escherichia coli" FT /strain="k-12" [ ] FT CDS 645..2483 FT /codon_start=1 FT /db_xref="swiss-prot:p23325" FT /label=orf FT /transl_table=11 FT /protein_id="aaa73004.1" FT /translation="meilpqrsdtldkqeldlksdrkekefpriklngqcyfpgrpqnr FT IVCRHIAAQYINDIYQNVDYKPHQDDYSSAEKFLTHFNKKCKNQTLALVSSRPEGRCVA FT ACGDFGLVMKAYFDKMESNGISVMAAILLVDNHALTVRLRIKNTTEGCTHYVVSVYDPN [ ] FT GLFSAIQHKQQNVVETVYLALSDHARLFGFTAEDIMDFWQHKAPQKYSAFELAFEFGHR FT [ ] XX SQ [ ] // VIAELILNTLNKMAESFTQKSISPYRTLNLCLRRYA" Sequence 2509 BP; 825 A; 494 C; 459 G; 731 T; 0 other; aagcggcgaa ggaagtgacg ctggcgtacg gtggaatgcg ctgacttttt ctggcgggca 60 gaggcaattt ctgcccatca tacctgagtg gcaatagaat aagggtgtct gttaatcgca 120 ttgacgccaa aataacttaa tcgcattgac gccaaaataa cttaatgtca tacacttcac 180 taaataagat ggctgaaagc tttactcaaa aaagcatctc cccataccgt acgctaaatc 2460 tttgcctgcg ccgatacgca taaacatctt ccacatgccc ttcacgtat 2509 Figure I.2. Exemple d entrée EMBL. Le champ FT (FEATURES) contient des informations très variées sur la position et la nature des segments de séquence biologiquement significatifs (régions codantes, signaux de régulation, conflits entre séquences, etc.) Ce champ est lui-même subdivisé par ce que l on appelle des qualifiers ou descripteurs. Ces descripteurs sont nombreux et je n en citerai donc que quelques uns : /gene contenant le nom du gène, /protein_id donnant le numéro d accession de la protéine encodée par le gène, /db_xref pointant vers une référence croisée dans une autre banque, et /translation contenant la traduction en acides aminés de la partie codante. La structure des features a été standardisée il y a quelques années et est désormais identique pour les trois banques. Enfin, la séquence elle-même est signalée par le champ SQ (ORIGIN), tandis que la fin de l entrée est indiquée par un //. 1.1.3. DISTRIBUTION ET MISE À JOUR De nouvelles versions de ces banques sont proposées avec une périodicité de deux mois pour GenBank et trois mois pour EMBL. Par ailleurs, les trois centres de saisie - 6 -

BANQUES DE DONNÉES procèdent à des mises à jour quotidiennes de leurs banques respectives. La récupération des données se fait désormais uniquement par l intermédiaire de transferts FTP (File Transfer Protocol), ce qui pose de sérieux problèmes techniques du fait de la taille conséquente atteinte par les fichiers et de l encombrement du réseau Internet. 1.2. BANQUES DE SÉQUENCES PROTÉIQUES Tout comme leurs homologues consacrées aux séquences nucléotidiques, les banques dédiées aux protéines ont une organisation centrée autour de deux types d informations : les annotations biologiques et biochimiques d une part (avec les références bibliographiques et les données taxonomiques associées), et les séquences d autre part. 1.2.1. TREMBL ET GENPEPT Il existe une version «protéomique» de deux des grandes banques généralistes de séquences nucléotidiques EMBL et GenBank. Ainsi TrEMBL, distribuée par l EBI, contient la traduction de toutes les parties codantes annotées figurant dans EMBL, avec exclusion des protéines figurant dans SWISS-PROT. Certaines protéines présentant une variabilité très importante (comme les immunoglobulines) sont également exclues de TrEMBL. De son côté GenPept, distribuée par le NCBI, correspond à la traduction de l ensemble des parties codantes de GenBank. Ces deux systèmes ne peuvent cependant être considérés comme de véritables banques protéiques, du fait que les annotations qu ils contiennent sont uniquement celles provenant des séquences nucléotidiques. Les véritables banques de protéines contiennent de nombreuses informations spécifiques, comme nous allons le voir dans les sections suivantes. 1.2.2. SWISS-PROT La principale banque de protéines à l heure actuelle est sans conteste SWISS-PROT (Bairoch et Apweiler, 2000). Cette banque a été créée en 1986 par Amos Bairoch à Genève, et elle est maintenue et distribuée conjointement par le SBI (Swiss Institute of Bioinformatics) et l EBI. Le format de données adopté par SWISS-PROT suit de très près celui en vigueur à l EMBL (Figure I.3). Quelques champs supplémentaires sont introduits, comme GN ou DR, contenant respectivement le nom du gène codant pour la protéine considérée et des références croisées avec d autres banques. Par ailleurs, le champ DE est rempli non pas en fonction d informations fournies par les auteurs des séquences, mais bien par les annotateurs eux-mêmes, ceci permettant de donner une cohérence beaucoup plus grande à son contenu. Les séquences présentes dans cette banque proviennent de quatre origines : la traduction des gènes annotés dans EMBL, certaines protéines issues d autres banques protéiques, la consultation de publications scientifiques et quelques soumissions directes par les auteurs. Un certain nombre de raisons font que SWISS-PROT est devenue la banque de référence pour les séquences protéiques. La première d entre elles est une redondance minimale, les différentes versions d une même entrée étant fusionnées, avec annotation des positions conflictuelles. Par ailleurs, lorsque la séquence d une protéine est identique dans plusieurs espèces, une seule entrée est créée. Un autre atout de SWISS- PROT est également l introduction d un nombre très important de références croisées avec d autres banques de données (plus d une cinquantaine). Cette particularité se révélant particulièrement utile avec le développement d Internet et les possibilités d interconnections des banques qu offre ce réseau. - 7 -

CHAPITRE I ID ARP_ECOLI STANDARD; PRT; 728 AA. AC P23325; P76781; DT 01-NOV-1991 (Rel. 20, Created) DT 01-OCT-1993 (Rel. 27, Last sequence update) DT 01-NOV-1997 (Rel. 35, Last annotation update) DE ANKYRIN-LIKE REGULATORY PROTEIN. GN ARP. OS Escherichia coli. OC Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; OC Escherichia. [ ] RN [2] RP SEQUENCE OF 108-728 FROM N.A. RX MEDLINE; 91138981. RA Galinier A., Bleicher F., Negre D., Perriere G., Duclos B., Cozzone A.J., RA Cortay J.-C.; RT "Primary structure of the intergenic region between acek and iclr in RT the Escherichia coli chromosome."; RL Gene 97:149-150(1991). [ ] DR EMBL; U00006; AAC43111.1; -. DR EMBL; AE000474; AAC76987.1; -. DR EMBL; M63497; AAA73004.1; -. DR PIR; JQ0870; JQ0870. DR ECOGENE; EG11208; arp. DR PRODOM; P23325; P76781. DR SWISS-2DPAGE; P23325; P76781. KW Repeat; ANK repeat. FT DOMAIN 368 703 7 X ANK MOTIF REPEATS. FT REPEAT 368 415 ANK MOTIF 1. FT REPEAT 416 463 ANK MOTIF 2. FT REPEAT 464 511 ANK MOTIF 3. FT REPEAT 512 559 ANK MOTIF 4. FT REPEAT 560 607 ANK MOTIF 5. FT REPEAT 608 655 ANK MOTIF 6. FT REPEAT 656 703 ANK MOTIF 7. FT CONFLICT 124 124 N -> D (IN REF. 2). FT CONFLICT 282 282 GFTDNPRYIAEKNYMEALLKKASPHTVR -> FT TQKSISPYRTLNLCLRRYA (IN REF. 2). SQ SEQUENCE 728 AA; 82612 MW; 02577283E8232928 CRC64; MITRIPRSSF SANINNTAQT NEHQTLSELF YKELEDKFSG KELATPLLKS FSENCRQNGR HIFSNKDFVI KFSTSVLQAD KKEITIINKN ENTTLTQTIA PIFEKYLMEI LPQRSDTLDK QELNLKSDRK EKEFPRIKLN GQCYFPGRPQ NRIVCRHIAA QYINDIYQNV DYKPHQDDYS [ ] DFWQHKAPQK YSAFELAFEF GHRVIAELIL NTLNKMAESF GFTDNPRYIA EKNYMEALLK KASPHTVR // Figure I.3. Exemple d entrée SWISS-PROT. Une autre des caractéristiques de SWISS-PROT est la qualité particulièrement élevée de ses annotations. Les différentes catégories d informations figurant dans la banque comprennent notamment la ou les fonctions des protéines, les modifications post-traductionnelles, les sites et domaines structuraux ou fonctionnels identifiés, les structures secondaires et quaternaires, les similarités avec d autres protéines, les positions conflictuelles pour chaque entrée, etc. Toutes ces annotations proviennent à la fois d une consultation régulière de la bibliographie et de l apport d informations par des «experts» sur certaines familles de protéines. Un certain nombre d organismes modèles, objets de projets de séquençage, ont par ailleurs été sélectionnés par SWISS- PROT de façon à améliorer encore le niveau d annotations de leurs protéines, et à établir des références croisées avec des banques spécialisées. Enfin, il faut savoir que SWISS-PROT se situe au cœur d un ensemble de banques de données développées par le SIB. Ces banques lui sont complémentaires et couvrent de nombreux aspects de la biologie et de la biochimie des protéines. On peut ainsi citer PROSITE (Hofman et al., 1999), dédiée aux motifs consensus caractéristiques d une famille de protéines ; ENZYME (Bairoch, 2000), sur la nomenclature des enzymes ; SWISS-2DPAGE (Hoogland et al., 2000) sur les données de migration électrophorétiques ; et SWISS-3DIMAGE (Petsch et al., 1995) sur les images de structures tridimensionnelles. Cette intégration est réalisée de façon exemplaire au niveau d ExPASy 3 le serveur Web du SIB. 3 http://www.expasy.ch - 8 -

BANQUES DE DONNÉES SWISS-PROT constitue donc une exception dans le monde des banques de séquences généralistes dans le sens qu elle s attache à répondre aux critiques habituellement formulées à l égard de ces systèmes. Avec le flot continu de séquences qu apportent les projets génomes, la richesse des annotations dans SWISS-PROT est, de façon inévitable, obtenue au détriment de l exhaustivité des séquences. Cependant, si l on considère cette banque en prenant en compte son annexe TrEMBL, ce problème disparaît. 1.2.3. PIR Les origines de la banque PIR (Protein Information Resource) sont anciennes puisque la toute première version remonte au milieu des années 60 (Dayhoff et al., 1965). Depuis 1988, cette banque de données est maintenue conjointement par la NBRF (National Biomedical Research Foundation) aux États-Unis, le MIPS (Martinsried Institute for Protein Sequences) en Allemagne, et la JIPID (Japan International Protein Information Database) au Japon. Le but de cette collection est de fournir des informations exhaustives et non redondantes organisées selon des critères taxonomiques et de similarité (Barker et al., 2000). Si l exhaustivité semble effectivement atteinte, il reste encore un taux de redondance non négligeable. Par ailleurs, la qualité des annotations est bien moindre que celle de SWISS-PROT. La banque PIR comprend trois composantes : les références bibliographiques, les séquences protéiques telles qu elles ont été publiées, et des séquences canoniques construites à partir des différentes versions d une même entrée. Les données proviennent de trois sources : les publications scientifiques, les soumissions des auteurs, et la traduction des parties codantes annotées présentes dans les banques nucléotidiques. Quelques références croisées ont été mises en place avec les banques de séquences nucléotidiques et quelques banques spécialisées, mais en nombre nettement moins important que dans SWISS-PROT. Alors que dans SWISS-PROT la classification des protéines en familles est réalisée essentiellement en utilisant les motifs PROSITE, PIR utilise une approche bien différente pour construire ses superfamilles. Cette approche étant basée sur des similarités de séquence mais aussi de fonction (Barker et al., 1996). 1.2.4. AUTRES BANQUES D autres banques ayant connu un succès bien moindre que SWISS-PROT et PIR ont été également développées. On peut ainsi citer OWL (Bleasby et al., 1994) une banque composite et non redondante construite à partir de quatre sources de données : la traduction de parties codantes de GenBank, SWISS-PROT, PIR et NRL_3D (Pattabiraman et al., 1990). SWISS-PROT était la source d information prioritaire, représentant près de la moitié des entrées de OWL, les trois autres collections permettant d introduire des séquences manquantes. Des critères très stricts de non redondance faisaient d OWL une banque relativement petite en volume, mais théoriquement exhaustive en quantité de données. Cependant, cette banque n a plus connu de nouvelle version depuis août 1998 et sa maintenance semble désormais abandonnée. Plus récemment, on a vu l apparition de KIND (Kallberg et Persson, 1999), une banque du même type que OWL mais construite à partir de TrEMBL, GenPept, SWISS-PROT et PIR. Là encore, la fréquence d apparition de nouvelles versions semble assez limitée. - 9 -

CHAPITRE I 1.3. INTERÊT ET LIMITES DES BANQUES GÉNÉRALISTES Les banques de données généralistes en biologie moléculaire constituent un outil absolument indispensable à l activité quotidienne du chercheur amené à travailler avec des séquences. Elles représentent une source précieuse d informations, dont l exhaustivité permet théoriquement d effectuer des recherches efficaces sur les connaissances du moment au sujet de tel gène ou de telle protéine. De plus, elles centralisent en un même lieu et sous un même format l ensemble des séquences connues. Ainsi les critiques que je vais maintenant formuler ne doivent pas faire oublier l absolue nécessité de l existence de ces banques. Les défauts de ces types de collections sont en effet multiples, parmi lesquels de trop nombreuses erreurs, notamment au niveau des séquences mêmes (erreurs de séquençage, de saisie, présence dans les séquences de vecteurs de clonage, etc.) Erreurs qui déprécient sensiblement les bénéfices apportés par ces outils. Cette qualité très inégale, voire même médiocre, des informations stockées peut être expliquée par plusieurs raisons : La libre soumission des séquences et de leurs caractéristiques par les auteurs entraîne imprécisions, omissions, voire erreurs. La responsabilité des biologistes ayant déterminé et soumis les séquences n est pas systématiquement mise en cause ici, mais il faut reconnaître que les régions attenantes au(x) gène(s) considéré(s) dans le cadre d une étude donnée sont bien souvent approximativement séquencées et pauvrement annotées. Le format de stockage des données est très strict en théorie, mais il l est malheureusement moins dans son application. Ce problème se révèle particulièrement aigu au niveau des features où les différents types d informations qu il est possible d annoter sont souvent utilisés à mauvais escient, ceci sans même évoquer les cas trop fréquents où des informations importantes sont placées sans aucune structuration au niveau des commentaires. Il existe une forte incohérence des informations, particulièrement au niveau des mots-clés. Ceux-ci devraient théoriquement permettre une extraction aisée et fiable d informations, mais l existence de multiples formulations pour désigner un même concept rend cet outil à peu près inutilisable. Malgré tout, des outils plus performants mis à la disposition des biologistes pour soumettre les séquences, ainsi que des contrôles de cohérence accrus lors de l intégration de nouvelles informations dans les collections devraient permettre une amélioration sensible de la qualité des données. Cependant, ces progrès n auront probablement aucun effet sur le deuxième problème majeur des banques généralistes : la redondance des informations. En effet, pour une des raisons évoquées précédemment la libre soumission de nombreuses séquences se trouvent partiellement ou intégralement dupliquées dans ces collections. Ces doublons présentent très fréquemment des variations dans leurs séquences et/ou leurs annotations. D une certaine façon, ce constat constitue un point positif en autorisant des comparaisons entre différents points de vue sur une même information. En effet, il peut exister des variations naturelles entre des souches ou des individus différents. Cette redondance pose tout de même deux problèmes : d une part, les différences observées au niveau des séquences et des annotations représentent des difficultés extrêmement complexes à résoudre lorsqu il s agit d étudier un fragment de séquence particulier car il est impossible de décider par un processus automatique si elles sont issues d un polymorphisme allélique naturel, d erreurs de séquençage, ou encore de - 10 -

BANQUES DE DONNÉES duplications de gènes (Perrière et al., 1994). D autre part, il est clair que toute analyse globale sera fortement biaisée par cette duplication d informations. Il est donc nécessaire, avant d entreprendre toute expérience sensible à ce phénomène de redondance, d éliminer proprement ces duplications, ce qui n est pas chose aisée. Ce problème de la redondance a encore été aggravé avec l arrivée des génomes complets. En effet, les séquences de ces génomes ne figurent pas, dans les versions standard des collections généralistes, sous la forme de contigs d un seul tenant, mais sous la forme de fragments chevauchants d une longueur de 300 kb maximum. Le plus fréquemment, les génomes (ou les chromosomes) sont découpés en morceaux de 100 kb avec un chevauchement de 10 kb. Cette décision de découper les très grandes séquences en fragments est liée à la volonté de conserver la compatibilité des banques avec le système GCG (Genome Computer Group), le package le plus largement employé en analyse des séquences aux États-Unis (Devereux et al., 1984). En effet, du fait de ses origines remontant aux années 80, les programmes faisant partie de ce système sont incapables de gérer des séquences dont la longueur est supérieure à 300 kb. 2. BANQUES SPÉCIALISÉES L existence de ces nombreux problèmes inhérents aux banques généralistes a conduit tout naturellement à considérer les solutions permettant de pallier ces inconvénients. Parmi celles-ci, les collections spécialisées représentent probablement le meilleur moyen pour répondre aux critiques précédemment formulées. Il faut cependant garder à l esprit qu une des raisons de la création de telles banques tient également à la nécessité d introduire des informations spécifiques, informations qui n auraient rien à faire dans les collections généralistes. 2.1. BANQUES THÉMATIQUES Les banques de ce type se consacrent à une thématique biologique bien précise. Elles intègrent donc des séquences et des données qui sont spécifiques à ce domaine. Ne seront abordées dans cette section que des banques comprenant des séquences nucléotidiques ou protéiques dans leur structure. Il existe en effet de multiples collections abordant des aspects de la biologie moléculaire non directement liés aux séquences (e.g., sur le métabolisme ou les réseaux de régulation), et la description de tels systèmes ne rentre pas dans le cadre de cet ouvrage. 2.1.1. STRUCTURES MOLÉCULAIRES La principale banque de structures tridimensionnelles est la PDB (Protein Data Bank) (Berman et al., 2000). Cette banque, créée aux États-Unis en 1977, est une collection de structures de macromolécules biologiques. Les protéines constituent l essentiel des entrées de la PDB, mais on y trouve aussi des structures de molécules de RNA et de DNA, de complexes protéine-acides nucléiques, de virus et de polyosides. Ces structures ayant quasiment toutes été déterminées expérimentalement par cristallographie aux rayons X ou par RMN, seul un petit nombre d entrées de la PDB (2 %) provenant de résultats de modélisation moléculaire. Les entrées de la banque comprennent des informations sur les structures primaires et secondaires des molécules considérées, les coordonnées des atomes ainsi que des références bibliographiques. - 11 -

CHAPITRE I Bien que le nombre de structures de macromolécules biologiques connues à l heure actuelle soit très inférieur à celui des séquences (11 912 structures dans la PDB contre respectivement 83 857 et 168 808 protéines dans SWISS-PROT et PIR en mars 2000), celui-ci croît actuellement à une vitesse comparable à celle observée pour les séquences protéiques il y a quelques années (Figure I.4). log(entrées) 4,25 4 3,75 3,5 3,25 3 2,75 2,5 2,25 2 1,75 09/78 04/81 12/83 07/86 02/89 09/91 04/94 12/96 07/99 Date Figure I.4. Croissance du nombre d entrées de la PDB depuis sa création. MMDB (Molecular Modelling Data Base) est une banque construite par le NCBI à partir des entrées de la PDB avec une intégration au sein d Entrez (Wang et al., 2000). L utilisation de ce puissant système d interrogation permet le lien avec les références des articles dans lesquels les structures ont été publiées. Entrez permet également de récupérer toutes les protéines de GenPept présentant une similarité de séquence avec une entrée quelconque de MMDB. Mais de plus, grâce au couplage avec le programme VAST (Gibrat et al., 1996), il est possible de récupérer toutes les entrées présentant une similarité de structure. En effet, il existe des protéines qui peuvent avoir un repliement semblable sans pour autant avoir une similarité de séquence très marquée. SCOP (Structural Classification of Proteins) regroupe les différents types de structures de protéines en familles (Lo Conte et al., 2000). Cette classification s organise sur plusieurs niveaux hiérarchiques : superfamilles, familles, et repliements communs. Les deux premiers niveaux sont bâtis sur les relations évolutives (inférées par la similarité) existant entre les protéines, tandis que le troisième utilise des relations au niveau de la structure spatiale proprement dite. Dans ce cas, les protéines sont regroupées si elles possèdent les mêmes structures secondaires principales avec un arrangement et des connections topologiques identiques. Cinq grandes classes de repliements sont définies dans SCOP en fonction de leurs proportions d hélices α et de feuillets β ainsi que de l agencement de ces structures. HSSP (Homology-derived Secondary Structure of Proteins) contient une classification en familles des protéines de SWISS-PROT établie par des recherches de similarités avec les protéines figurant dans la PDB (Holm et Sander, 1999). Chaque famille est donc centrée sur une protéine de structure 3D connue. De cette façon, il est possible d inférer les structures secondaires et tertaires potentielles des membres de cette famille. À l heure actuelle, près de 36 % des protéines de SWISS-PROT sont classées dans HSSP. - 12 -

BANQUES DE DONNÉES Enfin, BMRB (BioMagResBank) est une base de données relationnelle contenant des déplacements chimiques de RMN dérivés de peptides et de quelques protéines ainsi que des informations de séquence, de bibliographie, et sur les conditions expérimentales d obtention de la structure (Seavey et al., 1991). 2.1.2. SÉQUENCES ET STRUCTURES DE RNA Il existe deux compilations de séquences de rrna, une en Europe et une aux États- Unis. Le contenu de ces deux banques est assez proche puisque toutes deux intègrent non seulement les séquences des rrna de la grande ou de la petite sous-unité du ribosome, mais aussi des alignements et des arbres phylogénétiques. La banque américaine est la RDP (Ribosomal Database Project) (Maidak et al., 2000), tandis que son homologue européenne se divise en deux parties : LSU rrna (Large Subunit rrna database) (De Rijk et al., 2000), consacrée à la grande sous-unité, et SSU rrna (Small Subunit rrna database) (Van de Peer et al., 2000), consacrée à la petite sousunité. Dans ces deux banques, les alignements disponibles présentent la caractéristique très intéressante d être corrigés manuellement, ceci afin de permettre l obtention d arbres phylogénétiques plus fiables. En effet, la qualité d une phylogénie est directement liée à la qualité de l alignement utilisé, et il est bien connu que des alignements sur des séquences aussi longues que des rrna doivent être retravaillés avant d utiliser une méthode de reconstruction phylogénétique. Pour ce qui est des trna, il existe une collection regroupant les séquences des gènes et des molécules transcrites (puisque les trna matures contiennent de nombreuses bases modifiées) (Sprinzl et al., 1998). Outre les séquences, cette banque contient également des structures secondaires ainsi que des alignements basés en partie sur ces structures. 2.1.3. FAMILLES DE GÈNES Avec le développement de la génomique comparative, de plus en plus de banques de séquences proposent une classification des gènes protéiques sous la forme de familles. Le principe de base pour la construction de ces banques est toujours le même. Dans un premier temps une recherche de similarité entre toutes les protéines d un ensemble donné est effectuée au moyen d un logiciel comme BLAST (Basic Local Alignment Search Tool) (Altschul et al., 1990, 1997) ou FASTA (Pearson et Lipman, 1988), ces protéines étant ensuite regroupées en familles en utilisant des critères de similarité. Ce regroupement peut s effectuer en utilisant des associations qui vont du «simple lien» au «lien complet», avec de nombreuses nuances entre ces deux extrêmes. En simple lien, si une protéine A passe le critère de similarité avec une protéine B, et si la protéine B passe le critère de similarité avec une protéine C, alors A, B et C sont classées ensemble même si la paire A/C ne répond pas à ce critère. En lien complet, toutes les paires possibles à l intérieur d une famille doivent passer le critère de similarité. Parmi les différentes banques de ce type, une des premières est ProtFam 4, distribuée par le MIPS (Mewes et al., 2000). ProtFam est construite à partir des séquences de PIR et elle intègre quatre niveaux de similarités entre les protéines. Au plus haut niveau les protéines sont groupées en utilisant la classification en superfamilles de PIR. Ces superfamilles sont ensuite subdivisées en familles, sous-familles et entrées en utilisant des niveaux de similarité de plus en plus forts (égaux respectivement à 50 %, 80 % et 95 %). Cette banque intègre également des alignements et des dendrogrammes 4 http://www.mips.biochem.mpg.de - 13 -

CHAPITRE I construits à partir des séquences complètes mais aussi à partir des domaines de la banque Pfam (Bateman et al., 2000). Qui plus est, l utilisateur a la possibilité de soumettre ses propres séquences sur le serveur de ProtFam, ceci afin de déterminer dans quelle famille celles-ci se placent. 7096(1) 1 5899(1) 1 3(1) 1 1 1 4463(2) 5 1 1 1 137(37) 1 2399(3) 3 1 3485(2) 1 1 2 1 44(73) Figure I.5. Relations d homologie existant entre plusieurs familles de ProtoMap. Chaque cercle représente une famille et son diamètre est proportionnel au nombre (indiqué entre parenthèses) de gènes qui en font partie. La taille des traits reliant deux familles est proportionnelle au nombre de liens existant entre elles. Ainsi la famille 44 contient deux gènes qui sont liés à un gène de la famille 2399 comme l indiquent les deux nombres figurant sur le trait. ProtoMap 5 est l équivalent de ProtFam pour la banque SWISS-PROT (Yona et al., 2000). Au lieu d utiliser le score d un seul type de programme pour construire les familles, les concepteurs de cette banque ont préféré employer la combinaison de trois mesures : Smith et Waterman (1981), BLAST et FASTA. Il est possible de visualiser les alignements ou d explorer la classification des protéines au sein d une famille en utilisant une représentation sous forme d arbres, le serveur dédié à la banque intègrant un ensemble d applets Java dotées d interfaces graphiques. Là encore, il est possible de soumettre des séquences personnelles afin de déterminer à quelle famille elles se rattachent. ProtoMap n intègre pas de données sur les domaines protéiques, par contre cette banque permet de visualiser les relations d homologies qui peuvent exister avec des protéines appartenant à des familles différentes (Figure I.5). La banque SYSTERS 6, quant à elle, est construite à partir de la fusion nonredondante de protéines de PIR et de SWISS-PROT (Krause et al., 2000). Cette banque intègre une classification en superfamilles, familles et sous-familles. La classification en familles se fait en affinant les alignements locaux produits par BLAST au moyen du programme LALIGN (Huang et Miller, 1991), plus sensible. Trois types de familles sont définies en fonction de la nature du lien qui relie les protéines entre 5 http://www.protomap.cs.huji.ac.il 6 http://www.dkfz-heidelberg.de/tbi/services/cluster/systersform - 14 -

BANQUES DE DONNÉES elles (du simple lien au lien complet). Les familles les plus voisines entre elles sont ensuite regroupées en superfamilles. Tout comme les deux banques précédentes, SYSTERS comprend également des alignements multiples et des arbres, les alignements intégrant la localisation des domaines protéiques de Pfam. ProClass 7 utilise la classification en superfamilles de PIR en lui ajoutant les définitions fournies par les motifs PROSITE (Huang et al., 2000). Ce système intègre un moteur de recherche et de classification, de nom GeneFIND (Wu et al., 1998), permettant, là encore, de rattacher une protéine fournie par l utilisateur à une famille donnée. Par contre ProClass ne contient pas d alignements ni d arbres et se contente de proposer des liens vers des banques incluant ce genre de données. Enfin, il existe des banques qui ne se consacrent qu à un groupe d organismes, comme HOVERGEN (Homologous Vertebrate Genes database) (Duret et al., 1999), HOBACGEN (Homologous Bacterial Genes database) (Perrière et al., 2000) ou COG (Tatusov et al., 2000). HOVERGEN contient les séquences de tous les gènes de vertébrés figurant dans GenBank, avec une classification réalisée à partir d une recherche de similarité effectuée sur la traduction de ces gènes. De la même façon, HOBACGEN se consacre aux gènes de procaryotes en partant des séquences de SWISS-PROT/TrEMBL. Je reviendrai en détail sur la structure et le contenu de cette banque dans le deuxième chapitre de ce mémoire. Quant à COG, cette banque ne s intéresse qu aux protéines figurant dans les organismes pour lesquels le génome complet est disponible. 2.1.4. DOMAINES PROTÉIQUES Parallèlement aux familles de gènes, de nombreuses banques s occupent de collecter des données sur la structure en domaines des séquences protéiques. Leur nombre est si important que certains envisagent même de regrouper toutes ces collections en une seule, tant leur contenu est semblable! La raison du succès de ces systèmes est le fait qu il est maintenant bien établi qu une majorité de protéines, y compris chez les bactéries, possède une structure modulaire (Patthy, 1991, 1994). Le nombre moyen de domaines présents dans une protéine ayant été estimé à trois par Corpet et al. (2000). Parmi toutes ces banques, la plus communément utilisée est sans doute ProDom (Corpet et al., 2000). Cette banque contient un ensemble de domaines généré automatiquement à partir des séquences de SWISS-PROT/TrEMBL. La procédure de construction des domaines est basée sur une utilisation récursive du program PSI- BLAST (Gouzy et al., 1999). Certains domaines sont cependant validés au moyen d une expertise manuelle. De plus, les familles de Pfam-A sont également utilisées pour augmenter le nombre des domaines examinés par des experts. Le serveur Web consacré à ProDom permet d accéder à une représentation graphique de l arrangement des domaines protéiques 8. Chaque protéine est représentée par une succession de boîtes utilisant un code conjuguant motifs et couleurs différents permettant d identifier les domaines (Figure I.6). Pfam 9 est construite à partir d une version de SWISS-PROT/TrEMBL dans laquelle toutes les redondances ont été éliminées. Cette banque comprend en fait deux parties : Pfam-A et Pfam-B. La différence entre ces deux divisions tient au fait que les domaines de Pfam-A sont expertisés par des curateurs tandis que ceux faisant partie de Pfam-B sont générés par un programme partant des domaines ProDom. L algorithme 7 http://pir.georgetown.edu/gfserver/proclass.html 8 http://www.toulouse.inra.fr/prodom.html 9 http://www.sanger.ac.uk/software/pfam/ - 15 -

CHAPITRE I utilisé pour construire Pfam-B est basé sur l utilisation de chaînes de Markov cachées et ce programme utilise toutes les familles de ProDom non construites à partir de Pfam-A. L interface Web de Pfam comprend une applet Java permettant de visualiser non seulement les alignements mais aussi les dendrogrammes construits sur les domaines. Figure I.6. Visualisation au moyen de l interface Web de la banque d un ensemble de protéines possédant en commun au moins un domaine ProDom. SBASE 10 (Murvai et al., 2000) est construite en utilisant les séquences de SWISS- PROT et de PIR ainsi que les traductions de parties codantes de GenBank et EMBL. SBASE utilise un concept un peu différent de ceux employés dans les autres banques du même type. Plutôt que de se baser sur des profils, des chaînes de Markov cachées ou des séquences consensus, ce système utilise ce que ses concepteurs appellent des «groupes de similarité». Ces groupes sont constitués par des ensembles de domaines présentant des scores BLAST plus ou moins élevés. Il existe ainsi des ensembles à forte ou faible similarité lorsque l on considère la moyenne des scores BLAST entre les différents représentants d un groupe donné. Là encore, la banque est divisée en deux parties : SBASE-A qui contient les domaines bien établis du point de vue structural et fonctionnel, et SBASE-B, qui contient les domaines moins bien caractérisés ou définis uniquement par leur composition (e.g., les régions riches en glycine). De nombreuses autres banques de domaines ont été construites. On peut ainsi citer Domo (Gracy et Argos, 1998), qui utilise une procédure de création automatique proche de celle employée par ProDom. La banque Blocks (Henikoff et al., 2000), quant à elle, est construite à partir des familles protéiques définies à partir de signatures PROSITE. Ces données sont ensuite complémentées avec celles de PRINTS (Attwood et al., 2000), ProDom, Pfam-A, et Domo. Enfin, COLIPAGE (Labedan et Riley, 1999) ne se consacre qu aux modules paralogues d une seule bactérie : E. coli, bien que ses 10 http://sbase.abc.hu/sbase/ - 16 -