MÉMOIRE. Bases de données et outils d analyse pour la génomique bactérienne

Dimension: px
Commencer à balayer dès la page:

Download "MÉMOIRE. Bases de données et outils d analyse pour la génomique bactérienne"

Transcription

1 MÉMOIRE présenté devant l Université Claude Bernard LYON 1 pour l obtention de L HABILITATION À DIRIGER DES RECHERCHES par Guy PERRIÈRE soutenance prévue le 27 juin 2000 Bases de données et outils d analyse pour la génomique bactérienne Jury : MM. A. BAIROCH A.J. COZZONE P. DESSEN C. GAUTIER D. KAHN B. LABEDAN J.-L. RISLER Laboratoire de Biométrie et Biologie Évolutive, UMR CNRS n 5558 Université Claude Bernard Lyon 1 43, bd. du 11 novembre Villeurbanne Cedx

2

3 TABLE DES MATIÈRES INTRODUCTION...1 I. BANQUES DE DONNÉES LES BANQUES GÉNÉRALISTES BANQUES DE SÉQUENCES NUCLÉOTIDIQUES DONNÉES FORMAT DE STOCKAGE DISTRIBUTION ET MISE À JOUR BANQUES DE SÉQUENCES PROTÉIQUES TREMBL ET GENPEPT SWISS-PROT PIR AUTRES BANQUES INTERÊT ET LIMITES DES BANQUES GÉNÉRALISTES BANQUES SPÉCIALISÉES BANQUES THÉMATIQUES STRUCTURES MOLÉCULAIRES SÉQUENCES ET STRUCTURES DE RNA FAMILLES DE GÈNES DOMAINES PROTÉIQUES SIGNATURES PEPTIDIQUES BANQUES GÉNOMIQUES PROCARYOTES SACCHAROMYCES CEREVISIAE DROSOPHILA MELANOGASTER HOMO SAPIENS AUTRES SYSTÈMES D INTERROGATION LA PRÉDOMINANCE D INTERNET ACNUC SRS ENTREZ ACEDB...27 II. DÉVELOPPEMENTS INFORMATIQUES LE SERVEUR DU PBIL MISE EN PLACE ACCÈS AUX BANQUES RÉCUPÉRATION DES SÉQUENCES RECHERCHE DE SIMILARITÉS ET ALIGNEMENTS AUTRES FONCTIONNALITÉS ANALYSE MULTIVARIÉE ANALYSE FACTORIELLE DES CORRESPONDANCES ANALYSE DISCRIMINANTE DES CORRESPONDANCES ANALYSE EN COORDONNÉES PRINCIPALES...36 i

4 III APPLICATIONS ASSOCIÉES BILAN DE L UTILISATION DU SERVEUR EMGLIB MOTIVATION CONTENU DE LA BANQUE SÉQUENCES USAGE DU CODE INFORMATIONS COMPLÉMENTAIRES ACCÈS AUX DONNÉES PERSPECTIVES HOBACGEN MOTIVATION CONSTRUCTION DE LA BANQUE ACCÈS AUX DONNÉES CLIENT JAVA SERVEUR ACCÈS PAR LE WEB COMPARAISON AVEC D AUTRES SYSTÈMES ÉVOLUTIONS FUTURES...56 RÉSULTATS BIOLOGIQUES LOCALISATION SUBCELLULAIRE DES PROTÉINES MATÉRIEL ET MÉTHODES RÉSULTATS DISCUSSION RÉPARTITION ASYMÉTRIQUE DES GÈNES MATÉRIEL ET MÉTHODES RÉSULTATS DISCUSSION VARIATIONS DE COMPOSITION EN BASES ET TRANSFERTS HORIZONTAUX DÉTECTION PAR APPROCHES INTRINSÈQUES MATÉRIEL ET MÉTHODES RÉSULTATS DISCUSSION...69 CONCLUSIONS PERSPECTIVES BANQUES DE DONNÉES DE GÈNES HOMOLOGUES TRANSFERTS HORIZONTAUX GÉNOMIQUE DES BACTÉRIES ENDOCYTOBIOTIQUES...73 RÉFÉRENCES BIBLIOGRAPHIQUES...75 ANNEXE : TITRES ET TRAVAUX...89 ii

5 INTRODUCTION INTRODUCTION Au cours des cinq dernières années, la bioinformatique moléculaire a connu un essor extraordinaire. Cet essor est bien sûr lié à l aboutissement de nombreux projets de séquençage, projets ayant conduit à l arrivée d énormes quantités de données dont il faut maintenant tirer le plus d informations possibles. Si, dans un premier temps, les génomes séquencés étaient ceux de procaryotes, nous arrivons maintenant au stade où des génomes d eucaryotes pluricellulaires commencent à être disponibles : Caenorhabditis elegans, Drosophila melanogaster, et bientôt l Homme. Cependant, même dans le cas d organismes au génome compact comme les bactéries et les archées, les quantités de données brutes disponibles sont déjà trop importantes pour pouvoir être analysées manuellement (en particulier pour tout ce qui concerne l annotation des séquences). L outil informatique est donc désormais considéré comme un complément indispensable de la biologie moléculaire expérimentale. Ce développement de la bioinformatique a été rendu possible par les énormes progrès réalisés au niveau des capacités de calcul et de stockage des ordinateurs. Sans ces progrès, il n eût pas été envisageable de construire des banques capables de manipuler l intégralité des séquences biologiques publiées ou de développer des logiciels susceptibles d effectuer des traitements sur de très larges sous-ensembles de ces banques. De façon concommitante, au fur et à mesure que les capacités des ordinateurs progressaient, les possibilités d accès aux données et aux programmes se voyaient multipliées du fait du développement d Internet, en particulier grâce au World-Wide Web. Comme ce protocole permettait de construire des interfaces à des programmes situés sur des serveurs distants, il a suffi de deux années après son introduction pour qu il soit possible d utiliser pratiquement n importe quelle banque ou logiciel d analyse des séquences sur un serveur Web dédié. Cette possibilité supprima un des principaux facteurs limitant l utilisation de ces programmes : la nécessité d effectuer une installation locale ou d avoir un compte sur un centre serveur. Avec la disponibilité d un nombre considérable de séquences appartenant à des taxons parfois fort lointains du point de vue phylogénétique, une branche de la bioinformatique a alors connu un développement particulier : la génomique comparative. En effectuant des comparaisons de séquences (par exemple au moyen d alignements) entre plusieurs organismes, il est possible d enrichir les connaissances que l on a sur un gène ou un groupe de gènes. C est en utilisant cette approche que sont le plus souvent effectuées des assignations de fonction ainsi que de nombreuses études ayant trait à la phylogénie moléculaire. Du fait de l importance de cette approche pour tout ce qui touche à l analyse des génomes microbiens, la revue Microbial and Comparative Genomics a d ailleurs été récemment créée. Cependant, il ne faudrait pas penser que la bioinformatique s est mise à exister depuis cinq ou six ans seulement. Mon recrutement au CNRS, en 1992, s est fait sur un poste flêché ayant trait au développement de banques de données en biologie moléculaire. Par ailleurs, l équipe «Biométrie Moléculaire, Évolution et Structure de Génomes» du Laboratoire de Biométrie et Biologie Évolutive est impliquée dans ce - 1 -

6 INTRODUCTION domaine depuis plus de vingt ans! Dès mon intégration dans cette équipe, je me suis intéressé au développement d outils pour l analyse des génomes bactériens. Plus particulièrement j ai participé à la construction de plusieurs banques de données de séquences et à la conception de logiciels permettant d accéder à ces banques et à en traiter les données. Mon travail ne s est cependant pas limité à une activité de génie logiciel puisque j ai été le premier utilisateur de ces outils afin d obtenir des résultats biologiques nouveaux. Ce mémoire se présente donc comme un bilan de mes travaux récents (depuis 1995) dans ce domaine. Ne sont donc pas abordés les développements plus anciens que j ai pu effectuer dans la continuité de ma thèse sur la base de connaissance ColiGene ( ), ou pendant mon année de mise à disposition au Japon sur la banque de séquences NRSub ( ). Le plan de cet ouvrage est le suivant : le premier chapitre est consacré à un «état de l art» dans le domaine des banques de séquences. Il décrit tout d abord les principales collections généralistes de séquences nucléotidiques et protéiques puis s attache à montrer quelles sont leurs limites. Ensuite sont décrites quelques unes des banques spécialisées qui ont été développées dans le but de répondre à ces limitations. Ce chapitre se termine sur un aperçu des différents systèmes d interrogation à la disposition des utilisateurs pour accéder aux banques. Le deuxième chapitre expose les différents développements informatiques auxquels j ai participé. Ces développements ayant été effectués en collaboration (ou à la suite de fortes interactions) avec d autres chercheurs de mon équipe ou d équipes extérieures. Ainsi le travail que j ai effectué sur le serveur du Pôle Bio-Informatique Lyonnais est typiquement un exemple de tâche impliquant la collaboration de plusieurs autres personnes. Parmi les autres outils à la construction desquels j ai participé, figurent la banque de séquences de génomes complets microbiens EMGLib et la banque de gènes homologues de procaryotes HOBACGEN. Le troisième chapitre présente les différents résultats biologiques que j ai pu obtenir avec les différents outils que j ai développés. Tout d abord est présenté un résultat sur la localisation subcellulaire des protéines de bactéries Gram négatives, résultat obtenu au moyen d une méthode d analyse multivariée d introduction relativement récente : l analyse discriminante des correspondances. Ensuite, est décrite une étude sur l asymétrie de localisation des gènes entre le brin direct et le brin retardé du chromosome bactérien. Enfin, je montre en quoi l existence de variations dans la composition en base des chromosomes bactériens peut conduire à une surestimation du nombre de gènes prédits comme ayant été obtenus par transfert horizontal. Pour conclure, plusieurs projets de recherche en continuité avec les travaux exposés dans cet ouvrage sont présentés. Un premier groupe de projets concerne la construction de nouvelles banques utilisant le modèle de données et le système d interrogation d HOBACGEN. Une autre voie en cours d exploration est celle de la recherche de gènes obtenus par transfert horizontal chez plusieurs groupes d espèces bactériennes : des organismes «modèles», comme Escherichia coli, mais également des pathogènes humains ou végétaux. Le dernier projet concerne l étude de la génomique des bactéries endocytobiotiques des arthropodes, qu il s agisse de parasites du genre Buchnera ou de symbiotes comme Wolbachia

7 BANQUES DE DONNÉES I. BANQUES DE DONNÉES Depuis que les biologistes travaillent avec des séquences en grande quantité c est-àdire depuis le développement et la généralisation de l utilisation des méthodes rapides de séquençage la nécessité d organiser et d accéder aisément à ces données s est fait ressentir. Les premières banques de données en biologie moléculaire concernèrent les informations structurales sur les protéines, puis, très rapidement, les séquences protéiques et nucléotidiques. Il existe des banques généralistes, dans lesquelles sont stockées les séquences provenant de tous les organismes, et des banques spécialisées qui se consacrent plus particulièrement à un organisme ou à une thématique donnée. L existence de ces banques a nécessité le développement de systèmes d interrogation permettant d accéder aux données qu elles contiennent. Ce chapitre se propose donc de faire un tour d horizon de ces différents systèmes. 1. LES BANQUES GÉNÉRALISTES Cette section présente les principales collections généralistes de séquences nucléotidiques et protéiques ainsi que les centres de saisie qui leur sont associés. Nous verrons en particulier comment les données sont collectées et sous quel format elles sont stockées et rendues publiques. Par la suite, j exposerai les principales limitations de ces systèmes, limitations qui sont en partie responsables du développement des banques spécialisées. C est d ailleurs du fait de ces limitations que plusieurs banques spécialisées ont été développées dans notre équipe, certaines étant décrites plus en détail dans le deuxième chapitre BANQUES DE SÉQUENCES NUCLÉOTIDIQUES Il existe trois banques généralistes de séquences nucléotidiques publiquement accessibles de par le monde : l EMBL (Baker et al., 2000) en Europe, GenBank (Benson et al., 2000) aux États-Unis, et la DDBJ (Tateno et al., 2000) au Japon. La banque EMBL a été créée en 1980 à Heidelberg, et elle est maintenue depuis 1994 par l EBI (European Bioinformatic Institute), à Cambridge. GenBank a été mise en place en 1979 au LANL (Los Alamos National Laboratory), à Los Alamos. Depuis 1992 elle est maintenue au NCBI (National Center for Biotechnology Information), à Bethesda. Enfin, la DDBJ a débuté son activité en Cette banque a été créée et est toujours maintenue au NIG (National Institute of Genetics), à Mishima. Ces trois centres étant également en charge de la saisie et de la distribution des données DONNÉES Les données proviennent dans 95 % des cas de soumissions directes effectuées par les auteurs, soumissions réalisées désormais quasi-exclusivement par l intermédiaire du réseau Internet. En effet, la plupart des revues de biologie moléculaire n acceptent de - 3 -

8 CHAPITRE I publier des séquences que si celles-ci sont dotées d un numéro d accession fourni par les banques. Il convient donc, dès l obtention d une nouvelle séquence, de soumettre celle-ci au centre de saisie le plus proche géographiquement. Les 5 % de séquences restants sont extraits de la littérature scientifique (notamment les documents de brevets). Il est à noter que la collecte des séquences via les publications représente un travail long, difficile, beaucoup moins précis que les soumissions directes. Les séquences recueillies par les trois centres sont échangées quotidiennement, ceci de façon à obtenir un ensemble de données aussi complet et cohérent que possible. La conséquence de ceci est qu en pratique, ces trois banques n en font qu une car leur contenu est identique à plus de 99,9 %. Ceci amène régulièrement les responsables des centres de saisie à se poser la question de l utilité de la maintenance de trois banques différentes. Il existe ainsi depuis longtemps un projet de fusion d EMBL, de GenBank et de la DDBJ en un seul système. Depuis leur création au début des années 80, la taille de ces banques n a cessé de croître. Si l on regarde l allure de cette croissance, on constate qu elle peut être approximativement assimilée à une exponentielle pour les séquences nucléotidiques (Figure I.1). Par contre, le nombre de séquences protéiques croît beaucoup moins vite. L accélération constatée en 1995 correspond au développement des techniques de PCR (Polymerase Chain Reaction) et à l arrivée massive des EST (Expressed Sequence Tags) et des STS (Sequence-Tagged Sites), largement utilisés pour l étude des génomes eucaryotes (Venter, 1991). log(taille) 10 9,5 9 8,5 8 7,5 7 6,5 6 5,5 5 09/83 07/85 05/87 03/89 01/91 11/92 09/94 07/96 05/98 Date Figure I.1. Croissance en taille des banques nucléotidiques GenBank ( ) et EMBL ( ), et des banques protéiques PIR ( ) et SWISS-PROT ( ). Au moment où sont écrites ces lignes, les génomes complets de 22 bactéries, six archées, et trois eucaryotes (Saccharomyces cerevisiae, C. elegans et D. melanogaster) sont disponibles. Par ailleurs, c est d ores et déjà près de 75 % du génome humain qui est accessible. La base de données GOLD (Genome On Line Database) permet de suivre la progression des différents projets de séquençage en cours 1. C est ainsi qu il existe plus de 100 projets pour des organismes procaryotes (dont une majorité de bactéries pathogènes) et 31 pour des organismes eucaryotes

9 BANQUES DE DONNÉES FORMAT DE STOCKAGE EMBL, GenBank et la DDBJ sont distribuées par les centres sous la forme d un ensemble de fichiers plats (environ une centaine) regroupant les séquences en fonction de critères taxonomiques (procaryotes, virus, primates, etc.) ou de leur origine (brevets, EST et STS). À l intérieur de ces fichiers, chaque séquence est contenue dans une structure appelée «entrée», une entrée comprenant une quantité variable d informations liée à la séquence considérée (comme sa structure, son rôle biologique, ainsi que la mention de l organisme dont elle est issue). Les informations en question sont introduites au niveau de «champs» bien définis. Le format de stockage utilisé par EMBL est différent de celui utilisé conjointement par GenBank et la DDBJ. Cette différence ne porte que sur la façon de représenter les données et la philosophie générale des deux systèmes est la même. Le format utilisé par EMBL étant cependant plus simple à utiliser si l on se place dans la perspective d une structuration des données au moyen d un SGBD (Système de Gestion de Bases de Données). Dans ce format, les champs sont identifiés à l aide d un code à deux lettres localisé dans les deux premières colonnes du fichier (Figure I.2). Dans le cas de GenBank et de la DDBJ, ces champs sont indiqués par des identificateurs organisés sur deux niveaux, la séparation entre ces différents niveaux étant repèrable par une indentation différente. Des informations d ordre général sont disponibles au niveau de sept champs. Le champ ID (LOCUS, dans le cas de GenBank et de la DDBJ) correspond au nom de l entrée, son statut, la nature de la molécule séquencée et sa longueur. AC (ACCESSION) contient un ou plusieurs numéros d accession, uniques pour l ensemble des banques. SV (VERSION) reprend les numéros d accession du champ AC et en plus leur ajoute un numéro de version. À chaque modification de l entrée, ce numéro de version est incrémenté. DE (DEFINITION) contient ce que l on appelle la définition de la séquence. Il s agit de quelques lignes, fournies par les auteurs, décrivant sommairement le contenu de l entrée (noms des gènes, fonction des protéines pour lesquelles ils codent, etc.) DT est spécifique au format EMBL et contient la date de création de l entrée (première ligne) ainsi que la date de dernière modification (deuxième ligne). Une liste de mots-clés figure au niveau du champ KW (KEYWORDS). CC (COMMENT) permet l introduction de références croisées avec d autres banques ainsi que des commentaires. Ces commentaires peuvent être introduits par les auteurs, ou bien par les personnes en charge de la saisie des séquences dans les centres. La classification taxonomique de l organisme dont est issue la séquence est introduite au niveau de trois champs. OS (SOURCE) contient le nom de l espèce, OC (ORGANISM) sa position dans l arbre, et OG permet de préciser si la séquence provient d un organelle (mitochondrie ou chloroplaste) de l espèce considérée. La classification qui figure dans ces champs est fort ancienne et comporte de nombreuses inexactitudes, ceci alors que le NCBI propose sur son site Web un arbre des espèces beaucoup plus récent et complet 2. Un projet de migration des différentes banques généralistes vers cette taxonomie étant d ailleurs prévu. Les références bibliographiques nécessitent six champs. RN (REFERENCE) contient le numéro de la référence, RP spécifie quelle est la région de la séquence concernée par cette référence, RX (MEDLINE) renvoie au numéro d accession de cette référence dans la banque de données bibliographique Medline, RA (AUTHORS) contient les noms des auteurs, RT (TITLE) donne le titre de l article, et enfin, RL (JOURNAL) donne la référence proprement dite (nom du journal, volume, pagination et année de publication)

10 CHAPITRE I ID ECINTER standard; DNA; PRO; 2509 BP. XX AC M63497; X53729; XX SV M XX DT 28-MAR-1991 (Rel. 27, Created) DT 05-JUL-1999 (Rel. 60, Last updated, Version 7) XX DE E.coli intergenic region between iclr and acek genes. XX KW acek gene; iclr gene; isocitrate dehydrogenase kinase/phosphatase. XX OS Escherichia coli OC Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; OC Escherichia. XX RN [1] RP RX MEDLINE; RA Galinier A., Bleicher F., Negre D., Perriere G., Duclos B., Cozzone A.J., RA Cortay J.-C.; RT "Primary structure of the intergenic region between acek and iclr in the RT Escherichia coli chromosome"; RL Gene 97: (1991). XX CC SWISS-PROT; P11071; ACEK_ECOLI CC SWISS-PROT; P16528; ICLR_ECOLI CC SWISS-PROT; P23325; YJAC_ECOLI [ ] XX FH Key Location/Qualifiers FH FT source FT /db_xref="taxon:562" FT /organism="escherichia coli" FT /strain="k-12" [ ] FT CDS FT /codon_start=1 FT /db_xref="swiss-prot:p23325" FT /label=orf FT /transl_table=11 FT /protein_id="aaa " FT /translation="meilpqrsdtldkqeldlksdrkekefpriklngqcyfpgrpqnr FT IVCRHIAAQYINDIYQNVDYKPHQDDYSSAEKFLTHFNKKCKNQTLALVSSRPEGRCVA FT ACGDFGLVMKAYFDKMESNGISVMAAILLVDNHALTVRLRIKNTTEGCTHYVVSVYDPN [ ] FT GLFSAIQHKQQNVVETVYLALSDHARLFGFTAEDIMDFWQHKAPQKYSAFELAFEFGHR FT [ ] XX SQ [ ] // VIAELILNTLNKMAESFTQKSISPYRTLNLCLRRYA" Sequence 2509 BP; 825 A; 494 C; 459 G; 731 T; 0 other; aagcggcgaa ggaagtgacg ctggcgtacg gtggaatgcg ctgacttttt ctggcgggca 60 gaggcaattt ctgcccatca tacctgagtg gcaatagaat aagggtgtct gttaatcgca 120 ttgacgccaa aataacttaa tcgcattgac gccaaaataa cttaatgtca tacacttcac 180 taaataagat ggctgaaagc tttactcaaa aaagcatctc cccataccgt acgctaaatc 2460 tttgcctgcg ccgatacgca taaacatctt ccacatgccc ttcacgtat 2509 Figure I.2. Exemple d entrée EMBL. Le champ FT (FEATURES) contient des informations très variées sur la position et la nature des segments de séquence biologiquement significatifs (régions codantes, signaux de régulation, conflits entre séquences, etc.) Ce champ est lui-même subdivisé par ce que l on appelle des qualifiers ou descripteurs. Ces descripteurs sont nombreux et je n en citerai donc que quelques uns : /gene contenant le nom du gène, /protein_id donnant le numéro d accession de la protéine encodée par le gène, /db_xref pointant vers une référence croisée dans une autre banque, et /translation contenant la traduction en acides aminés de la partie codante. La structure des features a été standardisée il y a quelques années et est désormais identique pour les trois banques. Enfin, la séquence elle-même est signalée par le champ SQ (ORIGIN), tandis que la fin de l entrée est indiquée par un // DISTRIBUTION ET MISE À JOUR De nouvelles versions de ces banques sont proposées avec une périodicité de deux mois pour GenBank et trois mois pour EMBL. Par ailleurs, les trois centres de saisie - 6 -

11 BANQUES DE DONNÉES procèdent à des mises à jour quotidiennes de leurs banques respectives. La récupération des données se fait désormais uniquement par l intermédiaire de transferts FTP (File Transfer Protocol), ce qui pose de sérieux problèmes techniques du fait de la taille conséquente atteinte par les fichiers et de l encombrement du réseau Internet BANQUES DE SÉQUENCES PROTÉIQUES Tout comme leurs homologues consacrées aux séquences nucléotidiques, les banques dédiées aux protéines ont une organisation centrée autour de deux types d informations : les annotations biologiques et biochimiques d une part (avec les références bibliographiques et les données taxonomiques associées), et les séquences d autre part TREMBL ET GENPEPT Il existe une version «protéomique» de deux des grandes banques généralistes de séquences nucléotidiques EMBL et GenBank. Ainsi TrEMBL, distribuée par l EBI, contient la traduction de toutes les parties codantes annotées figurant dans EMBL, avec exclusion des protéines figurant dans SWISS-PROT. Certaines protéines présentant une variabilité très importante (comme les immunoglobulines) sont également exclues de TrEMBL. De son côté GenPept, distribuée par le NCBI, correspond à la traduction de l ensemble des parties codantes de GenBank. Ces deux systèmes ne peuvent cependant être considérés comme de véritables banques protéiques, du fait que les annotations qu ils contiennent sont uniquement celles provenant des séquences nucléotidiques. Les véritables banques de protéines contiennent de nombreuses informations spécifiques, comme nous allons le voir dans les sections suivantes SWISS-PROT La principale banque de protéines à l heure actuelle est sans conteste SWISS-PROT (Bairoch et Apweiler, 2000). Cette banque a été créée en 1986 par Amos Bairoch à Genève, et elle est maintenue et distribuée conjointement par le SBI (Swiss Institute of Bioinformatics) et l EBI. Le format de données adopté par SWISS-PROT suit de très près celui en vigueur à l EMBL (Figure I.3). Quelques champs supplémentaires sont introduits, comme GN ou DR, contenant respectivement le nom du gène codant pour la protéine considérée et des références croisées avec d autres banques. Par ailleurs, le champ DE est rempli non pas en fonction d informations fournies par les auteurs des séquences, mais bien par les annotateurs eux-mêmes, ceci permettant de donner une cohérence beaucoup plus grande à son contenu. Les séquences présentes dans cette banque proviennent de quatre origines : la traduction des gènes annotés dans EMBL, certaines protéines issues d autres banques protéiques, la consultation de publications scientifiques et quelques soumissions directes par les auteurs. Un certain nombre de raisons font que SWISS-PROT est devenue la banque de référence pour les séquences protéiques. La première d entre elles est une redondance minimale, les différentes versions d une même entrée étant fusionnées, avec annotation des positions conflictuelles. Par ailleurs, lorsque la séquence d une protéine est identique dans plusieurs espèces, une seule entrée est créée. Un autre atout de SWISS- PROT est également l introduction d un nombre très important de références croisées avec d autres banques de données (plus d une cinquantaine). Cette particularité se révélant particulièrement utile avec le développement d Internet et les possibilités d interconnections des banques qu offre ce réseau

12 CHAPITRE I ID ARP_ECOLI STANDARD; PRT; 728 AA. AC P23325; P76781; DT 01-NOV-1991 (Rel. 20, Created) DT 01-OCT-1993 (Rel. 27, Last sequence update) DT 01-NOV-1997 (Rel. 35, Last annotation update) DE ANKYRIN-LIKE REGULATORY PROTEIN. GN ARP. OS Escherichia coli. OC Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; OC Escherichia. [ ] RN [2] RP SEQUENCE OF FROM N.A. RX MEDLINE; RA Galinier A., Bleicher F., Negre D., Perriere G., Duclos B., Cozzone A.J., RA Cortay J.-C.; RT "Primary structure of the intergenic region between acek and iclr in RT the Escherichia coli chromosome."; RL Gene 97: (1991). [ ] DR EMBL; U00006; AAC ; -. DR EMBL; AE000474; AAC ; -. DR EMBL; M63497; AAA ; -. DR PIR; JQ0870; JQ0870. DR ECOGENE; EG11208; arp. DR PRODOM; P23325; P DR SWISS-2DPAGE; P23325; P KW Repeat; ANK repeat. FT DOMAIN X ANK MOTIF REPEATS. FT REPEAT ANK MOTIF 1. FT REPEAT ANK MOTIF 2. FT REPEAT ANK MOTIF 3. FT REPEAT ANK MOTIF 4. FT REPEAT ANK MOTIF 5. FT REPEAT ANK MOTIF 6. FT REPEAT ANK MOTIF 7. FT CONFLICT N -> D (IN REF. 2). FT CONFLICT GFTDNPRYIAEKNYMEALLKKASPHTVR -> FT TQKSISPYRTLNLCLRRYA (IN REF. 2). SQ SEQUENCE 728 AA; MW; E CRC64; MITRIPRSSF SANINNTAQT NEHQTLSELF YKELEDKFSG KELATPLLKS FSENCRQNGR HIFSNKDFVI KFSTSVLQAD KKEITIINKN ENTTLTQTIA PIFEKYLMEI LPQRSDTLDK QELNLKSDRK EKEFPRIKLN GQCYFPGRPQ NRIVCRHIAA QYINDIYQNV DYKPHQDDYS [ ] DFWQHKAPQK YSAFELAFEF GHRVIAELIL NTLNKMAESF GFTDNPRYIA EKNYMEALLK KASPHTVR // Figure I.3. Exemple d entrée SWISS-PROT. Une autre des caractéristiques de SWISS-PROT est la qualité particulièrement élevée de ses annotations. Les différentes catégories d informations figurant dans la banque comprennent notamment la ou les fonctions des protéines, les modifications post-traductionnelles, les sites et domaines structuraux ou fonctionnels identifiés, les structures secondaires et quaternaires, les similarités avec d autres protéines, les positions conflictuelles pour chaque entrée, etc. Toutes ces annotations proviennent à la fois d une consultation régulière de la bibliographie et de l apport d informations par des «experts» sur certaines familles de protéines. Un certain nombre d organismes modèles, objets de projets de séquençage, ont par ailleurs été sélectionnés par SWISS- PROT de façon à améliorer encore le niveau d annotations de leurs protéines, et à établir des références croisées avec des banques spécialisées. Enfin, il faut savoir que SWISS-PROT se situe au cœur d un ensemble de banques de données développées par le SIB. Ces banques lui sont complémentaires et couvrent de nombreux aspects de la biologie et de la biochimie des protéines. On peut ainsi citer PROSITE (Hofman et al., 1999), dédiée aux motifs consensus caractéristiques d une famille de protéines ; ENZYME (Bairoch, 2000), sur la nomenclature des enzymes ; SWISS-2DPAGE (Hoogland et al., 2000) sur les données de migration électrophorétiques ; et SWISS-3DIMAGE (Petsch et al., 1995) sur les images de structures tridimensionnelles. Cette intégration est réalisée de façon exemplaire au niveau d ExPASy 3 le serveur Web du SIB

13 BANQUES DE DONNÉES SWISS-PROT constitue donc une exception dans le monde des banques de séquences généralistes dans le sens qu elle s attache à répondre aux critiques habituellement formulées à l égard de ces systèmes. Avec le flot continu de séquences qu apportent les projets génomes, la richesse des annotations dans SWISS-PROT est, de façon inévitable, obtenue au détriment de l exhaustivité des séquences. Cependant, si l on considère cette banque en prenant en compte son annexe TrEMBL, ce problème disparaît PIR Les origines de la banque PIR (Protein Information Resource) sont anciennes puisque la toute première version remonte au milieu des années 60 (Dayhoff et al., 1965). Depuis 1988, cette banque de données est maintenue conjointement par la NBRF (National Biomedical Research Foundation) aux États-Unis, le MIPS (Martinsried Institute for Protein Sequences) en Allemagne, et la JIPID (Japan International Protein Information Database) au Japon. Le but de cette collection est de fournir des informations exhaustives et non redondantes organisées selon des critères taxonomiques et de similarité (Barker et al., 2000). Si l exhaustivité semble effectivement atteinte, il reste encore un taux de redondance non négligeable. Par ailleurs, la qualité des annotations est bien moindre que celle de SWISS-PROT. La banque PIR comprend trois composantes : les références bibliographiques, les séquences protéiques telles qu elles ont été publiées, et des séquences canoniques construites à partir des différentes versions d une même entrée. Les données proviennent de trois sources : les publications scientifiques, les soumissions des auteurs, et la traduction des parties codantes annotées présentes dans les banques nucléotidiques. Quelques références croisées ont été mises en place avec les banques de séquences nucléotidiques et quelques banques spécialisées, mais en nombre nettement moins important que dans SWISS-PROT. Alors que dans SWISS-PROT la classification des protéines en familles est réalisée essentiellement en utilisant les motifs PROSITE, PIR utilise une approche bien différente pour construire ses superfamilles. Cette approche étant basée sur des similarités de séquence mais aussi de fonction (Barker et al., 1996) AUTRES BANQUES D autres banques ayant connu un succès bien moindre que SWISS-PROT et PIR ont été également développées. On peut ainsi citer OWL (Bleasby et al., 1994) une banque composite et non redondante construite à partir de quatre sources de données : la traduction de parties codantes de GenBank, SWISS-PROT, PIR et NRL_3D (Pattabiraman et al., 1990). SWISS-PROT était la source d information prioritaire, représentant près de la moitié des entrées de OWL, les trois autres collections permettant d introduire des séquences manquantes. Des critères très stricts de non redondance faisaient d OWL une banque relativement petite en volume, mais théoriquement exhaustive en quantité de données. Cependant, cette banque n a plus connu de nouvelle version depuis août 1998 et sa maintenance semble désormais abandonnée. Plus récemment, on a vu l apparition de KIND (Kallberg et Persson, 1999), une banque du même type que OWL mais construite à partir de TrEMBL, GenPept, SWISS-PROT et PIR. Là encore, la fréquence d apparition de nouvelles versions semble assez limitée

14 CHAPITRE I 1.3. INTERÊT ET LIMITES DES BANQUES GÉNÉRALISTES Les banques de données généralistes en biologie moléculaire constituent un outil absolument indispensable à l activité quotidienne du chercheur amené à travailler avec des séquences. Elles représentent une source précieuse d informations, dont l exhaustivité permet théoriquement d effectuer des recherches efficaces sur les connaissances du moment au sujet de tel gène ou de telle protéine. De plus, elles centralisent en un même lieu et sous un même format l ensemble des séquences connues. Ainsi les critiques que je vais maintenant formuler ne doivent pas faire oublier l absolue nécessité de l existence de ces banques. Les défauts de ces types de collections sont en effet multiples, parmi lesquels de trop nombreuses erreurs, notamment au niveau des séquences mêmes (erreurs de séquençage, de saisie, présence dans les séquences de vecteurs de clonage, etc.) Erreurs qui déprécient sensiblement les bénéfices apportés par ces outils. Cette qualité très inégale, voire même médiocre, des informations stockées peut être expliquée par plusieurs raisons : La libre soumission des séquences et de leurs caractéristiques par les auteurs entraîne imprécisions, omissions, voire erreurs. La responsabilité des biologistes ayant déterminé et soumis les séquences n est pas systématiquement mise en cause ici, mais il faut reconnaître que les régions attenantes au(x) gène(s) considéré(s) dans le cadre d une étude donnée sont bien souvent approximativement séquencées et pauvrement annotées. Le format de stockage des données est très strict en théorie, mais il l est malheureusement moins dans son application. Ce problème se révèle particulièrement aigu au niveau des features où les différents types d informations qu il est possible d annoter sont souvent utilisés à mauvais escient, ceci sans même évoquer les cas trop fréquents où des informations importantes sont placées sans aucune structuration au niveau des commentaires. Il existe une forte incohérence des informations, particulièrement au niveau des mots-clés. Ceux-ci devraient théoriquement permettre une extraction aisée et fiable d informations, mais l existence de multiples formulations pour désigner un même concept rend cet outil à peu près inutilisable. Malgré tout, des outils plus performants mis à la disposition des biologistes pour soumettre les séquences, ainsi que des contrôles de cohérence accrus lors de l intégration de nouvelles informations dans les collections devraient permettre une amélioration sensible de la qualité des données. Cependant, ces progrès n auront probablement aucun effet sur le deuxième problème majeur des banques généralistes : la redondance des informations. En effet, pour une des raisons évoquées précédemment la libre soumission de nombreuses séquences se trouvent partiellement ou intégralement dupliquées dans ces collections. Ces doublons présentent très fréquemment des variations dans leurs séquences et/ou leurs annotations. D une certaine façon, ce constat constitue un point positif en autorisant des comparaisons entre différents points de vue sur une même information. En effet, il peut exister des variations naturelles entre des souches ou des individus différents. Cette redondance pose tout de même deux problèmes : d une part, les différences observées au niveau des séquences et des annotations représentent des difficultés extrêmement complexes à résoudre lorsqu il s agit d étudier un fragment de séquence particulier car il est impossible de décider par un processus automatique si elles sont issues d un polymorphisme allélique naturel, d erreurs de séquençage, ou encore de

15 BANQUES DE DONNÉES duplications de gènes (Perrière et al., 1994). D autre part, il est clair que toute analyse globale sera fortement biaisée par cette duplication d informations. Il est donc nécessaire, avant d entreprendre toute expérience sensible à ce phénomène de redondance, d éliminer proprement ces duplications, ce qui n est pas chose aisée. Ce problème de la redondance a encore été aggravé avec l arrivée des génomes complets. En effet, les séquences de ces génomes ne figurent pas, dans les versions standard des collections généralistes, sous la forme de contigs d un seul tenant, mais sous la forme de fragments chevauchants d une longueur de 300 kb maximum. Le plus fréquemment, les génomes (ou les chromosomes) sont découpés en morceaux de 100 kb avec un chevauchement de 10 kb. Cette décision de découper les très grandes séquences en fragments est liée à la volonté de conserver la compatibilité des banques avec le système GCG (Genome Computer Group), le package le plus largement employé en analyse des séquences aux États-Unis (Devereux et al., 1984). En effet, du fait de ses origines remontant aux années 80, les programmes faisant partie de ce système sont incapables de gérer des séquences dont la longueur est supérieure à 300 kb. 2. BANQUES SPÉCIALISÉES L existence de ces nombreux problèmes inhérents aux banques généralistes a conduit tout naturellement à considérer les solutions permettant de pallier ces inconvénients. Parmi celles-ci, les collections spécialisées représentent probablement le meilleur moyen pour répondre aux critiques précédemment formulées. Il faut cependant garder à l esprit qu une des raisons de la création de telles banques tient également à la nécessité d introduire des informations spécifiques, informations qui n auraient rien à faire dans les collections généralistes BANQUES THÉMATIQUES Les banques de ce type se consacrent à une thématique biologique bien précise. Elles intègrent donc des séquences et des données qui sont spécifiques à ce domaine. Ne seront abordées dans cette section que des banques comprenant des séquences nucléotidiques ou protéiques dans leur structure. Il existe en effet de multiples collections abordant des aspects de la biologie moléculaire non directement liés aux séquences (e.g., sur le métabolisme ou les réseaux de régulation), et la description de tels systèmes ne rentre pas dans le cadre de cet ouvrage STRUCTURES MOLÉCULAIRES La principale banque de structures tridimensionnelles est la PDB (Protein Data Bank) (Berman et al., 2000). Cette banque, créée aux États-Unis en 1977, est une collection de structures de macromolécules biologiques. Les protéines constituent l essentiel des entrées de la PDB, mais on y trouve aussi des structures de molécules de RNA et de DNA, de complexes protéine-acides nucléiques, de virus et de polyosides. Ces structures ayant quasiment toutes été déterminées expérimentalement par cristallographie aux rayons X ou par RMN, seul un petit nombre d entrées de la PDB (2 %) provenant de résultats de modélisation moléculaire. Les entrées de la banque comprennent des informations sur les structures primaires et secondaires des molécules considérées, les coordonnées des atomes ainsi que des références bibliographiques

16 CHAPITRE I Bien que le nombre de structures de macromolécules biologiques connues à l heure actuelle soit très inférieur à celui des séquences ( structures dans la PDB contre respectivement et protéines dans SWISS-PROT et PIR en mars 2000), celui-ci croît actuellement à une vitesse comparable à celle observée pour les séquences protéiques il y a quelques années (Figure I.4). log(entrées) 4,25 4 3,75 3,5 3,25 3 2,75 2,5 2,25 2 1,75 09/78 04/81 12/83 07/86 02/89 09/91 04/94 12/96 07/99 Date Figure I.4. Croissance du nombre d entrées de la PDB depuis sa création. MMDB (Molecular Modelling Data Base) est une banque construite par le NCBI à partir des entrées de la PDB avec une intégration au sein d Entrez (Wang et al., 2000). L utilisation de ce puissant système d interrogation permet le lien avec les références des articles dans lesquels les structures ont été publiées. Entrez permet également de récupérer toutes les protéines de GenPept présentant une similarité de séquence avec une entrée quelconque de MMDB. Mais de plus, grâce au couplage avec le programme VAST (Gibrat et al., 1996), il est possible de récupérer toutes les entrées présentant une similarité de structure. En effet, il existe des protéines qui peuvent avoir un repliement semblable sans pour autant avoir une similarité de séquence très marquée. SCOP (Structural Classification of Proteins) regroupe les différents types de structures de protéines en familles (Lo Conte et al., 2000). Cette classification s organise sur plusieurs niveaux hiérarchiques : superfamilles, familles, et repliements communs. Les deux premiers niveaux sont bâtis sur les relations évolutives (inférées par la similarité) existant entre les protéines, tandis que le troisième utilise des relations au niveau de la structure spatiale proprement dite. Dans ce cas, les protéines sont regroupées si elles possèdent les mêmes structures secondaires principales avec un arrangement et des connections topologiques identiques. Cinq grandes classes de repliements sont définies dans SCOP en fonction de leurs proportions d hélices α et de feuillets β ainsi que de l agencement de ces structures. HSSP (Homology-derived Secondary Structure of Proteins) contient une classification en familles des protéines de SWISS-PROT établie par des recherches de similarités avec les protéines figurant dans la PDB (Holm et Sander, 1999). Chaque famille est donc centrée sur une protéine de structure 3D connue. De cette façon, il est possible d inférer les structures secondaires et tertaires potentielles des membres de cette famille. À l heure actuelle, près de 36 % des protéines de SWISS-PROT sont classées dans HSSP

17 BANQUES DE DONNÉES Enfin, BMRB (BioMagResBank) est une base de données relationnelle contenant des déplacements chimiques de RMN dérivés de peptides et de quelques protéines ainsi que des informations de séquence, de bibliographie, et sur les conditions expérimentales d obtention de la structure (Seavey et al., 1991) SÉQUENCES ET STRUCTURES DE RNA Il existe deux compilations de séquences de rrna, une en Europe et une aux États- Unis. Le contenu de ces deux banques est assez proche puisque toutes deux intègrent non seulement les séquences des rrna de la grande ou de la petite sous-unité du ribosome, mais aussi des alignements et des arbres phylogénétiques. La banque américaine est la RDP (Ribosomal Database Project) (Maidak et al., 2000), tandis que son homologue européenne se divise en deux parties : LSU rrna (Large Subunit rrna database) (De Rijk et al., 2000), consacrée à la grande sous-unité, et SSU rrna (Small Subunit rrna database) (Van de Peer et al., 2000), consacrée à la petite sousunité. Dans ces deux banques, les alignements disponibles présentent la caractéristique très intéressante d être corrigés manuellement, ceci afin de permettre l obtention d arbres phylogénétiques plus fiables. En effet, la qualité d une phylogénie est directement liée à la qualité de l alignement utilisé, et il est bien connu que des alignements sur des séquences aussi longues que des rrna doivent être retravaillés avant d utiliser une méthode de reconstruction phylogénétique. Pour ce qui est des trna, il existe une collection regroupant les séquences des gènes et des molécules transcrites (puisque les trna matures contiennent de nombreuses bases modifiées) (Sprinzl et al., 1998). Outre les séquences, cette banque contient également des structures secondaires ainsi que des alignements basés en partie sur ces structures FAMILLES DE GÈNES Avec le développement de la génomique comparative, de plus en plus de banques de séquences proposent une classification des gènes protéiques sous la forme de familles. Le principe de base pour la construction de ces banques est toujours le même. Dans un premier temps une recherche de similarité entre toutes les protéines d un ensemble donné est effectuée au moyen d un logiciel comme BLAST (Basic Local Alignment Search Tool) (Altschul et al., 1990, 1997) ou FASTA (Pearson et Lipman, 1988), ces protéines étant ensuite regroupées en familles en utilisant des critères de similarité. Ce regroupement peut s effectuer en utilisant des associations qui vont du «simple lien» au «lien complet», avec de nombreuses nuances entre ces deux extrêmes. En simple lien, si une protéine A passe le critère de similarité avec une protéine B, et si la protéine B passe le critère de similarité avec une protéine C, alors A, B et C sont classées ensemble même si la paire A/C ne répond pas à ce critère. En lien complet, toutes les paires possibles à l intérieur d une famille doivent passer le critère de similarité. Parmi les différentes banques de ce type, une des premières est ProtFam 4, distribuée par le MIPS (Mewes et al., 2000). ProtFam est construite à partir des séquences de PIR et elle intègre quatre niveaux de similarités entre les protéines. Au plus haut niveau les protéines sont groupées en utilisant la classification en superfamilles de PIR. Ces superfamilles sont ensuite subdivisées en familles, sous-familles et entrées en utilisant des niveaux de similarité de plus en plus forts (égaux respectivement à 50 %, 80 % et 95 %). Cette banque intègre également des alignements et des dendrogrammes

18 CHAPITRE I construits à partir des séquences complètes mais aussi à partir des domaines de la banque Pfam (Bateman et al., 2000). Qui plus est, l utilisateur a la possibilité de soumettre ses propres séquences sur le serveur de ProtFam, ceci afin de déterminer dans quelle famille celles-ci se placent. 7096(1) (1) 1 3(1) (2) (37) (3) (2) (73) Figure I.5. Relations d homologie existant entre plusieurs familles de ProtoMap. Chaque cercle représente une famille et son diamètre est proportionnel au nombre (indiqué entre parenthèses) de gènes qui en font partie. La taille des traits reliant deux familles est proportionnelle au nombre de liens existant entre elles. Ainsi la famille 44 contient deux gènes qui sont liés à un gène de la famille 2399 comme l indiquent les deux nombres figurant sur le trait. ProtoMap 5 est l équivalent de ProtFam pour la banque SWISS-PROT (Yona et al., 2000). Au lieu d utiliser le score d un seul type de programme pour construire les familles, les concepteurs de cette banque ont préféré employer la combinaison de trois mesures : Smith et Waterman (1981), BLAST et FASTA. Il est possible de visualiser les alignements ou d explorer la classification des protéines au sein d une famille en utilisant une représentation sous forme d arbres, le serveur dédié à la banque intègrant un ensemble d applets Java dotées d interfaces graphiques. Là encore, il est possible de soumettre des séquences personnelles afin de déterminer à quelle famille elles se rattachent. ProtoMap n intègre pas de données sur les domaines protéiques, par contre cette banque permet de visualiser les relations d homologies qui peuvent exister avec des protéines appartenant à des familles différentes (Figure I.5). La banque SYSTERS 6, quant à elle, est construite à partir de la fusion nonredondante de protéines de PIR et de SWISS-PROT (Krause et al., 2000). Cette banque intègre une classification en superfamilles, familles et sous-familles. La classification en familles se fait en affinant les alignements locaux produits par BLAST au moyen du programme LALIGN (Huang et Miller, 1991), plus sensible. Trois types de familles sont définies en fonction de la nature du lien qui relie les protéines entre

19 BANQUES DE DONNÉES elles (du simple lien au lien complet). Les familles les plus voisines entre elles sont ensuite regroupées en superfamilles. Tout comme les deux banques précédentes, SYSTERS comprend également des alignements multiples et des arbres, les alignements intégrant la localisation des domaines protéiques de Pfam. ProClass 7 utilise la classification en superfamilles de PIR en lui ajoutant les définitions fournies par les motifs PROSITE (Huang et al., 2000). Ce système intègre un moteur de recherche et de classification, de nom GeneFIND (Wu et al., 1998), permettant, là encore, de rattacher une protéine fournie par l utilisateur à une famille donnée. Par contre ProClass ne contient pas d alignements ni d arbres et se contente de proposer des liens vers des banques incluant ce genre de données. Enfin, il existe des banques qui ne se consacrent qu à un groupe d organismes, comme HOVERGEN (Homologous Vertebrate Genes database) (Duret et al., 1999), HOBACGEN (Homologous Bacterial Genes database) (Perrière et al., 2000) ou COG (Tatusov et al., 2000). HOVERGEN contient les séquences de tous les gènes de vertébrés figurant dans GenBank, avec une classification réalisée à partir d une recherche de similarité effectuée sur la traduction de ces gènes. De la même façon, HOBACGEN se consacre aux gènes de procaryotes en partant des séquences de SWISS-PROT/TrEMBL. Je reviendrai en détail sur la structure et le contenu de cette banque dans le deuxième chapitre de ce mémoire. Quant à COG, cette banque ne s intéresse qu aux protéines figurant dans les organismes pour lesquels le génome complet est disponible DOMAINES PROTÉIQUES Parallèlement aux familles de gènes, de nombreuses banques s occupent de collecter des données sur la structure en domaines des séquences protéiques. Leur nombre est si important que certains envisagent même de regrouper toutes ces collections en une seule, tant leur contenu est semblable! La raison du succès de ces systèmes est le fait qu il est maintenant bien établi qu une majorité de protéines, y compris chez les bactéries, possède une structure modulaire (Patthy, 1991, 1994). Le nombre moyen de domaines présents dans une protéine ayant été estimé à trois par Corpet et al. (2000). Parmi toutes ces banques, la plus communément utilisée est sans doute ProDom (Corpet et al., 2000). Cette banque contient un ensemble de domaines généré automatiquement à partir des séquences de SWISS-PROT/TrEMBL. La procédure de construction des domaines est basée sur une utilisation récursive du program PSI- BLAST (Gouzy et al., 1999). Certains domaines sont cependant validés au moyen d une expertise manuelle. De plus, les familles de Pfam-A sont également utilisées pour augmenter le nombre des domaines examinés par des experts. Le serveur Web consacré à ProDom permet d accéder à une représentation graphique de l arrangement des domaines protéiques 8. Chaque protéine est représentée par une succession de boîtes utilisant un code conjuguant motifs et couleurs différents permettant d identifier les domaines (Figure I.6). Pfam 9 est construite à partir d une version de SWISS-PROT/TrEMBL dans laquelle toutes les redondances ont été éliminées. Cette banque comprend en fait deux parties : Pfam-A et Pfam-B. La différence entre ces deux divisions tient au fait que les domaines de Pfam-A sont expertisés par des curateurs tandis que ceux faisant partie de Pfam-B sont générés par un programme partant des domaines ProDom. L algorithme

20 CHAPITRE I utilisé pour construire Pfam-B est basé sur l utilisation de chaînes de Markov cachées et ce programme utilise toutes les familles de ProDom non construites à partir de Pfam-A. L interface Web de Pfam comprend une applet Java permettant de visualiser non seulement les alignements mais aussi les dendrogrammes construits sur les domaines. Figure I.6. Visualisation au moyen de l interface Web de la banque d un ensemble de protéines possédant en commun au moins un domaine ProDom. SBASE 10 (Murvai et al., 2000) est construite en utilisant les séquences de SWISS- PROT et de PIR ainsi que les traductions de parties codantes de GenBank et EMBL. SBASE utilise un concept un peu différent de ceux employés dans les autres banques du même type. Plutôt que de se baser sur des profils, des chaînes de Markov cachées ou des séquences consensus, ce système utilise ce que ses concepteurs appellent des «groupes de similarité». Ces groupes sont constitués par des ensembles de domaines présentant des scores BLAST plus ou moins élevés. Il existe ainsi des ensembles à forte ou faible similarité lorsque l on considère la moyenne des scores BLAST entre les différents représentants d un groupe donné. Là encore, la banque est divisée en deux parties : SBASE-A qui contient les domaines bien établis du point de vue structural et fonctionnel, et SBASE-B, qui contient les domaines moins bien caractérisés ou définis uniquement par leur composition (e.g., les régions riches en glycine). De nombreuses autres banques de domaines ont été construites. On peut ainsi citer Domo (Gracy et Argos, 1998), qui utilise une procédure de création automatique proche de celle employée par ProDom. La banque Blocks (Henikoff et al., 2000), quant à elle, est construite à partir des familles protéiques définies à partir de signatures PROSITE. Ces données sont ensuite complémentées avec celles de PRINTS (Attwood et al., 2000), ProDom, Pfam-A, et Domo. Enfin, COLIPAGE (Labedan et Riley, 1999) ne se consacre qu aux modules paralogues d une seule bactérie : E. coli, bien que ses

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Introduction aux bases de données: application en biologie

Introduction aux bases de données: application en biologie Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,

Plus en détail

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB... Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au

Plus en détail

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z

Plus en détail

Extraction d information des bases de séquences biologiques avec R

Extraction d information des bases de séquences biologiques avec R Extraction d information des bases de séquences biologiques avec R 21 novembre 2006 Résumé Le module seqinr fournit des fonctions pour extraire et manipuler des séquences d intérêt (nucléotidiques et protéiques)

Plus en détail

Base de données bibliographiques Pubmed-Medline

Base de données bibliographiques Pubmed-Medline Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

Bibliographie Introduction à la bioinformatique

Bibliographie Introduction à la bioinformatique Bibliographie Introduction à la bioinformatique 5. Les bases de données biologiques, SQL et la programmation Python/C++ Zvelebil et Baum, Understanding bioinformatics Beighley, Head First SQL Chari, A

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

! Séquence et structure des macromolécules.  Séquences protéiques (UniProt)  Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ) Introduction à la Bioinformatique Introduction! Les bases de données jouent un rôle crucial dans l organisation des connaissances biologiques.! Nous proposons ici un tour rapide des principales bases de

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan M Bioinformatique, Connaissances et Données Année 24-25 GMIN206 Info. Biologique et Outils bioinformatiques Banques de données biologiques (3h de Cours +,5h de TD + 4h de TP) Elodie Cassan Anne-Muriel

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Incertitude et variabilité : la nécessité de les intégrer dans les modèles Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

7. Recherche des essais

7. Recherche des essais 7. Recherche des essais Le chapitre précédent a insisté sur la nécessité de réaliser une recherche des essais aussi exhaustive que possible. Seule la conjonction de tous les moyens disponibles peut laisser

Plus en détail

Perl Orienté Objet BioPerl There is more than one way to do it

Perl Orienté Objet BioPerl There is more than one way to do it Perl Orienté Objet BioPerl There is more than one way to do it Bérénice Batut, berenice.batut@udamail.fr DUT Génie Biologique Option Bioinformatique Année 2014-2015 Perl Orienté Objet - BioPerl Rappels

Plus en détail

Analyse des données de séquençage massif par des méthodes phylogénétiques

Analyse des données de séquençage massif par des méthodes phylogénétiques Analyse des données de séquençage massif par des méthodes phylogénétiques Roux S., Taib N., Mangot J.F., Hugoni M., Mary I., Ravet V., Bronner G., Enault F., Debroas D. Équipe Microbiologie de l'environnement

Plus en détail

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006 La reconnaissance moléculaire: la base du design rationnel En 1890 Emil Fisher a proposé le modèle "serrure et clé" pour expliquer la façon de fonctionner des systèmes biologiques. Un substrat rentre et

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement. E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement. N.Bard, S.Boin, F.Bothorel, P.Collinet, M.Daydé, B. Depardon, F. Desprez, M.Flé, A.Franc, J.-F. Gibrat, D.

Plus en détail

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique

Plus en détail

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE DES PLANTES

Plus en détail

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis Copyright Acronis, Inc. 2000 2009 Table des matières Résumé... 3 Qu est-ce que la déduplication?... 4 Déduplication au

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Résonance Magnétique Nucléaire : RMN

Résonance Magnétique Nucléaire : RMN 21 Résonance Magnétique Nucléaire : RMN Salle de TP de Génie Analytique Ce document résume les principaux aspects de la RMN nécessaires à la réalisation des TP de Génie Analytique de 2ème année d IUT de

Plus en détail

LE CHEMINEMENT COMPLEXE D UN VACCIN

LE CHEMINEMENT COMPLEXE D UN VACCIN LE CHEMINEMENT COMPLEXE D UN VACCIN Chaîne de production, exigences réglementaires et accès aux vaccins International Federation of Pharmaceutical Manufacturers & Associations LE CHEMINEMENT COMPLEXE D

Plus en détail

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Plus en détail

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE I N T E RS Y S T E M S INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE David Kaaret InterSystems Corporation INTERSySTEMS CAChé CoMME ALTERNATIvE AUx BASES de données RéSIdENTES

Plus en détail

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire Contexte Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire Fédération des spécialités de Master des 5 pôles universitaires partenaires de la région Nord-Pas-de-Calais

Plus en détail

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs! CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un

Plus en détail

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment. Sommaire Séquence 6 Nous avons vu dans les séances précédentes qu au cours des temps géologiques des espèces différentes se sont succédé, leur apparition et leur disparition étant le résultat de modifications

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Les OGM. 5 décembre 2008. Nicole Mounier

Les OGM. 5 décembre 2008. Nicole Mounier Les OGM 5 décembre 2008 Nicole Mounier Université Claude Bernard Lyon 1 CGMC, bâtiment Gregor Mendel 43, boulevard du 11 Novembre 1918 69622 Villeurbanne Cedex OGM Organismes Génétiquement Modifiés Transfert

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Conférence technique internationale de la FAO

Conférence technique internationale de la FAO Décembre 2009 ABDC-10/7.2 F Conférence technique internationale de la FAO Biotechnologies agricoles dans les pays en développement: choix et perspectives pour les cultures, les forêts, l élevage, les pêches

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

La gestion des correctifs de sécurité avec WinReporter et RemoteExec

La gestion des correctifs de sécurité avec WinReporter et RemoteExec White Paper La gestion des correctifs de sécurité avec WinReporter et RemoteExec Ce document décrit les fonctionnalités de WinReporter et RemoteExec permettant de maintenir les systèmes Windows à jour

Plus en détail

d évaluation Objectifs Processus d élaboration

d évaluation Objectifs Processus d élaboration Présentation du Programme pancanadien d évaluation Le Programme pancanadien d évaluation (PPCE) représente le plus récent engagement du Conseil des ministres de l Éducation du Canada (CMEC) pour renseigner

Plus en détail

Mieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE

Mieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE Mieux comprendre les certificats SSL THAWTE EST L UN DES PRINCIPAUX FOURNISSEURS DE CERTIFICATS SSL DANS LE MONDE sommaire MIEUX COMPRENDRE LES CERTIFICATS SSL...1 SSL et certificats SSL : définition...1

Plus en détail

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information. PACBASE «Interrogez le passé, il répondra présent.». Le Module e-business Les entreprises doivent aujourd hui relever un triple défi. D une part, elles ne peuvent faire table rase de la richesse contenue

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

COMMENT LIRE UN DEVIS DE CREATION DE SITE WEB?

COMMENT LIRE UN DEVIS DE CREATION DE SITE WEB? COMMENT LIRE UN DEVIS DE CREATION DE SITE WEB? Lorraine En matière de création ou de refonte d un site Internet, il apparaît souvent difficile de faire un choix parmi les propositions qui font suite à

Plus en détail

Rédiger et administrer un questionnaire

Rédiger et administrer un questionnaire Rédiger et administrer un questionnaire Ce document constitue une adaptation, en traduction libre, de deux brochures distinctes : l une produite par l American Statistical Association (Designing a Questionnaire),

Plus en détail

Base de données relationnelle et requêtes SQL

Base de données relationnelle et requêtes SQL Base de données relationnelle et requêtes SQL 1e partie Anne-Marie Cubat Une question pour commencer : que voyez-vous? Cela reste flou Les plans de «Prison Break»? Non, cherchons ailleurs! Et de plus près,

Plus en détail

Code d'éthique de la recherche

Code d'éthique de la recherche Code d'éthique de la recherche Ce texte reprend le code d'éthique de la FPSE de l'université de Genève, avec une adaptation des références aux instances académiques. Cette version est plus particulièrement

Plus en détail

Modernisation et gestion de portefeuilles d applications bancaires

Modernisation et gestion de portefeuilles d applications bancaires Modernisation et gestion de portefeuilles d applications bancaires Principaux défis et facteurs de réussite Dans le cadre de leurs plans stratégiques à long terme, les banques cherchent à tirer profit

Plus en détail

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs

Plus en détail

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale.

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale. Version du Date document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale Commentaires 1 Table des matières 1 Introduction / Identification...

Plus en détail

Système d information pour la gestion d un réseau d Université

Système d information pour la gestion d un réseau d Université Système d information pour la gestion d un réseau d Université Ibticem BEN SAID, ibticem.ben-said@u-bourgogne.fr Sophie BOURGERET, sbourgeret@u-bourgogne.fr Jean-Yves COLLIER, jean-yves.collier@u-bourgogne.fr

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE : N Ordre de la Thèse 3282 THÈSE présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 Mention : BIOLOGIE PAR Emilie GUÉRIN Équipe d accueil : École Doctorale

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Orientations pour la gestion documentaire des courriels au gouvernement du Québec

Orientations pour la gestion documentaire des courriels au gouvernement du Québec Orientations pour la gestion documentaire des courriels au gouvernement du Québec Janvier 2009 Dépôt légal Bibliothèque et Archives nationales du Québec, 2010 ISBN : 978-2-550-59635-6 Table des matières

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar Florence Arestoff Baptiste Venet 1 Introduction : contexte du contrat de recherche Ce contrat de recherche fait suite

Plus en détail

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive. L ANALYSE ET L INTERPRÉTATION DES RÉSULTATS Une fois les résultats d une investigation recueillis, on doit les mettre en perspective en les reliant au problème étudié et à l hypothèse formulée au départ:

Plus en détail

Génétique et génomique Pierre Martin

Génétique et génomique Pierre Martin Génétique et génomique Pierre Martin Principe de la sélections Repérage des animaux intéressants X Accouplements Programmés Sélection des meilleurs mâles pour la diffusion Index diffusés Indexation simultanée

Plus en détail

Cellules procaryotes Service histologie Pr.k.mebarek

Cellules procaryotes Service histologie Pr.k.mebarek Cellules procaryotes Service histologie Pr.k.mebarek I) Les cellules procaryotes II) Les cellules eucaryotes o 1) Caractéristiques générales des cellules eucaryotes o 2) Organisation des cellules eucaryotes

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

La visio-conférence holographique : Pourquoi? Comment?

La visio-conférence holographique : Pourquoi? Comment? La visio-conférence holographique : Pourquoi? Comment? Francis Felix Labo LSIS / Arts & Métiers Paritech (ENSAM) 2 Cours des Arts et Métiers 13100 Aix-en-Provence Thierry Henocque AIP-Primeca Dauphiné

Plus en détail

EXCEL TUTORIEL 2012/2013

EXCEL TUTORIEL 2012/2013 EXCEL TUTORIEL 2012/2013 Excel est un tableur, c est-à-dire un logiciel de gestion de tableaux. Il permet de réaliser des calculs avec des valeurs numériques, mais aussi avec des dates et des textes. Ainsi

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

E-COMMERCE VERS UNE DÉFINITION INTERNATIONALE ET DES INDICATEURS STATISTIQUES COMPARABLES AU NIVEAU INTERNATIONAL

E-COMMERCE VERS UNE DÉFINITION INTERNATIONALE ET DES INDICATEURS STATISTIQUES COMPARABLES AU NIVEAU INTERNATIONAL E-COMMERCE VERS UNE DÉFINITION INTERNATIONALE ET DES INDICATEURS STATISTIQUES COMPARABLES AU NIVEAU INTERNATIONAL Bill Pattinson Division de la politique de l information, de l informatique et de la communication

Plus en détail

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Introduction MOSS 2007

Introduction MOSS 2007 Introduction MOSS 2007 Z 2 Chapitre 01 Introduction à MOSS 2007 v. 1.0 Sommaire 1 SharePoint : Découverte... 3 1.1 Introduction... 3 1.2 Ce que vous gagnez à utiliser SharePoint... 3 1.3 Dans quel cas

Plus en détail

Module BDR Master d Informatique (SAR)

Module BDR Master d Informatique (SAR) Module BDR Master d Informatique (SAR) Cours 6- Bases de données réparties Anne Doucet Anne.Doucet@lip6.fr 1 Bases de Données Réparties Définition Conception Décomposition Fragmentation horizontale et

Plus en détail

Windows Internet Name Service (WINS)

Windows Internet Name Service (WINS) Windows Internet Name Service (WINS) WINDOWS INTERNET NAME SERVICE (WINS)...2 1.) Introduction au Service de nom Internet Windows (WINS)...2 1.1) Les Noms NetBIOS...2 1.2) Le processus de résolution WINS...2

Plus en détail

Introduction aux concepts d ez Publish

Introduction aux concepts d ez Publish Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de

Plus en détail

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Chapitre 5 LE MODELE ENTITE - ASSOCIATION Chapitre 5 LE MODELE ENTITE - ASSOCIATION 1 Introduction Conception d une base de données Domaine d application complexe : description abstraite des concepts indépendamment de leur implémentation sous

Plus en détail

Convergence Grand public professionnelle

Convergence Grand public professionnelle Note de synthèse Convergence Grand public professionnelle Cette note synthétise les réflexions d une des tables rondes des entretiens Télécom de Mars 2006, organisés par Finaki. A cette table étaient à

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

Le scoring est-il la nouvelle révolution du microcrédit?

Le scoring est-il la nouvelle révolution du microcrédit? Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner

Plus en détail

Instructions relatives à la soumission d une question sur le sujet d étude

Instructions relatives à la soumission d une question sur le sujet d étude Programme de bourses de recherche Amy Mahan pour évaluer l impact de l accès public aux TIC Instructions relatives à la soumission d une question sur le sujet d étude Table des matières À propos la Question

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères 91030 Evry Cedex. www.mabsolut.com. intervient à chaque étape de

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères 91030 Evry Cedex. www.mabsolut.com. intervient à chaque étape de Mabsolut-DEF-HI:Mise en page 1 17/11/11 17:45 Page1 le département prestataire de services de MABLife de la conception à la validation MAB Solut intervient à chaque étape de vos projets Création d anticorps

Plus en détail

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst Biochimie I Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1 Daniel Abegg Sarah Bayat Alexandra Belfanti Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst Laboratoire

Plus en détail

Utiliser un tableau de données

Utiliser un tableau de données Utiliser un tableau de données OBJECTIFS : - Définir une Base de Données. - Présentation : tableau de données. - Création d un tableau de données - Gestion d un tableau de données. - Trier et Filtrer des

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

La sécurité dans un réseau Wi-Fi

La sécurité dans un réseau Wi-Fi La sécurité dans un réseau Wi-Fi Par Valérian CASTEL. Sommaire - Introduction : Le Wi-Fi, c est quoi? - Réseau ad hoc, réseau infrastructure, quelles différences? - Cryptage WEP - Cryptage WPA, WPA2 -

Plus en détail

La virtualisation des serveurs ou «loin des yeux, loin de l esprit»...

La virtualisation des serveurs ou «loin des yeux, loin de l esprit»... Acceleris GmbH Webergutstr. 2 CH-3052 Zollikofen Téléphone: 031 911 33 22 info@acceleris.ch La virtualisation des serveurs ou «loin des yeux, loin de l esprit»... Des entreprises de toutes les branches

Plus en détail

Présentation Générale

Présentation Générale Mars 2009 Présentation Générale 1- Le Master Recherche en Sciences de la Vie et de la Santé à Nice Objectifs, environnement scientifique, organisation Enseignements, les spécialités, les cours et les stages

Plus en détail

AA-SO5 KIDA/GSOV/VAMDC

AA-SO5 KIDA/GSOV/VAMDC AA-SO5 Centres de traitement et d archivage de données KIDA - 2 mars 2015 AA-SO5 KIDA/GSOV/VAMDC Contexte général L observation des molécules dans le milieu interstellaire, mais aussi dans les atmosphères

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Bases de données et outils bioinformatiques utiles en génétique

Bases de données et outils bioinformatiques utiles en génétique Bases de données et outils bioinformatiques utiles en génétique Collège National des Enseignants et Praticiens de Génétique Médicale C. Beroud Date de création du document 2010-2011 Table des matières

Plus en détail

Serveur Appliance IPAM et Services Réseaux

Serveur Appliance IPAM et Services Réseaux Page 1 Datasheet Serveur Appliance IPAM et Services Réseaux SIMPLIFER LE DEPLOIEMENT DE VOS ARCHITECTURES & DHCP Les services d adressage et de nommage sont au cœur de votre système d information, car

Plus en détail

A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Source : http://amcubat.be/docpmb/import-de-lecteurs

A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Source : http://amcubat.be/docpmb/import-de-lecteurs A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Diverses méthodes d import de lecteurs Les données (noms, prénoms, adresses. des lecteurs) proviennent en général du secrétariat, et se trouvent

Plus en détail

Bases de données des mutations

Bases de données des mutations Bases de données des mutations CFMDB CFTR2 CFTR-France / Registre Corinne THEZE, Corinne BAREIL Laboratoire de génétique moléculaire Montpellier Atelier Muco, Lille, 25-27 septembre 2014 Accès libre http://www.genet.sickkids.on.ca/app

Plus en détail

Groupe Eyrolles, 2006, ISBN : 2-212-11734-5

Groupe Eyrolles, 2006, ISBN : 2-212-11734-5 Groupe Eyrolles, 2006, ISBN : 2-212-11734-5 Chapitre 6 La gestion des incidents Quelles que soient la qualité du système d information mis en place dans l entreprise ou les compétences des techniciens

Plus en détail

Recherche et veille documentaire scientifique

Recherche et veille documentaire scientifique Recherche et veille documentaire scientifique Élodie Chattot BU Médecine Pharmacie juin 2006 Introduction Le but de cet atelier est de vous initier à la méthodologie de recherche documentaire scientifique,

Plus en détail

Les Réseaux sans fils : IEEE 802.11. F. Nolot

Les Réseaux sans fils : IEEE 802.11. F. Nolot Les Réseaux sans fils : IEEE 802.11 F. Nolot 1 Les Réseaux sans fils : IEEE 802.11 Historique F. Nolot 2 Historique 1er norme publiée en 1997 Débit jusque 2 Mb/s En 1998, norme 802.11b, commercialement

Plus en détail

Bientôt plus d'1 Français sur 10 client d'une banque en ligne.

Bientôt plus d'1 Français sur 10 client d'une banque en ligne. www.audirep.fr Bientôt plus d'1 Français sur 10 client d'une banque en ligne. Restitution des résultats d une étude menée par internet sur un échantillon de 1 001 personnes représentatives de la population

Plus en détail

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO Auteur Baguinébié Bazongo 1 Ingénieur Statisticien Economiste Chef de l Unité de recherche à l Institut national

Plus en détail