Introduction à l Analyse des séquences biologiques Christian.Fondrat@dsi.univ-paris5.fr
Les outils d analyse de séquences C est QUOI? DES BASES DE DONNEES DES PROGRAMMES Utilitaires (consultation, acquisition de données ) Recherche de caractéristiques biologiques
Les bases de données Bases Généralistes -Bases de séquences nucléiques EMBL GENBANK DDBJ -Bases de séquences protéiques SWISSPROT PIR-NBRF, TrEMBL GenPept Bases Spécialisées -Données liées à une caractéristique PDB ENZYME -Données liées à une activité biologique Exemples: PROSITE TFD TRANSFAC
Les bases de données sur les séquences nucléiques DDBJ/EMBL/GenBank DNA Data Bank of Japan, Mishima, Japan. EMBL Nucleotide Sequence Database, Cambridge, UK. GenBank, NCBI, Bethesda, MD, USA. La convention DDBJ/EMBL/GenBank Depuis 1987 échanges des données soumises entre les banques 1. la séquence 2. les caractéristiques biologiques (Feature Table Definition) 3. le numéro d'accession
Croissance en nucléotides
Croissance en entrées
Divisions en nucléotides
Divisions en entrées
Répartitions des organismes
Le numéro d ACcession numéro d accession = soumission d une séquence numéro d accession nom de séquence ou IDentificateur Exemple de soumissions de séquences décalées appartenant à un même gène Nom1 AC1 Nom2 AC2 Nom3 AC3 Nom4 AC1,AC2,AC3
Les bases de données Bases Généralistes -Bases de séquences nucléiques EMBL GENBANK DDBJ -Bases de séquences protéiques SWISSPROT PIR-NBRF, TrEMBL GenPept Bases Spécialisées -Données liées à une caractéristique PDB ENZYME -Données liées à une activité biologique Exemples: PROSITE TFD TRANSFAC
Les bases de données sur les séquences protéiques SwissProt et Pir-NBRF Swissprot : Université de Genève, Suisse, Europe Pir-NBRF : Los Alamos, USA, Amérique TrEMBL et GenPept Déduites des parties codantes de l EMBL ou de GenBank Phase ouverte (ORF) de 300 pb minimum (100 a.a.)
50000 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 Croissance en acides aminés 122 562 séquences, ~45 millions a.a. (Version 41 ) Croissance de SwissProt 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 21.0 22.0 23.0 24.0 25.0 26.0 27.0 28.0 29.0 30.0 31.0 32.0 33.0 34.0 35.0 36.0 37.0 38.0 39.0 40.0 41.0 Version de la base a.a. en milliers
Répartition des séquences protéiques
Répartition des séquences eucaryotes
Les bases de données Bases Généralistes -Bases de séquences nucléiques EMBL GENBANK DDBJ -Bases de séquences protéiques SWISSPROT PIR-NBRF, TrEMBL GenPept Bases Spécialisées -Données liées à une caractéristique PDB ENZYME -Données liées à une activité biologique Exemples: PROSITE TFD TRANSFAC
Les bases spécialisées (Approfondir une caractéristique) PDB (Protein Data Bank) coordonnées cristallographiques ENZYME protéines qui ont une activité enzymatique TRANSFAC, TFD facteurs de transcription et sites nucléiques associés (binding site) PROSITE sites protéiques ayant une signification biologique LIMB (Listing of Molecular Biology Databases) DBCAT (catalogue de bases de données)
PROSITE 1) collecter le plus possible de motifs significatifs 2) avoir des motifs hautement spécifiques pour caractériser au mieux une famille de protéines 3) donner une documentation complète sur chacun des motifs répertoriés 4) faire une révision périodique des motifs pour prendre en compte les dernières expérimentations.
Mise à jour des bases de données - Officiellement 3 ou 4 fois/an pour les bases généralistes 1 fois/an pour la plupart des autres - entre les versions officielles Mise à jour quotidienne par les réseaux Les ensembles de séquences: Version courante (nom de la base ex: EMBL) Nouvelles séquences (NEW, UPDATE, MONTH) Non redondants (NR)
Les outils d analyse de séquences C est QUOI? DES BASES DE DONNEES DES PROGRAMMES Utilitaires (consultation, acquisition de données ) Recherche de caractéristiques biologiques
Les programmes (1/2) Accès aux banques (consultation, extraction) Traitements sur des séquences individuelles Analyse statistique, recherche de motifs, identification de propriétés physico-chimiques Recherche de similitudes et alignements Comparaison de deux séquences Recherche de similitudes avec les bases de données Alignement multiple
Les programmes (2/2) Recherche et définitions de signaux Localisation de motifs, caractérisation de sites d activité biologique Aide au séquençage Ordonner les fragments d ADN, valider le séquençage Prédiction de structures Structure 2D, structure 3D, modélisations moléculaires Etude de phylogénie des séquences Construction d arbres, détermination d ancêtres communs
Relations entre disciplines Informatique Bioinformatique Biologie méthodes mathématiques méthodes informatiques Acquisition des données Robotique Analyse d images Interface utilisateurs Archivage Bases de données Analyse de séquences Bases de données Identification des gènes Prédiction de fonctions Prédiction de structures Réseaux de régulation Expérimentation Séquençage Production de données Méthode de validation Stratégies expérimentales mutagenèse, recherche de transcrits Expression des gènes (puces à ADN) Interprétation biologique
Les apports biologiques (1/4) Bases de données Connaissance et Consultation des bases Annotation croisement des connaissances Identification des gènes A partir de la séquence brute unité fonctionnelle, le gène 1) délimitation de l unité de transcription et signaux de régulation (début, fin, exons) (promoteur) 2) reconstitution des produits liés à la transcription (épissage correct des exons, définition des transcrits alternatifs)
Les apports biologiques (2/4) Prédiction de la fonction des gènes (post-génomique) La caractérisation expérimentale des gènes est longue et coûteuse traitements massif des données et compilation 1) similarités avec les banques de données programme BLAST, FASTA, PSI-BLAST 2) reconnaissance de motifs ou signatures fonctionnels répertoriés PROSITE, BLOCK, PRODOM, PFAM 3) combinaison de méthodes bioinformatiques et expérimentales développements spécifiques, intégration de plusieurs méthodes
Les apports biologiques (3/3) Prédiction des structures des produits des gènes A partir des séquences protéiques Structures 2D : statistiques ou méthode d apprentissage Structures 3D : comparaison de séquences ou reconnaissance par repliement (threading)
Les apports biologiques (4/4) Réseaux de régulation et d expression - Définition et localisation de régions régulatrices - Nouvelles stratégies expérimentales avec l expression différentielle des gènes (transcriptome) (Microarrays, puces à ADN) Recherche de gènes candidats liés à un processus pathologique ou physiologique précis
Les enjeux à partir de la connaissance : des génomes, des régulomes, des transcriptomes, des protéomes Applications médicales, diagnostique, prévention et guérison Applications pharmaceutiques mise au point de nouveaux médicaments Applications agro alimentaires production de plantes et d animaux Biotechnologies : Enjeux industriels et économiques importants
La disponibilité des outils sur le réseau Les moteurs de recherche NBioNetBook (Institut Pasteur) BioHunt (Université de Genève) Les serveurs en bioinformatiques Liste des principaux serveurs (Université Paris5) Les programmes de traitements des séquences Liste de programmes (Le Deambulum, Infobiogen)