Introduction à l Analyse des séquences biologiques.

Documents pareils
Introduction aux bases de données: application en biologie

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Base de données bibliographiques Pubmed-Medline

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

CHAPITRE 3 LA SYNTHESE DES PROTEINES

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

MABioVis. Bio-informatique et la

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Eco-système calcul et données

Bibliographie Introduction à la bioinformatique

Big data et sciences du Vivant L'exemple du séquençage haut débit

Perl Orienté Objet BioPerl There is more than one way to do it

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Extraction d information des bases de séquences biologiques avec R

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

CATALOGUE DES PRESTATIONS DE LA

Les OGM. 5 décembre Nicole Mounier

Conférence technique internationale de la FAO

Identification de nouveaux membres dans des familles d'interleukines

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Liste des matières enseignées

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

Gènes Diffusion - EPIC 2010

Physiopathologie : de la Molécule à l'homme

Spécialisation 3A AgroSup Dijon IAA Microbiologie Industrielle et Biotechnologie (MIB)

Possibilités offertes après la L2?

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Infrastructure. mesure. sur

FORMATIONS OUVRANT DROIT AU VERSEMENT DE LA TAXE D'APPRENTISSAGE Année Universitaire

TD de Biochimie 4 : Coloration.

MYRIAD. l ADN isolé n est à présent plus brevetable!

Stages - le calendrier

Environmental Research and Innovation ( ERIN )

Les lières. MSc in Electronics and Information Technology Engineering. Ingénieur civil. en informatique. MSc in Architectural Engineering

Les débouchés des diplômés de L LMD Sciences de la Nature et de la Vie

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Détection et prise en charge de la résistance aux antirétroviraux

Biomarqueurs en Cancérologie

MASTER 2 SCIENCES DU MEDICAMENT

Les bases de données transcriptionnelles en ligne

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Insulinothérapie et diabète de type 1

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Le réseau Internet.

AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS

Génétique et génomique Pierre Martin

Master Développement et Immunologie

Big Data et la santé

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

Contrôle de l'expression génétique :

Réseau sur. Médicaments. l Innocuité et l Efficacité des. Document d orientation pour la présentation de requêtes au RIEM

Master UP 6. Mention Santé Publique et Management de la Santé. Spécialité Pharmacologie Clinique. Construire une carrière dans l industrie

Cellules procaryotes Service histologie Pr.k.mebarek

DATE DU CONCOURS: SAMEDI 18 OCTOBRE

AVIS adopté par le Conseil économique et social au cours de sa séance du 7 juillet I - 1

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

Fès. Licences Fondamentales. Filière SMC : Sciences de la Matière Chimie Coordonnateur : Pr. Mohammed KHALDI

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Création et développement d une base de données sur le VIH

Corrigé des TD 1 à 5

Fotolia / Sergej Khackimullin. conseil scientifique. Rapport du groupe de travail sur la gestion et le partage des données

Présentation Générale

Bases de données et outils bioinformatiques utiles en génétique

Disciplines. Ecoles - facultés - titres délivrés. UNIL - Faculté des lettres. Maîtrise universitaire ès Lettres

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Bases moléculaires des mutations Marc Jeanpierre

Compléments ments alimentaires Les règles du jeu - SCL / Strasbourg-Illkirch 14 octobre 2011

Médecine Pharmacie Dentaire Sage-femme Kinésithérapie Ergothérapie ANNÉE UNIVERSIT AIRE

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Les Parcours Scientifiques et les Ecoles Doctorales

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Faculté des Sciences. Biologie y 2015

DIPLOME D'ETAT DE DOCTEUR EN PHARMACIE

Diagnostic et suivi virologique des hépatites virales B et C. Marie-Laure Chaix Virologie Necker

Cursus de Master en Ingénierie de la Production Alimentaire. Une autre façon d accéder au métier d ingénieur

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

CIO 8, Quai Boissier de Sauvages ALES Tel: Fax:

Ordonnance sur la formation menant au bachelor et au master de l Ecole polytechnique fédérale de Lausanne

LE CALENDRIER DES STAGES

MENER UNE RECHERCHE D INFORMATION

UE6 - Cycle de vie du médicament : Conception rationnelle

Université Paris Saclay De quoi parle t-on?

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

Les apports de l informatique. Aux autres disciplines

: l IDRIS a vingt ans!

MASTER PROFESSIONNEL (2 ème année)

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

SHERBROOKE. Faculté des sciences

Annonce. Beyrouth, le 4/6/2013. La Doyenne. Nina SAADALLAH. UNIVERSITE LIBNAISE Faculté de Santé Publique Décanat

Manuel utilisateur Contenu

Transcription:

Introduction à l Analyse des séquences biologiques Christian.Fondrat@dsi.univ-paris5.fr

Les outils d analyse de séquences C est QUOI? DES BASES DE DONNEES DES PROGRAMMES Utilitaires (consultation, acquisition de données ) Recherche de caractéristiques biologiques

Les bases de données Bases Généralistes -Bases de séquences nucléiques EMBL GENBANK DDBJ -Bases de séquences protéiques SWISSPROT PIR-NBRF, TrEMBL GenPept Bases Spécialisées -Données liées à une caractéristique PDB ENZYME -Données liées à une activité biologique Exemples: PROSITE TFD TRANSFAC

Les bases de données sur les séquences nucléiques DDBJ/EMBL/GenBank DNA Data Bank of Japan, Mishima, Japan. EMBL Nucleotide Sequence Database, Cambridge, UK. GenBank, NCBI, Bethesda, MD, USA. La convention DDBJ/EMBL/GenBank Depuis 1987 échanges des données soumises entre les banques 1. la séquence 2. les caractéristiques biologiques (Feature Table Definition) 3. le numéro d'accession

Croissance en nucléotides

Croissance en entrées

Divisions en nucléotides

Divisions en entrées

Répartitions des organismes

Le numéro d ACcession numéro d accession = soumission d une séquence numéro d accession nom de séquence ou IDentificateur Exemple de soumissions de séquences décalées appartenant à un même gène Nom1 AC1 Nom2 AC2 Nom3 AC3 Nom4 AC1,AC2,AC3

Les bases de données Bases Généralistes -Bases de séquences nucléiques EMBL GENBANK DDBJ -Bases de séquences protéiques SWISSPROT PIR-NBRF, TrEMBL GenPept Bases Spécialisées -Données liées à une caractéristique PDB ENZYME -Données liées à une activité biologique Exemples: PROSITE TFD TRANSFAC

Les bases de données sur les séquences protéiques SwissProt et Pir-NBRF Swissprot : Université de Genève, Suisse, Europe Pir-NBRF : Los Alamos, USA, Amérique TrEMBL et GenPept Déduites des parties codantes de l EMBL ou de GenBank Phase ouverte (ORF) de 300 pb minimum (100 a.a.)

50000 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 Croissance en acides aminés 122 562 séquences, ~45 millions a.a. (Version 41 ) Croissance de SwissProt 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 21.0 22.0 23.0 24.0 25.0 26.0 27.0 28.0 29.0 30.0 31.0 32.0 33.0 34.0 35.0 36.0 37.0 38.0 39.0 40.0 41.0 Version de la base a.a. en milliers

Répartition des séquences protéiques

Répartition des séquences eucaryotes

Les bases de données Bases Généralistes -Bases de séquences nucléiques EMBL GENBANK DDBJ -Bases de séquences protéiques SWISSPROT PIR-NBRF, TrEMBL GenPept Bases Spécialisées -Données liées à une caractéristique PDB ENZYME -Données liées à une activité biologique Exemples: PROSITE TFD TRANSFAC

Les bases spécialisées (Approfondir une caractéristique) PDB (Protein Data Bank) coordonnées cristallographiques ENZYME protéines qui ont une activité enzymatique TRANSFAC, TFD facteurs de transcription et sites nucléiques associés (binding site) PROSITE sites protéiques ayant une signification biologique LIMB (Listing of Molecular Biology Databases) DBCAT (catalogue de bases de données)

PROSITE 1) collecter le plus possible de motifs significatifs 2) avoir des motifs hautement spécifiques pour caractériser au mieux une famille de protéines 3) donner une documentation complète sur chacun des motifs répertoriés 4) faire une révision périodique des motifs pour prendre en compte les dernières expérimentations.

Mise à jour des bases de données - Officiellement 3 ou 4 fois/an pour les bases généralistes 1 fois/an pour la plupart des autres - entre les versions officielles Mise à jour quotidienne par les réseaux Les ensembles de séquences: Version courante (nom de la base ex: EMBL) Nouvelles séquences (NEW, UPDATE, MONTH) Non redondants (NR)

Les outils d analyse de séquences C est QUOI? DES BASES DE DONNEES DES PROGRAMMES Utilitaires (consultation, acquisition de données ) Recherche de caractéristiques biologiques

Les programmes (1/2) Accès aux banques (consultation, extraction) Traitements sur des séquences individuelles Analyse statistique, recherche de motifs, identification de propriétés physico-chimiques Recherche de similitudes et alignements Comparaison de deux séquences Recherche de similitudes avec les bases de données Alignement multiple

Les programmes (2/2) Recherche et définitions de signaux Localisation de motifs, caractérisation de sites d activité biologique Aide au séquençage Ordonner les fragments d ADN, valider le séquençage Prédiction de structures Structure 2D, structure 3D, modélisations moléculaires Etude de phylogénie des séquences Construction d arbres, détermination d ancêtres communs

Relations entre disciplines Informatique Bioinformatique Biologie méthodes mathématiques méthodes informatiques Acquisition des données Robotique Analyse d images Interface utilisateurs Archivage Bases de données Analyse de séquences Bases de données Identification des gènes Prédiction de fonctions Prédiction de structures Réseaux de régulation Expérimentation Séquençage Production de données Méthode de validation Stratégies expérimentales mutagenèse, recherche de transcrits Expression des gènes (puces à ADN) Interprétation biologique

Les apports biologiques (1/4) Bases de données Connaissance et Consultation des bases Annotation croisement des connaissances Identification des gènes A partir de la séquence brute unité fonctionnelle, le gène 1) délimitation de l unité de transcription et signaux de régulation (début, fin, exons) (promoteur) 2) reconstitution des produits liés à la transcription (épissage correct des exons, définition des transcrits alternatifs)

Les apports biologiques (2/4) Prédiction de la fonction des gènes (post-génomique) La caractérisation expérimentale des gènes est longue et coûteuse traitements massif des données et compilation 1) similarités avec les banques de données programme BLAST, FASTA, PSI-BLAST 2) reconnaissance de motifs ou signatures fonctionnels répertoriés PROSITE, BLOCK, PRODOM, PFAM 3) combinaison de méthodes bioinformatiques et expérimentales développements spécifiques, intégration de plusieurs méthodes

Les apports biologiques (3/3) Prédiction des structures des produits des gènes A partir des séquences protéiques Structures 2D : statistiques ou méthode d apprentissage Structures 3D : comparaison de séquences ou reconnaissance par repliement (threading)

Les apports biologiques (4/4) Réseaux de régulation et d expression - Définition et localisation de régions régulatrices - Nouvelles stratégies expérimentales avec l expression différentielle des gènes (transcriptome) (Microarrays, puces à ADN) Recherche de gènes candidats liés à un processus pathologique ou physiologique précis

Les enjeux à partir de la connaissance : des génomes, des régulomes, des transcriptomes, des protéomes Applications médicales, diagnostique, prévention et guérison Applications pharmaceutiques mise au point de nouveaux médicaments Applications agro alimentaires production de plantes et d animaux Biotechnologies : Enjeux industriels et économiques importants

La disponibilité des outils sur le réseau Les moteurs de recherche NBioNetBook (Institut Pasteur) BioHunt (Université de Genève) Les serveurs en bioinformatiques Liste des principaux serveurs (Université Paris5) Les programmes de traitements des séquences Liste de programmes (Le Deambulum, Infobiogen)