Module de Bioinformatique appliquée. GB Karine Robbe-Sermesant Romain Gautier

Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Base de données bibliographiques Pubmed-Medline

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

TD de Biochimie 4 : Coloration.

Contrôle de l'expression génétique :

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

CATALOGUE DES PRESTATIONS DE LA

Introduction aux bases de données: application en biologie

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Big data et sciences du Vivant L'exemple du séquençage haut débit

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

MABioVis. Bio-informatique et la

Bibliographie Introduction à la bioinformatique

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Ingénieur R&D en bio-informatique

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

VI- Expression du génome

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Introduction à la Génomique Fonctionnelle

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Perl Orienté Objet BioPerl There is more than one way to do it

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Les OGM. 5 décembre Nicole Mounier

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Possibilités offertes après la L2?

Biomarqueurs en Cancérologie

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

Introduc)on à Ensembl/ Biomart : Par)e pra)que

SERVICES DE SEQUENÇAGE

Bases de données et outils bioinformatiques utiles en génétique

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Séquence 2. L expression du patrimoine génétique. Sommaire

Gènes Diffusion - EPIC 2010

Les débuts de la génétique

Conférence technique internationale de la FAO

Bases moléculaires des mutations Marc Jeanpierre

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Hépatite chronique B Moyens thérapeutiques

La PCR quantitative (qpcr) et le guide de bonnes pratiques MIQE : adaptation et pertinence dans le contexte de la biologie clinique

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Stages - le calendrier

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

MYRIAD. l ADN isolé n est à présent plus brevetable!

UE : GENE Responsable : Enseignant : ECUE 1. Enseignant : ECUE 2. Dr COULIBALY Foungotin Hamidou

Extraction d information des bases de séquences biologiques avec R

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Génétique et génomique Pierre Martin

Identification de nouveaux membres dans des familles d'interleukines

3: Clonage d un gène dans un plasmide

Eco-système calcul et données

Environmental Research and Innovation ( ERIN )

UE6 - Cycle de vie du médicament : Conception rationnelle

I. La levure Saccharomyces cerevisiae: mode de vie

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Génomique Comparative et intégrative

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

LE CALENDRIER DES STAGES

LES BIOTECHNOLOGIES DANS LE DIAGNOSTIC DES MALADIES INFECTIEUSES ET LE DÉVELOPPEMENT DES VACCINS

Création et développement d une base de données sur le VIH

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Production d une protéine recombinante

Biologie Computationnelle

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Bases de données des mutations

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Physiopathologie : de la Molécule à l'homme

THESE. pour obtenir LE GRADE DE DOCTEUR. Spécialité INFORMATIQUE. Ecole Doctorale : Informatique et Information pour la Société. par Sylvain BLACHON

Docteur Laurent PELLETIER

Rappel sur les bases de données

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

Liste des matières enseignées

Univers Vivant Révision. Notions STE

voies de signalisation

Les apports de l informatique. Aux autres disciplines

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

MENER UNE RECHERCHE D INFORMATION

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Détection et prise en charge de la résistance aux antirétroviraux

Ordonnance sur la formation menant au bachelor et au master de l Ecole polytechnique fédérale de Lausanne

THOT - Extraction de données et de schémas d un SGBD

Les bases de données transcriptionnelles en ligne

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

Cellules procaryotes Service histologie Pr.k.mebarek

UML Diagramme de communication (communication diagram) Emmanuel Pichon 2013

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

SysFera. Benjamin Depardon

Transcription:

Module de Bioinformatique appliquée à l analyse des séquences GB3 2012-2013 Karine Robbe-Sermesant Romain Gautier

Objectifs du module Bioinformatique appliquée à l analyse des séquences Comprendre et apprendre à utiliser les informations et les outils disponibles sur internet pour des applications en biotechnologies Principales Bases de données en Biologie Outils disponibles pour l analyse des séquences

Objectifs du module Bioinformatique appliquée à l analyse des séquences Avoir du recul sur le contenu d une base de données de biologie Connaître et pouvoir utiliser un certains nombre d outils bioinformatiques Savoir rechercher l outil et/ou la base de données le/la mieux approprié(s) pour répondre à un certain nombre de questions biologiques

Points du module Principales Base de données en Biologie Nucléiques, Protéiques, Gene Ontology(GO), domaines protéiques.. Alignement de séquences 2 à 2 (global, local) Recherche de similitude de séquences (Blast) Outils de recherche globaux (SRS) Alignement multiple (ClustalW) Navigateurs de génomes (EnsEmbl, UCSC) Prédiction de structure protéique (2D, 3D)

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d ontologies : Gene Ontology(GO) f. Bases de données de structures : PDB

A.Introductionà la bioinformatique La bio-informatique est un champ de recherche multi-disciplinaire: Informatique Mathématiques Médecine Biologie Physique Chimie/ Biochime

A. Introduction à la bioinformatique La bioinformatique recouvre des champs de recherches très différents regroupant à la fois une forte utilisation de l informatique et des mathématiques pour répondre à une question biologique. Stockage et recherche d informations (base de données de séquences, d annotations, outils globaux de recherche ) Analyse de séquences (alignements, phylogénie, recherche de motifs, analyse de génomes ) Analyses omiques(génome, transcriptome, protéome ) Modélisations d interactions géniques Modélisations moléculaires (Structure des protéines, des ARN) Modélisations physiologiques (cellules, organes, organismes, populations ) Analyse en imagerie médicale et microscopique

A. Introduction à la bioinformatique La bioinformatique recouvre des champs de recherches très différents regroupant à la fois une forte utilisation de l informatique et des mathématiques pour répondre à une question biologique. Stockage et recherche d informations (base de données de séquences, d annotations, outils globaux de recherche ) Analyse de séquences (alignements, phylogénie, recherche de motifs, analyse de génomes ) Analyses omiques(génome, transcriptome, protéome ) Modélisations d interactions géniques Modélisations moléculaires (Structure des protéines, des ARN) Modélisations physiologiques (cellules, organes, organismes, populations ) Analyse en imagerie médicale et microscopique

A. Introduction à la bioinformatique Paradoxe : La biologieporte une part de variabilité. Elle peut ne pas être totalement prévisible et totalement reproductible et est souvent dynamique Les Mathématiques et l Informatique qui sont des sciences exactes comportent des concepts et des théories précises La bioinformatique nécessite souvent de décomplexifierdes problèmes biologiques (modèles)

A. Introduction à la bioinformatique Apport de l informatique Stockage et organisation des données Permet de stocker par exemple les séquences des protéines et d y associer différentes annotations : positions des domaines, des sites actifs, d un propeptide, spécificité d expression, rôle fonctionnel, associations à des pathologies. Automatisation de tâches manuelles Certaines tâches simples ne peuvent pas être réalisées à la main pour de nombreuses séquences (manque de temps, d intérêt et risque d erreurs) et sont donc automatisées (traduction, recherche de sites d enzymes de restriction ) Algorithme Un algorithme est une suite finie et non-ambiguë d instructions permettant de donner la réponse à un problème. Cas particulier: lesheuristiques Puisque toutes les combinaisons ne peuvent être essayées dans un temps raisonnable, certains choix stratégiques doivent être faits (cf Blast)

A. Introduction à la bioinformatique Apport des mathématiques Statistiques Permet d évaluer des résultats entre eux en proposant des calculs de scores et de probabilités (p-value) => Aide l interprétation Modélisation Permet de faire des prédictions à partir d une mise en équation d un système et des données biologiques

A. Introduction à la bioinformatique Quelques théories et concepts en Biologie : La théorie de l'évolution énoncée par Darwin(1859), complétée par Kimura avec la théorie neutraliste de l'évolution(1983). LesloisdeMendel(en1866). => Première théorie biologique à partir d'une analyse statistique. La mise en évidence des chromosomes comme support cellulaire de l'hérédité et de l'information génétique (Morgan, 1913). La découverte de la structure en double hélice de l'adn (Watson et Crick, 1953), puis du mécanisme de la régulation génétique impliqué dans le dogme central de la biologie moléculaire (1965). Des dérogations au dogme ont finalement été trouvées notamment par Temin et Baltimore(1970)

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d ontologies : Gene Ontology(GO) f. Bases de données de structures : PDB

B. La séquence biologique pour les informaticiens Enoncer que l'information génétique de tout organisme vivant est contenue dans une séquence fut un concept révolutionnaire. La séquence devient un élément essentiel en biologie grâce à la biologie moléculaire (enzyme de restriction, PCR, vecteur de clonage, évolution des techniques de séquençage) Laséquencedevientunobjetélémentaireetformelquimanquaitàla biologie pour se constituer une branche théorique C'est une chaîne de caractères basée sur un alphabet simple et fixe. ADN: 4 nucléotides ATCG ARN: 4 nucléotides AUCG Protéines: 20 acides aminés La séquence est manipulable par des algorithmes! Récupération et manipulation de certains éléments ou groupes d éléments dans la chaine de caractère

B. La séquence biologique pour les informaticiens Le code génétique : une règle de traduction!

B. La séquence biologique pour les informaticiens D où viennent les séquences? Clonage d une séquence d ADNc dans un laboratoire Obligation de publier la séquence pour pouvoir publier l article scientifique correspondant - Avant : publication de la séquence dans une des figures de l article - De nos jours : Soumission à une base de données Séquençage d un banque d Expressed Sequence Tag (EST) Permettait de quantifier l expression des transcrits dans différents tissus en clonant des fragments de cdna (De nous jours, technique remplacée par les biopuces et le séquençage nouvelle génération) Grand projets et consortium - Séquençage de génomes entiers - Séquençage massif d ADNc

Historique des technologies d analyse qualitative et quantitative des séquences 1975 1977 Séquençage -Sanger -Gilbert Southern Blot 1990 1995 1999 2000 2006 2011 Séquençage par mesure de la fluorescence puces à ADN (microarray) Séquençage par Electrophorèse capillaire Evolution puces à ADN Next Generation Séquencing (NGS) «Next-next generation Sequencing» Séquençage Haut débit!!! (High Throughput Sequencing HTS)

B. La séquence biologique pour les informaticiens Les séquences les plus fréquentes : ADN ARN Protéine Génome Complet Linéaire ou Circulaire Fragment génomique Contient 0 à n gènes ADN recombinant ADNc (entier ou partiel) EST Protéine Fragment Protéine recombinante

B. La séquence biologique pour les informaticiens Les séquences issues de l ADN recombinant: Présence de séquences plasmidiques Existence de séquences mutés Transcrits issus des gènes fusionnés avec un tag Exemples de tag utilisés pour la purification ou la détection :

B. La séquence biologique pour les informaticiens Les séquences issues de l ADN recombinant: Exemple de construction pour un gène de fusion avec un tag en C-terminal Promoteur CDS du gène d intérêt Linker( + Site de Protéase) Plasmide TAG Gène de résistance à un antibiotique ARNm de fusion 5 3 Protéine de fusion N-term C-term

B. La séquence biologique pour les informaticiens Les séquences issues de l ADN recombinant: Exemple de séquence nucléotidique contenant la séquence codante d un gène de fusion (ici fusion GST en Ct-terminal) ATG STOP STOP Promoter T7 ARF1 GST * Vecteur (plasmide) CDS du gène d intérêt Linker (avec ou sans site protéase) CDS du tag Vecteur (plasmide) Tags : GST(Glutathion-S transferase), GFP (Green fluorescent protein), (his)*6, FLAG La position du Tag peut être en N-terminal ou en C-terminal de la protéine d intérêt (sur le schéma: coté C-terminal)

B. La séquence biologique pour les informaticiens Rappel de biologie : tous les ARN ne codent pas pour des protéines!! Certains ARN sont dit «non-codants» ARN ARN codant ARN non codant ARNm ARNr ARNt ARN nclong Petits ARN (>250 nt)

B. La séquence biologique pour les informaticiens Rappel de biologie : convention Brin sens = Brin codant 5' 3' 3' 5' Transcription 5' 3' Brin sens= brin codant ARN 5' 3' Brin matrice = brin antisens = brin non-codant 3' 5'

B. La séquence biologique pour les informaticiens Rappel de Biologie : maturation des ARNm des eucaryotes => Epissage (Berg, Biochemistry)

B. La séquence biologique pour les informaticiens Représentation graphique du gène eucaryote: Amont 5 UTR Exons 3 UTR Aval Promoteur Introns ATG * Région codante (CDS = coding sequence) codon stop TGA, TAA, TAG Premier exon Dernier exon

B. La séquence biologique pour les informaticiens Différences par rapport à une séquence de référence (polymorphisme ou mutation) Substitution SNP Insertion/Délétion CNV

B. La séquence biologique pour les informaticiens Effet d une mutation sur la séquence nucléotidique selon sa localisation 5 UTR Exons 3 UTR Promoteur ATG Introns * Régulation? Protéine tronquée Effet sur la séquence de la protéine traduite? -Mutation faux-sens (Substitution d acide aminé) -Mutation synonyme (même acide aminé) -Mutation non-sens (introduction d un codon STOP) -Insertion(s) -Délétion(s) -Défaut d épissage (jonction intron/exon) Exon Protéine plus longue Régulation?

B. La séquence biologique pour les informaticiens Insertion/délétion d 1, 2 ou nucléotides groupés dans la région codante 1 nucléotide 2 nucléotides 3 nucléotides Décalage de phase (= Frameshift) Pas de Décalage de phase 1 insertion/délétion Pas de Décalage de phase 1 insertion/délétion + 1 substitution

B. La séquence biologique pour les informaticiens Exemples d analyse bioinformatique d une séquence : > Description MASEQUENCE Le format fastaest un format de séquence nucléotidique couramment utilisé dans les outils bioinformatiques

B. La séquence biologique pour les informaticiens

B. La séquence biologique pour les informaticiens Exemples d analyse bioinformatique d une séquence : Création de l inverse complémentaire (reverse complementary) outil RevSeq

B. La séquence biologique pour les informaticiens Exemples d analyse bioinformatique d une séquence : traduction dans les 6 phases de lecture (= 6-frames translation) Phase 1+ : Codon 1 Codon 2 Codon3 Codon4 Codon5

B. La séquence biologique pour les informaticiens Exemples d analyse bioinformatique d une séquence : traduction dans les 6 phases de lecture (= 6-frames translation) Phase +3 Phase +2 Phase +1 Phase -1 Phase -2 Phase -3

B. La séquence biologique pour les informaticiens Exemples d analyse bioinformatique d une séquence : traduction dans les 6 phases de lecture (= 6-frames translation) : Transeq

B. La séquence biologique pour les informaticiens Exemples d analyse bioinformatique d une séquence : traduction dans les 6 phases de lecture (= 6-frames translation) Phase +1 Phase +2 Phase +3 Phase -1 Phase -2 Phase -3

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d ontologies : Gene Ontology(GO) f. Bases de données de structures : PDB

C. Bases de données : a) les bases de données en biologie Historique : Un besoin de stockage! Danslesannées80: Le nombre de séquences publiées augmente considérablement grâce aux avancées technologiques et un accès facile pour la communauté des biologistes doit être proposé. Les échanges de données informatiques commencent être facilités par le développement de réseaux informatiques Un consensus apparaît : il faut disposer de centres de références dans lesquels toutes les séquences connues seront déposées. Des serveurs"mondiaux" naissent: 1988 : NCBI aux USA / Base de données Genbank 1986 : DDBJ au Japon / Base de données DDBJ 1980 : EBI en Europe / Base de données EMBL 1986 : SIB en Suisse / Base de données SwissProt Séquences nucléiques Séquences protéiques

C. Bases de données : a) les bases de données en biologie 1995 Haemophilus influenzae 1,8. 10 6 pb 1700 gènes 1997 Saccharomyces cerevisiae 1,3. 10 7 pb 6 400 gènes 1999 Caenorhabditis elegans 9,7. 10 7 pb 19 000 gènes 2000 Drosophila melanogaster 1,37. 10 8 pb 13 000 gènes 2001 (2004) Homme 3,4. 10 9 pb 25000 gènes (Gregory, 2005)

39

C. Bases de données : a) les bases de données en biologie Organisation des données : Notion d identifiant unique Un identifiant permet de retrouver un élément dans un base de données de façon non ambiguë Fichiers Textes Les informations peuvent être présentées dans une fiche (= un fichier texte) avec une fiche pour chaque élément de la base. Cette fiche peut être présentée ensuite sous format html avec des hyperliens, des illustrations. Base de données relationnelles Souvent, les bases de données en biologie utilisent des outils informatiques de stockage de l information = Système de gestion de Base de données relationnelles (SGBD) Organisation des informations sous forme de tables ayant des liens entre elles Efficacité de stockage et de recherche d informations croisées («requêtes») Références Croisées Liens entre les différentes bases de données pour permettre aux biologistes de trouver un maximum d informations

C. Bases de données : a) les bases de données en biologie PubMed PMID PubMed IDentifiant

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d ontologies : Gene Ontology(GO) f. Bases de données de structures : PDB

C. Bases de données : b) Séquences nucléiques NCBI / Genbank(USA) Format Genbank des fiches Il existe des subdivisions spécifiques : Expressed Sequence Tag (dbest) Genome Survey Sequence(GSS) EMBL (Europe) Format EMBL des fiches ENA : EMBL nucleotide Archive Genbank ENA : EMBL nucleotide Archive DDBJ (Japan) Genbank comme EMBL et DDBJ sont des bases de donnes de soumission et contiennent donc de nombreuses redondances. => Des bases de données comme RefSeq (NCBI) ont été créée pour regrouper les séquences similaires de transcrits et limiter la redondance.

C. Bases de données : b) Séquences nucléiques Echange des nouvelles soumissions toutes les 24h! Genbank ENA : EMBL nucleotide Archive

C. Bases de données : b) Séquences nucléiques Echange des nouvelles soumissions toutes les 24h! Genbank ENA : EMBL nucleotide Archive En une journée, la séquence soumise par le chercheur français à l EMBL va se retrouver dans les 3 banques de données avec un reformatage spécifique à chaque banque.

C. Bases de données : b) Séquences nucléiques Soumission d une séquence et suite : Le chercheur est l auteur de la séquence, il soumet : La séquence nucléotidique Attention, cette séquence peut contenir des erreurs de séquences : - erreur de séquençage -erreur de manipulation informatique (envoie de l inverse complémentaire, séquence de vecteurs de clonage ) Les informations supplémentaires = des annotations Organisme, position des gènes si ADN génomique, du CDS si ARNm.. Elle peut aussi contenir des erreurs d annotations souvent dues au manque de connaissances biologiques à la date de soumission Chaque banque réorganise l information (identifiant, format spécifique) Mise à jour Les annotations vont évoluer avec les nouvelles connaissances en biologie => Beaucoup d annotations sont automatiques! Des liens vers d autres bases de données seront rajoutées Références croisées (= Cross-References)

C. Bases de données : b) Séquences nucléiques

C. Bases de données : b) Séquences nucléiques Projets de Métagénomique

C. Bases de données : b) Séquences nucléiques Format EMBL Références Identifiants permettant de faire un lien vers d autres banques de données

C. Bases de données : b) Séquences nucléiques Format EMBL (fichier texte) P53 humain PMID PubMed IDentifiant

C. Bases de données : b) Séquences nucléiques Format EMBL (fichier texte) Position du CDS Identifiants permettant de faire un lien vers d autres banques de données

C. Bases de données : b) Séquences nucléiques Format EMBL (fichier texte) Lien vers Uniprot Traduction du CDS Séquence nucléique

Fiche au format Genbank (ici version html) C. Bases de données : b) Séquences nucléiques

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d ontologies : Gene Ontology(GO) f. Bases de données de structures : PDB

C. Bases de données : UniProtKB http://www.uniprot.org UniProtKnowledgebase: Collaboration entre EBI, SIB et PIR Décrire dans une fiche unique les produits derivés d un gène dans une espèce donnée. - UniProtKB/Swiss-Prot Non-redondante, annotation manuelle. - UniProtKB/TrEMBL Traduction automatique de la base de données EMBL selon les annotation de CDS Redondante, annotation automatique!

C. Bases de données : c) UniProtKB TrEMBL Ensemble des séquences protéiques conceptuelles obtenues par traduction automatique des séquences codante contenues dans EMBL, avec des annotations non vérifiées, mais avec l objectif d obtenir une couverture maximale

C. Bases de données : c) UniProtKB Les annotations : Nom de la protéine, Nom du gène Fonction Activité enzymatique Composition en domaines Localisation cellulaire Spécificité d expression (tissus, stade de développement ) Implication dans des pathologies Effet des mutations Interactions moléculaires Liens vers d autres base de données = Références croisées (EMBL, SMART,GO, PDB,OMIM.)

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/TrEMBL Release 2011_12 of 14-Dec-2011 of UniProtKB/TrEMBL contains 18510272 sequence entries Total number of species represented in this release of UniProtKB/TrEMBL: 406001

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/SwissProt Release 2011_12 of 14-Dec-11 of UniProtKB/Swiss-Prot contains 533657 sequence entries

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/TrEMBL!

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/Swissprot!

C. Bases de données : c) UniprotKB Statistiques pour UniprotKB/Swissprot

C. Bases de données : c) UniprotKB

C. Bases de données : c) UniprotKB

REVIEWED! ACC ID 1 seul organisme par fiche

C. Bases de données : c) UniprotKB

C. Bases de données : c) UniprotKB 1 seul organisme par fiche

C. Bases de données : UniprotKB

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d ontologies : Gene Ontology(GO) f. Bases de données de structures : PDB

C. Bases de données : d) Domaines protéiques Les domaines sont les pièces légos de l évolution Différentes base de données de domaines : Répertorie les différents domaines protéiques Annote les protéines avec ses domaines Egalement : analyse de motifs, de familles protéiques, de sites de phosphorylations INTERPRO

C. Bases de données : d) Domaines protéiques Exemple : base de données SMART IGF1R_HUMAN Furin-like Repeats Domain Faible complexité Fibronectine Type 3 Domain Transmembrane domain Tyrosine kinase Domain

C. Bases de données : d) Domaines protéiques IGF1R_HUMAN EGFR_HUMAN FYN_HUMAN FGFR1_HUMAN

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d ontologies : Gene Ontology(GO) f. Bases de données de structures : PDB

C. Bases de données : e) Gene Ontology Notion d ontologie : Une ontologie est l'ensemble structuré des termes et concepts représentant le sens d'un champ d'informations d'un domaine de connaissances. L'ontologie constitue en soi un modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que des relations entre ces concepts. => Un recensement des concepts sous la forme d'un vocabulaire contrôlé. Liaison de ces concepts par des relations qui modélisent notre connaissance. Exemple Gene Ontology(is_a, part_of_a)

Exemple : C. Bases de données : e) Gene Ontology Meuble is_a is_a Siege Meuble de rangement is_a is_a is_a is_a Chaise fauteuil Tabouret Placard Part_of_a Part_of_a Dossier

Impossible d'afficher l'image. Votre ordinateur manque peut-être de mémoire pour ouvrir l'image ou l'image est endommagée. Redémarrez l'ordinateur, puis ouvrez à nouveau le fichier. Si le x rouge est toujours affiché, vous devrez peut-être supprimer l'image avant de la réinsérer. C. Bases de données : e) Gene Ontology Exemple d outil d annotation: la«gene Ontology» Gene Ontology (GO) Gene Ontology Annotation (GOA) Utilisation d un vocabulaire controlé Lien entre les termes sous forme de graphes Directed Acyclic Graph (DAG) http://geneontology.org/ http://www.ebi.ac.uk/ego 3 composantsdansgo : Cellular component Endosome, Mitochondrion, Apoptosome, Centriole Biological process Notch signaling pathway, G1 phase, Serotonin biosynthesis Molecular function Inositol 3-kinase activity, clathrin binding

http://www.ebi.ac.uk/ego

http://www.ebi.ac.uk/ego! Automatique

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie A. Introduction à la bioinformatique B. La séquence biologique pour les informaticiens C. Les bases de données en Biologie : a. Un besoin de stockage et d organisation : les bases de données en biologie b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt d. Bases de données de domaines protéiques e. Bases de données d ontologies : Gene Ontology(GO) f. Bases de données de structures : PDB

C. Bases de données : f) Structures protéiques ProteinData Bank ou PDB est une collection mondiale de données sur la structure tridimensionnelle (ou structure 3D) de macromolécules biologiques: protéines, essentiellement, et acides nucléiques. Ces structures sont essentiellement déterminées par cristallographie aux rayons X ou par spectroscopie RMN. As of 18 January 2012 the PDB contains 78628entries and EMDB contains1242entries» Identifiant de la structure: code 4 lettres/chiffres

C. Bases de données : f) Structures protéiques PDBe (PDB in Europe)

Cours1 Introduction à la bioinformatique et aux bases de données en Biologie Conclusion : Bioinformatique mais Interprétation biologique! De nombreuses informations sont mises à la disposition de le communauté scientifique en biologie par le mise en place de bases de données spécifiques. Il existe des références croisées entre les différentes bases de données. Les banques de données biologiques sont très souvent le point de départ pour réaliser une analyse, il est cependant essentiel de garder à l esprit que des erreurs (manuelles ou automatiques) sont parfois présentes