Introduction à la bioinformatique

Introduction à la bioinformatique Céline Brochier-Armanet Université Claude Bernard, Lyon 1 Laboratoire de Biométrie et Biologie Evolutive (UMR 5558) celine.brochier-armanet@univ-lyon1.fr

Lectures recommandées Bioinformatique Cours et cas pratiques (Deléage & Gouy 2013) - Dunod

Qu est-ce que la Bioinformatique? Application des techniques de l information à la gestion et l analyse des données biologiques Discipline de la biologie faisant appel à d autres disciplines scientifiques (statistiques, mathématiques, physique informatique) Analyse des données Bases de données Développement méthodologique Expérimentation biologique Modèles/Méthodes Logiciels Hypothèses Modélisation Simulations Traitements bioinformatiques

Les deux grands volets de la bioinformatique Représentation, stockage, distribution des données format de données, schéma des bases de données, outils d interrogation, interfaces Analyse des données collectées: Utilisation de l information biologique à différents niveaux développement de méthodes prédictives permettant de comprendre le fonctionnement d un organisme à partir de l information contenue dans son génome => Recherche de fonction de gènes par comparaison de séquences, décomposition de structures 3D pour comprendre comment les protéines se replient, modélisation des interactions entre molécules

Recherche d informations Moteurs de recherches pour le web: Google, AltaVista, Lycos, HotBot, Northern Light, Dogpile Moteurs de recherche pour les bases de données publiques : entrez, SRS Utilisation de requêtes structurées pertinentes (mode booléen) combinaison de plusieurs termes au moyen d opérateurs logiques AND (et), OR (ou), NOT (sauf) Le séparateur espace peut être considéré comme AND ou OR selon les moteurs de recherches Utilisation de ( ) pour des requêtes plus complexes ex. (mot_clé1 AND (mot_clé2 OR mot_clé3)) NOT mot_clé4 Utilisation de ex. «structure protéique»

Systèmes d interrogation des bases de données publiques Chaque banque de séquences possède son propre système d interrogation: SRS, ENTREZ, ACNUC, DBGET Chaque système utilise une syntaxe particulière pour les requêtes Étiquettes Connecteurs logiques Caractères de substitution Consultez Les Notices Explicatives

NCBI : National Center for Biotechnology Information

Organisation du NCBI

ENTREZ : Recherche d information au NCBI

Permet d interroger les banques du NCBI (http://www.ncbi.nl m.nih.gov/) ENTREZ : Recherche générale

ENTREZ : Exemple d application Recherchez tous les articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon

ENTREZ: Choix de la base de données Permet d interroger les banques du NCBI (http://www.ncbi.nl m.nih.gov/)

ENTREZ: Saisie des mots clés Recherche des articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon => 0 résultat

Interprétation de la recherche

Une bonne recherche

Limitation de la recherche

Historique des recherches

European Bioinformatics Institute

SRS : Recherche d information

SRS : Recherche rapide

SRS : Choix des databases

SRS : Saisie de la requête

Pôle BioInformatique Lyonnais

Banques/bases de données majeures en biologie Hors série annuel de la revue NAR (Nucleic Acid Research http://nar.oxfordjournals.org/) recense l actualité des banques/bases de données (naissance, mise à jours, etc.)

Banques/bases de données majeures en biologie Sujet Bibliographie Séquences nucléiques Banques de génomes Séquences protéiques Structures protéiques Modifications post-traductionnelles Information biochimique et biophysique Voies métaboliques Microarray 2D-page Source PubMed Genbank (NCBI), EMBL (EBI), refseq Entrez Génome (NCBI), TIGR Swiss-prot, Genpep, Trembl, PIR, refseq Protein Data Base (PDB) RESID ENZYME, BIND KEGG, PathDB, WIT Gene Expression Links SWISS-2DPAGE

Séquences biologiques La séquence est l élément central autour duquel les banques de données sont organisées Elles ont été compilées très tôt dans des banques de données 1965 : Margaret Dayhoff publie l Atlas of Protein Sequences qui contient 50 entrées 1978 : Dernière impression de l Atlas of Protein Sequences Après 1978 : disponibles sous forme électronique

Banques de séquences généralistes spécialisées Banques de données généralistes : correspondent à une collecte des données la plus exhaustive possible et offrent un ensemble hétérogène d informations Banque ou base de données spécialistes : correspondent à des données plus homogènes établies autour d une thématique et qui offrent une valeur ajoutée à partir d une technique particulière ou d un intérêt suscité par un groupe d individus

Qualité des séquences des banques généralistes Très riches Grand nombre de séquences accessibles Grande diversité des organismes représentés Informations accompagnant les séquences (annotation, expertise, bibliographie, liens) Peu/pas de contrôles sur la qualité des entrées Les auteurs sont responsables des entrées! => Nombreux Problèmes/Erreurs Qualité des informations non homogènes Variabilité des connaissances sur les séquences Erreurs dans les séquences (contaminations, séquençage, méthodologie) Biais d échantillonnage taxonomique, des types de séquences, forte redondance

Banques généralistes de séquences nucléotidiques EMBL (European Molecular Biology Laboratory) : banque européenne créée en 1980 et financée par l European Molecular Biology Organisation, diffusée par l EBI Genbank : créée en 1982 par la société IntelliGenetics et diffusée par le National Center for Biotechnology Information (NCBI) DDBJ : créée en 1986 et diffusée par le NIG (National Institute of Genetics) Ces trois banques échangent systématiquement leur contenu depuis 1987 et ont adopté un système de conventions communes «The DDBJ/EMBL/Genbank Feature Table Definition»

European Nucleotide Archive / European Molecular Biology Lab

Banques généralistes de séquences protéiques PIR-NBRF : créée en 1984 par la NBRF (National Biomedical Research Foundation). Elle est maintenant un ensemble de données issues du MIPS et de la banque japonaise JIPID (Japan International Protein Information Database) Swiss-Prot : créée en 1986 à l université de Genève et maintenue depuis 1987 dans le cadre d une collaboration entre cette université (via ExPASY, Expert Protein Analysis System) et l EBI. Celle-ci regroupe aussi des séquences annotées de la banque PIR-NRBF ainsi que des séquences codantes, traduites de l EMBL TrEMBL/Genpep : Elles contiennent les protéines obtenues in silico (déduites à partir de la séquence nucléique, par simple traduction du ou des exons la codant), isolée à partir de la cellule, ou par génie génétique

UniProt : Universal Protein Resource

Recherche d une séquence dans Swiss-Prot Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus?

Swiss-Prot : Champ General information

Swiss-Prot : Commentaires

Swiss-Prot : Ontonlogies

Swiss-Prot : Annotations

Swiss-Prot : Séquence

Swiss-Prot : Références bibliographiques

Swiss-Prot : Références croisées

Banques protéiques spécialisées Motifs Alignements Classification structurale Familles de protéines Interaction Enzymes Modifications protéiques post-traductionnelles Pathologies Gels bidimensionnels Bases protéiques sur l interaction et la thermodynamique des protéines

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus?

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? Recherche dans une banque de génomes complets

Ensembl : Base de données de génomes complets de vertébrés (et autres eucaryotes)

Localisation de la protéine P04118

Nombre de transcrits et de variants

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus? Quelle est sa distribution taxonomique?

Homologie ou similarité? Deux séquences sont dites homologues si elles possèdent un ancêtre commun L existence d un ancêtre commun est inférée (dans la majorité des cas) à partir de la similarité partagée par les séquences

ATTENTION: Homologie Similarité L homologie n est pas quantifiable On est pas à 50% ou à 75% homologue On est homologue ou on ne l est pas Raisonnement binaire La similarité est quantifiable On peut dire de deux séquences qu elles sont similaires à 50% ou 75%

Guy Perrière Séquences biologiques : Homologie ou similarité? Deux séquences sont dites homologues si elles possèdent un ancêtre commun L existence d un ancêtre commun est inférée à partir de la similarité Seuil pour les protéines :30 % d identité sur une longueur de 100 AA homologie entre les séquences

Guy Perrière Similarité sans homologie (1) La similarité n est pas toujours due à de l homologie Convergence ou simple hasard pour de courtes séquences (quelques résidus) Identities = 14/33 (42%), Positives = 22/33 (66%), Gaps = 3/33 (9%) Proteine ribosomale L37AE Query 30 EISQHAKYTCSFCGKTKMKRRAVGI--WHCGSC 60 [Bos taurus] EI+ H +YTC CGK+ +++R + + CGSC SprT family protein [Listeria monocytogenes] Sbjct 107 EITMH-EYTCKSCGKSFLRQRRFNVNRYRCGSC 138

Similarité sans homologie (2) Existence de régions de faible complexité (régions riches en quelques aa., cas de la fibroïne [GSGAGA] n ) : Présentes dans 40 % des protéines. Peuvent représenter jusqu à 15 % du total des résidus (Ala, Gly, Pro, Ser, Glu et Gln). >gi 8572061 gb AAF76983.1 AF226688_1 fibroin heavy chain Fib-H [Bombyx mori] MRVKTFVILCCALQYVAYTNANINDFDEDYFGSDVTVQSSNTTDEIIRDASGAVIEEQITTKKMQRKNKNHGILGKNEKMIKTFVITTDSDGNESIV EEDVLMKTLSDGTVAQSYVAADAGAYSQSGPYVSNSGYSTHQGYTSDFSTSAAVGAGAGAGAAAGSGAGAGAGYGAASGAGAGAGAGAGAGYGTGAG AGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAASGAGAGAGYGQGVGSGAASGAGAGAGA GSAAGSGAGAGAGTGAGAGYGAGAGAGAGAGYGAASGTGAGYGAGAGAGYGGASGAGAGAGAGAGAGAGAGYGTGAGYGAGAGAGAGAGAGAGYGAG AGAGYGAGYGVGAGAGYGAGYGAGAGSGAASGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGTGAGSGAGAGYGA GAGAGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGVGYGAGAGSGAASGAGAGSGAGAG SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFG PYVANGGYSRSDGYEYAWSSDFGTGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGVGVGYGAGYGAGAGAGYGAGAGSGAASGAGAG SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGSGAGAGSGAGAGVGYGAGAGVGYGAGAGSGAASGAGA 25 LIGNES AGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFGPYVAHGGYSGYEYAWSSESDFGTGSGAG AGSGAGAGSGAGAGSGAGAGSGAGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAAGAGSGAASGAGAGAGAGAGTGSSGFGP AGYGAGAGVGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGYGAGVGAGYGAGAGY GAGYGVGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGSGAASGAGAGAGAG SGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGSGAGAGAGAGAGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGAGAGTGSSGFG PYVANGGYSRREGYEYAWSSKSDFETGSGAASGAGAGAGSGAGAGSGAGAGSGAGAGSGAGAGGSVSYGAGRGYGQGAGSAASSVSSASSRSYDYSR RNVRKNCGIPRRQLVVKFRALPCVNC Guy Perrière

Guy Perrière Homologie sans similarité (1) Deux séquences peuvent être homologues sans que leur similarité soit forte : ACP_KLEAE ---MEMKIDALAGTLESSDVMVRIGPAAQPGIQLEIDSIVKQEFGAAIQQVVRETLAQLG ACP_ECOLI STIEERVKKIIGEQLGVKQEEVTDN--ASFVEDLGADSLDTVELVMALEEEFDTEIPDEE * : : * : * * :* **: * *::: : ::: ACP_KLEAE VKECDNVQLARVQAAALRWQQ ACP_ECOLI AEKITTVQAAIDYINGHQA-- :: ** * : : La similarité entre ces protéines est faible mais les données fonctionnelles et biochimiques montrent qu elles sont homologues.

Homologie sans similarité (2) Globine alpha humaine vs myoglobine humaine Identities = 39/148 (26%), Positives = 59/148 (39%), Gaps = 6/148 (4%) Query 1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF------DLSHGSA 54 M LS + V WGKV A +G E L R+F P T F F D S Sbjct 1 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60 Query 55 QVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHL 114 +K HG V AL + + L+ HA K ++ + +S C++ L + Sbjct 61 DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLQFISECIIQVLQSKH 120 Query 115 PAEFTPAVHASLDKFLASVSTVLTSKYR 142 P +F +++ K L + S Y+ Sbjct 121 PGDFGADAQGAMNKALELFRKDMASNYK 148

Homologie: Orthologie Définition «gènes présents dans des organismes différents, ayant évolué à partir d un même gène ancestral suite à des événements de spéciation» => La fonction est souvent conservée au cours de l évolution des orthologues

Homologie : Paralogie Définition «gènes issus d événements de duplication au sein d un génome» => La fonction d un ou des paralogues peut changer au cours de l évolution (spécialisation, nouvelle fonction)

Définition «gènes ayant été acquis par transfert horizontal» Homologie : Xénologie

temps Evolution d un gène au cours de l évolution Ancêtre Evolution spéciation Oiseaux Mammifères Evolution Poulet Homme @Daniel Gauteret

temps Apparition de nouveaux gènes par duplication Duplication Ancêtre Evolution Spéciation Oiseaux Mammifères Evolution Poulet Homme @Daniel Gauteret

Application?????? Poulet Homme @Daniel Gauteret

Guy Perrière BLAST : principe général Mot Séquence banque Séquence requête Longueur du mot = w Score T Séquence banque Séquence requête Extension du segment similaire HSP : High Scoring Pair Score T Score max. Extension du segment x Extension stoppée quand : - la fin d une des deux séquences est atteinte - score 0 - score score_max - x

Guy Perrière Exemple S L A A L L N K C K T P Q G Q R L V N Q W T x Liste de mots voisins P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N 12... (P, P) = 7 (Q, R) = 1 (G, G) = 6 Score seuil T = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310

Guy Perrière Versions de BLAST blastp : protéine vs. protéine. Séquence Banque blastn : utile pour le non-codant. Protéique blastp Protéique blastx : séquences codantes non identifiées. tblastn : homologues dans un génome non complètement annoté. Nucléique T T blastn tblastx T Nucléique

Guy Perrière Évaluation statistique Similarités détectées : Relations significatives. Similarités dues au hasard. Fonction de score : Mesure sous la forme : D une espérance mathématique (E-value). Valeur en bits. Basée sur une distribution calculée à partir séquences non homologues. Les scores dépendent de la taille de la banque.

Guy Perrière E-value, bits et similarité Soit E, l espérance mathématique d avoir une similarité au score S observé : E = Kmn e S Avec m et n les longueurs des deux séquences considérées, et K et deux paramètres dérivés de la distribution précédente. Le score en bits S' est donné par : S' = [ S log(k)] / log(2) La relation entre E et S' est donc donnée par : E = mn 2 S'

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus? Recherche par BLAST dans une banque de séquences protéiques (RefSEQ)

Recherche par Blast au NCBI

Choix des paramètres

Choix des paramètres avancés

Résultats du BLAST : Entête

Résultats du BLAST : Reformater les résultats

Résultats du BLAST : Domaines conservés

Résultats du BLAST : Vue graphique

Résultats du BLAST : Descriptions

Résultats du BLAST : Alignements locaux

Taxonomy report

Alignement et Phylogénie

Interpro: protein sequence analysis & classification

Interpro: objectifs

Interpro: version 46.0 Familles Domaines Repeats Sites

Interpro: consortium

Prot BD Interpro: construction Prot BD Prot BD

Interpro: contenu

Interpro: entrées

Interpro: informations annexes

Interpro: organisation hiérarchique des familles

Interpro: interrogation Protéine déjà incluse dans interpro => réponse rapide Protéine non incluse dans interpro => recherche de signatures avec interproscan

Interpro: exemple interrogation