Introduction à la bioinformatique Céline Brochier-Armanet Université Claude Bernard, Lyon 1 Laboratoire de Biométrie et Biologie Evolutive (UMR 5558) celine.brochier-armanet@univ-lyon1.fr
Lectures recommandées Bioinformatique Cours et cas pratiques (Deléage & Gouy 2013) - Dunod
Qu est-ce que la Bioinformatique? Application des techniques de l information à la gestion et l analyse des données biologiques Discipline de la biologie faisant appel à d autres disciplines scientifiques (statistiques, mathématiques, physique informatique) Analyse des données Bases de données Développement méthodologique Expérimentation biologique Modèles/Méthodes Logiciels Hypothèses Modélisation Simulations Traitements bioinformatiques
Les deux grands volets de la bioinformatique Représentation, stockage, distribution des données format de données, schéma des bases de données, outils d interrogation, interfaces Analyse des données collectées: Utilisation de l information biologique à différents niveaux développement de méthodes prédictives permettant de comprendre le fonctionnement d un organisme à partir de l information contenue dans son génome => Recherche de fonction de gènes par comparaison de séquences, décomposition de structures 3D pour comprendre comment les protéines se replient, modélisation des interactions entre molécules
Recherche d informations Moteurs de recherches pour le web: Google, AltaVista, Lycos, HotBot, Northern Light, Dogpile Moteurs de recherche pour les bases de données publiques : entrez, SRS Utilisation de requêtes structurées pertinentes (mode booléen) combinaison de plusieurs termes au moyen d opérateurs logiques AND (et), OR (ou), NOT (sauf) Le séparateur espace peut être considéré comme AND ou OR selon les moteurs de recherches Utilisation de ( ) pour des requêtes plus complexes ex. (mot_clé1 AND (mot_clé2 OR mot_clé3)) NOT mot_clé4 Utilisation de ex. «structure protéique»
Systèmes d interrogation des bases de données publiques Chaque banque de séquences possède son propre système d interrogation: SRS, ENTREZ, ACNUC, DBGET Chaque système utilise une syntaxe particulière pour les requêtes Étiquettes Connecteurs logiques Caractères de substitution Consultez Les Notices Explicatives
NCBI : National Center for Biotechnology Information
Organisation du NCBI
ENTREZ : Recherche d information au NCBI
Permet d interroger les banques du NCBI (http://www.ncbi.nl m.nih.gov/) ENTREZ : Recherche générale
ENTREZ : Exemple d application Recherchez tous les articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon
ENTREZ: Choix de la base de données Permet d interroger les banques du NCBI (http://www.ncbi.nl m.nih.gov/)
ENTREZ: Saisie des mots clés Recherche des articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon => 0 résultat
ENTREZ: Saisie des mots clés Recherche des articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon => 0 résultat
ENTREZ: Saisie des mots clés Recherche des articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon => 0 résultat
ENTREZ: Saisie des mots clés Recherche des articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon => 0 résultat
Interprétation de la recherche
Une bonne recherche
Limitation de la recherche
Historique des recherches
European Bioinformatics Institute
SRS : Recherche d information
SRS : Recherche rapide
SRS : Choix des databases
SRS : Choix des databases
SRS : Saisie de la requête
SRS : Saisie de la requête
Pôle BioInformatique Lyonnais
Pôle BioInformatique Lyonnais
Banques/bases de données majeures en biologie Hors série annuel de la revue NAR (Nucleic Acid Research http://nar.oxfordjournals.org/) recense l actualité des banques/bases de données (naissance, mise à jours, etc.)
Banques/bases de données majeures en biologie Sujet Bibliographie Séquences nucléiques Banques de génomes Séquences protéiques Structures protéiques Modifications post-traductionnelles Information biochimique et biophysique Voies métaboliques Microarray 2D-page Source PubMed Genbank (NCBI), EMBL (EBI), refseq Entrez Génome (NCBI), TIGR Swiss-prot, Genpep, Trembl, PIR, refseq Protein Data Base (PDB) RESID ENZYME, BIND KEGG, PathDB, WIT Gene Expression Links SWISS-2DPAGE
Séquences biologiques La séquence est l élément central autour duquel les banques de données sont organisées Elles ont été compilées très tôt dans des banques de données 1965 : Margaret Dayhoff publie l Atlas of Protein Sequences qui contient 50 entrées 1978 : Dernière impression de l Atlas of Protein Sequences Après 1978 : disponibles sous forme électronique
Banques de séquences généralistes spécialisées Banques de données généralistes : correspondent à une collecte des données la plus exhaustive possible et offrent un ensemble hétérogène d informations Banque ou base de données spécialistes : correspondent à des données plus homogènes établies autour d une thématique et qui offrent une valeur ajoutée à partir d une technique particulière ou d un intérêt suscité par un groupe d individus
Qualité des séquences des banques généralistes Très riches Grand nombre de séquences accessibles Grande diversité des organismes représentés Informations accompagnant les séquences (annotation, expertise, bibliographie, liens) Peu/pas de contrôles sur la qualité des entrées Les auteurs sont responsables des entrées! => Nombreux Problèmes/Erreurs Qualité des informations non homogènes Variabilité des connaissances sur les séquences Erreurs dans les séquences (contaminations, séquençage, méthodologie) Biais d échantillonnage taxonomique, des types de séquences, forte redondance
Banques généralistes de séquences nucléotidiques EMBL (European Molecular Biology Laboratory) : banque européenne créée en 1980 et financée par l European Molecular Biology Organisation, diffusée par l EBI Genbank : créée en 1982 par la société IntelliGenetics et diffusée par le National Center for Biotechnology Information (NCBI) DDBJ : créée en 1986 et diffusée par le NIG (National Institute of Genetics) Ces trois banques échangent systématiquement leur contenu depuis 1987 et ont adopté un système de conventions communes «The DDBJ/EMBL/Genbank Feature Table Definition»
European Nucleotide Archive / European Molecular Biology Lab
Banques généralistes de séquences protéiques PIR-NBRF : créée en 1984 par la NBRF (National Biomedical Research Foundation). Elle est maintenant un ensemble de données issues du MIPS et de la banque japonaise JIPID (Japan International Protein Information Database) Swiss-Prot : créée en 1986 à l université de Genève et maintenue depuis 1987 dans le cadre d une collaboration entre cette université (via ExPASY, Expert Protein Analysis System) et l EBI. Celle-ci regroupe aussi des séquences annotées de la banque PIR-NRBF ainsi que des séquences codantes, traduites de l EMBL TrEMBL/Genpep : Elles contiennent les protéines obtenues in silico (déduites à partir de la séquence nucléique, par simple traduction du ou des exons la codant), isolée à partir de la cellule, ou par génie génétique
UniProt : Universal Protein Resource
Recherche d une séquence dans Swiss-Prot Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus?
Swiss-Prot : Champ General information
Swiss-Prot : Commentaires
Swiss-Prot : Ontonlogies
Swiss-Prot : Annotations
Swiss-Prot : Séquence
Swiss-Prot : Références bibliographiques
Swiss-Prot : Références croisées
Swiss-Prot : Références croisées
Banques protéiques spécialisées Motifs Alignements Classification structurale Familles de protéines Interaction Enzymes Modifications protéiques post-traductionnelles Pathologies Gels bidimensionnels Bases protéiques sur l interaction et la thermodynamique des protéines
Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus?
Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? Recherche dans une banque de génomes complets
Ensembl : Base de données de génomes complets de vertébrés (et autres eucaryotes)
Localisation de la protéine P04118
Nombre de transcrits et de variants
Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus? Quelle est sa distribution taxonomique?
Homologie ou similarité? Deux séquences sont dites homologues si elles possèdent un ancêtre commun L existence d un ancêtre commun est inférée (dans la majorité des cas) à partir de la similarité partagée par les séquences
ATTENTION: Homologie Similarité L homologie n est pas quantifiable On est pas à 50% ou à 75% homologue On est homologue ou on ne l est pas Raisonnement binaire La similarité est quantifiable On peut dire de deux séquences qu elles sont similaires à 50% ou 75%
Guy Perrière Séquences biologiques : Homologie ou similarité? Deux séquences sont dites homologues si elles possèdent un ancêtre commun L existence d un ancêtre commun est inférée à partir de la similarité Seuil pour les protéines :30 % d identité sur une longueur de 100 AA homologie entre les séquences
Guy Perrière Similarité sans homologie (1) La similarité n est pas toujours due à de l homologie Convergence ou simple hasard pour de courtes séquences (quelques résidus) Identities = 14/33 (42%), Positives = 22/33 (66%), Gaps = 3/33 (9%) Proteine ribosomale L37AE Query 30 EISQHAKYTCSFCGKTKMKRRAVGI--WHCGSC 60 [Bos taurus] EI+ H +YTC CGK+ +++R + + CGSC SprT family protein [Listeria monocytogenes] Sbjct 107 EITMH-EYTCKSCGKSFLRQRRFNVNRYRCGSC 138
Similarité sans homologie (2) Existence de régions de faible complexité (régions riches en quelques aa., cas de la fibroïne [GSGAGA] n ) : Présentes dans 40 % des protéines. Peuvent représenter jusqu à 15 % du total des résidus (Ala, Gly, Pro, Ser, Glu et Gln). >gi 8572061 gb AAF76983.1 AF226688_1 fibroin heavy chain Fib-H [Bombyx mori] MRVKTFVILCCALQYVAYTNANINDFDEDYFGSDVTVQSSNTTDEIIRDASGAVIEEQITTKKMQRKNKNHGILGKNEKMIKTFVITTDSDGNESIV EEDVLMKTLSDGTVAQSYVAADAGAYSQSGPYVSNSGYSTHQGYTSDFSTSAAVGAGAGAGAAAGSGAGAGAGYGAASGAGAGAGAGAGAGYGTGAG AGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAASGAGAGAGYGQGVGSGAASGAGAGAGA GSAAGSGAGAGAGTGAGAGYGAGAGAGAGAGYGAASGTGAGYGAGAGAGYGGASGAGAGAGAGAGAGAGAGYGTGAGYGAGAGAGAGAGAGAGYGAG AGAGYGAGYGVGAGAGYGAGYGAGAGSGAASGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGTGAGSGAGAGYGA GAGAGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGVGYGAGAGSGAASGAGAGSGAGAG SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFG PYVANGGYSRSDGYEYAWSSDFGTGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGVGVGYGAGYGAGAGAGYGAGAGSGAASGAGAG SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGSGAGAGSGAGAGVGYGAGAGVGYGAGAGSGAASGAGA 25 LIGNES AGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFGPYVAHGGYSGYEYAWSSESDFGTGSGAG AGSGAGAGSGAGAGSGAGAGSGAGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAAGAGSGAASGAGAGAGAGAGTGSSGFGP AGYGAGAGVGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGYGAGVGAGYGAGAGY GAGYGVGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGSGAASGAGAGAGAG SGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGSGAGAGAGAGAGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGAGAGTGSSGFG PYVANGGYSRREGYEYAWSSKSDFETGSGAASGAGAGAGSGAGAGSGAGAGSGAGAGSGAGAGGSVSYGAGRGYGQGAGSAASSVSSASSRSYDYSR RNVRKNCGIPRRQLVVKFRALPCVNC Guy Perrière
Guy Perrière Homologie sans similarité (1) Deux séquences peuvent être homologues sans que leur similarité soit forte : ACP_KLEAE ---MEMKIDALAGTLESSDVMVRIGPAAQPGIQLEIDSIVKQEFGAAIQQVVRETLAQLG ACP_ECOLI STIEERVKKIIGEQLGVKQEEVTDN--ASFVEDLGADSLDTVELVMALEEEFDTEIPDEE * : : * : * * :* **: * *::: : ::: ACP_KLEAE VKECDNVQLARVQAAALRWQQ ACP_ECOLI AEKITTVQAAIDYINGHQA-- :: ** * : : La similarité entre ces protéines est faible mais les données fonctionnelles et biochimiques montrent qu elles sont homologues.
Homologie sans similarité (2) Globine alpha humaine vs myoglobine humaine Identities = 39/148 (26%), Positives = 59/148 (39%), Gaps = 6/148 (4%) Query 1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF------DLSHGSA 54 M LS + V WGKV A +G E L R+F P T F F D S Sbjct 1 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60 Query 55 QVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHL 114 +K HG V AL + + L+ HA K ++ + +S C++ L + Sbjct 61 DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLQFISECIIQVLQSKH 120 Query 115 PAEFTPAVHASLDKFLASVSTVLTSKYR 142 P +F +++ K L + S Y+ Sbjct 121 PGDFGADAQGAMNKALELFRKDMASNYK 148
Homologie: Orthologie Définition «gènes présents dans des organismes différents, ayant évolué à partir d un même gène ancestral suite à des événements de spéciation» => La fonction est souvent conservée au cours de l évolution des orthologues
Homologie : Paralogie Définition «gènes issus d événements de duplication au sein d un génome» => La fonction d un ou des paralogues peut changer au cours de l évolution (spécialisation, nouvelle fonction)
Définition «gènes ayant été acquis par transfert horizontal» Homologie : Xénologie
temps Evolution d un gène au cours de l évolution Ancêtre Evolution spéciation Oiseaux Mammifères Evolution Poulet Homme @Daniel Gauteret
temps Apparition de nouveaux gènes par duplication Duplication Ancêtre Evolution Spéciation Oiseaux Mammifères Evolution Poulet Homme @Daniel Gauteret
Application?????? Poulet Homme @Daniel Gauteret
Guy Perrière BLAST : principe général Mot Séquence banque Séquence requête Longueur du mot = w Score T Séquence banque Séquence requête Extension du segment similaire HSP : High Scoring Pair Score T Score max. Extension du segment x Extension stoppée quand : - la fin d une des deux séquences est atteinte - score 0 - score score_max - x
Guy Perrière Exemple S L A A L L N K C K T P Q G Q R L V N Q W T x Liste de mots voisins P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N 12... (P, P) = 7 (Q, R) = 1 (G, G) = 6 Score seuil T = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310
Guy Perrière Versions de BLAST blastp : protéine vs. protéine. Séquence Banque blastn : utile pour le non-codant. Protéique blastp Protéique blastx : séquences codantes non identifiées. tblastn : homologues dans un génome non complètement annoté. Nucléique T T blastn tblastx T Nucléique
Guy Perrière Évaluation statistique Similarités détectées : Relations significatives. Similarités dues au hasard. Fonction de score : Mesure sous la forme : D une espérance mathématique (E-value). Valeur en bits. Basée sur une distribution calculée à partir séquences non homologues. Les scores dépendent de la taille de la banque.
Guy Perrière E-value, bits et similarité Soit E, l espérance mathématique d avoir une similarité au score S observé : E = Kmn e S Avec m et n les longueurs des deux séquences considérées, et K et deux paramètres dérivés de la distribution précédente. Le score en bits S' est donné par : S' = [ S log(k)] / log(2) La relation entre E et S' est donc donnée par : E = mn 2 S'
Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus? Recherche par BLAST dans une banque de séquences protéiques (RefSEQ)
Recherche par Blast au NCBI
Choix des paramètres
Choix des paramètres
Choix des paramètres avancés
Résultats du BLAST : Entête
Résultats du BLAST : Reformater les résultats
Résultats du BLAST : Domaines conservés
Résultats du BLAST : Vue graphique
Résultats du BLAST : Descriptions
Résultats du BLAST : Alignements locaux
Résultats du BLAST : Alignements locaux
Taxonomy report
Alignement et Phylogénie
Interpro: protein sequence analysis & classification
Interpro: objectifs
Interpro: version 46.0 Familles Domaines Repeats Sites
Interpro: consortium
Prot BD Interpro: construction Prot BD Prot BD
Interpro: contenu
Interpro: entrées
Interpro: informations annexes
Interpro: organisation hiérarchique des familles
Interpro: interrogation Protéine déjà incluse dans interpro => réponse rapide Protéine non incluse dans interpro => recherche de signatures avec interproscan
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation
Interpro: exemple interrogation