Introduction à la bioinformatique

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Introduction aux bases de données: application en biologie

Base de données bibliographiques Pubmed-Medline

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

MABioVis. Bio-informatique et la

Bibliographie Introduction à la bioinformatique

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Extraction d information des bases de séquences biologiques avec R

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Big data et sciences du Vivant L'exemple du séquençage haut débit

Recherche et veille documentaire scientifique

CHAPITRE 3 LA SYNTHESE DES PROTEINES

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Perl Orienté Objet BioPerl There is more than one way to do it

Identification de nouveaux membres dans des familles d'interleukines

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Le ranking de Augure Influencers La méthodologie AIR en détails

Eco-système calcul et données

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Bases de données et outils bioinformatiques utiles en génétique

Introduction au Data-Mining

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Gènes Diffusion - EPIC 2010

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

CATALOGUE DES PRESTATIONS DE LA

Détection et prise en charge de la résistance aux antirétroviraux

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Formation L.M.D. en instrumentation biomédicale. Mise en œuvre dans une université scientifique et médicale : Claude Bernard Lyon I

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

Master 2. Mention : «Ecosciences, Microbiologie» Domaine : Sciences Technologies Santé Responsable : F. Menu

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Physiopathologie : de la Molécule à l'homme

Analyse des données de séquençage massif par des méthodes phylogénétiques

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

AA-SO5 KIDA/GSOV/VAMDC

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Big Data et Graphes : Quelques pistes de recherche

Ingénieur R&D en bio-informatique

La classification automatique de données quantitatives

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Compte-rendu de fin de projet

Séquence 2. L expression du patrimoine génétique. Sommaire

Evaluation du LIDAR et de solutions innovantes pour la chaîne d approvisionnement du bois : les résultats du projet européen FlexWood

Etudier l informatique

Notre métier : Vous accompagner dans votre Projet

Université de Haute Alsace. Domaine. Sciences Humaines et Sociales. MASTER Mention Éducation, Formation, Communication UHA, ULP, Nancy 2

Intégration de la dimension sémantique dans les réseaux sociaux

Big Data et Graphes : Quelques pistes de recherche

Bases de données des mutations

Supplément du BDK 24 : Aide à la recherche bibliographique

Génomique Comparative et intégrative

Possibilités offertes après la L2?

FORMATION DIPLÔMANTE MANAGER DE PROJET INDUSTRIEL* «Accompagner les techniciens à fort potentiel vers des fonctions managériales orientées projet.

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Programmation C. Apprendre à développer des programmes simples dans le langage C

GESTION D UNE BASE BIBLIOGRAPHIQUE

Introduction au Data-Mining

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Faculté des Sciences d ORSAY

TD de Biochimie 4 : Coloration.

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

un module de simulation des évolutions urbaines Présentation

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

: seul le dossier dossier sera cherché, tous les sousdomaines

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Cycle de vie, processus de gestion

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Rappel sur les bases de données

Format de l avis d efficience

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Recherche bibliographique

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

MENER UNE RECHERCHE D INFORMATION

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Métriques, classements et politique scientifique des Etablissements

DOSSIER DE CANDIDATURE SCIENCES TECHNOLOGIES SANTÉ Master 2 ème année Mention Biologie, Santé

Recherche bibliographique avec PubMed/MedLine

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Thierry DELZESCAUX. «biopicsel» group, URA CNRS-CEA 2210 Service MIRCen, I²BM, CEA Fontenay-aux-Roses, France.

PUBMED. Vous pouvez rentrer l adresse de ce support dans vos favoris :

Étude comparative sur les salaires et les échelles salariales des professeurs d université. Version finale. Présentée au

Vérifier la qualité de vos applications logicielle de manière continue

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

FORMATION DIPLÔMANTE MANAGER DE PROJET INDUSTRIEL * «Accompagner les techniciens à fort potentiel vers des fonctions managériales orientées projet»

Améliorer les performances du site par l'utilisation de techniques de Web Mining

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Transcription:

Introduction à la bioinformatique Céline Brochier-Armanet Université Claude Bernard, Lyon 1 Laboratoire de Biométrie et Biologie Evolutive (UMR 5558) celine.brochier-armanet@univ-lyon1.fr

Lectures recommandées Bioinformatique Cours et cas pratiques (Deléage & Gouy 2013) - Dunod

Qu est-ce que la Bioinformatique? Application des techniques de l information à la gestion et l analyse des données biologiques Discipline de la biologie faisant appel à d autres disciplines scientifiques (statistiques, mathématiques, physique informatique) Analyse des données Bases de données Développement méthodologique Expérimentation biologique Modèles/Méthodes Logiciels Hypothèses Modélisation Simulations Traitements bioinformatiques

Les deux grands volets de la bioinformatique Représentation, stockage, distribution des données format de données, schéma des bases de données, outils d interrogation, interfaces Analyse des données collectées: Utilisation de l information biologique à différents niveaux développement de méthodes prédictives permettant de comprendre le fonctionnement d un organisme à partir de l information contenue dans son génome => Recherche de fonction de gènes par comparaison de séquences, décomposition de structures 3D pour comprendre comment les protéines se replient, modélisation des interactions entre molécules

Recherche d informations Moteurs de recherches pour le web: Google, AltaVista, Lycos, HotBot, Northern Light, Dogpile Moteurs de recherche pour les bases de données publiques : entrez, SRS Utilisation de requêtes structurées pertinentes (mode booléen) combinaison de plusieurs termes au moyen d opérateurs logiques AND (et), OR (ou), NOT (sauf) Le séparateur espace peut être considéré comme AND ou OR selon les moteurs de recherches Utilisation de ( ) pour des requêtes plus complexes ex. (mot_clé1 AND (mot_clé2 OR mot_clé3)) NOT mot_clé4 Utilisation de ex. «structure protéique»

Systèmes d interrogation des bases de données publiques Chaque banque de séquences possède son propre système d interrogation: SRS, ENTREZ, ACNUC, DBGET Chaque système utilise une syntaxe particulière pour les requêtes Étiquettes Connecteurs logiques Caractères de substitution Consultez Les Notices Explicatives

NCBI : National Center for Biotechnology Information

Organisation du NCBI

ENTREZ : Recherche d information au NCBI

Permet d interroger les banques du NCBI (http://www.ncbi.nl m.nih.gov/) ENTREZ : Recherche générale

ENTREZ : Exemple d application Recherchez tous les articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon

ENTREZ: Choix de la base de données Permet d interroger les banques du NCBI (http://www.ncbi.nl m.nih.gov/)

ENTREZ: Saisie des mots clés Recherche des articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon => 0 résultat

ENTREZ: Saisie des mots clés Recherche des articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon => 0 résultat

ENTREZ: Saisie des mots clés Recherche des articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon => 0 résultat

ENTREZ: Saisie des mots clés Recherche des articles scientifiques traitant de potentiel électrostatique pour des molécules protéiques en ne ciblant que les références de deux auteurs: Barry Honig et Andrew McCammon => 0 résultat

Interprétation de la recherche

Une bonne recherche

Limitation de la recherche

Historique des recherches

European Bioinformatics Institute

SRS : Recherche d information

SRS : Recherche rapide

SRS : Choix des databases

SRS : Choix des databases

SRS : Saisie de la requête

SRS : Saisie de la requête

Pôle BioInformatique Lyonnais

Pôle BioInformatique Lyonnais

Banques/bases de données majeures en biologie Hors série annuel de la revue NAR (Nucleic Acid Research http://nar.oxfordjournals.org/) recense l actualité des banques/bases de données (naissance, mise à jours, etc.)

Banques/bases de données majeures en biologie Sujet Bibliographie Séquences nucléiques Banques de génomes Séquences protéiques Structures protéiques Modifications post-traductionnelles Information biochimique et biophysique Voies métaboliques Microarray 2D-page Source PubMed Genbank (NCBI), EMBL (EBI), refseq Entrez Génome (NCBI), TIGR Swiss-prot, Genpep, Trembl, PIR, refseq Protein Data Base (PDB) RESID ENZYME, BIND KEGG, PathDB, WIT Gene Expression Links SWISS-2DPAGE

Séquences biologiques La séquence est l élément central autour duquel les banques de données sont organisées Elles ont été compilées très tôt dans des banques de données 1965 : Margaret Dayhoff publie l Atlas of Protein Sequences qui contient 50 entrées 1978 : Dernière impression de l Atlas of Protein Sequences Après 1978 : disponibles sous forme électronique

Banques de séquences généralistes spécialisées Banques de données généralistes : correspondent à une collecte des données la plus exhaustive possible et offrent un ensemble hétérogène d informations Banque ou base de données spécialistes : correspondent à des données plus homogènes établies autour d une thématique et qui offrent une valeur ajoutée à partir d une technique particulière ou d un intérêt suscité par un groupe d individus

Qualité des séquences des banques généralistes Très riches Grand nombre de séquences accessibles Grande diversité des organismes représentés Informations accompagnant les séquences (annotation, expertise, bibliographie, liens) Peu/pas de contrôles sur la qualité des entrées Les auteurs sont responsables des entrées! => Nombreux Problèmes/Erreurs Qualité des informations non homogènes Variabilité des connaissances sur les séquences Erreurs dans les séquences (contaminations, séquençage, méthodologie) Biais d échantillonnage taxonomique, des types de séquences, forte redondance

Banques généralistes de séquences nucléotidiques EMBL (European Molecular Biology Laboratory) : banque européenne créée en 1980 et financée par l European Molecular Biology Organisation, diffusée par l EBI Genbank : créée en 1982 par la société IntelliGenetics et diffusée par le National Center for Biotechnology Information (NCBI) DDBJ : créée en 1986 et diffusée par le NIG (National Institute of Genetics) Ces trois banques échangent systématiquement leur contenu depuis 1987 et ont adopté un système de conventions communes «The DDBJ/EMBL/Genbank Feature Table Definition»

European Nucleotide Archive / European Molecular Biology Lab

Banques généralistes de séquences protéiques PIR-NBRF : créée en 1984 par la NBRF (National Biomedical Research Foundation). Elle est maintenant un ensemble de données issues du MIPS et de la banque japonaise JIPID (Japan International Protein Information Database) Swiss-Prot : créée en 1986 à l université de Genève et maintenue depuis 1987 dans le cadre d une collaboration entre cette université (via ExPASY, Expert Protein Analysis System) et l EBI. Celle-ci regroupe aussi des séquences annotées de la banque PIR-NRBF ainsi que des séquences codantes, traduites de l EMBL TrEMBL/Genpep : Elles contiennent les protéines obtenues in silico (déduites à partir de la séquence nucléique, par simple traduction du ou des exons la codant), isolée à partir de la cellule, ou par génie génétique

UniProt : Universal Protein Resource

Recherche d une séquence dans Swiss-Prot Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus?

Swiss-Prot : Champ General information

Swiss-Prot : Commentaires

Swiss-Prot : Ontonlogies

Swiss-Prot : Annotations

Swiss-Prot : Séquence

Swiss-Prot : Références bibliographiques

Swiss-Prot : Références croisées

Swiss-Prot : Références croisées

Banques protéiques spécialisées Motifs Alignements Classification structurale Familles de protéines Interaction Enzymes Modifications protéiques post-traductionnelles Pathologies Gels bidimensionnels Bases protéiques sur l interaction et la thermodynamique des protéines

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus?

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? Recherche dans une banque de génomes complets

Ensembl : Base de données de génomes complets de vertébrés (et autres eucaryotes)

Localisation de la protéine P04118

Nombre de transcrits et de variants

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus? Quelle est sa distribution taxonomique?

Homologie ou similarité? Deux séquences sont dites homologues si elles possèdent un ancêtre commun L existence d un ancêtre commun est inférée (dans la majorité des cas) à partir de la similarité partagée par les séquences

ATTENTION: Homologie Similarité L homologie n est pas quantifiable On est pas à 50% ou à 75% homologue On est homologue ou on ne l est pas Raisonnement binaire La similarité est quantifiable On peut dire de deux séquences qu elles sont similaires à 50% ou 75%

Guy Perrière Séquences biologiques : Homologie ou similarité? Deux séquences sont dites homologues si elles possèdent un ancêtre commun L existence d un ancêtre commun est inférée à partir de la similarité Seuil pour les protéines :30 % d identité sur une longueur de 100 AA homologie entre les séquences

Guy Perrière Similarité sans homologie (1) La similarité n est pas toujours due à de l homologie Convergence ou simple hasard pour de courtes séquences (quelques résidus) Identities = 14/33 (42%), Positives = 22/33 (66%), Gaps = 3/33 (9%) Proteine ribosomale L37AE Query 30 EISQHAKYTCSFCGKTKMKRRAVGI--WHCGSC 60 [Bos taurus] EI+ H +YTC CGK+ +++R + + CGSC SprT family protein [Listeria monocytogenes] Sbjct 107 EITMH-EYTCKSCGKSFLRQRRFNVNRYRCGSC 138

Similarité sans homologie (2) Existence de régions de faible complexité (régions riches en quelques aa., cas de la fibroïne [GSGAGA] n ) : Présentes dans 40 % des protéines. Peuvent représenter jusqu à 15 % du total des résidus (Ala, Gly, Pro, Ser, Glu et Gln). >gi 8572061 gb AAF76983.1 AF226688_1 fibroin heavy chain Fib-H [Bombyx mori] MRVKTFVILCCALQYVAYTNANINDFDEDYFGSDVTVQSSNTTDEIIRDASGAVIEEQITTKKMQRKNKNHGILGKNEKMIKTFVITTDSDGNESIV EEDVLMKTLSDGTVAQSYVAADAGAYSQSGPYVSNSGYSTHQGYTSDFSTSAAVGAGAGAGAAAGSGAGAGAGYGAASGAGAGAGAGAGAGYGTGAG AGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAASGAGAGAGYGQGVGSGAASGAGAGAGA GSAAGSGAGAGAGTGAGAGYGAGAGAGAGAGYGAASGTGAGYGAGAGAGYGGASGAGAGAGAGAGAGAGAGYGTGAGYGAGAGAGAGAGAGAGYGAG AGAGYGAGYGVGAGAGYGAGYGAGAGSGAASGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGTGAGSGAGAGYGA GAGAGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGVGYGAGAGSGAASGAGAGSGAGAG SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFG PYVANGGYSRSDGYEYAWSSDFGTGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGVGVGYGAGYGAGAGAGYGAGAGSGAASGAGAG SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGSGAGAGSGAGAGVGYGAGAGVGYGAGAGSGAASGAGA 25 LIGNES AGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFGPYVAHGGYSGYEYAWSSESDFGTGSGAG AGSGAGAGSGAGAGSGAGAGSGAGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAAGAGSGAASGAGAGAGAGAGTGSSGFGP AGYGAGAGVGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGYGAGVGAGYGAGAGY GAGYGVGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGSGAASGAGAGAGAG SGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGSGAGAGAGAGAGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGAGAGTGSSGFG PYVANGGYSRREGYEYAWSSKSDFETGSGAASGAGAGAGSGAGAGSGAGAGSGAGAGSGAGAGGSVSYGAGRGYGQGAGSAASSVSSASSRSYDYSR RNVRKNCGIPRRQLVVKFRALPCVNC Guy Perrière

Guy Perrière Homologie sans similarité (1) Deux séquences peuvent être homologues sans que leur similarité soit forte : ACP_KLEAE ---MEMKIDALAGTLESSDVMVRIGPAAQPGIQLEIDSIVKQEFGAAIQQVVRETLAQLG ACP_ECOLI STIEERVKKIIGEQLGVKQEEVTDN--ASFVEDLGADSLDTVELVMALEEEFDTEIPDEE * : : * : * * :* **: * *::: : ::: ACP_KLEAE VKECDNVQLARVQAAALRWQQ ACP_ECOLI AEKITTVQAAIDYINGHQA-- :: ** * : : La similarité entre ces protéines est faible mais les données fonctionnelles et biochimiques montrent qu elles sont homologues.

Homologie sans similarité (2) Globine alpha humaine vs myoglobine humaine Identities = 39/148 (26%), Positives = 59/148 (39%), Gaps = 6/148 (4%) Query 1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF------DLSHGSA 54 M LS + V WGKV A +G E L R+F P T F F D S Sbjct 1 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60 Query 55 QVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHL 114 +K HG V AL + + L+ HA K ++ + +S C++ L + Sbjct 61 DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLQFISECIIQVLQSKH 120 Query 115 PAEFTPAVHASLDKFLASVSTVLTSKYR 142 P +F +++ K L + S Y+ Sbjct 121 PGDFGADAQGAMNKALELFRKDMASNYK 148

Homologie: Orthologie Définition «gènes présents dans des organismes différents, ayant évolué à partir d un même gène ancestral suite à des événements de spéciation» => La fonction est souvent conservée au cours de l évolution des orthologues

Homologie : Paralogie Définition «gènes issus d événements de duplication au sein d un génome» => La fonction d un ou des paralogues peut changer au cours de l évolution (spécialisation, nouvelle fonction)

Définition «gènes ayant été acquis par transfert horizontal» Homologie : Xénologie

temps Evolution d un gène au cours de l évolution Ancêtre Evolution spéciation Oiseaux Mammifères Evolution Poulet Homme @Daniel Gauteret

temps Apparition de nouveaux gènes par duplication Duplication Ancêtre Evolution Spéciation Oiseaux Mammifères Evolution Poulet Homme @Daniel Gauteret

Application?????? Poulet Homme @Daniel Gauteret

Guy Perrière BLAST : principe général Mot Séquence banque Séquence requête Longueur du mot = w Score T Séquence banque Séquence requête Extension du segment similaire HSP : High Scoring Pair Score T Score max. Extension du segment x Extension stoppée quand : - la fin d une des deux séquences est atteinte - score 0 - score score_max - x

Guy Perrière Exemple S L A A L L N K C K T P Q G Q R L V N Q W T x Liste de mots voisins P Q G 18 P E G 15 P R G 14 P K G 14 P N G 13 P D G 13 P H G 13 P M G 13 P S G 13 P Q A 12 P Q N 12... (P, P) = 7 (Q, R) = 1 (G, G) = 6 Score seuil T = 13 Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345 + L A + + L + T P G R + + + W Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310

Guy Perrière Versions de BLAST blastp : protéine vs. protéine. Séquence Banque blastn : utile pour le non-codant. Protéique blastp Protéique blastx : séquences codantes non identifiées. tblastn : homologues dans un génome non complètement annoté. Nucléique T T blastn tblastx T Nucléique

Guy Perrière Évaluation statistique Similarités détectées : Relations significatives. Similarités dues au hasard. Fonction de score : Mesure sous la forme : D une espérance mathématique (E-value). Valeur en bits. Basée sur une distribution calculée à partir séquences non homologues. Les scores dépendent de la taille de la banque.

Guy Perrière E-value, bits et similarité Soit E, l espérance mathématique d avoir une similarité au score S observé : E = Kmn e S Avec m et n les longueurs des deux séquences considérées, et K et deux paramètres dérivés de la distribution précédente. Le score en bits S' est donné par : S' = [ S log(k)] / log(2) La relation entre E et S' est donc donnée par : E = mn 2 S'

Informations relatives à séquence P04118 Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot De quel organisme provient-elle? Quelle est sa taille? Quand a-t-elle été déposée dans la banque de séquences? Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique? Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus? A-t-elle des homologues connus? Recherche par BLAST dans une banque de séquences protéiques (RefSEQ)

Recherche par Blast au NCBI

Choix des paramètres

Choix des paramètres

Choix des paramètres avancés

Résultats du BLAST : Entête

Résultats du BLAST : Reformater les résultats

Résultats du BLAST : Domaines conservés

Résultats du BLAST : Vue graphique

Résultats du BLAST : Descriptions

Résultats du BLAST : Alignements locaux

Résultats du BLAST : Alignements locaux

Taxonomy report

Alignement et Phylogénie

Interpro: protein sequence analysis & classification

Interpro: objectifs

Interpro: version 46.0 Familles Domaines Repeats Sites

Interpro: consortium

Prot BD Interpro: construction Prot BD Prot BD

Interpro: contenu

Interpro: entrées

Interpro: informations annexes

Interpro: organisation hiérarchique des familles

Interpro: interrogation Protéine déjà incluse dans interpro => réponse rapide Protéine non incluse dans interpro => recherche de signatures avec interproscan

Interpro: exemple interrogation

Interpro: exemple interrogation

Interpro: exemple interrogation

Interpro: exemple interrogation

Interpro: exemple interrogation

Interpro: exemple interrogation