Examen de bioinformatique Février 2009

Documents pareils
DOCUMENTATION - FRANCAIS... 2

Application Form/ Formulaire de demande

Instructions Mozilla Thunderbird Page 1

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

RAPID Prenez le contrôle sur vos données

Gestion des prestations Volontaire

Bibliographie Introduction à la bioinformatique

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

Exemple PLS avec SAS

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

I>~I.J 4j1.bJ1UlJ ~..;W:i 1U

Face Recognition Performance: Man vs. Machine

Contents Windows

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

France SMS+ MT Premium Description

Paxton. ins Net2 desktop reader USB

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

MANUEL MARKETING ET SURVIE PDF

CEST POUR MIEUX PLACER MES PDF

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

DOCUMENTATION - FRANCAIS... 2

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

Le No.1 de l économie d énergie pour patinoires.

Guide d'installation rapide TFM-560X YO.13

MASSEY COLLEGE & UNIVERSITY OF TORONTO

Photoactivatable Probes for Protein Labeling

Practice Direction. Class Proceedings

Once the installation is complete, you can delete the temporary Zip files..

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation

Improving the breakdown of the Central Credit Register data by category of enterprises

How to Login to Career Page

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Bienvenue. #TwitterMobile

CETTE FOIS CEST DIFFERENT PDF

Nouveautés printemps 2013

Frequently Asked Questions

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

BNP Paribas Personal Finance

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Bourses d excellence pour les masters orientés vers la recherche

If you understand the roles nouns (and their accompanying baggage) play in a sentence...

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

Dans une agence de location immobilière...

Master Développement Durable et Organisations Master s degree in Sustainable Development and Organizations Dossier de candidature Application Form

Lavatory Faucet. Instruction Manual. Questions?

THE SUBJUNCTIVE MOOD. Twenty-nineth lesson Vingt-neuvième leçon

2013 IIHF WORLD WOMEN S HOCKEY CHAMPIONSHIP

Connaître la version de SharePoint installée

SERVEUR DÉDIÉ DOCUMENTATION

Introduction aux bases de données: application en biologie

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Bienvenue au séminaire HP Service Anywhere Mardi 11 février 2014

Forthcoming Database

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

EN UNE PAGE PLAN STRATÉGIQUE

WEB page builder and server for SCADA applications usable from a WEB navigator

ANGULAR JS AVEC GDE GOOGLE

Institut français des sciences et technologies des transports, de l aménagement

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

UML : Unified Modeling Language

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

RETHINKING JACQUES ELLUL AND THE TECHNOLOGICAL SOCIETY IN THE 21ST CENTURY REPENSER JACQUES ELLUL ET LA SOCIETE TECHNICIENNE AU 21EME SIECLE

Stakeholder Feedback Form January 2013 Recirculation

Compléter le formulaire «Demande de participation» et l envoyer aux bureaux de SGC* à l adresse suivante :

PARIS ROISSY CHARLES DE GAULLE

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Editing and managing Systems engineering processes at Snecma

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

Archived Content. Contenu archivé

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

L ABC de l acquisition de petites entreprises

Provincial Mathematics Assessment at Grade 3 French Immersion. Sample Assessment

Contrôle d'accès Access control. Notice technique / Technical Manual

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

THE FRENCH EXPERIENCE 1

1.The pronouns me, te, nous, and vous are object pronouns.

La Routine Quotidienne. Le docteur se lave les mains

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Module Title: French 4

OpenPaaS Le réseau social d'entreprise

Invitation / CTI. CeBIT «SWISS Pavilion» Research & Innovation Applied Research, Basic Research, Emerging Technologies, Start-ups, Spin-offs

Transcription:

Examen de bioinformatique Février 2009 Durée : 2h (ou 2h30) - Documents interdits Première partie (4 points) 1) La séquence ci-dessous est-elle au format fasta (justifiez votre réponse)? 1 pt Is the sequence below in fasta format (justify your answer)? >tr A0A098 A0A098_CHLRE MASMAAELRPSDGGSSLHMLDSLLMMGLSSGGGVGGGGSSQSQILDSAGAAELAALLLPQ HSNDPLHLMSTGDAALGLAGPMAAAEHHQHHPHHQHHSVPATAGFPSQTPPPPLFSNATA GAAPATRVRAAGSCGSGGVAGGTTSHSSEDGVFHSADPHHHHQQHLQQPQPQQQQ 2) Quel problème rencontrera-t-on avec cette séquence lors d une recherche de similarité? 1.5 pt Which problem will be encountered with this sequence in a similarity search? 3) Définissez la banque GO. Define the GO database. 1.5 pt Deuxième partie (7.5 points) Un alignement multiple de séquences eucaryotes est présenté page 2. A multiple alignment of eucaryotic sequences is shown page 2. 1) Quels groupes pouvez-vous distinguer dans cet alignement? 2 pt Donnez 2 résidus discriminants pour chaque groupe. Which group can you distinguish in this alignment? Give 2 discriminative residues for each group. 2) Donnez une erreur de séquence probable dans cet alignement. 1.5 pt Give a probable sequence error in this alignment. 3) Quelle est la relation d homologie entre zn143_human et znf76_human? zn143_human et q8ci27_mouse? zn143_human et znf76_mouse? 1.5 pt Give the homology relation between zn143_human and znf76_human? zn143_human and q8ci27_mouse? zn143_human and znf76_mouse? 4) Un arbre a été construit à partir de cet alignement selon la méthode du neigbor-joining. 2.5pt Dans cet arbre (page 3), 3 identifiants de séquences ont été remplacés par x, y et z. A tree has been constructed from this alignment using the neighbor-joining method. In this tree (page 3), 3 sequence identifiers have been replaced par x, y, and z. a) Est-ce que cet arbre est en accord avec votre analyse de l alignement? Justifiez votre réponse. Is this tree in agreement with your alignment analysis? Justify your answer. b) Selon vous, à quelles séquences correspondent respectivement X, Y et Z? According to you, which sequences correspond respectively to X, Y and Z? 1

ZN143_HUMAN : A6QQW0_BOVIN : Q8CI27_MOUSE : Q6VQB0_FUGRU : A0AUQ7_DANRE : Q4S173_TETNG : Q6GPP5_XENLA : ZNF76_MOUSE : ZNF76_HUMAN : * 20 * 40 * 60 * 80 * 100 * MEGVSLQAVTLADGSTAYIQHNSK----DAKLIDGQVIQLEDGSAAYVQHVPIPKSTGDSLRLEDGQAVQLEDGTTAFIHHTSKDSYDQSALQAVQLEDGTTAYIHHAVQ MEGVSLQAVTLADGSTAYIQHNS-----------------KDGSAAYVQHVPIPKTTGDSLRLEDGQAVQLED------------SYDQSALQAVQLEDGTTAYIHHAVQ MEGVSLQAVTLADGSTAYIQHNSK----DGRLIDGQVIQLEDGSAAYVQHVPIPKS----------------------------NSYDQSSLQAVQLEDGTTAYIHHAVQ MDTVSLQAVTLADGSTAYIQHDSKASFSDGQIMDGQVIQLEDGSAAYVQHVSMPKAGGDSLQLEDGQTVQLEDGTTAYIHTP-KETYDQSGLQEVQLEDGSTAYIQHTVH MDTVSLQAVTLVDGSTAYIQHSPKVSLTENKIMEGQVIQLEDGSAAYVQHLPMSKTGGEGLRLEDGQAVQLEDGTTAYTHAP-KETYDQGGLQAVQLEDGTTAYIQH--- MDTVSLQAVTLADGSTAYIQHDSKASFPDGQIMDGQVIQLEDGSAAYVQHVSMPKAGGESLQLEDGQTVQLEDGTTAYIHAP-KETYDQSGLQEVQLEDGSTAYIQHTVH MESMSLQAVTLADGSTAYIQHNTK----DGKLMEGQVIQLEDGSAAYVQHIP----KGDDLSLEDGQAVQLEDGTTAYIHHSSKESYDQSSVQAVQLEDGTTAYIHHAVQ MESLGLQTVRLSDGTTAYVQQAVK----GEKLLEGQVIQLEDGTTAYIHQVTI---QKESFSFEDGQPVQLEDGSMAYIHHTPKEGCDPSALEAVQLEDGSTAYIHHPVP MESLGLHTVTLSDGTTAYVQQAVK----GEKLLEGQVIQLEDGTTAYIHQVTV---QKEALSFEDGQPVQLEDGSMAYIHRTPREGYDPSTLEAVQLEDGSTAYIHHPVA ZN143_HUMAN : A6QQW0_BOVIN : Q8CI27_MOUSE : Q6VQB0_FUGRU : A0AUQ7_DANRE : Q4S173_TETNG : Q6GPP5_XENLA : ZNF76_MOUSE : ZNF76_HUMAN : 120 * 140 * 160 * 180 * 200 VPQSDTILAIQADGTVAGLHT-GDATIDPDTISALEQYAAKVSIDGSESVAGTGMIGENEQEKKMQIVLQGHATRVTAKSQQSGEKAFRCEYDGCG-- VPQSDTILAIQADGTVAGLHT-GDAAIDPDTISALEQYAAKVSIDGSEGVTGSGIIGENEQEKKMQIVLQGHATRVTAKSQQSGEKAFRCGYDGCG-- VPQSDTILAIQADGTVAGLHT-GDATIDPDTISALEQYAAKVSIDGSDGVTSTGMIGENEQEKKMQIVLQGHATRVTPKSQQSGEKAFRCKYDGCG-- MPQSNTILAIQADGTIADLQA-DATGLNPETISVLEQYATKVESIENQLG--SYSRAEADNGVHMRIVLQDQDNRQS-RSTNVGEKSFRCEYEGCG-- MPQSNTILAIQADGTVADLQT-EGT-IDAETISVLEQYSTKMEATECGTG--LIGRGDSD-GVHMQIVLQGQDCRSP-RIQHVGEKAFRCEHEGCG-- MPQSNTILAIQADGTIADLQA-DAAGLNPETISVLEQYATKVPLVSGLRLRLLWAGGEYRKPVGLLQPAGGGERRPH-ADCRSRQQAVAEHQCGRE VPQSDTILAIQADGTVAGLHT-GEASIDPDTITALEQYAAKVSIEGGEGAGSNALITESESEKKMQIVLS-HGSRVPVKVPQTNEKAFRCDYEGCG-- VPSDSAILAVQTEAGLEDLAAEDEEGFGTDTVVALEQYASKVLHDS--------------------------PASHNGKGQQVGDRAFRCGYKGCG-- VPSESTILAVQTEVGLEDLAAEDDEGFSADAVVALEQYASKVLHDS--------------------------QIPRNGKGQQVGDRAFRCGYKGCG-- 2

Troisième partie (8.5 points) Une entrée de la banque EMBL vous est présentée partiellement page 4. An entry from the EMBL database is partially represented page 4. 1) Selon vous, à quelle classe et à quelle division appartient cet enregistrement? 1 pt According to you, which class and which division does this entry belong to? 2) Que signifie la ligne ci-dessous? What does the line below mean? 1 pt gene <1..>3374 3) Quelle est la nature de l exon 1? What is the nature of exon 1? 1 pt 4) On désire récupérer les régions codantes des gènes humains annotés HLA-A avec SRS. 2.5 pt Précisez la banque choisie et indiquez comment procéder en utilisant le formulaire de requête standard (cf ci-dessous). We want to get the coding regions of the human genes annotated as HLA-A using SRS. Precise the database and the query using the standard query form (see below). Combine search with : Champs (fields) Mots-clés (Keywords) Retrieve entries of type : AND ENTRY OR REFERENCES BUTNOT FEATURES COUNTERS 3

... DE Homo sapiens MHC class I antigen (HLA-A) gene, HLA-A*01 variant allele, DE alternatively spliced.... XX FH Key Location/Qualifiers source 1..3374 /db_xref="taxon:9606" /organism="homo sapiens" gene <1..>3374 /gene="hla-a" /allele="hla-a*01 variant" mrna join(<1..373,504..773,1015..1266,1870..2145,2248..2364, 2807..2839,2982..3029,3199..>3374) exon <1..373 /number=1 5'UTR <1..300 /allele="hla-a*01 variant" CDS join(301..373,504..773,1015..1266,1870..2145,2248..2364, 2807..2839,2982..3029,3199..3203) /gene="hla-a" /product="mhc class I antigen" /protein_id="aaw30165.1" /translation="mavmaprtlllllsgalaltqtwagshsmryfsvsrpgrgepr FIAVGYVDDTQFVRFDSDAASQKMEPRAPWIEQEGPEYWDQETRNMKAHSQTDRANLGT LRGYYNQSEDGSHTIQIMYGCDVGPDGRFLRGYRQDAYDGKDYIALNEDLRSWTAADMA AQITKRKWEAVHAAEQRRVYLEGRCVDGLRRYLENDPPKTHMTHHPISDHEATLRCWAL GFYPAEITLTWQRDGEDQTQDTELVETRPAGDGTFQKWAAVVVPSGEEQRYTCHVQHEG LPKPLTLRWELSSQPTIPIVGIIAGLVLLGAVITGAVVAAVMWRRKSSDRKGGSYTQAA SSDSAQGSDVSLTACKV" exon 504..773 /number=2 exon 1015..1266 /number=3 variation 1268 /note="alternatively spliced compared to HLA-A*010101; results in altered exon and protein length; no membrane expression detected" /replace="g" /gene="hla-a" exon 1870..2145 /number=4 exon 2248..2364 /number=5 exon 2807..2839 /number=6 exon 2982..3029 /number=7 exon 3199..>3374 /number=8 3'UTR 3204..>3374... 4

5) Une recherche blastp a été effectuée à partir de la séquence protéique HLA-A (357 aa). Cette protéine est similaire à des immunoglobulines comme le montrent les alignements avec la protéine MUCM_RABIT. 3 pt A blastp search has been performed with the HLA-A sequence (357 aa). This protein is similar to immunoglobulins as shown by the alignments with the protein MUCM_RABIT. a) Représentez schématiquement les 2 protéines en indiquant les régions conservées. Represent schematically the 2 proteins with their conserved regions. b) Représentez le résultat d une comparaison des deux protéines par la méthode de la matrice de points. Represent the result of a dotplot comparison between the two proteins. >sp P04221 MUCM_RABIT Length = 479 Ig mu chain C region membrane-bound form Score = 45.1 bits (105), Expect = 3e-06 Identities = 29/94 (30%), Positives = 49/94 (52%), Gaps = 11/94 (11%) Query: 214 EATLRCWALGFYPAEITLTWQRDGED-----QTQDTELVETRPAGDGTFQKWAAVVVPSG 268 ++ L C A GF P +I+++W RDG+ T+ E ET+ AG TF + + + Sbjct: 132 KSRLICQATGFSPKQISVSWLRDGQKVESGVLTKPVE-AETKGAGPATFSISSMLTITES 190 Query: 269 E---EQRYTCHVQHEGL--PKPLTLRWELSSQPT 297 + + YTC V H G+ K +++ E S+ P+ Sbjct: 191 DWLSQSLYTCRVDHRGIFFDKNVSMSSECSTTPS 224 Score = 40.4 bits (93), Expect = 7e-05 Identities = 24/81 (29%), Positives = 37/81 (45%), Gaps = 6/81 (7%) Query: 215 ATLRCWALGFYPAEITLTWQRDGEDQTQD---TELVETRPAGDGTFQKWAAVVVPS---G 268 AT+ C GF PA++ + WQ+ G+ + D T P G + + + V Sbjct: 352 ATVTCLVKGFSPADVFVQWQQRGQPLSSDKYVTSAPAPEPQAPGLYHSTLTVTEEDWN 411 Query: 269 EEQRYTCHVQHEGLPKPLTLR 289 + +TC V HE LP +T R Sbjct: 412 SGETCVVGHEALPHMVTER 432 Score = 31.2 bits (69), Expect = 4e-03 Identities = 23/85 (27%), Positives = 37/85 (43%), Gaps = 10/85 (11%) Query: 219 CWALGFYPAEITLTWQRDGEDQTQDTELVETRPA---GDGTFQKWAAVVVPS-----GEE 270 C A F P+ +T +W + + V T P GD + + V+VPS G E Sbjct: 28 CLARDFLPSSVTFSWSFKNNSEIS-SRTVRTFPVVKRGD-KYMATSQVLVPSKDVLQGTE 85 Query: 271 QRYTCHVQHEGLPKPLTLRWELSSQ 295 + C VQH + L + + + S+ Sbjct: 86 EYLVCKVQHSNSNRDLRVSFPVDSE 110 5

Bioinformatique Janvier 2010 Durée : 2h (2h30) - Documents interdits Première partie (7.5 points) On veut rechercher par SRS les régions promotrices annotées sur le génome de la souris (Mus musculus). We want to retrieve promotor regions annotated on the mouse (Mus musculus) genome using SRS. 1) Quelle(s) banque(s) doit-on choisir? Which database(s) do we have to choose? 1 pt - Uniref50 - Uniprot - EMBL - TrEMBL - Unigene 2) Donnez la requête SRS en vous aidant du formulaire ci-dessous. 2 pts Give the SRS query using the query form below. Combine search with : Champs (fields) Mots-clés (Keywords) Retrieve entries of type : AND ENTRY OR REFERENCES BUTNOT FEATURES COUNTERS 3) Un utilisateur de SRS a sélectionné une liste de séquences protéiques. A présent, il veut sélectionner parmi ces séquences seulement les entrées des séquences protéiques possédant une structure 3D connue. Comment peut-il procéder en utilisant SRS? 1.5 pts A SRS user has selected a list of protein sequences. Now, he wants to retrieve among these sequences only the protein sequence entries with a known 3D structure. How can he proceed using SRS? 4) Quelles sont les principales différences entre Swissprot et SpTrEmbl? 1.5 pts What are the main differences between Swissprot and SpTrEmbl? 5) Quels avantages présente la banque Interpro par rapport aux banque Pfam ou Prosite par exemple? 1.5 pts What are the advantages of the Interpro database compared to databases such as Pfam or Prosite for instance? 6

Deuxième partie (6 points) Une région génomique (982 bases, access GQ2293385) d une souche de virus H1N1 a été comparée à une banque de séquences nucléiques avec les programmes fasta et blastn. L une des séquences détectées est la séquence synthétique CS723756 (4700 pb). Les séquences GQ2293385 et CS723756 ont également été alignées avec le programme d alignement optimal Water. Les alignements entre ces 2 séquences obtenus par les trois méthodes vous sont présentés. A genomic region (982 bases, access GQ2293385) of a H1N1 virus strain has been compared to a nucleic sequence database using fasta and blastn programs. One of the detected sequences is the synthetic sequence CS723756 (4700 pb). The GQ2293385 and CS723756 sequences have also been aligned using the optimal alignment program Water. The alignments between the two sequences obtained using the three methods are shown. 1) Que pouvez-vous déduire sur la similarité entre les 2 séquences? Quelles sont les principales différences entre les 3 alignements obtenus? Comment l expliquez-vous 3 pts What can you deduce about the similarity between these 2 sequences? What are the main differences between the three alignments? How do you explain these differences? 2) Megablast est-il adapté dans le cadre de cette recherche? Pourquoi? 1 pts Is Megablast suitable in the context of this search? Why? 3) Donnez schématiquement le résultat d une comparaison de ces deux séquences par la méthode de la matrice de points. 2 pts Give schematically the result of a dotplot comparison of these two sequences. BlastN >emb CS723756.1 Sequence 14 from Patent WO2007100584 Length=4700 Score = 105 bits (116), Expect = 6e-20 Identities = 121/163 (74%), Gaps = 0/163 (0%) Strand=Plus/Plus Query 818 GATCGTCtttttttCAAATGTATTTATCGTCGCTTTAAATACGGTTTGAAAAGAGGGCCT 877 Sbjct 1503 GACCGGCTGTTCTTCAAGTGCATCTACCGGAGACTGAAGTATGGACTGAAGAGAGGACCT 1562 Query 878 TCTACGGAAGGAGTGCCTGAGTCCATGAGGGAAGAATATCAACAGGAACAGCAGAGTGCT 937 Sbjct 1563 GCCACAGCCGGAGTGCCTGAATCTATGCGGGAGGAGTATAGACAGGAACAGCAGAGCGCC 1622 Query 938 GTGGATGTTGACGATGGTCATTTTGTCAACATAGAGCTAGAGT 980 Sbjct 1623 GTGGATGTGGATGATGGCCACTTCGTGAATATCGAGCTGGAGT 1665 Score = 48.2 bits (52), Expect = 0.015 Identities = 32/36 (88%), Gaps = 0/36 (0%) Strand=Plus/Plus Query 716 CCTACCAGAAGCGAATGGGAGTGCAGATGCAGCGAT 751 Sbjct 1464 CCTACCAGAAATGAGTGGGAGTGCAGATGTAGCGAT 1499 7

Fasta >>EM_PAT:CS723756; CS723756 Sequence 14 from Patent WO20 (4700 nt) initn: 378 init1: 238 opt: 549 Z-score: 279.9 bits: 65.5 E(): 7.6e-09 58.0% identity (69.2% similar) in 357 nt overlap (631-982:1319-1667) 610 620 630 640 650 660 Sequen GAGGCCAUGGAGGUUGCUAAUCAGACUAGGCAGAUGGUACAUGCAAUGAGAACUAUUGGG..:.: :. ::::.: :...: : EM_PAT GCUGACAGACUAACAGACUGUUCCUUUCCAUGGGUCUUUUCUGCAGUCACCGUCGUCGAC 1290 1300 1310 1320 1330 1340 670 680 690 700 710 Sequen ACUCAU--CCUAGCUCCAGUGCUGGUCU-GAAAGAUGACCUUCUUG-AAAAUUUGCAGGC ::..:.:...:. :: : ::: ::.: ::.:: : :: :. : : :::: EM_PAT ACGUGUGAUCAGAUAUCGCGGCCGCUCUAGAGAUAUCGCCACCAUGCAGUACAUCAAGGC 1350 1360 1370 1380 1390 1400 720 730 740 750 760 770 Sequen CUACCAGAAGCGAAU-GGGAGUGCAGAUGCAGCGAUUCAAGUGAUCCUCUCGUCAUUGCA : ::. :::. :: :: : ::::.. : : :.. : : :.: EM_PAT CAACAGCAAGUUUAUCGGCAUCACAGAGCUGUCUCUGCUGACAGAAGUGGAGAC-CCCUA 1410 1420 1430 1440 1450 1460 780 790 800 810 820 830 Sequen GCAAAUAUCAUUGGGAUCUUGCACCUGAUAUUGUGGAUUACUGAUCGUCUUUUUUUCAAA ::.: :: : ::::: :::: :::.: : :::.: :: :: :: :: :::::. EM_PAT CCAGAAAUGAGUGGGA--GUGCA---GAUGUAG-CGAUAGC-GACCGGCUGUUCUUCAAG 1470 1480 1490 1500 1510 1520 840 850 860 870 880 890 Sequen UGUAUUUAUCGUCGCUUUAAAUACGGUUUGAAAAGAGGGCCUUCUACGGAAGGAGUGCCU :: :: :: :: : : ::.::.:: ::::.::::: ::: : :: : ::::::::: EM_PAT UGCAUCUACCGGAGACUGAAGUAUGGACUGAAGAGAGGACCUGCCACAGCCGGAGUGCCU 1530 1540 1550 1560 1570 1580 900 910 920 930 940 950 Sequen GAGUCCAUGAGGGAAGAAUAUCAACAGGAACAGCAGAGUGCUGUGGAUGUUGACGAUGGU :: ::.::: ::::.::.:::.::::::::::::::: :: :::::::: ::.::::: EM_PAT GAAUCUAUGCGGGAGGAGUAUAGACAGGAACAGCAGAGCGCCGUGGAUGUGGAUGAUGGC 1590 1600 1610 1620 1630 1640 960 970 980 Sequen CAUUUUGUCAACAUAGAGCUAGAGUAA :: :: :: ::.:: :::::.::::.: EM_PAT CACUUCGUGAAUAUCGAGCUGGAGUGAACACGUGGGAUCCAGAUCUGCUGUGCCUUCUAG 1650 1660 1670 1680 1690 1700 8

Alignement Water GQ229385.1 586 A-----GTGAACAGGCA--GCGGAGGCCATGGAGGTTGCTAATCAG--AC 626......... CS723756.1 1347 ACACGTGTGATCAGATATCGCGGCCGCTCTAGAGAT-----ATC-GCCAC 1390 GQ229385.1 627 TAGGCAGATGGTACATGCAATGAGAAC--------TATTGGGACTCATCC 668...... CS723756.1 1391 CATGCA----GTACAT-CAAGGCCAACAGCAAGTTTATCGG----CATC- 1430 GQ229385.1 669 TAGCTCCAGTGCTGGT-----CTGAAAGATGACCTTCTTGAAAATTTGCA 713..... CS723756.1 1431 -----ACAGAGCT-GTCTCTGCTGACAGAAG---------------TGGA 1459 GQ229385.1 714 G--GCCTACCAGAAGCGAATGGGAGTGCAGATGCAGCGATTCAAGTGATC 761..... CS723756.1 1460 GACCCCTACCAGAAATGAGTGGGAGTGCAGATGTAGCGAT---------- 1499 GQ229385.1 762 CTCTCGTCATTGCAGCAAATATCATTGGGATCTTGCACCTGATATTGTGG 811 CS723756.1 1500 -------------AGC---------------------------------- 1502 GQ229385.1 812 ATTACTGATCGTCTTTTTTTCAAATGTATTTATCGTCGCTTTAAATACGG 861............... CS723756.1 1503 ------GACCGGCTGTTCTTCAAGTGCATCTACCGGAGACTGAAGTATGG 1546 GQ229385.1 862 TTTGAAAAGAGGGCCTTCTACGGAAGGAGTGCCTGAGTCCATGAGGGAAG 911............. CS723756.1 1547 ACTGAAGAGAGGACCTGCCACAGCCGGAGTGCCTGAATCTATGCGGGAGG 1596 GQ229385.1 912 AATATCAACAGGAACAGCAGAGTGCTGTGGATGTTGACGATGGTCATTTT 961.......... CS723756.1 1597 AGTATAGACAGGAACAGCAGAGCGCCGTGGATGTGGATGATGGCCACTTC 1646 GQ229385.1 962 GTCAACATAGAGCTAGAGTAA 982..... CS723756.1 1647 GTGAATATCGAGCTGGAGTGA 1667 Troisième partie (6.5 points) 1) Est-il préférable d utiliser un motif ou un profil pour rechercher des homologues divergents? Justifiez votre réponse. 1.5 pts Is it better to use a pattern or a profile to search for divergent homologs? Justify your answer. 2) Une recherche psi-blast a été effectuée à partir d une séquence protéique de levure (750 aa). Commentez le résultat de la 1 ère itération illustré schématiquement (page 5). 1 pts A psi-blast search has been performed for a yeast protein sequence (750 aa). Comment on the first iteration result schematically illustrated (page 5). 3) Les alignements de la séquence de levure et de la protéine SURE_METJA obtenus lors de la première et la seconde itération sont présentés (page 6). The alignments between the yeast sequence and the SURE_METJA protein obtained at the first and second iteration are shown (page 6). a) Quelle est la signification exacte de «Expect = 3e-06»? What is the exact meaning of «Expect = 3e-06»? 1.5 pts b) Pourquoi le score de l alignement a-t-il change entre les deux itérations? 1 pt Why has the alignment score changed between the two iterations? 9

c) Que pouvez-vous dire sur la similarité entre les 2 protéines? 1.5 pts What can you say about the similarity between the two proteins?

FIRST iteration >sp Q57979.2 SURE_METJA RecName: Full=5'-nucleotidase sure; AltName: Full=Nucleoside 5'-monophosphate phosphohydrolase Length=266 Score = 58.9 bits (141), Expect = 3e-06, Method: Compositional matrix adjust. Identities = 55/219 (25%), Positives = 97/219 (44%), Gaps = 45/219 (20%) Query 1 MRVLITNDDGPLSDQFSPYIRPFIQHIKRNYPEWKITVCVPHVQKSWVGKAHLAGKNLTA 60 M +LI NDDG +SP + +K + + IT+ P Q+S +G+A Sbjct 1 MEILIVNDDG----IYSPSLIALYNALKEKFSDANITIVAPTNQQSGIGRAI-------- 48 Query 61 QFIYSKVDAEDNTFWGPFIQPQIRSENSKLPYVLNAEIPKDTIEWILIDGTPASCANIGL 120 + + P +++ + KD + + + GTP C +G+ Sbjct 49 ------------SLFEPLRMTKVK-------------LAKDIVGY-AVSGTPTDCVILGI 82 Query 121 HLLSNEPFDLVLSGPNVGRNTSAAYITSSGTVGGAMESVITGNTKAIAISWAYFN---GL 177 + + + DLV+SG N+G N I +SGT+G A E+ G K+IA S + Sbjct 83 YQILKKVPDLVISGINIGENLGTE-IMTSGTLGAAFEAAHHG-AKSIASSLQITSDHLKF 140 Query 178 KNVS-PLLMEKASKRSLDVIKHLVKNWDPKTDLYSINIP 215 K + P+ E +K + + + + ++D D+ +INIP Sbjct 141 KELDIPINFEIPAKITAKIAEKYL-DYDMPCDVLNINIP 178 SECOND iteration >sp Q57979.2 SURE_METJA RecName: Full=5'-nucleotidase sure; AltName: Full=Nucleoside 5'-monophosphate phosphohydrolase Length=266 Score = 210 bits (534), Expect = 5e-52, Method: Composition-based stats. Identities = 67/318 (21%), Positives = 119/318 (37%), Gaps = 71/318 (22%) Query 1 MRVLITNDDGPLSDQFSPYIRPFIQHIKRNYPEWKITVCVPHVQKSWVGKAHLAGKNLTA 60 M +LI NDDG +SP + +K + + IT+ P Q+S +G+A + L Sbjct 1 MEILIVNDDGI----YSPSLIALYNALKEKFSDANITIVAPTNQQSGIGRAISLFEPLRM 56 Query 61 QFIYSKVDAEDNTFWGPFIQPQIRSENSKLPYVLNAEIPKDTIEWILIDGTPASCANIGL 120 + D I + GTP C +G+ Sbjct 57 TKVKLAKD----------------------------------IVGYAVSGTPTDCVILGI 82 Query 121 HLLSNEPFDLVLSGPNVGRNTSAAYITSSGTVGGAMESVITGN---TKAIAISWAYFNGL 177 + + + DLV+SG N+G N I +SGT+G A E+ G ++ I+ + Sbjct 83 YQILKKVPDLVISGINIGENLGTE-IMTSGTLGAAFEAAHHGAKSIASSLQITSDHLKFK 141 Query 178 KNVSPLLMEKASKRSLDVIKHLVKNWDPKTDLYSINIPLVESLSDDTKVYYAPIWENRWI 237 + P+ E +K + + + + P D+ +INIP E+ + +T + + + Sbjct 142 ELDIPINFEIPAKITAKIAEKYLDYDMP-CDVLNINIP--ENATLETPIEITRLARKMYT 198 Query 238 PIFNGPHINLENSFAEIEDGNESSSISFNWAPKFGAHKDSIHYMDEYKDRTVLTDAEVI- 296 +E+ + S+ W D +E +D TD V+ Sbjct 199 --------------THVEERIDPRGRSYYW-------IDGYPIFEEEED----TDVYVLR 233 Query 297 ESEMISVTPMKATFKGVN 314 + IS+TP+ N Sbjct 234 KKRHISITPLTLDTTIKN 251 11