Exemple 1 - heat shock protein beta 9. Comparaison de séquences deux à deux. Exemple 3 : domaine conservé. Exemple 2 - E.coli peptidyl trna hydrolase

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Perl Orienté Objet BioPerl There is more than one way to do it

Identification de nouveaux membres dans des familles d'interleukines

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

Plus courts chemins, programmation dynamique

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Le No.1 de l économie d énergie pour patinoires.

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Projet de Traitement du Signal Segmentation d images SAR

Cryptographie. Cours 3/8 - Chiffrement asymétrique

Quantification Scalaire et Prédictive

Exemple PLS avec SAS

Once the installation is complete, you can delete the temporary Zip files..

Instructions Mozilla Thunderbird Page 1

Institut français des sciences et technologies des transports, de l aménagement

Principe de symétrisation pour la construction d un test adaptatif

Echantillonnage Non uniforme

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Media Pack. À propos de nous. Statistiques par mois. Pourquoi préférer IT Job Board? Références

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Préparer un état de l art

Face Recognition Performance: Man vs. Machine

Application Form/ Formulaire de demande

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

LIVRE BLANC Pratiques recommandées pour l utilisation de Diskeeper sur les réseaux SAN (Storage Area Networks)

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Traitement bas-niveau

INF6304 Interfaces Intelligentes

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Corrigé des TD 1 à 5

Resolution limit in community detection

Ebauche Rapport finale

Filtres passe-bas. On utilise les filtres passe-bas pour réduire l amplitude des composantes de fréquences supérieures à la celle de la coupure.

CEST POUR MIEUX PLACER MES PDF

Algorithmique répartie

TROIS ASPECTS DE LA COMPARAISON ALLEMAGNE-FRANCE SUR L ELECTRICITE

La classification automatique de données quantitatives

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

MABioVis. Bio-informatique et la

Résonance Magnétique Nucléaire : RMN

Big data : vers une nouvelle science des risques?

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

FIMA, 7 juillet 2005

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Item 169 : Évaluation thérapeutique et niveau de preuve


Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Chapitre 6. Fonction réelle d une variable réelle

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Algorithmique des Systèmes Répartis Protocoles de Communications

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

MESURES D UN ENVIRONNEMENT RADIOELECTRIQUE AVEC UN RECEPTEUR CONVENTIONNEL ETALONNE


1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

3. Artefacts permettant la mesure indirecte du débit

F-7a-v3 1 / Bourses de mobilité / Mobility Fellowships Formulaire de demande de bourse / Fellowship Application Form

Compter à Babylone. L écriture des nombres

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Génétique et génomique Pierre Martin

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

M2-Images. Rendu Temps Réel - OpenGL 4 et compute shaders. J.C. Iehl. December 18, 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Spécificités, Applications et Outils

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

CETTE FOIS CEST DIFFERENT PDF

Résolution d équations non linéaires

: seul le dossier dossier sera cherché, tous les sousdomaines

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Polynômes à plusieurs variables. Résultant

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

APPENDIX 6 BONUS RING FORMAT

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Base de données bibliographiques Pubmed-Medline

Micro-ordinateurs, informations, idées, trucs et astuces utiliser le Bureau à distance

Projet audio. Analyse des Signaux ELE2700

SysFera. Benjamin Depardon

Enseignement secondaire technique

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Big Data et Graphes : Quelques pistes de recherche

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

Concurrence imparfaite

Transcription:

Exemple 1 - heat shock protein beta 9 Comparaison de séquences deux à deux >human MQRVGNTFSN ESRVSRCPS VGLERNRV TMPVRLLRDS PQEDNDH RDGFQMKLD HGFPEELVV QVDGQWLMVT GQQQLDVRDP ERVSYRMSQK VHRKMLPSNL SPTMTCCLT PSGQLWVRGQ CVLLPEQ TGPSPRLGSL GSKSNLTR >mouse MQRVGSSFST GQREPGENRV SRCPSVL ERNQVTLPV RLLRDEVQGN GCEQPSFQIK VDQGFPED LVVRIDGQNL TVTGQRQHES NDPSRGRYRM EQSVHRQMQL PPTLDPMT CSLTPSGHLW LRGQNKCLPP PEQTGQSQK PRRGGPKSSL QNESVKNP Équipe Bonsai http://www.lifl.fr/bonsai année 2013 human mouse 1 MQRVGNTFS------NESRVSRCPSVGLERNRVTMPVRLLRDSPQ ::. :. : :.. 1 MQRVGSSFSTGQREPGENRVSRCPSVLERNQVTLPVRLLRDE---V human 45 EDNDHRDGFQMKLDHGFPEELVVQVDGQWLMVTGQQQLDVRDPERVS :....:.. : :. : ::.. :.:..... mouse 48 QGNGCEQPSFQIKVDQGFPEDLVVRIDGQNLTVTGQRQHESNDPSRGR human 95 YRMSQKVHRKM-LPSNLSPTMTCCLTPSGQLWVRGQCVLLPEQTG.. :...... :...... mouse 98 YRMEQSVHRQMQLPPTLDPMTCSLTPSGHLWLRGQNKCLPPPEQTGQ human 144 S--PRLGSLGSKSNLTR----- 159.. :... mouse 148 SQKPRRG--GPKSSLQNESVKNP 168 similarité globale, alignement global Équipe Bonsai Comparaison de séquences deux à deux 1/39 Équipe Bonsai Comparaison de séquences deux à deux 2/39 Exemple 2 - E.coli peptidyl trn hydrolase Exemple 3 : domaine conservé E008779.1 : Salmonella typhimurium LT2, section 83 of 220 of the complete genome. 25184 bp e.coli : Escherichia coli peptidyl trn hydrolase. 585 bp >HEN1 HUMN MMLNSDTMELDLPPTHSETESGFSDCGGGGPDGGPGGPGGGQRGPEPGEPGRKDLQHLSREERRRRR RTKYRTHTRERIRVEFNLFELRKLLPTLPPDKKLSKIEILRLICYISYLNHVLDV >HES5 MOUSE MPSTVVEMLSPKEKNRLRKPVVEKMRRDRINSSIEQLKLLLEQEFRHQPNSKLEKDILEMVSYLK HSKFGPKSLHQDYSEGYSWCLQEVQFLTLHSDTQMKLLYHFQRPPPPKEPPPGPQ PRSSKVSTSRQPCGLWRPW E008779.1 12901 TCGGCCGTGGCTTTTGTTGTTGGTCTGGCGTCCC 13201 TGGTCTCCCTCCGGGCGTCGCGTTTCTTGGCGGCGGCCCGGC............. e.coli 1 gtgacgattaaattgattgtcggcctggcgaacccc 287 tggatctgcctcctggcgtcgccaaatttaaattgggcggtggccatggt E008779.1 12951 GGTGCGGTTGCCGCGCGCGCCTGCGGCGCTGGTCGTCG 13251 GGCCCTGGTCTGGCTCTCGCGCTGGGCTTCCC................. e.coli 37 ggtgctgaatacgccgcaacgcgacataatgctggtgcctggttcgttga 337 ggtcacaatggactgaaagacatcatcagtaaattgggtaataaccctaa E008779.1 13001 TTTCTGGCGGGCGCCTGCGCGCGCCGTTGCGTGGGCCTTTCT 13301 CTTTCCCGTTCGCGTTGGTTGGTCTCCGGCGTTG............. e.coli 87 cttactggcagagcgtttgcgcgctccgctgcgcgaagaggctaaattct 387 ctttcaccgtttacgcatcggaatcggtcatccgggcgataaaaataaag 110 120 HEN1 H PDKKLSKIEILRLICYISY :..::.:.::..:. :... HES5 M PNSKLEKDILEMVSYLKH 60 70 E008779.1 13051 TTGGCTTCCTCCGCTCCGCTGGGGGGGTGTTCGCCTGCTG 13351 TTGTTGGTTTCGTGCTGGGTCCCCCTGTTTCTGCTTTT...................... e.coli 137 ttggttatacttcgcgagtcactcttggaggcgaagatgtccgcctgtta 437 ttgtcggttttgtgttaggcaaaccgcctgttagtgaacagaagttaatt E008779.1 13101 GTCCCCCCGTTCTGCCTCGTGGTGCGTTGGCGCTGGC 13401 GTGGGCCTTGCGGCGGCCGCTGTCGGTTGTGGTTCG................... e.coli 187 gtcccgactacatttatgaatctcagcggcaaagccgttgcggcgatggc 487 gatgaagccattgacgaagcggcgcgttgtactgaaatgtggtttacaga E008779.1 13151 CGTTTTTCCGTTTCGCCGGCGTTTTGGTCGCTCCGCGGC 13451 GGGTCTGGCCGCCGCCGTTTGCTCCTTTGGCGCTC.................. e.coli 237 cagttttttccgcattaatccggacgaaattctggtggcccacgacgaac 537 tggcttgaccaaagcaacgaaccgattgcacgcctttaaagcgcaataa similarité globale sur une partie, alignement semi-global Équipe Bonsai Comparaison de séquences deux à deux 3/39 similarité sur une sous-partie, alignement local Équipe Bonsai Comparaison de séquences deux à deux 4/39 Pourquoi comparer des séquences? Dotplot quelques problèmes rassembler un ensemble de fragments d DN séquencés (fragment assembly) recherche d homologie (entre gènes) trouver des régions similaires (domaines protéiques) identifier les positions introns/exons (comparaison d un gène à son RNm) un outil graphique pour la comparaison principe mettre les séquences le long des axes d une matrice mettre un point là où il y a un match une diagonale (une suite de points en diagonale) une région similaire Équipe Bonsai Comparaison de séquences deux à deux 5/39 Équipe Bonsai Comparaison de séquences deux à deux 6/39

Dotplot - exemple Dotplot match (identité) mismatch C T C G G C T T C G C T T G G T T G deux genes... et leurs proteines. Équipe Bonsai Comparaison de séquences deux à deux 7/39 problème de bruit (filtrage trop faible) Équipe Bonsai Comparaison de séquences deux à deux 8/39 Dotplot - Filtrage blocs d identité idée : ne représenter que des fenêtres exactes et de longueur fixe exemple de programme : dottup très sélectif et peu sensible blocs de similarité avec un seuil de score (Maizel & Lenk - 1981) idée : ne représenter que des fenêtres possédant un score supérieur à un seuil exemple de programme : dotmatcher bonne sélectivité et bonne sensibilité filtrer les blocs pour éliminer ceux qui se chevauchent idée : observez la ressemblance globale exemple de programme : dotpath accorder un poids physico-chimique aux matchs (Staden - 1982) variation de l intensité, ne pas se contenter de et prise en compte des propriétés des acides aminés Équipe Bonsai Comparaison de séquences deux à deux 9/39 Dotplot : taille des mots et seuil taille 10 et 20, seuil de 1% à 100% 1 match 50% 80% 100% Équipe Bonsai Comparaison de séquences deux à deux 10/39 Dotplot : dotpath Dotplot : repérer des similarités locales dotpath finds all matches of size wordsize or greater between two sequences. It then reduces the matches found to the minimal set of long matches that do not overlap. This is a way of finding the (nearly) optimal path aligning two sequences. It is not the true optimal path as produced by the algorithms used in water or needle, but for very closely related sequences it will produce the same result and will work well with very long sequences Équipe Bonsai Comparaison de séquences deux à deux 11/39 horizontalement : séquence nucléaire du gène de l actine de muscle de Pisaster ochraceus verticalement : cdn de ce même gène Équipe Bonsai Comparaison de séquences deux à deux 12/39

Dotplot : repérer des répétitions Dotplot : son information Sur une seule séquence et son complémentaire inversé 1 répétition en tandem (micro/mini-satellite) 2 palindrome protéine ribosomale S1 de Escherichia Coli sur elle-même Équipe Bonsai Comparaison de séquences deux à deux 13/39 Équipe Bonsai Comparaison de séquences deux à deux 14/39 Dotplot : inv. centrées sur origine de réplication Entre deux séquences (même espèce ou espèces proches) : Dotplot : inv. centrées sur origine de réplication Entre deux séquences (même espèce ou espèces proches) : inversion d un segment ( palindrome) (génomes de Tropheryma whipplei) Équipe Bonsai Comparaison de séquences deux à deux 15/39 (génomes de Yersinia pestis / Escherichia coli) Équipe Bonsai Comparaison de séquences deux à deux 16/39 Dotplot : inv. centrées sur origine de réplication Dotplot : avantages et inconvénients Entre deux séquences (même espèce ou espèces proches) : les plus : simple très informatif les moins : interprétation pas de mesure objective identification pas de méthode de détection automatique besoin d une mesure quantitative de similarité (génomes de Yersinia pestis / Escherichia coli) (génomes de Escherichia coli / Escherichia fergusonii) Équipe Bonsai Comparaison de séquences deux à deux 17/39 Équipe Bonsai Comparaison de séquences deux à deux 18/39

lignement lignement 3 types d alignement global match sur deux séquences complètes. local match sur des sous-séquences semi-global chevauchements Équipe Bonsai Comparaison de séquences deux à deux 19/39 données : une paire de séquences (DN / protéine) une schéma de score : comment compter ce qui se ressemble? but : déterminer le degré de similarité (meilleur score) montrer la similarité (meilleur alignement) décrit la ressemblance grâce à 3 opérations (mutations ponctuelles) insertion délétion identité/substitution mesure la ressemblance en donnant un poids à chaque opération poids positif ( récompense ) aux bonnes parties de l alignement e.g appariement de deux lettres identiques ou proches poids négatif ou nul ( pénalité ) aux mauvaises parties de l alignement e.g appariement de deux lettres non relatés, non-appariement Équipe Bonsai Comparaison de séquences deux à deux 20/39 Composantes d un schéma de scores Comment calculer le meilleur alignement? score (ou poids) pour une identité/substitution : matrice s de similarité exemple : s(a, b) = score d alignement des nucléotides a et b +1 1 1 1 1 +1 1 1 1 1 +1 1 1 1 1 +1 score (ou poids) d un indel (insertion/délétion) exemple : score unitaire = 2 par indel score de l alignement = somme des scores des événements élémentaires exemple : C G T C G T C G T - G ------------------------------- 1 1 1 1 1 1-2 -1 1-1 1 = 4 Équipe Bonsai Comparaison de séquences deux à deux 21/39 prenons 2 séquences de longueur n toutes les deux : alignement de longueur maximale 2n exemple avec les séquences T et C T C T/ C / C /C T T/C /C T/ /C /C / / T T/ / T/ / / / T C T- T- -T -C C- C- -T T- T- C- -C C- T-- --C --T C-- T-- -T- -T- -C- C-- C-- une suite de couples de lettres en suivant les flèches donne un alignement Équipe Bonsai Comparaison de séquences deux à deux 22/39 Difficulté du problème lignement global nombre max d alignements (séq. de lg n) ( 2n n ) = (2n)! (n!) 2 22n 2πn pour deux séquences de longueur 100 : 2.10 57 alignements grâce à la représentation en tableau : complexité en temps et en espace O(n 2 ) (proportionnel au produit de la longueur des séquences) pour deux séquences de longueur 100 : 10000 opérations Needleman & Wunsch, 1970 évaluation d une ressemblance globale entre deux séquences recherche du meilleur alignement global. Équipe Bonsai Comparaison de séquences deux à deux 23/39 Équipe Bonsai Comparaison de séquences deux à deux 24/39

lignement local lignement semi-global Smith & Waterman, 1981 évaluation d une ressemblance locale entre deux séquences recherche de la région de plus forte similarité. alignement global G G C T G C C C C - T T G - T C C T T C C T G alignement local G C C C C T T G T C - C T T G G C T G C C C C T T G T C C T T C T G les séquences présentent une similarité que l alignement global ne révèle pas CGCCTTGGTTCTCGG CGC-----G-T----GG CGC-CTTGGTTCTCGG ---CGCGTGG-------- l alignement global préfère le 1er alignement l alignement semi-global préfère le 2eme alignement Équipe Bonsai Comparaison de séquences deux à deux 25/39 Équipe Bonsai Comparaison de séquences deux à deux 26/39 lignement semi-global Pénalité associée aux gaps Principe ne pénalise pas les gaps (séries d indels) aux extrémités sinon, similaire à l alignement global permet de détecter des similarités de ce type : fonctions de gaps différentes algorithmes différents la plus simple fonction linéaire : g l ( l : longueur du gap) fonctions plus réalistes : fonctions affines : o + e l o : pénalité d ouverture de gap e : pénalité d extension de gap fonctions logarithmiques Équipe Bonsai Comparaison de séquences deux à deux 27/39 Équipe Bonsai Comparaison de séquences deux à deux 28/39 Influence du jeu de scores sur l alignement Comment bien choisir? jeux de score B C D Match Cost 1 1 1 1 Mismatch Cost -1-1 -1-1 Gap Open Penalty (o) 0-1 -1-1 Gap Extension Penalty (e) 0-1 0-0.1 TGCGGGCTG L1 : (7 matches, 2 mismatches, 1 gap of 1 bp, 1 gap of 2 bp) GGCG--CC-TG TGCGGGCTG L2 : (7 matches, 2 mismatches, 1 gap of 1 bp, 1 gap of 2 bp) GGCGC--C-TG TGCGGGCTG L3 : (7 matches, 2 mismatches, 1 gap of 3 bp) GGCG---CCTG TGCGGGCTG L4 : (7 matches, 2 mismatches, 3 gaps of 1 bp) GGCG-C-C-TG peu de connaissance a priori spécificité aux données valeurs typiques pour une fonction de gap affine 0.5 < o < 5.0 0.05 < e < 1.0 toujours prendre (en valeur absolue) o > 1 2 substitution CCTG--CGT-GC CCTGCGTGC CCT-C-TCGT-TGC CCTCTCGTTGC poids naturels (Thorne, Kishino & Felsenstein, 1991) estimation de la vraisemblance que les deux séquences proviennent du même ancêtre Équipe Bonsai Comparaison de séquences deux à deux 29/39 Équipe Bonsai Comparaison de séquences deux à deux 30/39

Evaluer la qualité d un alignement? Quelques principes informels C C T G C G T G C C C G T G C G T - - T C C C T G C G T G C C C - - T G C G T G C C T T G C G T - G C - - C T C C T C G C T - C G C C C T G C G T G C C C T G - - C G T G C - - - robustesse aux paramètres choisis pour le calcul du score On peut douter d un alignement si de faibles changements (environ 10%) dans l établissement des pénalités d insertion-délétion modifient sensiblement cet alignement. fréquence des indels On peut douter d un alignement s il nécessite plus d une insertion en moyenne pour 20 acides aminés. deux séquences nucléiques d au moins 100 bases et identiques à 50% n ont pas forcément de relation biologique. des séquences protéiques de 100 résidus ou plus, possèdant au moins 25% d identité entre elles ont certainement un ancêtre commun (Doolittle, 1990 - PDB). Équipe Bonsai Comparaison de séquences deux à deux 31/39 Équipe Bonsai Comparaison de séquences deux à deux 32/39 Le pourcentage d identité pproche empirique dépend de la composition en bases, ou acides aminés dépend de la longueur des séquences Une fausse bonne idée test de la robustesse du score S : score de l alignement entre U et V méthode 1. Génération de 100 (200, 1000,...) permutations de V (même longueur, même composition) 2. lignements avec U 3. Distribution des scores d alignement Où se situe S dans cette distribution? Équipe Bonsai Comparaison de séquences deux à deux 33/39 Équipe Bonsai Comparaison de séquences deux à deux 34/39 Exemple Exemple lignement local pour CCGTGCGTTC et CCTGCGTGC C C G T G C G T C C - - T G C G T score du meilleur alignement local : 16 score s-w 0 0 : 4 138 :================================== 8 166 :========================================= 12 146 :==================================== 16 33 :========= 20 7 :== 24 8 :== 28 2 : 32 0 : 36 0 : 40 0 : 44 0 : 500 séquences aléatoires 48 0 : Human alpha haemoglobin (141 aa) vs. Human myoglobin (153 aa) VLSPDKTNVKWGKVGHGEYGELERMFLSFPTTKTYFPHF-DLS-----HGSQVKGHGKKVDLTNVHVDDMPNLSL ::.. :..::::.:...:.:.: :.:. :.:. :.:.:...:...: ::.:.::.........: GLSDGEWQLVLNVWGKVEDIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKSEDLKKHGTVLTLGGILKKKGHHEEIKPL SDLHHKLRVDPVNFKLLSHCLLVTLHLPEFTPVHSLDKFLSVSTVLTSKYR------.. :: :.....:.:...:... :..:...: :.....:.:. QSHTKHKIPVKYLEFISECIIQVLQSKHPGDFGDQGMNKLELFRKDMSNYKELGFQG Chicken lysozyme (129 aa) vs. Bovine ribonuclease (124 aa) KVFGRCELMKRHGLDNYRGYSLGNWVCKFESNFNTQTNRNTDGSTDYGILQINSRWWCNDGRTP--GSRNLCNIPCSLLSSD :. ::..:..:..... :...:. :............. :........ :..:...: KET----KFERQHMDSSTSSSSNYCNQMMKSRNLTKDRCKPVNTFVHESLDVQV--CSQKNVCKNGQTNCYQSYSTMSITD ITSVNCKKIVSDGDGMNWVWRNRCKGTDVQWIRGCRL.....:.....: :.:..... CRET-GSSKYPNCYKTTQNKHIIVCEGNPYVPVHFDSV Équipe Bonsai Comparaison de séquences deux à deux 35/39 Équipe Bonsai Comparaison de séquences deux à deux 36/39

PRSS sur les globin PRSS : Probability of Random Shuffle Sequence < 20 0 0: 22 0 0: one = represents 1 library sequences 24 0 0: 26 0 0: 28 0 0: 30 1 1:* 32 3 3:==* 34 9 7:======*== 36 25 15:==============*========== 38 37 25:========================*============ 40 29 34:============================= * 42 33 42:================================= * 44 51 46:=============================================*===== 46 41 47:========================================= * 48 32 45:================================ * 50 51 41:========================================*========== 52 31 36:=============================== * 54 24 31:======================== * 56 30 26:=========================*==== 58 18 21:================== * 60 24 17:================*======= 62 19 14:=============*===== 64 4 11:==== * 66 10 9:========*= 68 5 7:===== * 70 4 5:====* 72 7 4:===*=== 74 3 3:==* 76 2 3:==* 78 3 2:=*= 80 1 2:=* 82 0 1:* 84 1 1:* 86 0 1:* 88 1 1:* 90 0 0: unshuffled s-w score: 177 92 1 0:= For 500 sequences, a score >= 177 is expected 3.096e-06 times 94 0 0: PRSS poulet/bovin PRSS : Probability of Random Shuffle Sequence < 20 0 0: 22 0 0: one = represents 1 library sequences 24 0 0: 26 0 0: 28 0 0: 30 0 1:* 32 3 3:==* 34 9 7:======*== 36 17 15:==============*== 38 24 25:========================* 40 35 34:=================================*= 42 44 42:=========================================*== 44 57 46:=============================================*=========== 46 50 47:==============================================*=== 48 44 45:============================================* 50 45 41:========================================*==== 52 25 36:========================= * 54 28 31:============================ * 56 20 26:==================== * 58 24 21:====================*=== 60 17 17:================* 62 10 14:========== * 64 8 11:======== * 66 10 9:========*= 68 3 7:=== * 70 6 5:====*= 72 6 4:===*== 74 2 3:==* 76 2 3:==* 78 2 2:=* 80 5 2:=*=== 82 1 1:* 84 0 1:* 86 2 1:*= 88 0 1:* 90 0 0: 92 0 0: unshuffled s-w score: 43 94 1 0:= For 500 sequences, a score >= 43 is expected 267.1 times 96 0 0: Équipe Bonsai Comparaison de séquences deux à deux 37/39 Équipe Bonsai Comparaison de séquences deux à deux 38/39 pproche statistique Definition (E-value) Nombre de fois attendu de trouver un alignement de score supérieur à S par hasard quand on aligne une séquence de longueur n avec une séquence de longueur m. décrit le bruit aléatoire qui existe lorsque on aligne des séquences croit de manière proportionnelle en fonction de n et de m décroit de manière exponentielle en fonction du score S plus la E-value est proche de 0, plus la similarité est significative Équipe Bonsai Comparaison de séquences deux à deux 39/39