X!Tandem Principe, Utilisation et Comparaison Valot Benoit
Caractéristiques principales Projet libre et Open-source développé au Beavis Informatics Ltd Winnipeg depuis 2003. (http://www.thegpm.org/tandem/). Craig, R. and Beavis, R.C. (2003) RCMS. xml X!Tandem (Moteur d'identification) xml The GPM (Interface web) Pas d'indexation des bases de données (fasta) 1 seul critère statistique de filtrage (Expected value : E-value) Analyses en double passe Identification avec des paramètres stricts Création d'une base de données ne contenant que les protéines identifiées Analyse extensive des peptides modifiés et/ou semi-trypsiques sur cette sous-base Performant et multi-threads : fonctionne sur un PC de bureau 13s pour analyser 1000 spectres MS/MS contre 10000 protéines
Fonctionnement Du moteur d'identification
Simplification du spectre X!Tandem effectue l'analyse sur un spectre simplifié : Enlève les pics inférieurs à 1/100 du pic majoritaire Ne conserve que les 50 pics les plus intenses. Les pics correspondant aux pertes de neutres et au précurseur n'interviennent pas dans ces calculs.
Calcul du score de corrélation Spectre observé X!Tandem match les pics entre les spectres observés et théoriques. Seul les pics matchés sont utilisés pour le calcul du Score. n HyperScore = Ii x Pi Nb! Ny! i =0 Intensités des ions Prédits (0/1) Factoriels des ions b et y Matching Spectre théorique (y/b)
Détermination de la E-value des peptides 7.1E-5 5.4E-6 La E-value représente le nombre de peptides attendus du au hasard. La E-value est déterminée expérimentalement pour chaque peptide. La E-value dépend principalement du spectre MS/MS (et de la base de donnée).
Détermination E-value de la protéine s = Nombre de spectres testés n = Nombre de peptides uniques identifiant la protéine ej = E-value des peptides identifiés N = Nombre de séquences peptidiques testées pour trouver n peptides uniques. ß = N/(Nombre total de peptides dans le protéome considéré)
Interrogation et visualisation des résultats
Possibilités d'utilisations En service web (serveur distant) http://h003.thegpm.org/tandem/thegpm_tandem.html Simple d'utilisation Grande variété de banques Soumission manuelle Pas de banque personnelle Nom des résultats non explicite En service web (local) ftp://ftp.thegpm.org/projects/gpm/gpm-xe-installer/ Simple d'utilisation et d'installation Soumission automatisée Banque personnelle Intégration de banques personnelles difficiles Nom des résultats non explicite En ligne de commande http://pappso.inra.fr/bioinformatique.html Nom des résultats explicites Soumission automatisée Banque personnelle Paramètres d'interrogations en fichier texte
Recherche sur serveur web (1) Pour effectuer une analyse X!Tandem, on se connecte à un des serveurs GPM. (http://h003.thegpm.org/tandem/thegpm_tandem.html) Il y a différent serveurs suivant les bases de données que vous voulez utiliser.
Recherche sur serveur web (2) Le mode ''refinement'' permet de rechercher dans un 2ème temps des modifications variables, des peptides semi-trypsiques...
Recherche en ligne de commande Il faut éditer un fichier xml contenant les paramètres d'interrogation API : http://www.thegpm.org/tandem/api/index.html Nous avons développé un script Perl (graphique) permettant d'effectuer des analyses en ''batch'' en utilisant un fichier xml de paramètres. (http://pappso.inra.fr/bioinformatique.html)
Visualisation des résultats (1) Pour visualiser les résultats X!Tandem, on se connecte à un des serveurs GPM (http://h003.thegpm.org/tandem/thegpm_upview.html) et on charge son résultat (.xml).
Visualisation des résultats (2) On arrive sur une vue détaillant les protéines identifiées. On peut filtrer le résultat sur la E-value de la protéine (-8), le nombre de peptides uniques, ou la description de la protéine.
Visualisation des résultats (3) En cliquant sur la protéine, le détail de l identification s affiche. Dans cet exemple, l identification en double passe à permis d identifier des peptides semi-trypsiques et le N-ter de la protéine (Acetylé avec excision de la Met)
Visualisation des résultats (4) En cliquant sur la séquence du peptide, le spectre MS/MS annoté s affiche. Il s agit là d un peptide N-ter acétylé détecté en analyse automatique.
Visualisation des résultats (5) Dans le cas où des peptides sont communs à plusieurs protéines, on peux voir leur répartition dans le mode homolog. Le nombre de peptides indiqué correspond à ceux spécifiques à une protéine comparée aux protéines de valeur de E-value supérieure.
Filtrage automatique des résultats Nous avons développé une application Java permettant de filtrer les résultats X! Tandem et de créer des rapport Excel. (http://pappso.inra.fr/bioinformatique.html) Vue protéine Vue peptide
Comparaison avec d'autres moteurs d'identification
Comparaison 'in house' Les résultats proviennent de l'analyse en LC-MS/MS d'un extrait total de levure. X!Tandem est plus sensible et spécifique dans ces conditions que Sequest et Phenyx. En utilisant les paramètres de filtrage par défaut des moteurs et en ne gardant que les protéines identifiées avec 2 peptides, X!Tandem identifie plus de protéines.
Gelio A., Biology direct (2008) Comparaison des courbes de ROC pour l'identification de spectres MS/MS contenant 1 peptide (bleu) ou un mélange de 2 (vert) ou 3 (rouge) peptides. X!Tandem est plus spécifique que Sequest et Mascot pour les spectres ne contenant qu'un peptide. X!Tandem est plus sensible et spécifique que Sequest et Mascot pour des spectres contenant des peptides co-élués.
Gelio A., Biology direct (2007) Détermination de la corrélation entre les E-value (Mascot, X!Tandem) ou le score (Sequest) et le taux de faux positifs. X!Tandem et Mascot montrent une corrélation linéaire contrairement à Sequest. X!Tandem et Sequest ne sont pas sensibles à la taille de la banque contrairement à Mascot.
Brosch M., Mol Cell Proteomics (2008) Effet de l'espace de travail (Précision mass du précurseur) sur la sensibilité et la spécifié de Mascot et X!Tandem X!Tandem est peu sensible à l'espace de travail contrairement à Mascot (MIT = Mascot identity threshold)
Brosch M., Mol Cell Proteomics (2008) Comparaison des courbes de ROC entre Mascot (MIT et MHT) et X!Tandem (E value) MIT = Mascot identity threshold (Théorique) MHT = Mascot homology threshold (Expérimental) MATH = Mass accuracy-based threshold (Rudnick et al.) AMT = Adjusted Mascot threshold X!Tandem est meilleur que le MIT et le MATH, mais inférieur au MHT et AMT.