ou Comment retrouver une aiguille dans une botte de foin? Systèmes d interrogation de banques de données La recherche porte sur les informations relatives à la séquence (non sur la séquence elle-même) Plusieurs logiciels de consultation : SRS (EBI, LION) Entrez (NCBI)... 1
Sequence Retrieval Software (SRS) développé par l EBI, repris par LION en 98 SRS propose : un système d indexation et de consultation de banques hétérogènes plus de 700 banques sont accessibles via SRS une trentaine d applications sont intégrables possibilité d indexer ses propres banques et d intégrer ses applications SRS 4 SRS 8 Sequence Retrieval Software accès par ligne de commande (getz sous unix) ou par le web il existe plus de 30 serveurs pour SRS liste disponible : http://www.lionbio.co.uk/publicsrs.html @ebi @infobiogen @pasteur @igbmc... Chaque serveur propose les banques de son choix 2
Choix des banques (Library page) 3 modes de recherche x Ne sélectionner que les banques utiles! Formulaire de requête standard Banque(s) sélectionnée(s) Combinaison entre les champs 4 champs possibles Information sur les champs 3
Mot simple Termes de recherche reductase dans le champ «Description» => entrées dont le champ «description» contient le mot «reductase» Plusieurs mots aldehyde reductase aldehyde reductase => «aldehyde» et «reductase» => «aldehyde reductase» «aldehyde reductase» => «aldehyde reductase» Opérateurs (combinaison à l intérieur d un champ) & => et => ou! => mais pas ex : reductase! aldehyde (dans le champ «description» ) => les réductases qui ne sont pas des aldehyde reductases Termes de recherche Intervalles numériques ex pour le champ longueur de la séquence (SeqLength) : 100:200 => toutes les séquences dont la longueur est comprise entre 100 et 200 1000: => supérieure ou égale à 1000 :100 => inférieure i ou égale à 100 Métacaractères * => un nombre quelconque (0 à l infini) de caractères? => un caractère et un seul cell*ase => mots commençant par «cell» et finissant par «ase» (cellobiase, cellobiohydrolase, cellulase,...) phosphat?d?l => par exemple phosphatidyl Remarque: le métacaractère * est ajouté à la fin de chaque mot par défaut 4
Format d affichage (view) Affichage par défaut Format d affichage De 5 à 10 000 entrées / page Format Fasta >BA1600 IN0ACA3YM11CM1 BA1600 CGGCCGGGGGACTCTGGATAGAGAATGGAGCATAGGTAGTTGTATGTCCA ACTACCATACAATCACGAGCATAGATTCCGTTAACAGGGTCCAGTATGAA TTCTGCCAGAAGTTTTGGACCAGCTGTTGCTATGAATATCTGGAAAAATC ACTGGGTGTACTGGATGGGTCCGATCTTGGGAGGTGTAATTGCTGGTTTA CTCTATGAGTATATATTTGCCGCTAATGCCTCAGCGAACAAAATAATGGA ATTTTTACTCTCAAGTAAATACGATACAGAAGATTTCCCTATGCAGGAAC AAAAGGTGAAAATATTAGTAGACAAAAAAAAAAAAAAAAAAAAAAAAAAA AAACATGTCGGCCG 5
Sauvegarde des résultats Type d informations extraites 6
Type «features» Type «counters» 7
Utilisation des liens entre les banques 1) Définition de l ensemble de travail 2) Choix de la banque Utiliser les liens entre les banques 3 Ensemble de travail (Current query) Banques sélectionnées 1 ID xxxxx ID xxxxx ID xxxxx 2 A B Opérateurs de liens A > B : les éléments de B qui ont un lien avec les éléments de A A < B : les éléments de A qui ont un lien avec les éléments de B 8
Utilisation des liens Entrées de la banque Swissprot ayant un lien avec l ensemble de travail Entrées de l ensemble de travail ayant un lien avec la banque Swissprot Page «Results» Possibilité de combiner les requêtes Q1 & Q2! Q3 Historique de la session 9
ENTREZ système d interrogation de banques de données http://www.ncbi.nlm.nih.gov/ ENTREZ Choix de la banque 10
Termes de recherche Opérateurs booléens (toujours en majuscule) : AND, OR, NOT Les termes peuvent être associés grâce aux parenthèses ex: Smith OR (West AND Gordon) Les «tags» permettent de restreindre la recherche à un champ précis ex: Smith h[ [au] => Smith hd dans le champ «authors» ribosome [Title word] => le mot ribosome dans le titre La page «Limits» La page «Limits» limite l espace de recherche en précisant : - le champ à prendre en considération - les banques - les dates de publications ou de modifications... Champs Génome, chloroplaste, mitochondrie Banques date 11
Preview/Index Accès aux résultats des dernières requêtes Les requêtes sont identifiées par un numéro précédé du caractère # Les requêtes peuvent être combinées (AND, OR, NOT) Preview/Index La requête en cours peut être affinée en ajoutant un nouveau terme (pour un champ donné) champs 2004 12
Preview/Index INDEX donne l ensemble des valeurs possibles pour un champ donné La page «Clipboard» Ajout des enregistrements sélectionnés dans le bloc note Sélection Récupération des enregistrements sélectionnés 13