PRÉSENTATION DE LA BIOINFORMATIQUE

Documents pareils

Introduction aux bases de données: application en biologie

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

EMME : un environnement de gestion des métadonnées expérimentales

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Qu'est-ce que c'est??

MABioVis. Bio-informatique et la

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

OBJECTIFS. Une démarche E-science

SysFera. Benjamin Depardon

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Perl Orienté Objet BioPerl There is more than one way to do it

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Business Intelligence

Vérifier la qualité de vos applications logicielle de manière continue

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Prédiction de la structure d une

Métiers - informatique et Internet Jobs - IT and Internet

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Base de données bibliographiques Pubmed-Medline

Business Intelligence avec Excel, Power BI et Office 365

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

TRAVAUX DE RECHERCHE DANS LE

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

Le Processus RUP. H. Kadima. Tester. Analyst. Performance Engineer. Database Administrator. Release Engineer. Project Leader. Designer / Developer

Limitations of the Playstation 3 for High Performance Cluster Computing

Services à la recherche: Data Management et HPC *

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Eco-système calcul et données

Le nouveau visage de la Dataviz dans MicroStrategy 10

données en connaissance et en actions?

Présentation du module Base de données spatio-temporelles

Accélérer la transformation de vos nouveaux modèles assurances

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Détection et prise en charge de la résistance aux antirétroviraux

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Spécificités, Applications et Outils

Valorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software

Les bases de données transcriptionnelles en ligne

Extraction d information des bases de séquences biologiques avec R

1 Description générale de VISFIELD

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

L art d ordonnancer. avec JobScheduler. François BAYART

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Présentation du PL/SQL

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

FILIÈRE TRAVAIL COLLABORATIF

Messagerie & Groupeware. augmentez l expertise de votre capital humain

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail.

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Quels apprentissages info-documentaires au collège?

AGROBASE : un système de gestion de données expérimentales

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Ingénieur R&D en bio-informatique

Identification de nouveaux membres dans des familles d'interleukines

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Migration du pack office Planification, préparation, déploiement et formation

Samson BISARO Christian MAILLARD

Les technologies du Big Data

Les Eléments clés du projet

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Bibliographie Introduction à la bioinformatique

Programmation C. Apprendre à développer des programmes simples dans le langage C

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

Catalogue des formations Edition 2015

Catalogue Formation «Vanilla»

BIG DATA en Sciences et Industries de l Environnement

Tutoriel Cloud IFB - Initiation -

Ricco Rakotomalala R.R. Université Lyon 2

Support de TD ArcGIS Introduction à l automatisation et au développement avec ArcGIS 10.1 JEAN-MARC GILLIOT e année ingénieur

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SOCLE COMMUN: LA CULTURE SCIENTIFIQUE ET TECHNOLOGIQUE. alain salvadori IA IPR Sciences de la vie et de la Terre ALAIN SALVADORI IA-IPR SVT

Les mésocentres HPC àportée de clic des utilisateurs industriels

#BigData Dossier de presse Mai 2014

Les BRMS Business Rules Management System. Groupe GENITECH

Master Informatique Aix-Marseille Université

Hervé Couturier EVP, SAP Technology Development

Principes. 2A-SI 3 Prog. réseau et systèmes distribués 3. 3 Programmation en CORBA. Programmation en Corba. Stéphane Vialle

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

Jean-François Boulicaut & Mohand-Saïd Hacid

Guide d'installation rapide TFM-560X YO.13

2011 Hakim Benameurlaine 1

ES Enterprise Solutions

fourniture de ressources à tous les terminaux en tant que services

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Transcription:

PRÉSENTATION DE LA BIOINFORMATIQUE O. Collin CNRS IRISA GenOuest 7 octobre 2013 Warming session Poser le décor pour les 3 jours Mise en évidence et mise en relation des éléments clés Réflexions sur quelques points importants Tour de table Nom Activité Attente vis-à-vis de cette session d introduction 1

INTRODUCTION Définition Wikipedia Concepts et techniques nécessaires à l interprétation informatique de l information biologique Champ de recherche multi-disciplinaire Volet recherche (élaboration de nouvelles méthodes) et volet service (analyse de données assurée par/sur les plates-formes). 2

Histoire de la bioinformatique Intimement liée à la Biologie Moléculaire Mais également aux progrès en traitement de l information http://www.dipity.com/cistronic/bioinformatics/ Evolution de la bio-informatique Ouzounis. Rise and demise of bioinformatics? Promise and progress. PLoS Comput Biol (2012) vol. 8 (4) pp. e1002487 3

LE PAYSAGE DE LA BIOINFORMATIQUE Acteurs de la bioinformatique Bioinformatics Internship Bioinformatics Postdoc Bioinformatics Analyst (I, II, III) Senior Bioinformatics Analyst Bioinformatics Analyst Programmer (I, II, III) Bioinformatics Developer Senior Bioinformatics Developer Bioinformatician (I, II, III) Bioinformatics Expert Bioinformatics Systems Administrator Bioinformatics Research Fellow Bioinformatics Research Assistant Bioinformatics Research Associate Bioinformatics Scientist (Researcher) Bioinformatics Senior (Staff) Scientist Bioinformatics Project Manager Director (Head) of Bioinformatics http://www.biostars.org/p/398/ 4

Acteurs de la bioinformatique Bio-informaticien Informaticien Biologiste Bio-analyste Bio-informaticien Administrateur système Produit les données pour réponde à une question biologique Analyse les données produites en amont Développe de nouvelles méthodes ou de nouveaux outils Développeur logiciel Installe les outils pour l analyse et maintient les systèmes de calcul Acteurs de la bioinformatique Bio-informaticien Informaticien Biologiste R Bio-analyste I Bio-informaticien R Administrateur système I Produit les données pour réponde à une question biologique Analyse les données produites en amont Développe de nouvelles méthodes ou de nouveaux outils Développeur logiciel I Installe les outils pour l analyse et maintient les systèmes de calcul 5

La bioinformatique à l IRISA/INRIA Symbiose : un centre de ressources en bio-informatique Deux équipes de recherche (Dyliss et Genscale) Une plate-forme bio-informatique : GenOuest Profiter du savoir-faire et de l infrastructure d un centre de recherche en informatique. Une association unique en France Mission/vocation Recherche en informatique Plate-forme bioinformatique Recherche en Biologie 6

Soutien recherche Services Calcul, Développement Hébergement, Formations Transfert technologique Infrastructure Puissance de calcul, logithèque Stockage Banques de données mises à jour Rôle central et fédérateur Développements technologiques GRISBI genocloud genocluster BioMAJ Grille Cloud Calcul Cluster Biologie intégrative BioWIC SeqCrawler Données e-biogenouest Workflows BioSide Ontologies Metadonnées Collaboratif Portail Galaxy EMME ADT INRIA MobyleNet Web services Elgg OpenLDAP Hubzero Opal Toolkit 7

GenOuest Plate-forme bioinformatique Puissance de calcul Stockage Banques Hébergement Formations Un environnement bioinformatique complet GenOuest en chiffres 2 clusters : 500 CPUs Stockage : 60 To + 20 To + 60 To 150 logiciels 82 banques (5,5 To) 250 utilisateurs authentifiés 200 000 jobs par mois en 2011 12 ingénieurs (développeurs, bioanalystes, sysadmins) Certifiée ISO9001:2008 depuis 2008 8

Environnement Données Logiciel Interface Calcul Environnement Données Logiciel Interface Utilisateur Calcul Machines 9

Environnement Banques BioMAJ Données Logiciel Interface Ligne cde Mobyle Utilisateur Calcul Galaxy PHP DRMAA Machines Environnement Banques BioMAJ Données Logiciel Interface Ligne cde Mobyle Utilisateur Calcul Galaxy PHP DRMAA Machines 10

Qu est-ce qu un environnement bioinformatique? Quelque chose qui offre la possibilité d analyser ses données Données digitales Environnement informatique Système d exploitation Outils et données de référence Possibilité de développer de nouveaux outils Question biologique Données Résultats «Bio» «Bioinfo» «Info» 11

CONTEXTE Un contexte pas facile mais palpitant Contexte Foisonnement de logiciels et de ressources en bioinformatique Bio-Linux 7 (nov 2012) : plus de 500 logiciels Nucleic Acids Research Database Issue 2013 : 1512 bases répertoriées par NAR (Nucl. Acids Res. (1 January 2013)41 (D1): D1- D7.doi: 10.1093/nar/gks1297) Bioinformatics links directory (http://bioinformatics.ca/links_directory/) 1459 outils 12

Contexte Kahn. On the future of genomic data. Science (2011) vol. 331 (6018) pp. 728-9 Comment affronter ces problèmes? Connaître des logiciels de base Connaître des banques généralistes et leur mode d interrogation Automatisation des traitements pour lutter contre l afflux de données Connaissances d un environnement adapté (Windows pas forcément adapté) Evoluer au sein d un réseau de compétences Les problèmes sont trop compliqués pour être affrontés seul(e). 13

CONCEPTS Concepts Analyse de données avec l outil bioinformatique Enchaînement de programmes Données Résultats Données P1 Sortie 1 Entrée n Pn Résultats Paramètres P1 Paramètres Pn 14

Concepts Données Données P1 Sortie 1 Entrée n Pn Résultats Résultats Problèmes d utilisation Enchaînement de programmes : savoir quels programmes utiliser Format des données : outils de conversion Manipulation de fichiers : compliqué si beaucoup de données Automatisation : scripting ou développement Données : séquences, bases, banques 15

FORMATS DE SÉQUENCES Une jungle de formats Formats «originels» Issus des banques de séquences : GenBank, EMBL, SwissProt, PDB, etc. Formats liés aux outils Staden, Fasta, Phylip, etc. Formats enrichis Génome : GFF Nouveaux formats liés aux NGS BED SAMs 16

Formats «originels» GenBank Conçu pour être lisible et pour proposer différentes informations sur la séquence : annotations, bibliographie. Format texte Identifiants // à la fin de l enregistrement 17

Formats liés à un outil Packages : Staden, GCG Suite logicielle : Phylip Programme alignement : ClustalW Outil de conversion est indispensable : seqret de la suite Emboss GFF3 Annotations génomiques Format tabulé 9 colonnes 18

GFF3 : Generic Feature Format 3 ##gff-version 3 ##sequence-region ctg123 1 1497228 ctg123. gene 1000 9000. +. ID=gene00001;Name=EDEN ctg123. TF_binding_site 1000 1012. +. Parent=gene00001 ctg123. mrna 1050 9000. +. ID=mRNA00001;Parent=gene00001 ctg123. mrna 1050 9000. +. ID=mRNA00002;Parent=gene00001 ctg123. mrna 1300 9000. +. ID=mRNA00003;Parent=gene00001 ctg123. exon 1300 1500. +. Parent=mRNA00003 ctg123. exon 1050 1500. +. Parent=mRNA00001,mRNA00002 ctg123. exon 3000 3902. +. Parent=mRNA00001,mRNA00003 ctg123. exon 5000 5500. +. Parent=mRNA00001,mRNA00002,mRNA00003 ctg123. exon 7000 9000. +. Parent=mRNA00001,mRNA00002,mRNA00003 ctg123. CDS 1201 1500. + 0 ID=cds00001;Parent=mRNA00001 ctg123. CDS 3000 3902. + 0 ID=cds00001;Parent=mRNA00001 BED Annotations génomiques Développé pour le Genome Browser UCSC 3 champs impératifs 9 champs optionnels 19

BED browser position chr7:127471196-127495720 browser hide all track name="itemrgbdemo" description="item RGB demonstration" visibility=2 itemrgb="on" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0-127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0-127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0-127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0-127480532 127481699 0,0,255 SAM : Sequence Alignment/Map Format pour alignement des reads Proposé dans le cadre des 1000 génomes Format tabulé Sa forme indexée = BAM http://samtools.sourceforge.net/sam1.pdf Li et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics (2009) vol. 25 (16) pp. 2078-9 20

Conclusion sur formats Grande diversité Evolution constante Besoin de convertisseurs BANQUES 21

Bases et banques Quantité croissante des banques : 1380 env. NAR : http://www3.oup.co.uk/nar/database/c Multiplicité des bases (et des formats) : défi pour l intégration des données Hétérogénéité des données Hétérogénéité de structure des bases Certains champs ou propriétés non interrogeables Métabanques Evolution 160000000000,00 140000000000,00 120000000000,00 Entries 100000000000,00 160000000,00 140000000,00 120000000,00 100000000,00 80000000,00 60000000,00 40000000,00 20000000,00 0,00 Entries 80000000000,00 60000000000,00 40000000000,00 20000000000,00 Base Pairs Entries Feb 1986 Mar 1988 Mar 1990 Jun 1992 Feb 1994 Aug 1995 Feb 1997 Aug 1998 Apr 2000 Oct 2001 Apr 2003 Oct 2004 Apr 2006 Oct 2007 Apr 2009 Oct 2010 Apr 2012 0,00 Aug 1986 Dec 1988 Sep 1991 Dec 1993 Oct 1995 Aug 1997 Aug 1999 Jun 2001 Apr 2003 Feb 2005 Dec 2006 Oct 2008 Aug 2010 GenBank : 560 Go 22

Typologie des banques Banque généraliste : GenBank SwissProt Banque spécialisée :organisme MGD Mouse Genome Database FlyBase Banque spécialisée : thème InterPro EPD eukaryotic promoter database Banque spécialisée : métabolisme KEGG EcoCyc Banque spécialisée :interactions DIP BIND Banque spécialisée : famille PKR: protein kinase resource RNA 16S 23

Difficultés Le souci principal est l hétérogénéité des données: hétérogénéité des données hétérogénéité de structure des bases Certains champs ne sont pas interrogeables. Percolation Une séquence : «Putative dinosaur genomic DNA, partial sequence» XXU41319 ctattcctta attaatgtct acatggctat ttttaatgtt attactgttt gtcactataa aaaaacgctc atttgagaca atactgacat taactgcttc aacttctacg cacggaactt ttaattaaat tagcacagga atgttaaatt taatanacaa aaggttattt cgctgtatga taaaaaaaac c Résultats : Score E Sequences producing significant alignments: (bits) Value gi 1171159 gb U41319.1 XXU41319 Putative dinosaur genomic D... 311 3e-82 gi 48994873 gb U00096.2 Escherichia coli K-12 MG1655 compl... 258 4e-66 gi 1800040 dbj D90890.1 E.coli genomic DNA, Kohara clone #... 258 4e-66 gi 1800027 dbj D90889.1 E.coli genomic DNA, Kohara clone #... 258 4e-66 gi 56384585 gb AE005174.2 Escherichia coli O157:H7, comple... 234 6e-59 gi 47118301 dbj BA000007.2 Escherichia coli O157:H7 DNA, c... 234 6e-59 gi 11340291 emb AL359633.15 Human DNA sequence from clone... 42 0.44 gi 56542470 gb AE008692.1 Zymomonas mobilis subsp. mobilis... 40 1.8 gi 45381968 emb AL109844.14 HSJ636L22 Human DNA sequence fr... 40 1.8 gi 42733300 emb AL929056.20 Zebrafish DNA sequence from cl... 40 1.8 gi 5777575 emb AL078463.11 HSJ365I19 Human DNA sequence fro... 40 1.8 gi 47115352 emb CR407567.2 Human DNA sequence from clone R... 40 1.8 gi 32451243 emb BX537114.2 Human DNA sequence from clone R... 40 1.8 24

Effet silo et autres Les banques de données biologiques intègrent les données par domaine (verticalement) mais pas entre les domaines (horizontalement). Ce qui est un obstacle à l intégration des données est également un obstacle à la soumission des données. 1300 bases de données répertoriées dans NAR Database Issue. Plus facile d obtenir des crédits pour monter une nouvelle base que pour la maintenir. Merali et Giles. Databases in peril. Nature (2005) vol. 435 (7045) pp. 1010-1 25

Synthèse DONNÉES EXPÉRIMENTALES 26

Meta-données Organiser la connaissance pour exploiter au mieux les données. (une méta-donnée concerne un ensemble de données) Permettent de pérenniser les données Ce sont aussi des données qu il faudra traiter comme telles (production, gestion, protection, etc.) Métadonnée Description Qui, quoi, comment Structure Organisation des fichiers de données pour constituer un ensemble cohérent. Identifiant Localisation et identification garantie par l unicité de l id Données Admin Aspects techniques (formats de fichiers), provenance, gestion des droits. 27

Ontologies Une ontologie est une spécification explicite d une conceptualisation (Gruber 1993) Conceptualisation : vision abstraite et simplifiée du monde Une description des concepts et des relations entre les éléments constituants cette vision abstraite du monde. Permet le partage et la réutilisation des connaissances grâce à un langage commun Classifier les données et les informations Ontologies in Life Science In life sciences, there is a strong need for semantic interoperability of data OBO ontologies (Open Biomedical Ontologies) Each ontology is specialized in a subdomain: anatomy, sequences, chemicals, processes, etc. Each ontology is built independantly but designed to interoperate No conceptual integration (even if the covered domains are connected from a scientific point of view) Need for an upper level ontology http://www.obofoundry.org/ 28

Alignements Analyse de séquences Alignement Recherche dans les banques Comparaison de séquences Découverte de motifs Etc. Etape pivot dans les workflows bioinformatiques 29

Alignements Alignement global Algorithme Needleman et Wunsch Utile pour les séquences homologues Chaque base (ou résidu) d'une séquence doit être appariée avec une autre base (ou résidu) ou bien avec un espace (gap) Alignement local Algorithme Smith et Waterman Capable de trouver des domaines ou des motifs même quand les séquences n'ont que très peu de similarité Trouve le meilleur segment d'appariement entre deux séquences sans utiliser pour cela toutes les bases (ou résidus) de la séquence Needleman-Wunsch Propose un alignement mathématiquement optimal Exigeant en calcul : le remplissage de la matrice est proportionnel à MN Séquences de 100 résidus : 10 000 Séquences de 200 résidus : 40 000 30

Smith-Waterman Algorithme Smith et Waterman Capable de trouver des domaines ou des motifs même quand les séquences n'ont que très peu de similarité Trouve le meilleur segment d'appariement entre deux séquences sans utiliser pour cela toutes les bases (ou résidus) de la séquence Qualité des alignements Landan et Graur. Heads or tails: a simple reliability check for multiple sequence alignments. Mol Biol Evol (2007) vol. 24 (6) pp. 1380-3 31

Balibase Un outil de test des programmes d alignement de séquences Oxbench, Prefab, SABmark Utilisation Edgar et Batzoglou. Multiple sequence alignment. Curr Opin Struct Biol (2006) vol. 16 (3) pp. 368-73 32

Similarité/Homologie Si 2 séquences sont très similaires, on considère qu elles sont homologues. Homologie est une propriété binaire (homologue/non homologue) Protéine: 25-30% d identité -> homologie DNA : 70% d identité -> homologie Impact struct primaire/struct secondaire > 30% identité -> structure 3D est conservée Mais pas toujours Alignements multiples Progressif: ajout des séquences une à une Iteratif: raffinage de l alignement jusqu à obtention d un optimal Thompson, J. D., F. Plewniak and O. Poch. "A Comprehensive Comparison of Multiple Sequence Alignment Programs." Nucleic Acids Res 27, no. 13 (1999): 2682-90. 33

Exemple : Muscle Edgar, Robert C. "Muscle: Multiple Sequence Alignment With High Accuracy and High Throughput." Nucleic Acids Res 32, no. 5 (2004): 1792-97. Alignement multiple 34

Synthèse Recherche dans banques Outils de recherche Fasta Ssearch Blast 35

Blast Basic Local Alignment Seach Tool Idée : Si deux séquences sont similaires, elles doivent posséder des mots exacts en commun On cherche donc ces mots exacts (graines) et on étend l alignement La recherche des mots exacts accélère le processus de recherche. Blastn ADN/ADN Mapping oligonucléotides, EST, répétitions. Identification transcripts. Blastp Prot/Prot Identification régions communes entre protéines. Collecte de protéines pour analyse Blastx Prot/Nuc Découverte de gènes codants dans des génomes Tblastn Nuc/Nuc Identification des transcripts pour une protéine. Mapper une protéine sur de l ADN génomique Tblastx Nuc/Nuc Prédiction de gènes inter-espèces. Recherche de gènes ayant échappé aux recherches standard. 36

Fonctionnement de Blast Il utilise une heuristique pour éliminer les séquences non pertinentes afin de réduire les temps de recherche. Le programme cherche au début des mots de longueur fixée W (3 acides aminés ou 11 nucléotides) donnant un score T après comparaison avec une matrice de substitution. Les mots trouvés sont ensuite allongés dans les deux directions afin de trouver un alignement dont le score dépasse le score seuil S. Les paramètres W et T sont fixés par l'utilisateur. http://www.ncbi.nlm.nih.gov/education/blastinfo/blast_algorithm.ht ml 37

Rappel SW : algorithme précis Blast : approximatif Utilisation de Blast en local Téléchargement des binaires Banques pré-formatées Utilitaire formatdb Requête Fichier fasta Formatdb Blastall Banque «blastable» Résultats 38

Alignements et scores Problème de l établissement des scores: utilisation de matrices pour les protéines PAM (Point Accepted Mutation), Dayhoff BLOSUM (BLOck Scoring Matrix), Henikoff BLOSUM meilleure pour des alignements locaux PAM Margaret Dayhoff 1978 PAM: Point Accepted Mutation Analyse d alignement de séquences proches (+ de 74% d identité) Probabilité de substitution PAM1 = 1% de divergence PAM40 = 40% de divergence Biais car protéines très proches 39

Blosum62 Produite à partir d alignement de protéines identiques à 62% Blosum * : si * grandit alors distance diminue (contrairement à PAM) 40

Score avec Blosum Autres matrices http://www.genome.jp/aaindex/aaindex/list_of_matrices 41

Motifs et profils Alignements de séquences : Représentation par séquence consensus Représentation par signature/motif Représentation par profil Exemple : PROSITE, BLOCKS Pour un alignement, pour chaque colonne on précise la fréquence de chaque résidu Motif ADLGAVFALCDRYFQ SDVGPRSCFCERFYQ ADLGRTQNRCDRYYQ ADIGQPHSLCERYFQ [AS]-D-[IVL]-G-x4-{PG}-C-[DE]-R-[FY]2-Q 42

Bases de motifs http://prosite.expasy.org// http://www.bioinf.manchester.ac.uk/dbbrow ser/prints/index.php http://pfam.sanger.ac.uk/ http://prodom.prabi.fr/prodom/current/html/ home.php Profils L utilisation des profils est une méthode très sensible pour découvrir des relations entre séquences très distantes. Par rapport aux méthodes conventionnelles de comparaison de séquences, on n utilise pas qu une seule séquence pour la requête mais un profil élaboré à partir d une famille de séquences. Information d un profil : résidu / position positions importantes (hautement conservée) régions d insertion Cette description est basé sur un système de scores dépendant des positions. On conserve ainsi l information sur le degré de conservation pour différentes positions de l alignement. 43

Recherche/découverte de motifs Pattern matching ou recherche de motifs Le motif est connu On part d un motif, résultats = séquences contenant le motif Appariement avec des séquences. Pattern discovery ou découverte de motifs Le motif est inconnu On part de séquences, résultats = motifs contenu dans les séquences Alignement de séquences. Expressivité Niveaux de complexité très différents dans la définition des motifs : Précis, non ambigüe, ex : codon start, site de restriction, etc. Flous, complexes, ex : motif lié à des familles protéiques, les TFBS, etc. Le motif sera alors écrit de différentes façons... 44

Expressivité Complexité des structures primaires très inégale en acides nucléiques (alphabet de 4 lettres) et acides aminés (20 lettres) Structure primaire souvent suffisante pour les motifs protéiques pour caractériser un site biologiquement actif même s il est ambigu à certaines positions. La recherche par similarité dans les banques fonctionne bien pour identifier des motifs protéiques conservés. Par contre la faible complexité des motifs nucléiques fait que la définition en terme de structure primaire est souvent insuffisante. Il y a souvent besoin de plus d'informations pour décrire ces motifs : utilisation des représentations de motifs les plus expressives Motifs nucléiques T A A C T A T A A T G G G C Séquence consensus 45

Motifs nucléiques Motif (séquence) consensus Utilisation du code IUPAC [TCG] [ATG] [AC] C [AT] [AT] [AT] [ATC] [ATG] [AT] G G [TCG] [AC] Motifs nucléiques Pour mieux voir la conservation des colonnes de l alignement avec WebLOGO. 31/05/07 92 46

PWM et PSSM PWM : Position Weight Matrix = Table de fréquence PSSM : Position Specific Matrix = Profil prend en compte les différentes fréquences des bases pour chaque position. définit la probabilité d'apparition des bases pour chaque position du motif Utilisées dans les banques Transfac ou Jaspar. 47

07/10/2013 Bioinformatique structurale 48

Objectif Méthodes Outils Initiation d une classification et d une modélisation Vérifier l aptitude d une séquence à présenter un repliement connu, identification homologies structurales éloignées Construction d un modèle grâce à une homologie avec des structures déjà connues Vérification de l exactitude du modèle par rapport à la séquence Prédiction de structure secondaire JPred, Predict-Protein Threading 3D-PSSM, PhD, 123D+ Modélisation par homologie Vérification du modèle Modeller, SWISS-MODEL VERIFY-3D, PROCHECK, WHAT IF Prédire une structure 3D à partir de la séquence (car pas d homologue) Modélisation ab-initio ROSETTA, RAMP Structure secondaire Hélice alpha Feuillet bêta Boucle (loop) Coil 49

Prédiction structure IIaire Méthodes statistiques Probabilité pour qu un résidu soit dans la structure secondaire considérée. Méthode Chou-Fasman Méthodes stats + informations additionnelles Propriétés physico-chimiques des résidus Méthodes d apprentissage Réseaux de neurones 50

Penser aux protéines désordonnées N adoptent pas de structure à l état natif Adoptent une structure avec leur ligand 51

Structure tertiaire Ab initio (forget it) Détermination de la structure par threading Détermination de la structure par homologie 52

Threading Utilisation de bibliothèques de repliement SCOP, CATH PDB : 35000 structures 750-1500 structures différentes Nombre de nouveaux repliements identifiés dans SCOP Rouge : nombre total Bleu : nouveaux 53

Homologie Un bon alignement est le point de départ 54

Automatisation 55

Bien identifier les choses mes séquences Fichier nomfichier effacefichier() deplacefichier() Séquence nomsequence formatsequence analysesequence() Système d'exploitation Unix, Windows, MacOS Programme bioinformatique 56

Démarche 1 Savoir ce qu'on veut faire : - enchaînement des traitements Savoir ce qu'on peut faire : - lire les documentations (RTFM ;-) Connaître les programmes - utilisation de la ligne de commande - connaissance des paramètres Savoir se débrouiller dans un environnement non graphique - commande du DOS - shell Unix - connaître un éditeur Expérimenter et déboguer à petite échelle Démarche 2 Savoir ce qu'on veut faire : enchaînement des traitements Savoir ce qu'on peut faire : lire les documentations (RTFM ;-) Connaître les programmes connaissance des paramètres Utiliser un portail et des workflows 57

Workflow Objectifs du workflow scientifique Automatiser les tâches répétitives de gestion et d analyse des données Quelques actions fréquemment trouvées dans les workflows Accès aux données, planification, génération, transformation, aggrégation, analyse, visualisation Conception, test, partage, déploiement, exécution, reutilisation Workflows scientifiques Transformation de données Caractéristiques des données: volume, complexité, heterogenéité Caractère distribué Du calcul Des données Intégration des données, des outils et des analyses 58

Besoins Outils de conception pour des utilisateurs finaux Facilité Interface simple d emplois qui masque les opérations complexes Réutilisabilité des workflows Suffisamment générique pour servir différentes communautés mais suffisamment spécifique pour bien servir un domaine. Utilisable par un expert également : possibilités d extension Enregistement et publication des données et des résultats ainsi que les workflows : traçabilité et provenance Propriétés Détection d erreurs et récupération sur erreur Journalisation pour chaque workflow Permettre la gestion des données et leur intégration Permettre en temps réel de vérifier l état des workflows ainsi que leur mise à jour Visualisation Accès aux données grâce à des metadonnées Certification, confiance, sécurité 59

Interface utilisateur Evite l apprentissage d un langage de programmation Représentation visuelle des tâches du workflow Permet de suivre l exécution du workflow Permet d interagir avec le workflow Permet le partage des workflows GESTION DE PROJET BIOINFORMATIQUE 60

Généralités Projet Une tâche devant être réalisée avec des ressources limitées en un temps donné Un objectif bien précis Des ressources Un délai Projet bioinformatique Visualiser le projet Décomposer Ressources à affecter Boîte à outils 61

Visualiser le projet Avoir une vue d ensemble du projet pour pouvoir le subdiviser en tâches ou groupes de tâches élémentaires Mindmapping : cartes heuristiques Exemple : Logiciel gratuit Freemind Utilisation de gestionnaires de projet Diagrammes de Gantt Décomposer le projet Décomposer le projet en tâches Plus facile à gérer Pipelines élémentaires Input > Traitement > Output > Extraction de connaissance Penser au contrôle qualité 62

Identifier et affecter les ressources Affecter une ressource à chaque tâche Ressource = RH Ressource = équipement Ressource = Logiciel Boîte à outils logicielle Construire sa boîte à outil logicielle Programmes Scripts Penser «générique» et réutilisation Organiser son environnement 63

Avantage du mode gestion de projet Eviter de se noyer Conserver le cap Référence intéressante : Noble, W. S. A quick guide to organizing computational biology projects. PLoS computational biology 5, e1000424 (2009). Référence amusante http://ivory.idyll.org/blog/data-management.html CONCLUSION 64

Conclusion La biologie évolue La bio-informatique devient un outil Les projets deviennent de plus en plus ambitieux Il faut intégrer la bioinformatique au cœur des projets Références Understanding bioinformatics Zvelebil & Baum Garland Science Publishing 2008 65