M2 - STL. Algorithmes sur les séquences en bioinformatique. Qu est-ce que la bioinformatique? Cours 1: Introduction

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Introduction aux bases de données: application en biologie

MABioVis. Bio-informatique et la

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Base de données bibliographiques Pubmed-Medline

Big data et sciences du Vivant L'exemple du séquençage haut débit

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Bibliographie Introduction à la bioinformatique

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Perl Orienté Objet BioPerl There is more than one way to do it

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

VI- Expression du génome

TD de Biochimie 4 : Coloration.

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Contrôle de l'expression génétique :

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

CATALOGUE DES PRESTATIONS DE LA

Génétique et génomique Pierre Martin

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Bases de données et outils bioinformatiques utiles en génétique

Identification de nouveaux membres dans des familles d'interleukines

Prédiction de la structure d une

Les OGM. 5 décembre Nicole Mounier

MYRIAD. l ADN isolé n est à présent plus brevetable!

Gènes Diffusion - EPIC 2010

Luca : à la recherche du plus proche ancêtre commun universel Patrick Forterre, Simonetta Gribaldo, Céline Brochier

Extraction d information des bases de séquences biologiques avec R

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Séquence 2. L expression du patrimoine génétique. Sommaire

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Bases moléculaires des mutations Marc Jeanpierre

Univers Vivant Révision. Notions STE

Génomique Comparative et intégrative

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Cellules procaryotes Service histologie Pr.k.mebarek

Les débuts de la génétique

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Biomarqueurs en Cancérologie

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Intelligence Artificielle et Robotique

2 C est quoi la chimie?

UE6 - Cycle de vie du médicament : Conception rationnelle

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Séquence 1. Reproduction conforme de la cellule et réplication de l ADN Variabilité génétique et mutation de l ADN

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Les apports de l informatique. Aux autres disciplines

Introduction à la Génomique Fonctionnelle

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence.

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Resolution limit in community detection

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Calcul intensif pour la biologie

I. Une nouvelle loi anti-discrimination

L universalité et la variabilité de l ADN

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Conception de Médicament

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Structure quantique cohérente et incohérente de l eau liquide

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Eco-système calcul et données

Conférence technique internationale de la FAO

Big Data et la santé

K W = [H 3 O + ] [OH - ] = = K a K b à 25 C. [H 3 O + ] = [OH - ] = 10-7 M Solution neutre. [H 3 O + ] > [OH - ] Solution acide

données en connaissance et en actions?

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Séquence 4. La nature du vivant. Sommaire. 1. L unité structurale et chimique du vivant. 2. L ADN, support de l information génétique

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

TP3 Test immunologique et spécificité anticorps - déterminant antigénique

Mario Geiger octobre 08 ÉVAPORATION SOUS VIDE

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Analyse des données de séquençage massif par des méthodes phylogénétiques

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Depuis des milliers de générations, le ver à soie est l objet d une sélection

Plus courts chemins, programmation dynamique

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno )

Possibilités offertes après la L2?

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Le traitement du paludisme d importation de l enfant est une urgence

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Transcription:

M2 - STL Qu est-ce que la bioinformatique? Algorithmes sur les séquences en bioinformatique La bioinformatique est définie d habitude comme l analyse, la prédiction et la modélisation de données biologiques à l aide de l ordinateur. Cours 1: Introduction Alessandra Carbone Université Pierre et Marie Curie Nouvelles méthodes d analyse mathématique, informatique, physique sont demandées. A.Carbone - UPMC 2 1. Introduction aux séquences d ADN et aux mécanismes biologiques 2. Algorithmes de comparaison de séquences : utilisation de la programmation dynamique 3. Algorithmes de recherche de motifs : utilisation des modèles de Markov cachés 4. Algorithmes de prédiction des gènes 5. Algorithmes de prédiction de structures des ARN 6. Algorithmes d alignement de structures des protéines TP (4h) Programme du cours Alignement des séquences (Blast, ClustalW, analyse des paramètres) Alignement des structures de protéines Plan du cours en février (IAD) «Algorithmes sur arbres et graphes en bioinformatique» Introduction aux mécanismes biologiques Séquençage de génomes et problèmes algorithmiques Phylogénie des espèces et des molécules Interaction des molécules et réseaux biologiques Algorithmes pour la reconstruction de séquences à partir de cartes génétiques Algorithmes de traitement des réarrangements des génomes Algorithmes pour la construction d arbres phylogénétiques Reconstruction de réseaux biologiques Graphes aléatoires et graphes dits small world Recherche algorithmique de motifs combinatoires sur les réseaux biologiques TP (4h) A.Carbone - UPMC 3 A.Carbone - UPMC 4

Qu est-ce que la bioinformatique? Chemotaxis - Étudier l organisation des génomes - Élucider et quantifier les processus biologiques Un exemple de recherche des mécanismes : les réseaux de protéines dans la chemotaxis A.Carbone - UPMC 5 A.Carbone - UPMC 6 nager tâter Cellules utilisent des réseaux de protéines pour contrôler leurs comportement GGTACTTACCTTGGA GAGATTCCATTACCG CGCGTAGCGCTTAAT TCCGCGAGATCGAT CGATCGTGCATTCAA TTCAGCGCATACGAT CGACTACTTCAGCG GAATCAATCGAAGT A.Carbone - UPMC 7 Qu est-ce que code la séquence? A.Carbone - UPMC 8

ADN ADN double brin Lien phosphatique Lien hydrogène Lien C-C A.Carbone - UPMC 10 Table des énergies ADN double helice kcal/mol Formation spontanée Note: 1 mol = quantité de substance contenant 6.0221367 x 10 23 molécules A.Carbone - UPMC 11 A.Carbone - UPMC 12

Hibridation et l effet zipping Arrangement de l ADN dans une cellule A.Carbone - UPMC 13 A.Carbone - UPMC 14 Echelles - dimensions Transcription et traduction RNAmessager transcription protéine traduction A.Carbone - UPMC 15 A.Carbone - UPMC 16

Transcription Transcription dans les eucaryotes A.Carbone - UPMC 17 A.Carbone - UPMC 18 Exons et introns Traduction: redondance du code génétique A.Carbone - UPMC 19 A.Carbone - UPMC 20

Traduction De l ARN à la protéine Aminoacyl-tRNA synthetases A.Carbone - UPMC 21 A.Carbone - UPMC 22 Mutations: la similarité des protéines Repliement des protéines A.Carbone - UPMC 23 protéine ribosomale L20 Aquifex aeolicus protéine polya binding Homo sapiens A.Carbone - UPMC 24

Superposition des deux structures Substitution Délétion Insertion d acides-aminés Echelles et dimensions (continuation) bactérie et homme Programme d alignement de structures PROSUP bactérie: ----WIARINAAVRA--YGLNYSTFINGLKKAGIELDRKILADMAVRDPQAFEQVVNKVKEALQVQequiv.: *********** ******* ************************* homme: HRQALGERLYPRVQAMQPAFASKITG------MLLELSPAQLLLLLASEDSLRARVDEAMELIIAHG Identite: # # # # # A.Carbone - UPMC 25 Nombre d identité = 5; RMSD = 2.41Å A.Carbone - UPMC 26 Problèmes calculatoires I : la recherche des gènes dans les génomes procaryotes : http://www.tigr.org Etant donnée une séquence d ADN, prédire la position des gènes (Open Reading Frames, ORF), des exons et des introns. Codons stop A.Carbone - UPMC 27 A.Carbone - UPMC 28

Problèmes calculatoires II : l alignement des séquences Les recherches des gènes peuvent être réalisées ab initio, comme dans la méthode précédente, ou bien en exploitant de l information sur les gènes déjà trouves dans d autres génomes. Etant données deux (ou plusieurs) séquences d ADN ou de protéines, trouver le meilleur alignement entre elles. A.Carbone - UPMC 29 A.Carbone - UPMC 30 Une séquence ACGTACGT a pu évoluer pour donner : ACG T A CG T ACACGGTCCTAATAATGGCC AC GTA C G T CAG GAAGATCTTAGTTC Les probabilités d insertion, délétion et substitution seront utilisées pour reconstruire l alignement cherché : matrices de substitution. probabilités de délétion: 0.0001 insertion: 0.001 substitution A/G, T/C: 0.00008 substitution A/C, T/G: 0.00002 Un alignement entre les deux séquences pourrait être AC AC GGTCCTAAT AATGGCC CAG GAA G AT CTTAGTTC A.Carbone - UPMC 31 A.Carbone - UPMC 32

On définie un coût/«pénalité» d occurrence pour l ensemble d opérations possibles. Pourquoi? ANNOTATION DES GENOMES Exemple: insertion -> ouverture d un gap avec pénalité Meilleur alignement = alignement avec pénalité ayant la plus petite somme de pénalités séquences similaires ont une origine commune et souvent une fonction similaire : recherche d homologie de séquences (les séquences sont issues d un ancêtre commun) A.Carbone - UPMC 33 A.Carbone - UPMC 34 Problèmes calculatoires III : le réarrangement des génomes Un exemple : l homme et la sourie La sourie a 2.1 x10 9 bp vs 2.9 x 10 9 bp chez l homme. A peu près 95% du matériel génétique est partagé. 99% des gènes partagés sur un totale de 30,000. Les 300 gènes sans homologues dans les deux espèces concernent surtout l immunité, la détoxification, l odeur et la sexualité. Homme et sourie Il existe une quantité significative de réarrangement des génomes entre homme et sourie. Ici on voit la carte du chromosome 3 chez l homme. Il contient des séquences homologues a au moins 5 chromosome de la sourie. A.Carbone - UPMC 35 A.Carbone - UPMC 36 homme sourie

Mécanismes: Duplication de gènes (un ou plusieurs a la fois), insertions Gene 1 2 3 4 Etant données deux permutations d un ensemble de segments génomiques, trouver l ensemble minimale d opérations pour transformer une permutation dans l autre 1 1 2 3 4 et inversion de gènes A.Carbone - UPMC 37 A.Carbone - UPMC 38 Un 2eme exemple : duplication massive du génome de la levure Les réarrangements des génomes sont rares par rapport aux mutations ponctuelles: 10 substitutions par génération d un organisme 1 réarrangement non fatale chaque 5-10 millions d années La rarité des événements de réarrangement nous permet d établir l existence de processus évolutionnaires parce que la chance d un renversement est minuscule. En conséquence, par la découverte de tous réarrangements, nous pouvons reconstruire des hypothèses évolutionnaires. A.Carbone - UPMC 39 A.Carbone - UPMC 40

Problèmes calculatoires IV : le repliement des ARN Exemples : Etant donnée une séquence de nucléotides AUCG, prédire la structure secondaire de l ARN (sans ou avec pseudo-noeuds) ARN avec pseudo noeud A.Carbone - UPMC 41 A.Carbone - UPMC 42 Problèmes calculatoires IV : le repliement des protéines Etant donnée une séquence de protéines, prédire la structure tertiaire de la protéine Prédiction de-novo de la structure: problème ouvert Plusieurs approches pour approximer la structure de la protéine existent : Modélisation par homologie utilise une base de données de protéines pour chercher des séquences similaires. Si une protéines avec homologie d au moins 30% est trouvée, c est assez probable que les deux protéines ont la même structure A.Carbone - UPMC 43 Threading classifie les structures connues dans des familles avec repliement similaire. Etant donnée une séquence d acides aminés, on sélectionne la famille d appartenance la plus probable. A.Carbone - UPMC 44

Problèmes calculatoires V : l assemblage des séquences Séquençage des génomes Pour séquencer des large portion d ADN, il est possible de le partager dans des petits fragments et effectuer le séquençage sur ces morceaux. Le problème que se présent est la reconstruction de la chaîne a partir de ces séquences. Etant donné un ensemble de séquences, trouver la chaîne de longueur minimale qui contient tous les membres de l ensemble de sous-chaînes. Ce problème est NP-complet. Il y a des algorithmes gourmands qui réalisent le réassemblage de façon satisfaisante en temps raisonnable. Le problème 45 est difficile a cause des nombreuses séquences répétées. A.Carbone - UPMC 46 De la séquence au comportement intégré Longueurs des génomes Annotation des génomes (vers la fonctionnalité des protéines) Comparaison entre génomes (évolution et génétique) Réseaux complexes d interaction (réseaux métaboliques, de régulation de gènes, d interactions protéines-protéines/ protéines-adn) Liaison entre les nombreux niveaux d organisation hiérarchique Construction de bases de données A.Carbone - UPMC 47 A.Carbone - UPMC 48

Comparaison des tailles des génomes Analyse statistique à large échelle Le génome de Plasmodium falciparum, le parasite qui cause la malaria, fait 23 Mb en taille. Le génome humain est environs 150 fois plus large, celui de la sourie > 100 fois, et celui de la drosophile > 5 fois plus grand. Questions: comment les génomes des ancêtres ont pu devenir plus longs au cours de l évolution? En quoi se différencie leur matériel génétique? A.Carbone - UPMC 49 A.Carbone - UPMC 50 Temperature de croissance optimale On peut aujourd hui définir des espaces formels de génomes Un nombre de gènes comparable A.Carbone - UPMC 51 pourcent AT A.Carbone - UPMC 52

Homologie des gènes entre espèces Recherche de protéines dans différentes espèces : comparaison de séquences Les bases de données d ADN sont plus larges que celles des protéines La traduction d une séquence d ADN dans une protéine induit une perte d information Les séquences de protéines sont plus préservées que les séquences d ADN. Traduire une séquence d ADN dans une protéine amène toujours à des meilleures résultats! A.Carbone - UPMC 53 A.Carbone - UPMC 54 A.Carbone - UPMC 55 A.Carbone - UPMC 56

Analyse des protéines dans différentes espèces : critère de détection de leur lien fonctionnel fusionnement de protéines A.Carbone - UPMC 57 A.Carbone - UPMC 58 Génomique comparative: profiles phylogénétiques Réseaux complexes d interaction : réseaux de protéines 1 1 1 A.Carbone - UPMC 59 A.Carbone - UPMC 60

La bioinformatique porte surtout sur les similarités entre espèces Analyse des régions non-codantes et recherche de motifs A.Carbone - UPMC 61 Jusqu aujourd hui elle explique très peu des telles différences A.Carbone - UPMC 62 Pour comprendre les différences entre organismes il faut descendre au niveau moléculaire et étudier les interactions entre gènes. Logique On cherche un modèle qui soit capable de générer pleins d organismes différents à partir d une combinaison de très peu de signaux et très peu de gènes! A.Carbone - UPMC 63 A.Carbone - UPMC 64

Exemple : développement de l oursin de mer A.Carbone - UPMC 65 A.Carbone - UPMC 66 Circuit de gènes de développement de l oursin Problème calculatoire V: la recherche de motifs régulateurs dans les régions promotrices -400-300 bps gène région promotrice A.Carbone - UPMC 67 A.Carbone - UPMC 68

Nouvelles technologies : les puces à ADN Exemple: analyse du cycle cellulaire de la levure A.Carbone - UPMC 69 A.Carbone - UPMC 70 Bases de données et outils Pourquoi rechercher dans les bases de données: Séquence d ADN nouvelle: est-elle/une partie/un homologue déjà dans la base? Recherche de l annotation de la séquence Recherche de séquences non-codantes similaires: éléments répétés, séquences régulatrices Trouver des mauvais sites d enzymes de restriction Recherche de protéines homologues Séquences et annotation GenBank Natl. Center Biol. Inform. http://www.ncbi.nlm.nih.gov DNA databank of Japan http://www.ddbj.nig.ac.jp/ EMBL-EBI + Sanger Inst. http://www.ensembl.org TIGR The Inst. For Genomic Res. http://www.tigr.org A.Carbone - UPMC 71 Centre National de Séquençage http://www.genoscope.cns.fr/ A.Carbone - UPMC 72

Génomes spécialisés Human Genome Database http://gdbwww.gdb.org/ Drosophila Database http://flybase.bio.indiana.edu/ C.elegans database http://www.wormbase.org/ Plasmodium falciparum database http://plasmodb.org/ Méthodes de recherche d annotation dans plusieurs bdd Sequence Retrieval System Lien à 80 bases de données biologiques http://srs.ebi.ac.uk/ Entrez Recherche dans les bases de données de NCBI http://www.ncbi.nlm.nih.gov/entrez A.Carbone - UPMC 73 Croissance des bases de données d ADN Nombre de nucleotides A.Carbone - UPMC 74 La croissance est exponentielle Problèmes avec les bdd existantes Protéines (séquences d acides-aminés) Elles sont régulées par les utilisateurs plutôt que d avoir une gestion centralisée La donnée peux être changée/mise à jours seulement par son patron Séquences ne sont pas à jours Large redondance dans les bdd et entre elles Manque de standards pour les champs d accès ou l annotation A.Carbone - UPMC 75 PBD Protein Data Bank http://www.rcsb.org/pdb Expert Protein Analysis System : SwissProt + TrEMBL, Prosite, http://www.expasy.org PIR Protein Information Resource http://pir.georgetown.edu Depuis 1960 A.Carbone - UPMC 76

Nouvelles structures et nombre totale de structures dans PDB A.Carbone - UPMC 77 Familles de protéines et classification Database of protein families and domains http://www.expasy.org/prosite/ Protein families database of alignments http://www.sanger.ac.uk/software/pfam/ Homologous Structure alignment Database http://www-cryst.bioc.cam.ac.uk/~homstrad/ Macromolecular Structure Database SSM (Secondary Structure Matching), http://www.ebi.ac.uk/msd-srv/ssm/ssmstart.html CATH - Protein Structure Classification http://www.biochem.ucl.ac.uk/bsm/cath/ SCOP - Structural Classification of Proteins http://scop.berkeley.edu/ FSSP - repository for secondary structure alignment data http://www.rfcgr.mrc.ac.uk/bioinformatics/databases/fssp-help.html 78 Protéines + Facteurs de transcription NRL_3D directement relie a la structure des protéines; contient séquences extraites de PDB avec structures secondaires, sites actifs, sites de liaison, annotations, détails de méthodes expérimentales, résolution, R-facteur, etc. GenPept supplément a Genbank; traduction de régions codantes dans GenBank. Annotation minimale. Pfam BioBase Database http://www.gene-regulation.com/pub/databases.html#transfac Tess - Transcription Element Search System http://www.cbil.upenn.edu/tess/ Réseaux métaboliques BioCyc database http://www.biocyc.org/ KEGG pathways http://www.genome.jp/kegg/pathway.html A.Carbone - UPMC 79 A.Carbone - UPMC 80

D autres domaines de la bioinformatique Références bibliographiques d introduction - Structure de protéines Alignement de structures de protéines Prédiction de structure secondaire des protéines - Structures des ARN et dynamique de repliement - Prédiction des sites d interaction entre protéines, ou protéine/adn - Phylogénie des séquences - Analyse des séquences : biais des codons - Génomique comparative et l espace des génomes - Reconstruction des réseaux métaboliques * * * * * * A.Carbone et M.Gromov «Mathematical slices of molecular biology» Gazette des Mathématiciens, édition spéciale, Société Mathématique de France, numéro 88, 11-80, 2001. http://www.ihes.fr/preprints/m01/resu/resu-m01-03.html#99-3 et références dans l article. A.Carbone - UPMC 81 A.Carbone - UPMC 82