La bio-quoi??? Introduction à la Bioinformatique. Propriétés et modèles? Propriétés et modèles? cycle cellulaire

Documents pareils
Big data et sciences du Vivant L'exemple du séquençage haut débit

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

MABioVis. Bio-informatique et la

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Introduction aux bases de données: application en biologie

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Bibliographie Introduction à la bioinformatique

Calcul intensif pour la biologie

Gènes Diffusion - EPIC 2010

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Base de données bibliographiques Pubmed-Medline

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Eco-système calcul et données

PANDORA database: a compilation of indoor air pollutant emissions

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

CHAPITRE 3 LA SYNTHESE DES PROTEINES

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Extraction d information des bases de séquences biologiques avec R

The Exploration of HIV Fitness Landscapes

Big data : vers une nouvelle science des risques?

Bases de données et outils bioinformatiques utiles en génétique

Stage Ingénieur en développement logiciel/modélisation 3D

Forthcoming Database

DigiWorlds-DigiCosme Digital Worlds: Distributed data, programs and architectures

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

1 er SEMESTRE 2012 CALENDRIER DES FORMATIONS

SysFera. Benjamin Depardon

MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABDELHAMID IBN BADIS MOSTAGANEM TUNISIE MAROC ALGERIE

EMME : un environnement de gestion des métadonnées expérimentales

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

POP-Java : Parallélisme et distribution orienté objet

Depuis des milliers de générations, le ver à soie est l objet d une sélection

Principe de symétrisation pour la construction d un test adaptatif

Relever les défis des véhicules autonomes

Spécificités, Applications et Outils

Big Data et la santé

Identification de nouveaux membres dans des familles d'interleukines

CALENDRIER DES FORMATIONS

Big Data et Graphes : Quelques pistes de recherche

: l IDRIS a vingt ans!

Perl Orienté Objet BioPerl There is more than one way to do it

Quelques algorithmes simples dont l analyse n est pas si simple

Data Mining. Master 1 Informatique - Mathématiques UAG

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Environnement et outils pour un nouvel espace public

Big Data et Graphes : Quelques pistes de recherche

FORMATIONS BUREAUTIQUES BUREAUTIQUES

D Expert en Finance et Investissements

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Génétique et génomique Pierre Martin

ABIDJAN YOPOUGON RESIDENTIEL Immeuble EDUFOR

Etudier à l EPFL Les spécialités. Maya Frühauf Service de promotion des études

Biomarqueurs en Cancérologie

Completed Projects / Projets terminés

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique


Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Programme international de formation

CATALOGUE DE FORMATIONS

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

L hypertexte, le multimédia, c est quoi?

Physiopathologie : de la Molécule à l'homme

Santé mentale au travail Enjeu Clinique ou de Leadership? Maladie ou blessure?

Sur quelques applications des processus de branchement en biologie moléculaire

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Programming Server-Side Web Applications with Object-Oriented PHP NC Group Syllabus. Duration: 75 hours 1-2-2

Ingénieur R&D en bio-informatique

Completed Projects / Projets terminés

Détection et prise en charge de la résistance aux antirétroviraux

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH


DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

MENER UNE RECHERCHE D INFORMATION

Simon Lacoste-Julien Chercheur CR Équipe-Projet SIERRA, INRIA - École Normale Supérieure

Environmental Research and Innovation ( ERIN )

Vue d ensemble de Windows PowerShell

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

4D v11 SQL Release 5 (11.5) ADDENDUM

AA-SO5 KIDA/GSOV/VAMDC

Analyse des données de séquençage massif par des méthodes phylogénétiques

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

8th EUA-CDE Annual Meeting The Future of Doctoral Education Where do we go from here? An introduction to Doctoral Education

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

Système immunitaire artificiel

COLLEGE OF EARLY CHILDHOOD EDUCATORS

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Transcription:

Introduction à la Bioinformatique 1. Motivation et objectifs Définition simple: La bio-quoi??? La bioinformatique est l analyse des données biologiques pour : 1.l identification des propriétés intéressantes et 2.la construction des modèles biologiques en utilisant ses données. 1 2 Propriétés et modèles? Propriétés et modèles? Cancer l autisme alzheimer cycle cellulaire Cancer l autisme alzheimer cycle cellulaire Quelles sont les données importantes pour les biologistes? 3-1 3-2

Les données La structure des données ADN strings...ttgtacatctctatctacttatcgtctagcagcagc TACTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTAC TATCGATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGG GTGTCATATATAGCCTCTAGCGCTAGCAGCTGATCGATC TAGTCGTTCATGTCGATGCAGCTAGTCTAGTCGTATCTA TACTAGCGACGATGCTAGCGTACGTAGCTATATAGCTAC TCTGATATACTGCCGCTAGTACGTACTGCAGCAGCTGAC TGCTGACTGCTGACTGACGTAGCTGACATTCATGCTAGC TAGCTTACATCGCGATCGTAGCTAGCGATCGTACGTAGC GCCTAGCGGTACTTGCGATCGTAGCTGCTGTAGTCGATT GTGCGATAGTCACTGTGCAGTCAGTCGATCGATCGACTG ACTGACGTCGACTGATCGACTGACTGACTGACTGACTGC ATGTCGTCGACTGACTGACGCTGCAGCTGACTGCATGAC GTCGACTGATGACTGACTGCGCGTCAGCTGACTGACTGA CTGACTGACTGTCAGTGACTGACTGACTGACTGACG... Tous les organismes connus utilisent 2 types de données : 1. séquences de nucléotides 2. séquences d acides aminés séquences d acides nucléiques Et leurs structures 3D 4 5 La structure des données 2 La structure des données 3 Protéines strings l ADT Atome (x,y,z) Protéines 130 140 160 170 180 EARSLTTGET GYIPSNYVAP VDSIQAEEWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 190 200 210 220 230 240 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN GGYYITTRAQ FETLQQLVQH YSERAAGLCC 250 260 270 280 290 300 RLVVPCHKGM PRLTDLSVKT KDVWEIPRES LQLIKRLGNG QFGEVWLGTW NGNTKVAIKT séquences d acides aminés séquences de cordonnées d atomes 6 7

Explosion de données Uniprot/swissprot statistiques Release 174.0, oct 2009, 99 116 431 942 paires de base et 98 868 465 séquences Release 57.11, Novembre 2009 512 994 séquences Explosion de données 2 Nombre des structures de protéines RCSB protéine base de données version de 3 décembre 2009 8 9 Explosion de données 3 Explosion de données 4 ça ne termine pas... ExAC Rusch DB, Halpern AL, Sutton G, Heidelberg KB, Williamson S, et al. (2007) The Sorcerer II Global Ocean Sampling Expedition: Northwest Atlantic through Eastern Tropical Pacific. PLoS Biol 5(3): e77 10 Source: http://www.genome.gov/10005107 Source: http://exac.broadinstitute.org ENCODE Project Consortium. "The ENCODE (ENCyclopedia of DNA elements) project." Science 306.5696 (2004): 636-640. Lek M, et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. August 18, 2016. DOI:10.1101/030338. 11

On a les données......ttgtacatctctatctacttatcgtctagcagcagc TACTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTAC TATCGATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGG GTGTCATATATAGCCTCTAGCGCTAGCAGCTGATCGATC TAGTCGTTCATGTCGATGCAGCTAGTCTAGTCGTATCTA TACTAGCGACGATGCTAGCGTACGTAGCTATATAGCTAC TCTGATATACTGCCGCTAGTACGTACTGCAGCAGCTGAC TGCTGACTGCTGACTGACGTAGCTGACATTCATGCTAGC TAGCTTACATCGCGATCGTAGCTAGCGATCGTACGTAGC GCCTAGCGGTACTTGCGATCGTAGCTGCTGTAGTCGATT GTGCGATAGTCACTGTGCAGTCAGTCGATCGATCGACTG ACTGACGTCGACTGATCGACTGACTGACTGACTGACTGC ATGTCGTCGACTGACTGACGCTGCAGCTGACTGCATGAC GTCGACTGATGACTGACTGCGCGTCAGCTGACTGACTGA CTGACTGACTGTCAGTGACTGACTGACTGACTGACG...... et maintenant?...ttgtacatctctatctacttatcgtctagcagcagc TACTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTAC TATCGATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGG GTGTCATATATAGCCTCTAGCGCTAGCAGCTGATCGATC TAGTCGTTCATGTCGATGCAGCTAGTCTAGTCGTATCTA TACTAGCGACGATGCTAGCGTACGTAGCTATATAGCTAC TCTGATATACTGCCGCTAGTACGTACTGCAGCAGCTGAC TGCTGACTGCTGACTGACGTAGCTGACATTCATGCTAGC TAGCTTACATCGCGATCGTAGCTAGCGATCGTACGTAGC GCCTAGCGGTACTTGCGATCGTAGCTGCTGTAGTCGATT GTGCGATAGTCACTGTGCAGTCAGTCGATCGATCGACTG ACTGACGTCGACTGATCGACTGACTGACTGACTGACTGC ATGTCGTCGACTGACTGACGCTGCAGCTGACTGCATGAC GTCGACTGATGACTGACTGCGCGTCAGCTGACTGACTGA CTGACTGACTGTCAGTGACTGACTGACTGACTGACG... 12 13 Le rôle joué par informatique Le rôle joué par l informatique Y a-t-il des protéines...ttgtacatctctatctacttatcgtctagcagcagcta Ou sont les gènes? CTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTACTATC GATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGGGTGTCA TATATAGCCTCTAGCGCTAGCAGCTGATCGATCTAGTCGTT CATGTCGATGCAGCTAGTCTAGTCGTATCTATACTAGCGAC Comment GATGCTAGCGTACGTAGCTATATAGCTACTCTGATATACTG l expression est-elle CCGCTAGTACGTACTGCAGCAGCTGACTGCTGACTGCTGAC Y a-t-il des gènes contrôlée? TGACGTAGCTGACATTCATGCT... 16 EWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 19 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN 22 GGYYITTRAQ FETLQQLVQH YSERAAGLCC 14...TTGTACATCTCTATCTACTTATCGTCTAGCAGCAGCTA Ou sont les gènes? CTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTACTATC GATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGGGTGTCA TATATAGCCTCTAGCGCTAGCAGCTGATCGATCTAGTCGTT CATGTCGATGCAGCTAGTCTAGTCGTATCTATACTAGCGAC Comment GATGCTAGCGTACGTAGCTATATAGCTACTCTGATATACTG l expression est-elle CCGCTAGTACGTACTGCAGCAGCTGACTGCTGACTGCTGAC Y a-t-il des gènes contrôlée? TGACGTAGCTGACATTCATGCT... Quelles sont les protéines? 160 170 180 EWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 190 200 210 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN 220 230 240 GGYYITTRAQ FETLQQLVQH YSERAAGLCC RLVVP Quels sont les acides aminés importants? 15

Le rôle joué par informatique Le rôle joué par informatique Y a-t-il des protéines...ttgtacatctctatctacttatcgtctagcagcagcta Ou sont les gènes? CTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTACTATC GATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGGGTGTCA TATATAGCCTCTAGCGCTAGCAGCTGATCGATCTAGTCGTT CATGTCGATGCAGCTAGTCTAGTCGTATCTATACTAGCGAC Comment GATGCTAGCGTACGTAGCTATATAGCTACTCTGATATACTG l expression est-elle CCGCTAGTACGTACTGCAGCAGCTGACTGCTGACTGCTGAC Y a-t-il des gènes contrôlée? TGACGTAGCTGACATTCATGCT... Quelles sont les protéines? 160 170 180 EWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 190 200 210 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN 220 230 240 GGYYITTRAQ FETLQQLVQH YSERAAGLCC RLVVP Quels sont les acides aminés importants? Y a-t-il des protéines...ttgtacatctctatctacttatcgtctagcagcagcta Ou sont les gènes? CTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTACTATC GATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGGGTGTCA TATATAGCCTCTAGCGCTAGCAGCTGATCGATCTAGTCGTT CATGTCGATGCAGCTAGTCTAGTCGTATCTATACTAGCGAC Comment GATGCTAGCGTACGTAGCTATATAGCTACTCTGATATACTG l expression est-elle CCGCTAGTACGTACTGCAGCAGCTGACTGCTGACTGCTGAC Y a-t-il de gènes contrôlée? TGACGTAGCTGACATTCATGCT... Ce qui est la structure d une protéine? Quelles sont les protéines? 160 170 180 EWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 190 200 210 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN 220 230 240 GGYYITTRAQ FETLQQLVQH YSERAAGLCC RLVVP Quels sont les acides aminés importants? Ce qui est la structure d une protéine? Quelles sont les partenaires d interaction? Ce qui sont les régularités? Ce qui sont les régularités? Est-ce que il existe une préférence? Est-ce que il existe une préférence? Est-ce que le gène est lié à une certaine maladie? Ce qui est la fonction d une protéine? Où peut une autre protéine être lier? 16 Objectifs du cours Où peut une autre protéine être lier? 17 Référence Part 1: Background Basics 1. The Nucleic Acid World 2. Protein Structure 3. Dealing with Databases Comprendre la vocabulaire biologique et bioinformatique les questions moléculaire et les techniques Comprendre bioinformatiques qui ont résolus ces questions. Part 2: Sequence Alignments 4. Producing and Analyzing Sequence Alignments 5. Pairwise Sequence Alignment and Database Searching 6. Patterns, Profiles, and Multiple Alignments Part 3: Evolutionary Processes 7. Recovering Evolutionary History 8. Building Phylogenetic Trees Être capable d expliquer et reproduire certaines algorithmes capable de choisir entre les algorithmes connus pour résoudre Être un problème moléculair Part 4: Genome Characteristics 9. Revealing Genome Features 10. Gene Detection and Genome Annotation Part 5: Secondary Structures 11. Obtaining Secondary Structure from Sequence 12. Predicting Secondary Structures Être capable de créer un nouveau algorithme qui peut résoudre Part 6: Tertiary Structures 13. Modeling Protein Structure 14. Analyzing Structure-Function Relationships une certaine question biomoléculaire Comprendre les publications dans le domaine. Augmentez votre intérêt pour des autres sciences et la Part 7: Cells and Organisms 15. Proteome and Gene Expression Analysis 16. Clustering Methods and Statistics 17. Systems Biology Appendices: Background Theory Appendix A. Probability, Information, and Bayesian Analysis Appendix B. Molecular Energy Functions Appendix C. Function Optimization recherche interdisciplinaire Site web: http://www.garlandscience.com/textbooks/0815340249.asp Marketa Zvelebil, Jeremy O. Baum. Understanding Bioinformatics August 2007 Paperback: 978-0-8153-4024-9 18 19

Cartes de compréhension Organigrammes L application montré ici est composé de 4 sujets les notions qui étaient expliquées dans les sections précédentes Une carte de la structure du chapitre: sujets et leurs relations les nouvelles notions qui sont expliquées dans la section suivante Chaque chapitre commence avec une carte de compréhension un outil pour visualiser et se rappeler les étapes qui sont nécessaire pour certaines applications. les flèches montrent comment les notions sont relatées Les sections dans chaque chapitre commence avec un organigramme. un outil pour visualiser et se rappeler les sujets couverts dans cette section. 20 21 Programme (provisoire) Date Description Portfolio Livre 19 septembre 2016 Pas de cours 26 septembre 2016 Introduction/Fondations moléculaire 5-44 3 octobre 2016 Fondations moléculaire/alignement des séquences 72-112 10 octobre 2016 alignement des séquences Jupyter+ P1 72-112 17 octobre 2016 Matrices de substitution P1+P2 72-112 24 octobre 2016 Trouver des séquences homologues P2 117-161 31 octobre 2016 7 novembre 2016 Date limite P1 et P2 14 novembre 2016 Alignement de groupes de séquences 167-219 21 novembre 2016 Hidden markov models and Profiles P3 167-219 28 novembre 2016 Structures secondaires P3+P4 413-515 5 décembre 2016 Arbres phylogénétiques P4 225-312 12 décembre 2016 19 décembre 2016 Date limite P3 et P4 Organisation Chaque lundi entre 10h et 12h Local?? Réunions pour le portfolio: Dr. Catharina Olsen vendredi de 16h à 18h dans 2 NO4.008 Assistance pour les 4 mini projets 22 23

Portfolio Chaque étudiant construira pendant l année un portfolio composé de 4 mini projets Un portfolio ou portefolio est un dossier personnel dans lequel les acquis de formation et les acquis de l'expérience d'une personne sont définis et démontrés en vue d'une reconnaissance par un établissement d'enseignement ou un employeur. Utilisant Jupyter notebooks (python) 50% du note final Portfolio Le portfolio sera composé de 4 mini projets 1.Une implémentation de l algorithme Needleman-Wunsch et l algorithme de Smith Waterman qui sera comparée avec le logiciel LALIGN, disponible en ligne (http://www.ch.embnet.org/software/lalign_form.html) 2.Une implémentation de l algorithme BLOSUM construite en utilisant des données liés à deux domaines protéiques differentes. 3.Un algorithme qui construit des PSSM pour des ensembles de séquences alignées et créez un Weblogo. 4.Une implémentation de l algorithme GOR IV pour prédire la structure secondaire des séquences. 24 25 Portfolios Date limite Partie 1; 7 Novembre 2016 Mini projet 1 et 2 Date Limite Partie 2; 19 Décembre 2016 Mini projet 3 et 4 IMPORTANT pour chaque projet vous construisez un jupyter notebook (python) Utilisez des examples pour illustrer votre code Ajoutez des explications: le but du projet, le traitement des données des figures 26 27

L examen Examen écrit 17 janvier2016 (9h30-12h) la théorie (transparents et livre) Un exemple est en ligne sur le site web 50% des points Continuation oral après l examen écrit +2 ou -2! Mes coordonnées Tom Lenaerts Bureau : 8ième étage, 2 NO 8.117 téléphone ULB : 02/650 60 04 courrier électronique: tlenaert@ulb.ac.be http://www.ulb.ac.be/di/map/tlenaert/ 28 29