Introduction à la Bio-Informatique. Nadia El-Mabrouk

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

MABioVis. Bio-informatique et la

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Introduction aux bases de données: application en biologie

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Base de données bibliographiques Pubmed-Medline

Big data et sciences du Vivant L'exemple du séquençage haut débit

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Bases de données et outils bioinformatiques utiles en génétique

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Détection et prise en charge de la résistance aux antirétroviraux

Biomarqueurs en Cancérologie

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Gènes Diffusion - EPIC 2010

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Identification de nouveaux membres dans des familles d'interleukines

Extraction d information des bases de séquences biologiques avec R

Génomique Comparative et intégrative

SysFera. Benjamin Depardon

Génétique et génomique Pierre Martin

Possibilités offertes après la L2?

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Les apports de l informatique. Aux autres disciplines

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Stages - le calendrier

VI- Expression du génome

Perl Orienté Objet BioPerl There is more than one way to do it

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Physiopathologie : de la Molécule à l'homme

Eco-système calcul et données

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

MYRIAD. l ADN isolé n est à présent plus brevetable!

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Calcul intensif pour la biologie

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

Bibliographie Introduction à la bioinformatique

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

TD de Biochimie 4 : Coloration.

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

CATALOGUE DES PRESTATIONS DE LA

UE6 - Cycle de vie du médicament : Conception rationnelle

LE CALENDRIER DES STAGES

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

1 les caractères des êtres humains.

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Liste des matières enseignées

Informatique et mathématiques

Création et développement d une base de données sur le VIH

Diplôme d Université Licence d Université Sciences Physiques pour l Ingénieur (SPI) Liste des modules

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

THEME : CLES DE CONTROLE. Division euclidienne

2 C est quoi la chimie?

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Hépatite chronique B Moyens thérapeutiques

Les OGM. 5 décembre Nicole Mounier

Faculté des Sciences d ORSAY

Big Data et la santé

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

: l IDRIS a vingt ans!

Fotolia / Sergej Khackimullin. conseil scientifique. Rapport du groupe de travail sur la gestion et le partage des données

e-santé du transplanté rénal : la télémédecine au service du greffé

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Conférence technique internationale de la FAO

LES REPRESENTATIONS DES NOMBRES

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

Analyse des données de séquençage massif par des méthodes phylogénétiques

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Bases moléculaires des mutations Marc Jeanpierre

Filière MMIS. Modélisation Mathématique, Images et Simulation. Responsables : Stefanie Hahmann, Valérie Perrier, Zoltan Szigeti

Comparer l intérêt simple et l intérêt composé

Les Maladies Tropicales, la Société de Pathologie Exotique. et l Institut Pasteur

Luca : à la recherche du plus proche ancêtre commun universel Patrick Forterre, Simonetta Gribaldo, Céline Brochier

Disciplines. Ecoles - facultés - titres délivrés. UNIL - Faculté des lettres. Maîtrise universitaire ès Lettres

Contrôle de l'expression génétique :

Réponse du Conseil d Etat à la question écrite urgente de M. Pierre Weiss : Quelle est la place de l'anglais dans les hautes écoles genevoises?

Rapport d évaluation du master

Rappel sur les bases de données

Spécialisation 3A AgroSup Dijon IAA Microbiologie Industrielle et Biotechnologie (MIB)

Génie Industriel et Maintenance

Activité 4. Tour de cartes Détection et correction des erreurs. Résumé. Liens pédagogiques. Compétences. Âge. Matériels

Édito du directeur général

Les technologies du Big Data

Que faire lorsqu on considère plusieurs variables en même temps?

Insulinothérapie et diabète de type 1

Les lières. MSc in Electronics and Information Technology Engineering. Ingénieur civil. en informatique. MSc in Architectural Engineering

Introduction au maillage pour le calcul scientifique

Transcription:

Introduction à la Bio-Informatique Nadia El-Mabrouk

1. Qu est-ce que la Bio-Informatique? Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires ) pour résoudre un problème biologique : Formaliser des problèmes de biologie moléculaire; Développer des outils formels; Analyser les données; Prédire des résultats biologiques; Organiser les données. Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. Pas de consensus sur la définition de la bio-informatique.

La Bio-Informatique s applique à tout type de données biologiques, en particulier moléculaires : Les séquences d ADN et de protéines Les structures d ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie Utilités : Faire avancer les connaissances en biologie, en génétique humaine, en théorie de l évolution Aider à la conception de médicaments Comprendre les maladies complexes..

2. Défis de la biologie moléculaire Analyser, comprendre et organiser une masse de données biologiques: Plus de 200 génomes complètement séquencés et publiés, dont l homme (23 paires de chros.) et la souris (20 paires de chro.) Projet HapMap du génome humain: Construction de la carte des haplotypes Projets de séquençage de plus de 500 procaryotes et 400 eucaryotes

Défis de la biologie moléculaire Décoder l information contenue dans les séquences d ADN et de protéines Trouver les gènes Différencier entre introns et exons Analyser les répétitions dans l ADN Identifier les sites des facteurs de transcription Étudier l évolution des génomes Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d interaction entre les protéines

3. Les bases de données bioinformatiques les plus utilisées NCBI, National Center for Biotechnology Information GenBank: Séquences d ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins

4. Intérêt des séquences La séquence nucléotidique d un gène détermine la séquence d acides aminés de la protéine La séquence d une protéine détermine sa structure et sa fonction Généralement, une similarité de séquence implique une similarité de structure et de fonction (l inverse n est pas toujours vrai) Évolution basée, en partie, sur la duplication suivie de modification («bricolage évolutif»). D où, beaucoup de redondance dans les bases de données

4.1 Recherche dans les bases de données Tache courante d un biologiste moléculaire Est-ce qu une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d autres gènes homologues? Existe-t-il des séquences non-codantes similaires. Répétitions ou séquences régulatrices Logiciels les plus connus: Smith-Waterman, FASTA et BLAST

4.2 Alignement local et global Alignement de deux séquences: Méthodes naturelle pour comparer deux séquences. On compte le nombre de ``différences (insertion, suppression, substitution) Alignement Global: C A G C A C G T G G A T T C T C G G T A T C A G C G T G G C A C T A G C Alignement Local: CAGCAC T T G G A T TCTCGG TAGT T T A G G - T GGCAT Recherche: C A G C A C T T G G A T T C T C G G C A G C G T G G

Signification de l alignement de séquences Modèle sous-jacent: Mutations ponctuelles Séquence ancestrale inconnue Exemple: Substitution de caractère G C G A C G ACG A B Séquences observées A G GCG ACG

Comparaison de deux génomes

4.3 Alignement multiple Trouver des caractéristiques communes à une famille de protéines Relier la séquence à la structure et à la fonction Caractériser les gènes homologues Caractériser les régions conservées et les régions variables Déduire des contraintes de structures pour les ARN Construire des arbres de phylogénie

Leishmaniose Leishmania (Kinetoplastida) Sinclair Stammers/TDR/OMS http://www.md.ucl.ac.be/stages/hygtrop/arthropodes/protozoaires/leshdia4.html Phlebotomus (Diptera) http://www.vet.uga.edu/vpp/nsep/brazil2002/leishmania/port/leish03.htm

Phlébotomes Plus de 800 espèces différentes 1-3 millimètres

Comment reconnaitre un phlébotome http://cipa.snv.jussieu.fr/anat/abdomen.htm

CIPA (Computer-aided Identification of Phlebotomine sandlies of America

CIPA (Computer-aided Identification of Phlebotomine sandlies of America

CIPA (Computer-aided Identification of Phlebotomine sandlies of America

CIPA (Computer-aided Identification of Phlebotomine sandlies of America

La biodiversité

Classification naturelle = phylogénie

Combien existe-t-il d arbres? A B C B A C C A B 3 espèces : 3 arbres D A B C 4 espèces : 5 * 3 arbres n espèces : (2n-3)(2n 5) (2n 7) (3) (1) arbres 10 espèces : 34 10 6 50 espèces : 2 10 76

Arbres de phylogénie Racine: Ancêtre commun Feuilles: Espèces actuelles Nœuds internes: Points de spéciation Taille des branches: Temps d évolution

Types de données et Méthodes Types de données: Séquences d ADN ou de protéines Présence/absence ou Ordre des gènes Méthodes Alignement de séquence Calcul de distances Minimisation du nombre de mutations Approches probabilistes de maximum de vraisemblance

Développement de l'oursin Paracentrotus lividus http://www.uco-bn.fr/galerie_biologie/photos/embryologie/oursin/

Réseau de régulation http://www.iephb.nw.ru/labs/lab38/spirov/hox_pro/urchi-net.html

Développement précoce du mésoderme d oursin [Copyright: H. Bolouri & E. Davidson, <www.its.caltech.edu/~mirsky/endomeso.htm> (2001)]

Modélisation Une partie importante de la bioinformatique est la modélisation de systèmes complexes, comme les réseaux de régulations. Le but est d avoir un système un peu moins compliqué dans le but de pourvoir l analyser et possiblement prédire des phénomènes de régulation. MAIS COMMENT CHOISIR NOTRE MODÈLE: Données Modèle Buts

Modèles détaillés versus Un modèle détaillé avec beaucoup de paramètres Peut représenter des phénomènes très précis du réseau - la concentration des protéines - les réactions cinétiques Par contre, demande un nombre très grand de données pour l analyse du modèle et l inférence de résultats

modèles grossiers Un modèle grossier avec peu de paramètres Représenter des phénomènes grossiers du réseau - exemple: un gène est «on» ou «off» Requiert un petit nombre de données pour l analyse du réseau Par contre, les résultats inférés peuvent être très loin de la réalité

Modèles discrets versus Un modèle discret représente le réseau à un moment précis dans le temps Exemple: réseau booléen sommet : gène est «on» = 1 ou «off» = 0 arête : interaction entre deux gènes deux états: présente ou absente On peut ensuite modéliser les influences positives ou négatives des différents gènes par des fonctions booléennes Avantage: simplicité Inconvénient: trop restrictif -> réseau booléen probabiliste??

modèles continus Un modèle continu représente le réseau à travers le temps Dans ce cas, le réseau est modélisé par un système d équations différentielles Les variables du système sont les concentrations à travers le temps Avantage : système représentant la réalité Inconvénient : dimension du système qui croît trop vite