AVL Liban La Bioinformatique. Bioinformatique

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

MABioVis. Bio-informatique et la

Base de données bibliographiques Pubmed-Medline

Introduction aux bases de données: application en biologie

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Big data et sciences du Vivant L'exemple du séquençage haut débit

CHAPITRE 3 LA SYNTHESE DES PROTEINES

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Gènes Diffusion - EPIC 2010

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Génomique Comparative et intégrative

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Bases de données et outils bioinformatiques utiles en génétique

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Bibliographie Introduction à la bioinformatique

Détection et prise en charge de la résistance aux antirétroviraux

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Identification de nouveaux membres dans des familles d'interleukines

Extraction d information des bases de séquences biologiques avec R

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Génétique et génomique Pierre Martin

SEMINAIRES INTERNATIONAUX

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Calcul intensif pour la biologie

Eco-système calcul et données

Biomarqueurs en Cancérologie

Analyse des données de séquençage massif par des méthodes phylogénétiques

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Perl Orienté Objet BioPerl There is more than one way to do it

Stages - le calendrier

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Physiopathologie : de la Molécule à l'homme

Faculté des Sciences d ORSAY

MASTER 2 SCIENCES DU MEDICAMENT

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

VI- Expression du génome

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Les technologies du Big Data

Possibilités offertes après la L2?

CATALOGUE DES PRESTATIONS DE LA

Conférence technique internationale de la FAO

Politique scientifique, Recherche et Développement

Fotolia / Sergej Khackimullin. conseil scientifique. Rapport du groupe de travail sur la gestion et le partage des données

Ordonnance sur la formation menant au bachelor et au master de l Ecole polytechnique fédérale de Lausanne

Rapport d évaluation de l école doctorale

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

TD de Biochimie 4 : Coloration.

Les apports de l informatique. Aux autres disciplines

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

LICENCE : INFORMATIQUE GENERALE

Informatique et mathématiques

Rappel sur les bases de données

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Chapitre 1 : Évolution COURS

Création et développement d une base de données sur le VIH

MYRIAD. l ADN isolé n est à présent plus brevetable!

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

SysFera. Benjamin Depardon

IMO - Informatique, modélisation et optimisation

Big Data et la santé

Compte-rendu de fin de projet

Les OGM. 5 décembre Nicole Mounier

University of Tokyo Graduate School of Agricultural and Life Sciences et. Kanagawa Academy of Science and Technology

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Fès. Licences Fondamentales. Filière SMC : Sciences de la Matière Chimie Coordonnateur : Pr. Mohammed KHALDI

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

MENER UNE RECHERCHE D INFORMATION

1 Description du phénomène. 2 Mode de diffusion effets dommageables

Recherche et veille documentaire scientifique

Introduction à l Informatique licence 1 ère année Notes de Cours

Bases moléculaires des mutations Marc Jeanpierre

Conditions : stage indemnisé, aide au logement possible, transport CEA en Ile-de-France gratuit.

Ingénieur R&D en bio-informatique

Prédiction de la structure d une

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Cellules procaryotes Service histologie Pr.k.mebarek

Fonctions de plusieurs variables

LE CALENDRIER DES STAGES

Luca : à la recherche du plus proche ancêtre commun universel Patrick Forterre, Simonetta Gribaldo, Céline Brochier

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

IFT2255 : Génie logiciel

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Les bases de données transcriptionnelles en ligne

Rapport d'analyse des besoins

Mode d'emploi du plugin Grayscale_Granulometry

Transcription:

AVL Liban 2011 La Sami Khuri Department of Computer Science San José State University San José, California, USA sami.khuri@sjsu.edu www.cs.sjsu.edu/faculty/khuri Sami Khuri sami.khuri@sjsu.edu Qu est-ce que la? Défis de la biologie moléculaire Données biologiques Buts de la Bases de données Tâches courantes d un biologiste Alignement des séquences Qu est-ce que la? (I) Ensemble d'outils L'utilisation des ordinateurs pour recueillir, analyser et interpréter les données biologiques au niveau moléculaire. Un ensemble d'outils logiciels pour l'analyse de séquences moléculaires. Qu est-ce que la? (II) Discipline fondée sur les acquis de la biologie, des mathématiques et de l'informatique. Elle propose des méthodes et des logiciels qui permettent de gérer, d'organiser, de comparer, d'analyser, d'explorer l'information génétique et génomique stockée dans les bases de données afin de prédire et produire des connaissances nouvelles dans le domaine ainsi qu'élaborer de nouveaux concepts. Qu est-ce que la? (III) Champs multidisciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires ) pour : Formaliser des problèmes de biologie moléculaire Développer des outils formels Analyser les données Prédire des résultats biologiques Organiser les données. La bioinformatique est une discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire. La s applique à tout type de données biologiques: Les séquences d ADN et de protéines Les structures d ARN et de protéines Les contenus en gènes des génomes Les puces à ADN (microarrays) Les réseaux d interactions entre protéines Les réseaux métaboliques Les arbres de phylogénie et Données Biologiques 1

Défis de la Biologie Moléculaire (I) Analyser, comprendre et organiser une grande quantité de données biologiques: - Des centaines de génomes complètement séquencés et enregistrés Projet HapMap du génome humain - Construction de la carte des haplotypes Projets de séquençage des organismes procaryotes et eucaryotes Défis de la Biologie Moléculaire (II) Décoder l information contenue dans les séquences d ADN et de protéines Trouver les gènes Différencier entre introns et exons Analyser les répétitions dans l ADN Identifier les lieux des facteurs de transcription Étudier l évolution des génomes. Génomique structurale: Modéliser les structures 3D des protéines et des ARN structurels Déterminer la relation entre structure et fonction Génomique fonctionnelle Étudier la régulation des gènes Déterminer les réseaux d interaction entre les protéines. But de la Faire progresser les connaissances: - en biologie, - en génétique humaine, - en théorie de l évolution Aider à la conception de médicaments Comprendre les maladies complexes Bases de Données s NCBI, National Center for Biotechnology Information GenBank: Séquences d ADN Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins Intérêt des Séquences La séquence nucléotidique d un gène détermine la séquence d acides aminés de la protéine La séquence d une protéine détermine sa structure et sa fonction Généralement, une similarité de séquence implique une similarité de structure et de fonction (l inverse n est pas toujours vrai). Évolution basée, en grande partie, sur la duplication suivie de modification. D où, beaucoup de redondance dans les bases de données. Recherche dans les Bases de Données Tâches courantes d un biologiste: Est-ce qu une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d autres gènes homologues? Existe-t-il des séquences non codantes similaires, des répétitions ou séquences régulatrices? 2

Pourquoi Etudier la? La est très intéressante. La offre la perspective de trouver des médicaments ciblés plus tôt dans le processus de développement de medicaments et ce, par l observation de gènes dans des organismes modèles semblables à un gène humain donné les chercheurs peuvent apprendre d avantage sur le code de la protéine du gène humain et chercher des médicaments permettant de la bloquer. La et la Recherche Pourquoi Comparer des Séquences? La motivation première est d obtenir des connaissances sur une séquence à partir des connaissances attachées à une autre. Ainsi, si deux séquences génomiques sont très similaires, et si l'une est connue pour être codante, l'hypothèse que la seconde le soit aussi peut être avancée. De même, si deux séquences protéiques sont similaires, on peut déduire que les protéines correspondantes assument des fonctions semblables. Si la fonction de l'une est connue, la fonction de la seconde peut ainsi être déduite. Alignement Global et Local Alignement: Processus par lequel deux séquences sont comparées afin d'obtenir le plus de correspondances (identités ou substitutions conservatives) possibles entre les lettres qui les composent. Alignement global Alignement des deux séquences sur toute leur longueur. Alignement local Alignement des deux séquences seulement sur une portion de leur longueur. 3

Alignement de Deux Séquences Méthode naturelle pour comparer deux séquences. Trois opérations permises: insertion, suppression, substitution Alignement Global: C A G C A C G T G G A T T C T C G G T A T C A G C G T G G C A C T A G C Alignement Local: CAGCAC T T G G A T TCTCGG TAGT T T A G G - T GGCAT Le Score d un Alignement Exemple: Calculons le score de l alignement des deux séquences. La substitution -1 si les bases ne sont pas identiques, +1 si les bases sont identiques. La suppression ou insertion -2 Alignement Global: C A G C A C G T G G A T T C T C G G T A T C A G C G T G G C A C T A G C Score: -1 +1-1 +1 +1-2 +1 +1 +1 +1 +1-2 -1-1 +1 +1 1 +1 1 = 11(+1) + 6(-1) + 2(-2) = 1 BLAST Basic Local Alignment Search Tool Altschul et al. 1990,1994,1997 BLAST est le programme d'alignement local le plus utilisé. Similarité locale entre une séquence donnée (requête) et une banque de données Devenu populaire grâce à une implémentation très efficace. Les deux points forts de BLAST sont: la vitesse l'évaluation rigoureuse de la valeur statistique des alignements. La Famille BLAST blastn: séquence donnée d acides nucléiques comparée à des acides nucléiques d une base de données. blastp: séquence donnée de protéines comparée à des protéines d une base de données. blastx: séquence donnée d acides nucléiques (traduite en 6 cadres de lectures) comparée à des protéines d une base de données. Les Matrices de Substitution Les matrices de substitution d acides aminés: La série PAM (Percent ou Point Accepted Mutation) Par exemple: PAM250 La série BLOSUM (BLOck SUM) Par exemple: BLOSUM62 (la plus utilisée) Les Matrices de Substitution: PAM PAM: Point Accepted Mutation Matrices de substitution pour les acides aminés dont les scores sont liés à la distance d évolution Définition: Deux séquences, S 1 et S 2, divergent d une unité PAM si la suite de mutations (substitutions) qui a converti S 1 en S 2 est telle qu en moyenne, une seule mutation est survenue tous les 100 acides aminés. 4

Mutations Acceptées et PAM Mutations acceptées: celles incorporées dans la protéine et transmises, sans aucun effet ou avec un effet bénéfique à l organisme. Pas de correspondance absolue entre unités PAM et divergence de séquences: plusieurs mutations peuvent être survenues à la même position. Dans la pratique, on essaye plusieurs matrices PAM différentes. PAM 250 est la plus utilisée. Matrice de Substitution BLOSUM62 10 1 6 6 4 8 2 6 6 9 2 4 4 4 5 6 6 7 1 3 % A C D E F G H I K L M N P Q R S T V W Y 8 0-4 -2-4 0-4 -2-2 -2-2 -4-2 -2-2 2 0 0-6 -4 A 18-6 -8-4 -6-6 -2-6 -2-2 -6-6 -6-6 -2-2 -2-4 -4 C 12 4-6 -2-2 -6-2 -8-6 2-2 0-4 0-2 -6-8 -6 D 10-6 -4 0-6 2-6 -4 0-2 4 0 0-2 -4-6 -4 E 12-6 -2 0-6 0 0-6 -8-6 -6-4 -4-2 2 6 F 12-4 -8-4 -8-6 0-4 -4-4 0-4 -6-4 -6 G 16-6 -2-6 -4 2-4 0 0-2 -4-6 -4 4 H 8-6 4 2-6 -6-6 -6-4 -2 6-6 -2 I 10-4 -2 0-2 2 4 0-2 -4-6 -4 K 8 4-6 -6-4 -4-4 -2 2-4 -2 L 10-4 -4 0-2 -2-2 2-2 -2 M 12-4 0 0 2 0-6 -8-4 N 14-2 -4-2 -2-4 -8-6 P 10 2 0-2 -4-4 -2 Q 10-2 -2-6 -6-4 R 8 2-4 -6-4 S 10 0-4 -4 T 8-6 -2 V 22 4 W 14 Y L unitéest le bit. PAM et BLOSUM Alignement Multiple de Séquences Généralisation de l alignement de 2 séquences Données: Un ensemble de séquences homologues (nucléotides ou acides aminés) Pourquoi aligner? Trouver des caractéristiques communes à une famille de protéines Relier la séquence à la structure et à la fonction Caractériser les régions conservées et les régions variables Déduire des contraintes de structures pour les ARN Construire l arbre phylogénétique des séquences homologues considérées. Arbres de Phylogénie et Evolution Tous les organismes vivants dérivent d un ancêtre commun. La diversité est due à la spéciation, c.à.d, à la séparation d une espèce en deux espèces différentes. Idée de base: Les caractères sont transmis d une génération à l autre et, au cours de l évolution, ces caractères subissent une série de mutations. 5

Gènes Homologues Gènes homologues: Gènes venant d un ancêtre commun. Gènes orthologues: Gènes homologues qui ont divergé suite à la spéciation (à la séparation d une espèce en deux espèces différentes). Gènes paralogues: Gènes homologues qui sont issus d un événement de duplication. Références Notes basées en partie sur les notes de cours de Nadia El-Mabrouk et Sylvie Hamel de l Université de Montréal http://www.infobiogen.fr/ http://interstices.inria.fr/ www.interstices.info http://www.genoscope.cns.fr/externe/histoirebm/ http://www.ac-versailles.fr/etabliss/herblay/genetiqu/fiches/sommaire.htm http://membres.lycos.fr/neb5000/ http://www.niaid.nih.gov/factsheets/howhiv.htm Remerciements: Elie Bassil, Zena Beainy, Sandra Khudeida, Nayla Klat, Myrna Fayad et Yasmine Ghazzaoui ont contribué à la traduction. 6