Introduction à la biologie moléculaire et à la bio-informatique



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Introduction aux bases de données: application en biologie

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Univers Vivant Révision. Notions STE

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

MABioVis. Bio-informatique et la

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

TD de Biochimie 4 : Coloration.

VI- Expression du génome

2 C est quoi la chimie?

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Biomarqueurs en Cancérologie

Séquence 2. L expression du patrimoine génétique. Sommaire

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Base de données bibliographiques Pubmed-Medline

Cellules procaryotes Service histologie Pr.k.mebarek

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Identification de nouveaux membres dans des familles d'interleukines

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Bases de données et outils bioinformatiques utiles en génétique

Contrôle de l'expression génétique :

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Les OGM. 5 décembre Nicole Mounier

MYRIAD. l ADN isolé n est à présent plus brevetable!

Séquence 4. La nature du vivant. Sommaire. 1. L unité structurale et chimique du vivant. 2. L ADN, support de l information génétique

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

MENER UNE RECHERCHE D INFORMATION

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Génétique et génomique Pierre Martin

Extraction d information des bases de séquences biologiques avec R

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Médicaments du futur : Tendances et enjeux. Nicolas PY, Debiopharm International forumofac.14 26/09/2014

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Les cytokines et leurs récepteurs. Laurence Guglielmi

STRUCTURE ET FONCTION DES PLURICELLULAIRES

L universalité et la variabilité de l ADN

I. La levure Saccharomyces cerevisiae: mode de vie

Bibliographie Introduction à la bioinformatique

ATELIER SANTE PREVENTION N 2 : L ALIMENTATION

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes

EMME : un environnement de gestion des métadonnées expérimentales

Chapitre II La régulation de la glycémie

Eco-système calcul et données

Transport des gaz dans le sang

Physiopathologie : de la Molécule à l'homme

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Tableau récapitulatif : composition nutritionnelle de la spiruline

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

TP N 3 La composition chimique du vivant

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Hémochromatose génétique non liée à HFE-1 : quand et comment la rechercher? Cécilia Landman 11 décembre 2010

Introduction à la Génomique Fonctionnelle

et des sciences du vivant. Les microtechnologies

Production d une protéine recombinante

Structure quantique cohérente et incohérente de l eau liquide

Réception du tissus documentation examens sérologiques inspection préparation façonnage

Vue d ensemble de la vie microbienne

3: Clonage d un gène dans un plasmide

Transport des gaz dans le sang

Les débuts de la génétique

Les lières. MSc in Electronics and Information Technology Engineering. Ingénieur civil. en informatique. MSc in Architectural Engineering

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Environmental Research and Innovation ( ERIN )

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

L immunoenzymologie. Technique puissante couramment utilisée e en recherche et en diagnostic cificité des anticorps pour leurs nes

CATALOGUE DES PRESTATIONS DE LA

Les tests génétiques à des fins médicales

Compléments - Chapitre 5 Spectroscopie

Bases moléculaires des mutations Marc Jeanpierre

Hépatite chronique B Moyens thérapeutiques

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Le rôle de l endocytose dans les processus pathologiques

Annales de Biologie Cellulaire QCM (niveau SVT 1 er année)

Conférence technique internationale de la FAO

Bases de données des mutations

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Luca : à la recherche du plus proche ancêtre commun universel Patrick Forterre, Simonetta Gribaldo, Céline Brochier

PLATE-FORME DE MICROSCOPIE ÉLECTRONIQUE À TRANSMISSION

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

5.5.5 Exemple d un essai immunologique

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

COUSIN Fabien KERGOURLAY Gilles. 19 octobre de l hôte par les. Master 2 MFA Responsable : UE Incidence des paramètres environnementaux

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

les deux premières années du Bachelor of Science en sciences pharmaceutiques

High performance computing and simulation in medicine: scope and challenges

Les Parcours Scientifiques et les Ecoles Doctorales

CHAPITRE 3 LES TASQ COMME PLATEFORME POUR LA CATALYSE PSEUDO-ENZYMATIQUE

Big data et sciences du Vivant L'exemple du séquençage haut débit

Transcription:

Introduction à la biologie moléculaire et à la bio-informatique Cours de Master Recherche M2, 2004/2005 Jean-Philippe Vert Jean-Philippe.Vert@mines.org Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.1/76

Plan Organismes et cellules Molécules de la vie Gènes et génomes Technologies et données Challenges en bio-informatique Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.2/76

Organismes et cellules Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.3/76

Cellules Tout organisme vivant est composé de cellules Une cellule est une solution contenant différentes molécules entourée d une membrane Il y a des organismes unicellulaires (bactéries, levure...) ou multicellulaires. Exemple: il y a environ 6 10 23 cellules dans un humain, de 320 types différents (peau, muscles, neurones...) Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.4/76

Cellules Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.5/76

Classification des organismes On distingue généralement les eukaryotes des prokaryotes Les prokaryotes (eux-memes subivisés en bactéries et archéens) sont unicellulaires, de petite taille (typiquemet 1µm), et ont une structure simple Les eukaryotes sont uni- ou multicellulaires, plus grands, et ont une structure plus complexes La vie est apparue il y a 3, 8 milliards d années, tous les organismes proviennent d un ancêtre commun Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.6/76

La cellule eukaryote Différents organelles. Un noyau qui contient l ADN (chromosomes). Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.7/76

Caractéristiques de la cellule La plupart des cellules sont capables de grossir et de se diviser (exception: neurones) Elles ont un métabolisme, i.e., importent des nutriments et les convertissent en molécules utiles et énergie Elles peuvent réagir à leur environnement Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.8/76

Les molécules de la vie Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.9/76

Types de molécules On les regroupe en 4 grandes familles: les petite molécules les protéines l ADN l ARN Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.10/76

Dans la cellule Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.11/76

Petites molécules Petites molécules ayant un rôle: ATP, NADPH stockent l energie Sucres, lipides (sources d energie, structure des membranes) Acides aminés et nucléotides, qui sont les blocs de base pour former les protéines et l ADN/ARN. Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.12/76

Protéines Les protéines représentent 20% du poids de la cellule (eau=70%). Elles ont de multiples fonctions: Structurale : ex: le collagene relie les os et les tissus Catalytique: les enzymes catalysent une multitude de réactions biochimique (formant le métabolisme). Ex: la bexokinase permet la conversion du glucose au glucose-6-phosphate Les protéines membranaires maintiennent l environnement cellulaire, régulent le volume de la cellule, créent des gradients ioniques pour les muscles et le systeme nerveux... Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.13/76

Protéine = polymère d acides aminés Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.14/76

Structure primaire Il y a 20 acides aminés. On peut donc représenter la structure chimique d une protéine comme un texte sur un alphabet de 20 lettre. Exemple: l insuline: FVNQHLCGSHLVEALYLVCGERGFFYTPKA Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.15/76

Structure secondaire Hélice α Feuillet β Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.16/76

Structure tertiaire Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.17/76

Structure quaternaire Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.18/76

ADN L acide desoxyribonucléique (ADN) est la molécule, présente dans toutes les cellules, qui contient l information génétique transmise entre générations. L ADN peut être en simple brin ou double brin. Un brin simple (aussi appelé polynucléotide) est un polymère linéaire composé de 4 nucléotides: adénosine (A), cytosine (C), guanine (G) et thymine (T) On représente un polynucléotide par une séquence orientée de lettres: 5 -A-T-T-C-A-G-G-C-A-T-T-A-G-C- 3 Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.19/76

ADN double brin Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.20/76

tructure de l ADN (Watson et Crick, 1953 Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.21/76

ADN et information La double hélice est stable, quelle que soit la séquence de nucléotides Parfait pour stocker 2 bits/base Distance entre 2 bases = 0.34nm, donc 6.10 7 bits/cm = 75ko/cm Par repliement de l ADN en 3D, on peut théoriquement monter à 2.10 21 bits/cm 3 Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.22/76

ARN Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.23/76

ARN L ARN (acide ribonucléique) ressemble beaucoup à l ADN mais: Le sucre de l ADN (désoxyribose) est remplacé par une autre sucre dans l ARN (ribose) La thymine (T) de l ADN est remplacée par l uracile (U) dans l ARN. L ARN peut s apparier avec un ARN complémentaire, mais les ARN sont généralement simple brin et sont donc le siège d appariements intramoléculaires. On connait depuis longtemps 3 types d ARN: ARN messagers (ARNm), ARN ribosomiques (ARNr), ARN de transfert (ARNt). Mais on en découvre de nouveaux depuis quelques années... Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.24/76

Gènes et génomes Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.25/76

ADN et chromosomes Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.26/76

Génome Toutes les cellules d un organisme ont (à peu près) le même ADN, appelé génome Organisme Chromosomes Taille du génome (bp) Bactéries 1 400,000 a 10,000,000 Levure 12 14,000,000 Mouche 4 300,000,000 Homme 46 6,000,000,000 Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.27/76

Génomes humains 22 paires de chromosomes + chromosomes X/X ou X/Y = 46 chromosomes. Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.28/76

Séquencage Séquencer = déterminer la séquence des lettres d un ADN 1995: premier génome bactérien séquencé levure (1997), mouche (2000), homme (2003)... Approche shotgun : les plus grands problèmes pour le séquencage des eukaryotes supérieurs sont informatique (assemblage)! Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.29/76

Gène Une partie continue d un brin d ADN, à partir de laquelle une machinerie moléculaire complexe peut lire de l information (encodée dans les lettes A,C,G,T) et créer une protéine particulière Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.30/76

Dogme central DNA transcription mrna translation 1 nucleotide to 1 nucleotide 1 codon (3 nucleotides) to 1 amino acid according to the genetic code Protein Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.31/76

ARN messager Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.32/76

De l ADN aux protéines Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.33/76

Gènes Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.34/76

Code génétique Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.35/76

De l ADN à la protéine Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.36/76

Contrôle de l expression (induction) Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.37/76

Contrôle de l expression (répression) Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.38/76

Exemple: B-globine humaine La B-globin joue un rôle important dans le développement des cellules rouges du sang. Certaines protéines régulatrices, comme CP1, sont présentes dans de nombreuses cellules, mais d autres, comme GATA-1, ne se trouvent que dans quelques types de cellules, dont les précurseurs des cellules rouges. Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.39/76

Coordination du contrôle Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.40/76

Réseau de régulation Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.41/76

tres contrôles: du gène à la protéine activ Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.42/76

Epissage promoter transcribed region intron intron transcription factor binding sites exon exon spliced mrna 5'UTR C DS 3'UTR start codon stop codon Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.43/76

Epissage alternatif Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.44/76

Nouveau dogme Avant: 1 gene = 1 ARNm = 1 protéine Maintenant: 1 gene = x ARNm = xy protéines Rappel: 30,000 genes (?) chez l homme Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.45/76

Technologies et données Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.46/76

Séquenceur Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.47/76

Microarrays Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.48/76

Transcriptome Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.49/76

Protéome Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.50/76

Interactome Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.51/76

Métabolome Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.52/76

Data types and representations Data Type and Details Representation Sequences - DNA: genome (hereditary information) string over nucleotides {A,C,G,T} - full length mrnas: spliced string over ribonucleotides gene copies {A,C,G,U} - ESTs (expressed sequence string over ribonucleotides tags): partial mrnas {A,C,G,U} - proteins string over amino acids (size 20) Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.53/76

Data types and representations Data Type and Details Structures - metabolites: positions and bonds of atoms - macromolecules (proteins, RNAs, DNA) Representation labeled graph embedded into 3D-space labeled graph embedded into 3D-space Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.54/76

Data types and representations Data Type and Details Interactions - proteins with metabolites: receptors or enzymes binding ligands - proteins with DNA: transcription factors; etc. - proteins with proteins: complexes; etc. Representation real vectors (binding energies) binary (bipartite graph) binary (graph); Petri-net Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.55/76

Data types and representations Data Type and Details Expression / Localization Data - gene expression: abundances of mrnas - protein expression: abundances of proteins - metabolite (small molecule) expression : concentrations of metabolites - protein localization: compartment of presence Representation real vectors or matrices real vectors or matrices real vectors or matrices categorical Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.56/76

Data types and representations Data Type and Details Cell / Organism Data - genotype: single nucleotide polymorphisms - phenotype: cell type; size; gender; eye color; etc. - state / clinical data: disease; blood sugar; etc. - environment: nutrients; temperature; etc. Representation vector of nucleotides {A,C,G,T} vector of real and categorical attributes vector of real and categorical attributes vector of real and categorical attributes Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.57/76

Data types and representations Data Type and Details Representation Population Data - linkage disequilibrium: LODscores real numbers - pedigrees certain (tree-like) graphs - phylogenies: pedigree of species trees or generalizations of trees Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.58/76

Data types and representations Data Type and Details Scientific Texts - Texts: articles, abstracts, web-pages Representation natural language texts (in English) Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.59/76

Sequence sources Database URL (http://... ) Remark Nucleotide sequence databases - DDBJ www.ddbj.nig.ac.jp these three databases... - EMBL www.ebi.ac.uk/embl/... synchronize their... - Gen- Bank Protine sequence databases www.ncbi.nlm.nih.gov... contents daily - SwissProt www.expasy.org/sprot/ curated - TrEMBL www.expasy.org/sprot/ not curated Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.60/76

Sequence sources (Some) Sequence motif databases - emotif motif.stanford.edu/emotif/ protein regular expression patterns - SMART smart.embl-heidelberg.de/ protein domain HMMs - transfac.gbf.de/transfac/ transcription TRANS- factor binding FAC sites Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.61/76

Sequence sources Bioinformatics Bioinf. Institut trieval System General portals - EBI www.ebi.ac.uk European Institute - Entrez www.ncbi.nlm.nih.gov/entrez/ U.S. Nation - Ex- www.expasy.org Expert Pr PASy téine Analys System - SRS srs.ebi.ac.uk Sequence R Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.62/76

Expression sources Database URL (http://... ) Remark General databases - ArrayExpress www.ebi.ac.uk/arrayexpress/ by the EB - GEO www.ncbi.nlm.nih.gov/geo/ by th NCBI Organism specific databases - MGI GXD www.informatics.jax.org mouse - TAIR Microarray www.arabidopsis.org - WormBase www.wormbase.org C. elegans arabidopsis Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.63/76

Protéine properties sources Database URL (http://... ) Remark classificatio classificatio Protine structures - PDB www.rcsb.org/pdb/ 3D stru tures - SCOP scop.mrc-lmb.cam.ac.uk/scop/ structural - CATH www.biochem.ucl.ac.uk/bsm/cath/structural Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.64/76

Protéine properties sources Molecular interactions and networks - BIND www.bind.ca interaction network - KEGG www.genome.ad.jp/kegg/ metabolic pathways - DIP dip.doe-mbi.ucla.edu interacting proteins Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.65/76

Protéine properties sources Protine functions - GO www.geneontology.org controlled vocabulary - EC www.chem.qmul.ac.uk/iubmb/enzyme/ enzyme numbers - MIPS mips.gsf.de/proj/yeast/ yeast gen catalogs/funcat/ functions Protine expression - 2DPAGE us.expasy.org/ch2d/ 2D gel ele trophoresis data Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.66/76

Challenge en bio-informatique Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.67/76

Génomique Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.68/76

Protéomique Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.69/76

Pharmacogénomique Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.70/76

Caractéristiques Beaucoup de données... mais beaucoup de bruit Données hétérogenes (séquences, structures, vecteurs, graphes...) Small n large p problèmes souvent mal posés (data mining) Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.71/76

Pour vous motiver discipline nouvelle (les données n existaient pas il y a 10 ans) application (therapeutique, biologie fondamentale) besoin de math/info de plus en plus pointu (voir évolution récente du domaine) peu de spécialistes... Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.72/76

But du cours Proposer une théorie et des outils pour représenter les données dans un cadre mathématique cohérent......avec des méthodes d analyse performantes......en pleine expansion actuellement. Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.73/76

Contenu du cours Introduction à la biologie moléculaire et à la génomique Noyaux positifs: définition, propriétés, espaces de Hilbert à noyau reproduisant, kernel trick, théorème du representant Méthodes à noyau: kernel PCA, SVM, LS-SVM, kernel CCA Noyaux: pour séquences, pour graphes, noyau de diffusion, noyau de convolution, noyau de semi-groupe Applications: classification de séquences, inférence sur des graphes, sélection de genes Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.74/76

Crédits Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.75/76

Source des images et tables Alex Zien, A primer on molecular biology, Kernel Methods in Computational Biology (B. Schölkopf, K. Tsuda, J.-P. Vert ed.), MIT Press, 2004 Image gallery: http://www.accessexcellence.org/ab/gg/ A quick introduction to elements of biology - cells, molecules, genes, functional genomics, microarrays, by Alvis Brazma, Helen Parkinson, Thomas Schlitt, Mohammadreza Shojatalab http://www.ebi.ac.uk/microarray/biology_intro.. et quelques images trouvées sur le web Master Recherche M2 c 2003-2005 Jean-Philippe Vert, (Jean-Philippe.Vert@mines.org) p.76/76