Transcriptome, Protéome et quelques problématiques statistiques

Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Biomarqueurs en Cancérologie

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

TD de Biochimie 4 : Coloration.

MABioVis. Bio-informatique et la

CATALOGUE DES PRESTATIONS DE LA

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Big data et sciences du Vivant L'exemple du séquençage haut débit

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Régression linéaire. Nicolas Turenne INRA

Mesures et incertitudes

Base de données bibliographiques Pubmed-Medline

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Génétique et génomique Pierre Martin

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Alarme domestique- Présentation

Gènes Diffusion - EPIC 2010

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Principe d un test statistique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

Systèmes de transmission

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

Les mesures à l'inclinomètre

Univers Vivant Révision. Notions STE

AGREGATION DE BIOCHIMIE GENIE BIOLOGIQUE

ATELIER IMAGEJ. Différentes applications vous sont proposées pour apprendre à utiliser quelques fonctions d ImageJ :

Précision d un résultat et calculs d incertitudes

Hépatite chronique B Moyens thérapeutiques

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Gestion et entretien des Installations Electriques BT


4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Statistiques Descriptives à une dimension

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Le Modèle Conceptuel de Virginia Henderson. P. Bordieu (2007)

Apprentissage Automatique

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Détection de fuite hélium Aspect Mesure

TP 03 B : Mesure d une vitesse par effet Doppler

Monitoring de l hémoglobine au bloc opératoire Place d une mesure continue non invasive. C Decoene PH CHRU Lille

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

Introduction à l approche bootstrap

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno )

Leucémies de l enfant et de l adolescent

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Introduction aux Statistiques et à l utilisation du logiciel R

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

MYRIAD. l ADN isolé n est à présent plus brevetable!

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Evaluation de la variabilité d'un système de mesure

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Analyse de la variance Comparaison de plusieurs moyennes

UE : GENE Responsable : Enseignant : ECUE 1. Enseignant : ECUE 2. Dr COULIBALY Foungotin Hamidou

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Environmental Research and Innovation ( ERIN )

23. Interprétation clinique des mesures de l effet traitement

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

ANALYSE DU BESOIN. L ANALYSE FONCTIONNELLE par Jean-Marie VIRELY & all (ENS Cachan) Cette présentation décrit l outil «Analyse du Besoin».

Capteur à CO2 en solution

Modélisation multi-agents - Agents réactifs

Les OGM. 5 décembre Nicole Mounier

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE

!-.!#- $'( 1&) &) (,' &*- %,!

Les réseaux cellulaires

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Pourquoi l apprentissage?

THESE. pour obtenir LE GRADE DE DOCTEUR. Spécialité INFORMATIQUE. Ecole Doctorale : Informatique et Information pour la Société. par Sylvain BLACHON

Biostatistiques : Petits effectifs

TP Modulation Démodulation BPSK

Réunion du réseau de génétique du Département EFPA

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Towards realistic modeling of IP-level topology dynamics

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Introduction à la Statistique Inférentielle

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION)

Une conférence-débat proposée par l Institut National de la Recherche Agronomique

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

Lois de probabilité. Anita Burgun

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

JEU VIDEO : UN NOUVEAU COMPAGNON par Colette KELLER-DIDIER

La classification automatique de données quantitatives

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Algorithmique I. Algorithmique I p.1/??

Transcription:

Transcriptome, Protéome et quelques problématiques statistiques Olivier Martin Inra, Avignon BioSP IUT Avignon

Plan I. Rappels de biologie II. Le transcriptome : principes et techniques III. Le protéome : principes et techniques IV. Planification expérimentale, Pré-traitement et normalisation V. Analyse différentielle et rappel sur les tests Comparaison de 2 moyennes (données indépendantes) Comparaison de 2 moyennes (données appariées)

I. Rappels de biologie

L'ADN Un code à 4 bases (Adénine, Cytosine, Thymine, Guanine) complémentaires 2 à 2 (A-T et C-G). Organisation en gènes et chromosomes Nombre de gènes estimés Bactérie : 4000 Levure : 6000 Drosophile : 13000 Homme : entre 25000 et 30000

«Dogme de la biologie moléculaire»

«Dogme de la biologie moléculaire» Transcription inverse Replication de l'arn ADN ARN Protéines Replication de l'adn Transcritpion Traduction Support de l'information génétique Agent de liaison messager entre l'information génétique et les activités de la cellule Ouvrier de la cellule : fonction biologique

La génomique La génomique est l étude complète et systématique des génomes Objectifs : connaître le nombre, la position des gènes sur le génome, leur séquence et leurs produits cellulaires 1ère étape : séquençage systématique et automatique 2ème étape : annotation automatique des séquences

L ère post-génomique Structurale Génomique Comparative Fonctionnelle Transcriptome Protéome Prédiction de structure

Séquençage à grande échelle Génomique fonctionnelle 5% des gènes ont des fonctions biologiques connues 65% des gènes ont des fonctions prédites 30% ont des fonctions inconnues Etude du transcriptome et du protéome

II. Le transcriptome

Étude du transcriptome Étudier en masse, en une seule expérience l expression des gènes Identifier des réseaux de régulation de gènes Principe: mesure indirecte de leur abondance en ARNm (niveau d expression) Technologie: Les puces à ADN (microarrays)

Transcriptome : exemple d'une puce à ADN Fonction : Mesurer le niveau d'expression de plusieurs milliers de gènes simultanément Physiquement : Une grille régulière composée de plusieurs milliers de spots (un pour chaque gène) portés par une plaque de verre, une membrane de nylon,...

Le transcriptome : Principes de la puce a ADN

Le transcriptome : Principes de la puce a ADN

Différents types de biopuces Support des sondes Lame de verre membrane de nylon Densité des sondes Macroarrays (quelques dizaines/cm²) Microarrays (plusieurs milliers) Type de sondes ADNc Oligonucléotides Marquage des cibles Lame de verre membrane Affymetrix Radioactif Fluorochromes (Cy3, Cy5)

Quelques applications des microarrays... Étude exploratoire des mécanismes génétiques cellulaires Étude temporelle de phénomènes cellulaires Comparaison de tissus cancéreux/sains Étude de maladies génétiques

Intervention des statistiques 1. Comment organiser l expérience pour optimiser l analyse statistique? : Plan d expérience 2. Comment prendre en compte les biais expérimentaux? : Normalisation 3. Comparer l expression des gènes entre différentes conditions : Analyse différentielle 4. Peut-on regrouper des individus à partir de leur profil d expression? : Classification supervisée 5. Les gènes peuvent-ils constituer un outil de diagnostic? : Classification supervisée

Quelques expériences... Données de Golub et al., 1999 But : Trouver les gènes différentiellement exprimés entre 2 types de leucémie (ALL, AML) Expressions des gènes mesurées avec 38 puces Affymetrix représentant 6817 gènes humains 38 échantillons d'arnm de tumeurs (27 ALL et 11 AML) un patient par puce : données indépendantes Pas de référence.

Quelques expériences... Données de Callow et al., 2000 But : Identifier les gènes différentiellement exprimés dans des cellules hépatiques de souris pour lesquelles un gène (Apo AI) était réprimé par rapport à des souris contrôles Expressions des gènes mesurées avec 16 puces 2 couleurs représentant 6226 gènes. L'échantillon de référence résulte du pooling des 8 échantillons contrôles 1 puce : une des deux conditions (apo AI ou contrôle) versus la référence et 8 répétitions dans chaque condition. Comparaison indirecte des 2 conditions (via la réf.) : données indépendantes.

Quelques expériences... Données Hertzberg, 2001 But : Etudier l'expression de 2995 gènes du peuplier pour 6 différentes profondeurs dans le tronc. Le contrôle correspond au pool des 6 échantillons analysés. Comparer (classer) les profils d'expression des gènes pour 6 profondeurs de bois différentes : problématique de clustering.

Le transcriptome et le séquençage haut débit La technique des puces à ADN est de moins en moins utilisée. La quatification du transcriptome est de plus en plus réalisé par du séquencage haut débit

III. Le protéome

Étude du protéome Étudier en masse et en quelques expériences les protéines et leur(s) état(s) Identifier des réseaux de régulation de protéines et des interactions entre protéines Principe: mesure indirecte de leur abondance Technologie: Les gels et la spectrométrie

Protéome : exemple d'un gels 2D Fonction : Séparer et quantifier l'ensemble des protéines solubles d'une cellule

Le protéome : Principes du gel 2D IEF : IsoElectric Focalisation SDS-PAGE : Sodium Dodécyl Sulfate Poly Acrylamide Gel Elecrophoresis

Analyse d'image d'un gel 2D Objectif : Identifier et séparer les taches qui correspondent à des protéines

Analyse d'image d'un gel 2D Difficulté : Définir correctement les contours du spot, et donc pour quantifier le niveau d'expression d'une protéine

Analyse d'image d'un gel 2D Objetcif : Etablir des correspondances entre les différents spots (protéines) de différents gels en se basant uniquement sur la localisation des spots sur les gels.

Le protéome et la spectrométrie de masse Objectif : Pouvoir associer à chaque spot du gel le nom de la protéine correspondante

Interrogation MASCOT d'un spectre

Résultat d'interrogation Mascot

La protéomique haut débit La technique des gels 2D n est pas très précise et est de moins en moins utilisée, voire abandonnée La quatification du protéome est réalisé par du séquencage haut débit

IV. La planification expérimentale La planification expérimentale Pré-traitement et normalisation

Rappel... Prélèvement des cellules à étudier Composition d'une population de référence Extraction des ARNm des deux populations de cellules : la référence et la condition d'intérêt Marquage des deux populations avec des fluorophores de couleurs différentes Rouge pour la population étudié et Vert pour la référence Les deux populations marquées sont mélangées et placées sur la puce Hybridation entre les cibles et sondes complémentaires

Mise en évidence du biais de marquage

Objectif de la planification Rendre l'analyse des données et l interprétation le plus efficace possible, compte tenu de la question biologique posée et des contraintes expérimentales. Identifier des gènes différentiellement exprimés Comparer des profils d'expression obtenus dans différentes conditions Déterminer s'il existe une relation entre un profil d'expression et un statut clinique afin de faire du diagnostic

Variabilité technique et biologique Variablité technique Permet l'observation et la quantification des biais Affine la mesure pour un individu Variabilité biologique Observer la variabilité des gènes entre individus Prendre en compte cette variabilité Conclusions généralisables aux populations

Quantifier la variabilité technique? A B 1 2 3 n 1 2 3 n

Quantifier la variabilité biologique? A1 A2 A3 An B1 B2 B3 Bn 1 2 3 n 1 2 3 n

Quantifier les variabilités biologique et technique? A1 A2 A3 Ak B1 B2 B3 Bk n1 nk n1 nk

Plan d'expériences (2 canaux) Proposition 1 (A 1 B 1 ) et (A 2 B 2 ) Proposition 2 A 1 B 1 et A 1 B 1 Proposition 3 : Dye swap (A 1 B 1 et A 1 B 1 ) et ( A 2 B 2 et A 2 B 2 )

Plan d'expériences (2 canaux) On a vu qu il existe un biais dû à l'utilisation des marqueurs Cy5 et Cy3. Une stratégie pour prendre en compte ce problème est le plan en dye-swap : Le dye-swap vise à éliminer le déséquilibre de marquage entre les deux marqueurs : il s'agit d'une répétition technique en inversant les marquages.

Plan d'expériences (2 canaux) Comparaison de plusieurs traitements : Plan en étoile Plan en boucle A1 A2 A1 A2 A3 A3 A0 AT AT-1 AT AT-1

Démarche statistique Modélisation : Traduire les questions biologiques au travers d'un modèle statistique avec des paramètres Contraintes : Nombre de lames, biais à contrôler,... : proposer un plan d'expériences Estimation des paramètres Estimer les paramètres, évaluer la précision de l'estimation et conclure quant à la question biologique de départ.

Exemple d'un modèle simple Mesure pour un gène : On note X itr le niveau d'expression d'un gène i sous la condition t pour la répétition r Modèle : X it r = m it + B r + E itr mesure = signal + effet lame + bruit avec : m it = niveau d'expression moyen du gène dans la condition t B r = niveau d'expression moyen de la lame r E itr = terme résiduel dû à la variabilité (aléatoire) des mesures

Problème de la variabilité... La variabilité entre les répétitions est prise en compte par la variance du terme résiduel E itr : on note V(E itr ) = σ 2 Quelques remarques : Si les répétitions sont des individus différents alors σ est la variabilité biologique Si les répétitions correspondent à différents échantillons d'un même individu alors σ est la variabilité technique σ doit il être constant pour toutes les répétitions? Tous les traitements? On utilise souvent une transformation logarithmique sur les données afin de «stabiliser» la variance des observations.

Plan d'expériences (2 canaux) Etude de deux conditions : On veut comparer deux conditions notées t=1, 2 et estimer la différence : δ = m 1 - m 2 Particularité : Il faut attribuer des marqueurs (Cy5 et Cy3) pour chaque ARNm de chaque lame. Remarque : On peut penser que le fait de disposer de 2 marqueurs va introduire un effet marqueur dans les mesures Modifier le modèle de départ pour l'analyse? Exemples : Quel(s) plan(s) d'expériences si on désire comparer deux conditions avec 4 lames 2 couleurs? Quel modèle écrire pour prendre en compte les marqueurs, les conditions, les répétitions, : analyse de variance?

Mise en évidence du biais de marquage

Pré-traitement et Normalisation Pré-traitement Sélectionner les données propres au processus biologique étudié, supprimer certaines anomalies dans les données récoltées, repérer certaines anomalies (bruit de fond dans l analyse d image, spots saturés en intensité, soustraction du bruit de fond aux intensités, etc ) et choisir une transformation adéquate (souvent la transformation logarithmique) Normalisation Identifier et supprimer les différences systématiques qui ne sont pas dues à la différence d expression et qui ne seront pas prises en compte par la suite. Ces 2 étapes sont cruciales avant toute analyse statistique.

L analyse d image

L analyse d image La quantité d ARNm est supposée proportionnelle à l intensité médiane (ou moyenne) des pixels qui composent le spot. L analyse d image permet de repérer les spots sur la lame, de définir les pixels qui sont considérés comme du signal (foreground) et ceux qui sont du bruit de fond (background) La mesure d expression varie entre 1=2^0 et 65536=2^16 Quantités données par le scanner : Signaux moyens et médians pour le signal et bruit de fond Bruit de fond (plusieurs algos) Qualité du spot : forme, étendue

Pré-traitement : transformation logarithmique? Données plus facilement interprétables R/G = 2 log 2 (R/G)=1 R/G=0.5 log 2 (R/G)=-1 Symétrie de la mesure des expressions

Pré-traitement: soustraction du bruit de fond?

Normalisation Pour s assurer que les différences observées sont bien dues à des niveaux d expression différents, et non à des biais techniques. La normalisation correspond à la détection de biais techniques et la mise en place de procédures de correction. Quelques biais connus : Expérimentateurs, réglages techniques, fluorochrome, aiguille du robot, température, ph, etc

Correction, identification des biais expérimentaux

Mise en évidence de l effet bloc

Normalisation LOESS par bloc

MA-plots: visualisation de l effet intensité M=log2(R/V) A=1/2 [log2(r)+log2(v)] Log ratio des intensité Intensité moyenne

Comment normaliser? Choisir une méthode pour corriger les biais techniques indésirables en utilisant tous les gènes (ou un sous ensemble) : Normalisation sur l ensemble des puces en utilisant une analyse de variance Utilisation de méthodes graphiques : MA plot et boxplot Normalisation par lame basée sur une correction lowess La normalisation est une étape délicate car elle a un impact fort sur le reste des analyses Définir une procédure que l on applique en routine.

L analyse différentielle et rappels sur les tests

L analyse différentielle Etant donné 2 conditions expérimentales A et B, on souhaite identifier les gènes qui ont une différence d expression entre les deux conditions. Une solution consiste à utiliser les tests d hypothèses. Les hypothèses : H0 = {le niveau d expression du gène est identique entre les conditions A et B} H1 = {le niveau d expression du gène est différent entre les conditions A et B} On réalise un test de comparaison de 2 moyennes : H0 : μ A = μ B contre H1 : μ A μ B On dira que le gène est différentiellement exprimé si on rejette H0.

Niveau/Puissance d un test (simple) Décision Accepter H0 Rejeter H0 Réalité H0 vraie 1 α α H0 fausse β 1 β α est le risque de première espèce = P(H1/H0) = proba de détecter une fausse différence (faux positifs) β est le risque de seconde espèce 1-β est la puissance = P(H1/H1) = proba de détecter une vraie différence (vrais positifs)

Zone de Rejet

Test de comparaison de la moyenne de deux populations Test de Student La technologie induit un choix de modélisation: les données sont appariées pour la technologie des cdna arrays Comment modéliser la variance? Variance commune à tous les gènes Variance différente pour tous les gènes

Structure des données Condition 1 Condition 2 r1 R r1 R Gène 1 Gène g X 1g1 X 2g1 Gène G