Introduction à l'analyse différentielle d'expression de gènes pour les puces à ADN

Documents pareils
TD de Biochimie 4 : Coloration.

Chapitre 3. Les distributions à deux variables

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Etude des propriétés empiriques du lasso par simulations

CATALOGUE DES PRESTATIONS DE LA

Lire ; Compter ; Tester... avec R

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Eléments de caractérisation des diamants naturels et synthétiques colorés

Introduction aux Statistiques et à l utilisation du logiciel R

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

MYRIAD. l ADN isolé n est à présent plus brevetable!

Les atouts et faiblesses des caméras TEP dédiées, TEP corps entier, TEP-CT, TEMP pour la quantification

ATELIER IMAGEJ. Différentes applications vous sont proposées pour apprendre à utiliser quelques fonctions d ImageJ :

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013

données en connaissance et en actions?

Cours 9 : Plans à plusieurs facteurs

La place de SAS dans l'informatique décisionnelle

CHAPITRE 3 LA SYNTHESE DES PROTEINES

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Analyse de la variance Comparaison de plusieurs moyennes

Ecran : Processeur : OS : Caméra : Communication : Mémoire : Connectique : Audio : Batterie : Autonomie : Dimensions : Poids : DAS :

Aide - mémoire gnuplot 4.0

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Caractérisation de défauts par Magnétoscopie, Ressuage, Courants de Foucault

Rapport d'expérience final

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Exposition. VLR plongée e commission photo

Exercice : la frontière des portefeuilles optimaux sans actif certain

Sonde de surveillance environnementale gamma

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Par Richard Beauregard. Novembre 2011

Photoactivatable Probes for Protein Labeling

Audit activité base Oracle / SAP

Les OGM. 5 décembre Nicole Mounier

Document rédigé par Alexis Michaud (en janvier 2005), réactualisé par Angélique Amelot (septembre 2009)

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

ACP Voitures 1- Méthode

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

UE : GENE Responsable : Enseignant : ECUE 1. Enseignant : ECUE 2. Dr COULIBALY Foungotin Hamidou

Annexe commune aux séries ES, L et S : boîtes et quantiles

Travail avec soin et concentration

ANALYSE DU BESOIN. L ANALYSE FONCTIONNELLE par Jean-Marie VIRELY & all (ENS Cachan) Cette présentation décrit l outil «Analyse du Besoin».

Panneaux solaires. cette page ne traite pas la partie mécanique (portique, orientation,...) mais uniquement la partie électrique

Mise en place de la composante technique d un SMSI Le Package RSSI Tools BOX

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

1 La visualisation des logs au CNES

Résultats du premier trimestre SCOR enregistre un résultat net de grande qualité de EUR 175 millions et un ROE annualisé de 12,1 %

Les étapes du traitement de l analyse d image

Estimation et tests statistiques, TD 5. Solutions

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

L exclusion mutuelle distribuée

TP : Gestion d une image au format PGM

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

FazaANGEL supervision pro-active

- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel

La Transparence des Coûts en Microfinance Mise en oeuvre de la Transparence en Afrique de L Ouest

Régression linéaire. Nicolas Turenne INRA

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Optimiser ses graphiques avec R

GUIDE DE L UTILISATEUR Recoveo Récupérateur de données

Exemples d Analyses de Variance avec R

Modèle GARCH Application à la prévision de la volatilité

Comment réaliser physiquement un ordinateur quantique. Yves LEROYER

Big Data et Graphes : Quelques pistes de recherche

Estimation des coûts d un crédit d impôt pour la condition physique des adultes. Ottawa, Canada Le 25 septembre

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Scanner laser HDS7000 Ultra rapide, à portée étendue

Le calendrier de l Avent 2014

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Equation LIDAR : exp 2 Equation RADAR :

Essais cliniques de phase 0 : état de la littérature

RAPPORT DE TEST DE CONFINEMENT SELON BS

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

MyCareNet dans Offigest. 02/05/2013 Karlien Hollanders, Annelies Bouchat

Evaluation et mise en place d un serveur de messages pour Chamilo 2.0

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

MAP 553 Apprentissage statistique

SEMIN- Gestion des couleurs sous R. Michel BAYLAC. MNHN Département Systématique et Evolution OSEB

TESTS D'HYPOTHESES Etude d'un exemple

Apprentissage Automatique

Aide-mémoire de statistique appliquée à la biologie

CATALOGUE DE FORMATION

23. Interprétation clinique des mesures de l effet traitement

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Retour d expérience sur Prelude

Recueil de formules. Franck Nicolas

Etude Harris Interactive pour la Chambre Nationale des Services d Ambulances (CNSA)

9.1 COMPTES CONSOLIDÉS 2014

Titre 4 - Analyse de l impact de la résiliation annuelle sur les marges des contrats emprunteurs

We are here. Let's talk! Objets Objets 2011 FIN DE STOCK

Travaux pratiques avec RapidMiner

Introduction au Data-Mining

Mallette Métrologie Contrôle des spectrophotomètres

Transcription:

Introduction à l'analyse différentielle d'expression de gènes pour les puces à ADN 1

Les puces à ADN - Une puce à ADN est un ensemble de molécules d'adn fixées en rangées ordonnées sur une petite surface qui peut être du verre, du silicium ou du plastique. - Ce dispositif permet, par exemple, d analyser le niveau d expression des gènes dans une cellule à un moment donné par rapport à un échantillon de référence. source : wikipedia 2

Les puces à ADN Exemples de Puce à ADN 3

Les puces à ADN - sondes : fragment d ADN synthétique représentatif des gènes dont on cherche à étudier l'expression. - cibles : ARNm que l on cherche à identifier et/ou à quantifier. - Le nombre de sondes peut varier de quelques milliers à plus de 1 million suivant les puces et les technologies (1 ou 2 conditions par puces). 4

Les puces à ADN Les étapes d une expérience de puce à ADN sont les suivantes : - Extraction de l ARNm des cellules et amplification - Transformation en ADNc par rétrotranscription - Marquage par une molécule fluorescente - Hybridation des brins d ADNc avec les sondes - Analyse de l hybridation par scanner 5

Les puces à ADN Résultat - L'image scannée est alors analysée informatiquement afin d'associer une valeur d'intensité à chaque sonde - Ce sont ces intensités que l on va analyser par la suite. 6

Les étapes de l analyse - La phase de normalisation - permet de nettoyer les données et de les rendre comparables. - La phase d analyse différentielle - permet à l aide de méthodes statistiques, d établir quels sont les gènes différentiellement exprimés entre plusieurs conditions. 7

Normalisation et qualité des données - La phase de normalisation permet - de s assurer que les données sont exploitables - de réduire les biais techniques expérimentaux - de pouvoir comparer les données des différentes puces entre elles - de s approcher des hypothèses favorables pour l analyse différentielle (distribution gaussienne des données) 8

Normalisation et qualité des données Visualisation de l image des puces : 9

Normalisation et qualité des données Il existe de nombreuses méthodes de normalisation. Elles se fondent généralement sur 2 hypothèses : - Seule une minorité de gènes est différentiellement exprimés - Les nombres de gènes sous-exprimés et sur-exprimés sont équivalents 10

Normalisation et qualité des données Une des méthodes la plus répandue est la normalisation rma (Robust Multi-Array Average) : - background correction : supprime le bruit et les artefacts locaux, les mesures ne sont plus affectées par les mesures voisines - normalization : supprime les effets liés aux puces, permet de comparer les mesures de puces différentes - summarization : combine les mesures entre plusieurs sondes pour donner une mesure d expression au niveau du gène 11

Normalisation et qualité des données De plus, les valeurs sont transformées via la fonction log2 - Afin de se rapprocher d une distribution gaussienne - De faciliter l interprétation des résultats. En effet, le Fold change ou (FC), ratio qui mesure la variation de l expression d un gène entre 2 conditions, est symétrisé par passage au log. Le logfc sera donc négatif pour un gène sous-exprimé et positif pour un gène sur-exprimé. 12

Normalisation et qualité des données Afin de vérifier l efficacité de la phase de normalisation, on utilise différents types de visualisation des données. Voici 2 types de graphiques utilisés : 13

Normalisation et qualité des données Les boxplots Exemple de boxplots après normalisation 14

Normalisation et qualité des données Les MA-plots (pour 1 condition par puce) : - en ordonnée M = log2_array log2_medianarray - en abscisse A = (log2_array + log2_medianarray)/2 Les MA-plots montrent dans quelle mesure la variabilité de l expression dépend du niveau d expression. Le nuage de points doit être centré en 0 et la ligne rouge proche de la ligne bleue. 15

Normalisation et qualité des données source : wikipedia 16

Analyse différentielle Rappel sur les Tests statistiques : - Hypothèse nulle H0 : hypothèse testée. - Exemple : les niveaux d expression d un gène entre 2 conditions sont égaux. - p-value : probabilité d'obtenir la même valeur (ou une valeur encore plus extrême) du test si l'hypothèse nulle était vraie. 17

Analyse différentielle 18

Analyse différentielle Problème des tests multiples : - Dans le cas de l analyse différentielle de plusieurs milliers de gènes le nombre de faux positifs peut devenir très grand. Une correction pour tests multiples est nécessaire. 19

Analyse différentielle Correction pour les tests multiples : - Family Wise Error Rate : rejeter à tort au moins une hypothèse nulle (e.g Bonferroni). Très stringeant. - False Discovery Rate : contrôler la proportion attendue de faux positifs parmi les positifs (e.g. Benjamini Hochberg). 20

Analyse différentielle Plusieurs approches pour les tests : - Un test par gène : manque de puissance - Hypothèse que la variance est commune à tous les gènes - beaucoup de faux positifs - Tests modérés : compromis entre approches gène à gène et variance commune. Méthode utilisée par le package R limma. 21

Analyse différentielle L histogramme de p-values : il représente la distribution des p-values brutes (avant la correction pour tests multiples) et permet de s assurer que les tests se comportent de façon attendue. 22

Analyse différentielle Sous H0, la distribution des p-value est uniforme. La forme attendue de l histogramme est donc globalement plate avec un pic proche de 0, représentant les gènes différentiellement exprimés (qui rejettent H0). 23

Analyses complémentaires D autres analyses peuvent êtres effectuées : - Gene Set Enrichement Analysis (GSEA) : Détecter des groupes (prédéfinis) de gènes qui sont sur ou sous-représentés dans l ensemble des gènes différentiellement exprimés. - Clustering 24