How To Analyse Data from micro-array experiments: A Simple Tutorial

Documents pareils
BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Chapitre 22 : (Cours) Numérisation, transmission, et stockage de l information

Précision d un résultat et calculs d incertitudes

1S9 Balances des blancs

Spectrophotomètre double faisceau modèle 6800

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Chapitre 7 Les solutions colorées

EXERCICE 2 : SUIVI CINETIQUE D UNE TRANSFORMATION PAR SPECTROPHOTOMETRIE (6 points)

Représentation des Nombres

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Opérations de base sur ImageJ

Chapitre 1 : Évolution COURS

Mesure agnostique de la qualité des images.

!-.!#- $'( 1&) &) (,' &*- %,!

Document d orientation sur les allégations issues d essais de non-infériorité

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Les bases de l étalonnage avec Adobe Premiere Pro Formation de Duduf

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Question 1: Analyse et évaluation des obligations / Gestion de portefeuille

une centrale ou organe de commande des détecteurs des dispositifs de signalisation d alarme (sirène, alarme lumineuse)

GMEC1311 Dessin d ingénierie. Chapitre 1: Introduction

TP 03 B : Mesure d une vitesse par effet Doppler

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Mesures et incertitudes

PHYSIQUE-CHIMIE. Partie I - Spectrophotomètre à réseau

Caractérisation de défauts par Magnétoscopie, Ressuage, Courants de Foucault

Relation entre deux variables : estimation de la corrélation linéaire

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

La spectrophotométrie

Présentation des termes et ratios financiers utilisés

Comparaison des coûts de gestion des Assureurs Santé et de l Assurance Maladie. Annexe méthodologique

Transmission d informations sur le réseau électrique

DIFFRACTion des ondes

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Sillage Météo. Notion de sillage

Établissement des taux d actualisation fondés sur la meilleure estimation aux fins des évaluations de provisionnement sur base de continuité

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

(aq) sont colorées et donnent à la solution cette teinte violette, assimilable au magenta.»

TP 3 diffusion à travers une membrane

DIGITAL NETWORK. Le Idle Host Scan

INDICES DE PRIX EXPÉRIMENTAUX DES SERVICES FINANCIERS

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

Le traitement du 5ème concours A.I.P. pour l objet SH2-155 de Franck JOBARD

TEMPÉRATURE DE SURFACE D'UNE ÉTOILE

Chapitre 18 : Transmettre et stocker de l information

TP 7 : oscillateur de torsion

Chapitre 6. Fonction réelle d une variable réelle

Éclairage naturel L5C 2009/2010. Aurore BONNET

Chap17 - CORRECTİON DES EXERCİCES

Analyse et interprétation des données

APPLICATION DU CODE RESEAU EQUILIBRAGE AU 1 ER OCTOBRE 2015 : PROPOSITION DE GRTGAZ RELATIVE AUX INTERVENTIONS DU TRANSPORTEUR

TPG 12 - Spectrophotométrie

Traitement bas-niveau

Algorithme. Table des matières

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Les moyens d observations en astronomie & astrophysique

MAP 553 Apprentissage statistique

pka D UN INDICATEUR COLORE

enquête pour les fautes sur le fond, ce qui est graves pour une encyclopédie.

Chapitre 02. La lumière des étoiles. Exercices :

Modèle GARCH Application à la prévision de la volatilité

MESURES D UN ENVIRONNEMENT RADIOELECTRIQUE AVEC UN RECEPTEUR CONVENTIONNEL ETALONNE

PROPRIÉTÉS D'UN LASER

LE COSMODETECTEUR : UN EXEMPLE DE CHAÎNE DE MESURE

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

Fluorescent ou phosphorescent?

Dossier technique. Présentation du bus DMX et Utilisation des options EL13 / EL14 ERM AUTOMATISMES INDUSTRIELS 1 LE PROTOCOLE DMX 2

GENERALITES SUR LA MESURE DE TEMPERATURE

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION)

Chapitre 2 Les ondes progressives périodiques

Ni tout noir, ni tout blanc Consignes Thème I - Observer

Mallette Métrologie Contrôle des spectrophotomètres

Baccalauréat ES Amérique du Nord 4 juin 2008

Rapport. Mesures de champ de très basses fréquences à proximité d antennes de stations de base GSM et UMTS

PRINCIPE MICROSCOPIE CONFOCALE

Spectrophotométrie - Dilution 1 Dilution et facteur de dilution. 1.1 Mode opératoire :

La température du filament mesurée et mémorisée par ce thermomètre Infra-Rouge(IR) est de 285 C. EST-CE POSSIBLE?

Sonde de surveillance environnementale gamma

INTRODUCTION À LA SPECTROSCOPIE

Extraction d informations stratégiques par Analyse en Composantes Principales

Transmission de données. A) Principaux éléments intervenant dans la transmission

Traitement d un AVI avec Iris

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Fête de la science Initiation au traitement des images

Épreuve collaborative

Rappels sur les suites - Algorithme

En mars 2001, à l occasion d une journée

Chapitre 6 La lumière des étoiles Physique

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

Codage d information. Codage d information : -Définition-

LA MAIN A LA PATE L électricité Cycle 3 L électricité.

PHYSIQUE 2 - Épreuve écrite

Évaluations aléatoires : Comment tirer au sort?

Scanner de film numérique

LES TOUT PREMIERS PAS

Transcription:

How To Analyse Data from micro-array experiments: A Simple Tutorial Serge Smidtas Supelec Source de données L analyse commence lorsque les MicroArray ont été scannées. Des images, des logiciels (Genepix, ScanAnalyse..) tirent un tableau de donnée pour chaque spot. Ce tableau comporte des données relatives au spot : Diametre Nombre de pixels Mediane de l Intensite 535nm Mediane de l Intensité 535nm Moyenne de l Intensite 535nm

Moyenne de l Intensité 535nm Intenstité Background 635nm Intenstité Background 535nm Et des données relatives à la qualité du spot moins utilisées : Flag Standard déviation du Background Les données telles que le Flag doivent servir à pondérer les données de l intensité lumineuse des spots par un coefficient compris entre 0 et 1. 0 : spot a ne pas considerer. 1 : très joli spot Background Lors du scan d images, il existe un bruit de fond qui biaise les résultats. Il convient donc de retirer ce bruit de fond. Plusieurs moyens existent pour prendre un tel bruit de fond en considération.

Bruit de fond global Cette méthode revient à retirer à l ensemble des spots une valeur unique pour une lame (ou un patch). Le bruit de fond comportant un gradient important sur la lame, cette méthode est limitée. Bruit de fond local La plus part des logiciels fournissent à présent pour chaque spot une valeur de bruit de fond local qui consiste à calculer l intensité moyenne ou médiane d une zone périphérique à chaque spot. On retire à chaque spot le background pour chaque couleur : Med535 / BackgroundMed535 Med635 / BackgroundMed635 Médiane, Moyenne, Intensité?

Les spots comportent plusieurs pixels. Une seule valeur d intensité sera retenue pour le spot. S agit-il de la moyenne, de médiane des pixels, ou de l intensité totale additive des pixels? La médiane représente l intensité du nieme pixel du spot, ou n est la moitie du nombre des pixels du spot classés par intensité. L avantage est que cette valeur n est influencée par les pixels d intensité extrême que par leur nombre, et non leur intensité. Que ce soit les pixels peu nombreux dus à des poussières lumineuses, ou bien les pixels noirs du background qui auraient été pris en compte dans le cercle. L inconvénient est que cette médiane est influencée par le nombre de pixels du background qui peut être inclus dans le cercle posé par le logiciel de reconnaissance de spots. La moyenne représente l intensité moyenne du spot. L inconvénient est que cette valeur est influencée d une part, par le background qui pourrait apparaître dans le cercle du spot (lors de spots non circulaires et lors de cercles de taille fixes) et d autre part, par les poussières.dont l intensité est très importante. L intensité n est pas fournie en général par les logiciels d analyse. L intensité=(nombre de pixel )*(Valeur Moyenne). Elle représente la quantité de lumière émise par le spot, et a l avantage de mieux correspondre à la quantité de luminophores présente dans le spot. L autre avantage est qu elle permet d utiliser de grands cercles pour le repérage des spots, puisque si une partie du background est dans le cercle, ce dernier n aura aucune influence. Le repérage des spots se fait alors plus facilement. L inconvénient est que la quantité de lumière due aux poussières est également prise en compte.

Intens. Excellent Excellent Excellent Excellent Bad Excellent Med Good Poor Poor Poor Good Good Mean Good Bad Bad Poor Poor Poor Nous verrons plus loin comment comparer ces 3 méthodes de manière plus quantitative et systématique. Black Hole

Les trous noirs introduisent des intensités négatives lorsque l on retire le bruit de fond. Une solution consiste à ne pas tenir compte de ces spots dans l analyse. :-( Représentation de données Le logarithme est intéressant pour travailler sur les intensités obtenues, et rendre visibles les spots. De faible intensité. Le logarithme introduit, il faudra faire attention dans la suite qu une division avant log équivaut à une soustraction. log(cy3/cy5)=log(cy3)-log(cy5) log(cy3*cy5)=log(cy3)+log(cy5) Ainsi, si le background n a pas encore été retiré, c est en soustrayant sa valeur et non par une division que l on y arrivera. log(rouge)=log(cy5)-log(background)=log(cy5/background) log

Que le logarithme soit népérien ( ln(2,718)=1 ), décimal ( log(10)=1 ) ou en base 2 (log2(2)=1 ) les résultats seront inchangés à un rapport prêt. Leur représentation sera identique.il faut tout de même savoir quel logarithme a été utilisé pour tirer des conclusions quantitatives d expérience. Ainsi,un ratio logarithmique de avec un log correspont à un rapport Cy/Ref de 1 décimal 10 0,3 décimal 2 1 néperien 2,718 0,4 népérien 1,5 0,7 népérien 2 Ratio et Intensité sont bien plus significatifs qu intensité rouge contre intensité verte et il convient par conséquent plus agréable de les porter sur les axes. Ratio = log(cy3/cy5) ou log(cy5/cy3) Intensity = log(cy3*cy5) La lecture des graphes est alors immédiate et naturelle.

Le ratio d un gène sur-exprimé sera positif ( log(cy/ref)>0 ) Le ratio d un gène sous-exprimé sera négatif ( log(cy/ref)>0 ) Normalisation Intra-lame Lorsque les lames sont scannées, l intensité dans une des couleurs, n est pas toujours comparable aux intensités dans l autre couleur. Pour y remédier le meilleur moyen est d ajuster la puissance des lasers du scanner pour obtenir la meilleure image sans toute fois saturer aux point les plus lumineux.

Apres avoir scanné l image, il est encore possible de normaliser l intensité d un fluorophore contre un autre. Calculer la moyenne des ratios de spots, et retrancher cette valeur à tous les spots. Ratio=log(Cy/Ref)-Mean[log(Cy/Ref), ] Cette normalisation peut être effectuée en considérant la moyenne

sur tous les spots les 80 % de spots médians certains spots étalons La valeur moyenne du ratio sera alors approximativement de 0. De même la normalisation de l intensité peut être effectuée en considérant des spots étalons. Normalisation Inter-lame Pour comparer des lames différentes, ou quelques spots sont censés s exprimer différemment, il peut être judicieux d avoir la même déviation standard pour tous les nuages. Comme pour la normalisation intra-lame, cette déviation standard peut être calculée sur l ensemble des spots les 90% des spots médians une sélection de spots

On s intéresse généralement plus souvent au ratio qu à l intensité mais ces normalisations devraient aussi être effectuées sur l intensité. Cette normalisation ne peut être souhaitable que pour des lames comparables. En effet la dynamique de toutes les lames n est pas forcément identique. Pour normaliser ainsi les lames, il convient de diviser les ratios par la déviation standard calculée. Ratio_normalisé = ratio / std[ratios] Ce qui revient à peu près à log(ratio_normalisé) = log(ratio) - std[log(ratios)] Le résultat obtenu est un nuage de points centrés en 0 par la normalisation intra-lame et de déviation standard 1 par la normalisation inter-lame. Utilisation de répliquas et reproductibilité

Un échantillon d adn peut être spoté en plusieurs exemplaires sur une lame. Ces spots sont reconnus séparément par les logiciels de reconnaissance de spots. Il faut à un moment regrouper ces spots pour en tirer la signification particulière qu ils procurent. Disposer de plusieurs mesures pour les résultats d hybridation d un même échantillon d adn améliore la précision des résultats. La moyenne des ratios mesurés d un répliqua donne une bonne estimation du ratio pour un échantillon d adn hybridé. Voici un ordre de grandeur pour une lame de déviation standard normalisée à 1 : valeur considérée Erreur(norm.) Nbre Spots à plus de 1,5 fois la 1 spot par répliqua 0,92 80% 2 spots par répliqua 0,74 89% 3 spots par répliqua 0,62 92% 4 spots par répliqua 0,57 94% Cela signifie que, si l on utilise 3 spots par répliqua, 8 % des ratios obtenus seront en réalité à l extérieur d une fourchette de 1,5 fois autour de la valeur mesurée.

On est 2 fois plus précis en passant de 1 à 2 spots par répliqua, et 4 fois plus précis avec 4 spots par répliqua. Quand on change de lame, les résultats se dégradent. népérien) Estimation de l erreur (en log 1 spot sur chaque lame par répliqua 2,56 2 spots sur chaque lame par répliqua 2,10 4 spots sur chaque lame par répliqua 0,76 L interet d utiliser 4 spots par répliqua et par lame est tout à fait notable cette fois. Localisations des spots sur la lame Il convient de séparer spatialement le plus possible les spots d un répliqua sur la lame pour décorreler au maximum les perturbations qui interviennent. Comparaisons de lames, Spécificité.

Comparaison de protocoles et qualité On considère ici que l on a 2 séries de résultats à comparer. Ces 2 séries différent par une normalisation différente, un protocole différent mais l ARN hybridé utilisé est identique dans les 2 cas. Si l ARN n est pas identique, cette méthode peut égalament être utilisée avec précautions car elle fait normalement intervenir une normalisation inter-lame. La série de résultat sera d autant meilleur que que les spots de répliquas seront regroupés dans le nuage, ce qui sera un bon indice de la reproductibilité et de la précision des résultats.

On calcule d une part la déviation Standard des spots au sein des répliqua, et d autre part la déviation standard de l ensemble du nuage. Leur différence est caractéristique de la qualité des résultats. (Std nuage) - (Std répliqua), grand => meilleurs protocole, meilleur reproductibilité. Pour calculer la déviation standard moyenne des spots au sein des répliquas, on calcule pour chaque répliqua la déviation standard. Puis on prend la moyenne des valeurs ainsi obtenues. Pour calculer la déviation standard du nuage, on prend la déviations standard de toutes les valeurs. Exemple : Soit à répondre à la question: «Est ce mieux de considérer la médiane ou l intensité totale pour étudier l intensité des spots?»

On a ici une seule lame, mais avec 2 protocoles différents d analyse de donnée. Ce qui nous donne nos deux séries de valeurs à comparer. 1. En considérant la Mediane des pixels des spots 2. En considérant l intensité totale (Rayon*Moyenne) Afin de déterminer le meilleur protocole des deux, on calcule comme illustrée ci-dessus, la moyenne des déviations standards de l intensité des spots pour le nuage et par répliqua. Pour le 1er protocole : (les valeurs sont en logarithme népérien) Standard déviation dans les répliquas : 1,24 Standard déviation du nuage : 2,24 Soit une différence: 1 (2,24-1,24 = 1) Pour le 2eme protocole : Standard déviation dans les répliquas : 1,38 Standard déviation du nuage : 2,45 Soit une différence: 1,07 (2,45-1,38 = 1,07) Ce qui permet de conclure comme attendu (cf explication données plus haut) que l intensité globale est mieux adaptée que la médiane pour l étude de l intensité des spots. Comparaison de gènes

Il existe des méthodes de clustering pour comparer plusieurs lames, non abordées ici. Ces méthodes regroupent les gènes suivant une ressemblance de leurs vecteurs, profil d expression, à une ou plusieurs dimensions. Cependant dans le cas de 2 lames seulement, il peut être plus intéressant de comparer directement les lames en regardant leur nuage de répliqua. (les moyennes des spots par répliquas des lames normalisées ayant déjà été prises en compte). En reliant sur le nuage (Ratio en fonction de intensité) par des traits les valeurs d une lame à l autre pour chaque répliqua, on obtient une représentation qui permet de donner une idée de ce qui se passe, sans toute fois être exploitable. Cette représentation a néanmoins l avantage de mettre l accent sur la représentatitivité des résultats, et sur l importance du bruit expérimental sur les valeurs mesurées. (graphe ci dessus en suivant les spots et non les répliquas, d ou une image peu lisible) En relativisant la variation d expression des gènes par rapport à une lame, (et sous forme de nuage de points ) les gènes variant le plus sont tout de suite repérable,puisqu ils sont les représentés par des points, les plus loints du centre. Cette représentation a l avantage de ne pas être perturbée visuellement par le bruit de fond de variation dynamique de l expression de gènes.( graphe ci-dessous avec des traits au lieu de l avoir en nuage de points)