Universitatea Tehnica din Cluj-Napoca Traitement du signal génomique (TSG) Cours 4 Master: Traitement du signal et des images (TSI) - 2015 -
Motivation Une fois extraites des valeurs d'intensités ponctuelles de l'image de puces à ADN pré-traitement des données est nécessaire avant d'être regroupés et classés Pré-traitement de l'aide pour résoudre certains problèmes d'analyse de données: Mise à l'échelle des données pour l'analyse; Éliminer l'effet introduit par les sources de variabilité Identifier les valeurs ou microarrays discordants; 2
Sources de variabilité Il ya plusieurs niveaux de variabilité dans le niveau de expression d'un gène. Au niveau supérieur: la variabilité biologique de la population à partir de laquelle les échantillons ont été prélevés Au niveau d experiment: variabilité entre la préparation de l'échantillon et l'étiquetage; hybridation variabilité introduite lorsque échantillons identiques sont hybridées sur différentes puces; la variabilité entre les niveaux d'expression de gènes déterminés pour réplicants de même microarray La variabilité entre les individus Le niveau d'expression des individus La variabilité dans la préparation d'échantillons La variabilité entre les puces à ADN a l'hybridation La variabilité entre les gènes obtenue par réplication Le niveau d'expression du gène 3
Sources de variabilité La variabilité introduite par la population utilisé Quel sera l'arnm utilisé? Il est possible de tester différents échantillons en parallèle? Pour déterminer la variabilité biologique est nécessaire de créer des répliques d'expériences. Le traitement des échantillons Conditions expérimentales préparation de tissu Préparation de la cible L'isolement de l'arn doit être utilisé des quantités identiques de tissu, des méthodes identiques de l'extraction d'arn; L'étiquetage devrait être la même quantité de peinture utilisée pour chaque hybridation 4
Sources de variabilité Les puces à ADN Le même échantillon ne doit hybride sur différents visages dans des laboratoires différents; La distribution uniforme des points peut être obtenu en utilisant un robot Diapositives doivent être manipulés de la même manière Hybridation Durée: Longue hybridation de vie conduira à satuartion Température: 45 C et l'hybridation entre 65oC est Acquisition de données numérisation d'images La détection de l'arrière-plan et des taches 5
Matrice de données de puces à Spots Genes Les données brutes images de puces à ADN ADN données intermédiaires Images Les données finales Matrice niveaux d'expression échantillons Les spots correspondant à gènes Niveaux d'expression 6
Transformées Transformation logarithmique: X l = log 2 (X) où X est la matrice de données et X l est la matrice apres la transformé logarithmique. Avantages: La variation est constante pour tous les niveaux d'intensité La distribution d'erreur tend vers une distribution normale La distribution a une intensité en forme de cloche de Gauss Il réduit les intensités d'asymétrie. En utilisant le logarithme en base 2 transformé ratio intensités dans la différence logarithmique, provoquant degré plus léger du changement «fold-change» 7
Transformées Fold change Transformation Log 2 4 down-regulated -2 3 down-regulated -1.58 2 down-regulated -1 1.5 down-regulated -0.58 No change 0 1.5 up-regulated 0.58 2 up-regulated 1 3 up-regulated 1.58 4 up-regulated 2 Convertir le degré de changement R / G en degré logarithmique 8
Transformées Histogrammes des intensités d'accompagnement avant et après transformation logarithmique 9
Transformées - informatia este grupata in coltul din stanga jos - variabilitatea creste odata cu cresterea valorii intensitatii - informatia este mai bine distribuita - variabilitatea se reduce 10
Transformées Transformateur de puissance X t = X β où X est la matrice des données de puces à ADN, X t est la matrice transformé et β > 0 - β = ½ -> X t = X transformé racine carrée - β = 1/3 -> X t = X 1/3 transforme cube racine Transformation logarithmique généralisée 2 2 X log X X 2 S où α est la moyenne de l'arrière-plan, ε et η est les facteurs d'erreur avec une distribution normale de moyenne 0 et de variance σ 2, et S 2 e 2 e 2 1 11
La visualisation des données - Graphiques MA -analyse log 2 (R) vs. log 2 (G) consiste à traiter les deux intensités séparément - oeil humain à distinguer des écarts plus dures que une ligne diagonale à une ligne horizontale M log 2 A log 2 R G RG - rapport d'intensité logarithmique R / G - intensité moyenne logarithmique 12
Graphique log 2 (R) vs. log 2 (G) Graphique MA 13
La visualisation des données - Box-plot Val. Extrêmes (valeurs aberrantes) Slide 2 Slide 1 Cy3 Cy5 Cy3 Cy5 valeur maximale Q3 quartile supérieur valeur médiane Q1 quartile inférieur valeur minimum 14
Normalisation Normalisation décrit le processus d'éliminer ou de minimiser les variations non biologiques qui se produisent dans les niveaux d'intensité mesurés de telle sorte que les différences biologiques entre les niveaux d'expression génique peuvent être détectés En général, la normalisation globale vise à éliminer les effets, effets qui peuvent être vus à partir des représentations graphiques de données à partir d'un ou de plusieurs lames microarray Il existe différentes méthodes pour le type de normalisation ADNc et oligonucléotide 15
Normalisation Que gènes peuvent être utilisés? Tous les gènes sur la lame Gene gènes constamment exprimées dans différentes conditions housekeeping Gene contrôle - gènes enrichis 16
Normalisation Sur la diapositive Normalisation fondée sur le redressement global La normalisation d'intensité Normalisation dans le bloc Entre les lames répliquées Entre plusieurs lames Normalisation en escaladant normalisation quantile 17
Normalisation sur la diapositive log 2 R/G log 2 R/G - c = log 2 R/ (kg) c - peut être un exemple constant la moyenne ou la médiane du rapport R / G - peut-être une fonction définie sur toutes les valeurs dans un bloc d'intensités ponctuelles - la fonction est calculée en utilisant LOWESS (LOcally WEighted Scatterplot Smoothing) pour le graphique log 2 R/G vs log 2 ( (R*G)) 18
Normalisation sur la diapositive Function Lowess fonction de lissage Cleveland est une technique qui permet de régler la courbe de lissage d'un ensemble de données le degré de lissage est déterminé par la largeur de la fenêtre pour une plus grande largeur de la fenêtre obtiendra une courbe lisse pour une largeur inférieure obtiendra variations locales 19
Normalisation sur la diapositive Normalisation fondée sur le redressement global log 2 R/G -> log 2 R/G - c = log 2 R/(kG) - c = log 2 k - la moyenne ou de la médiane rapport logarithmique de gènes spécifiques, par exemple gènes houskeeping; - k = R i / G i 20
Normalisation sur la diapositive b) La normalisation d'intensité Il aligne le centre de données dans un graphique MA, le déplacement des valeurs de M de la paire (A, M) c = c(a) log 2 R/G -> log 2 R/G - c (A) = log 2 R/(k(A)G) Pour le calcul de c (A) est utilisée la fonction LOWESS 21
Normalisation sur la diapositive La distribution des valeurs d'intensité dans un graphique de MA avant et après la normalisation sur la base de l'intensité 22
Normalisation sur la diapositive Variations lame d'impression introduites apparaissent après la normalisation global 23
Normalisation sur la diapositive c) Normalisation dans le bloc est nécessaire en raison des erreurs semblait lame ou artefacts atteindre cet peut se produire en raison de l'hybridation La même méthode Utilisé comme la normalisation basée sur l'intensité, mais c i (A) est la fonction LOWESS qui ajuste le graphique MA juste pour les bloc i log 2 R/G -> log 2 R/G - c i (A) = log 2 R/(k i (A)G) 24
Normalisation sur la diapositive Graphique MA après normalisation au sein de chaque bloc 25
Normalisation sur la diapositive Distribution des blocs de données et les graphiques bxplot parcelle après la normalisation au sein de chaque bloc 26
Normalisation sur la diapositive Les valeurs de l'histogramme M Noir: valeurs non normalisées; Rouge: la normalisation global; Vert: la normalisation a base de l'intensité; Bleu: la normalisation dans le bloc 27
Normalisation entre les lames répliquées Dans chaque lame, un demi-bloc taches sont exprimés alors que la moitié ne sont pas exprimées du tout 28
Normalisation entre les lames répliquées Lamela 1, M = log 2 (R/G) - c Lamela 2, M = log 2 (R /G ) - c En supposant que c = c 'est réalisée une auto-normalisation des deux lames : [ (log 2 (R/G) - c) - (log 2 (R /G ) - c ) ] / 2 [ log 2 (R/G) + log 2 (G /R ) ] / 2 [ log 2 (RG /GR ) ] / 2 29
Normalisation entre plusieurs lames Une méthode simple de la normalisation entre les différentes lames est normalisée par échelle constitué de valeurs logarithmiques de l'alignement de signal de sorte que tous les canaux ont la même médiane La médiane est pas des méthodes communes importants de l'analyse après la normalisation Une valeur appréciée est égale à zéro, de sorte que les valeurs positives et négatives peut être déterminée facilement par rapport à la médiane 30
normalisation par échelle La première étape de normalisation est centré, et est d'obtenir des distributions avec des valeurs médianes égal à zéro en soustrayant le rapport logarithmique médiane des intensités; 31
normalisation par échelle Après avoir centré les données médianes zéro permettra de déterminer la déviation absolue médiane(mad) MAD = median i ( X i median j (X j ) ) Détermination du paramètre de mise à l'échelle c, la moyenne géométrique des valeurs paramètre MAD Mise à l'échelle de la normalisation se compose de colonnes de la matrice rapport de multiplication c / MAD 32
Normalisation en escaladant 33
Des valeurs médianes
Centré les donnes
Déterminer la déviation absolue médiane(mad)
Détermination du paramètre de mise à l'échelle c
Détermination du paramètre de mise à l'échelle c
normalisation par échelle
normalisation par échelle Les 12 lames après normalisation par échelle 40
Normalisation quantile normalisation quantile est une méthode souvent utilisée dans la normalisation des données de puces à ADN Affymetrix La méthode peut être utilisée pour l'adnc microarray En normalisation quantile chaque canal aura le même quantile. x q = quantile d'ordre N d'une liste de valeurs numériques (0 <q <= 1) est le plus petit nombre q de telle sorte qu'une proportion d'éléments de la liste sont inférieures ou égales à elle. la médiane = x 0.5 ; Q1 = x 0.25 ; Q3 = x 0.75 41
Normalisation quantile Graphiques box-plot des 12 diapositives après la normalisation quantile 42
Log Red Normalisation quantile Log Green Graphique intensités des deux canaux R vs G avant normalisation 43
Log Red Normalisation quantile Log Green Graphique des intensités des canaux R vs G après normalisation 44
Normalisation quantile Les étapes de normalisation sont: 1. Détermination de la valeur logarithmique minimum pour chaque canal 2. Détermination des minima moyenne en 1 3. Les valeurs de remplacement définis au point 1 à la valeur moyenne calculée au paragraphe 2 4. Répétez les étapes 1 à 3 pour toutes les valeurs des valeurs de canaux dans l'ordre croissant, du plus bas au plus haute valeur 45
Normalisation quantile
Detectia valorilor extreme (outlier) Outlier: o observatie X gj, care difera de majoritatea valorilor X gi, pentru aceeasi gena Valori extreme Metode de detectie a valorilor extreme: reguli nerezistente de detectie a valorilor extreme Regula scorului z (Testul lui Grubbs) Regula coeficientului de variatie (CV) reguli rezistente de detectie a valorilor extreme Regula scorului z rezistent 59
Detectia valorilor extreme (outlier) Regula scorului z Se determina scorul z pentru fiecare gena: X g unde genei g. X z gi g gi sg si s g reprezinta media si deviatia standard a Valoarea X gj este o valoare extrema daca z gj este mare, de exemplu z gj > 5. X 60
Detectia valorilor extreme (outlier) Regula coeficientului de variatie (CV) Cea mai departata observatie X gi fata de medie, se considera valoare extrema daca valoarea coeficientului de variatie pentru gena g, CV g, depaseste un prag stabilit. X g CV g s X g g 61
Detectia valorilor extreme (outlier) Dezavantaje ale regulilor nerezistente Ambele se bazeaza pe marimi statistice (media si deviatia standard) care sunt puternic influentate de valorile extreme Masking (Mascare) o valoare extrema ramane nedetectata deoarece poate fi ascunsa de propria influenta asupra marimilor statisitice sau poate fi ascunsa de o valoare extrema adiacenta. Swamping o valoare normala poate fi clasificata drept valoare extrema datorita prezentei unor valori extreme irelevante. 62
Detectia valorilor extreme (outlier) Regula scorului z rezistent regula ce utilizeaz marimi statistice rezistente la valori extreme: valoarea mediana si abaterea mediana absoluta (MAD) * scorul z rezistent, z gi, se determina pentru fiecare gena g cu relatia: z X X * gi g gi sg X unde si reprezinta mediana si abaterea mediana absoluta a g genei g. s g valoarea X gj este valoare extrema daca este mare, de * z gj exemplu > 5 * z gj 63
Bibliografie [1] D. Amaratunga, J. Cabrera, Exploration and Analysis of DNA Microarray and Protein Array Data, Wiley-Interscience, 2003 [2] Yang, et al., Normalization for cdna Microaray Data, Nucliec Acids Research, Vol. 30, 4, 2002 [3] John Quackenbush, Microarray data normalization and transformation, Nature Genetics Supplement, volume 32, December 2002 [4] Dov Stekel, Microarray Bioinformatics, Cambridge University Press, 2003 [5] Warren J. Ewens, Gregory R. Grant, Statistical Methods in Bioinformatics, Springer, 2001 64