Traitement du signal génomique (TSG)

Documents pareils

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Statistiques Descriptives à une dimension

TP SIN Traitement d image

Fête de la science Initiation au traitement des images

Annexe commune aux séries ES, L et S : boîtes et quantiles

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Séries Statistiques Simples

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Logiciel XLSTAT version rue Damrémont PARIS

Traitement d un AVI avec Iris

Dans l idéal, ceci devrait être fait en amont pour chaque image envoyée sur l espace de stockage de votre site internet.

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Evaluation de la variabilité d'un système de mesure

CAPTEURS - CHAINES DE MESURES

Classe de première L

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno )

1. Vocabulaire : Introduction au tableau élémentaire

Tutoriel : logiciel de présentation Openoffice Impress

Spectrophotomètre double faisceau modèle 6800

Représentation d une distribution

UTILISATION D'UN RADIOCHRONOMETRE POUR DATER DES GRANITES

Statistique Descriptive Élémentaire

Statistiques à une variable

Élément 424b Introduction à la statistique descriptive

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

X-Rite RM200QC. Spectrocolorimètre d'imagerie portable

Mode d'emploi du plugin Grayscale_Granulometry

Précision d un résultat et calculs d incertitudes

10. Instruments optiques et Microscopes Photomètre/Cuve

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

1 Importer et modifier des données avec R Commander

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

GESTION DU LOGO. 1. Comment gérer votre logo? Format de l image Dimensions de l image Taille de l image 9

L analyse boursière avec Scilab

Régression linéaire. Nicolas Turenne INRA

Freeway 7. Nouvelles fonctionnalités

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Formation à distance Powerpoint Réaliser une présentation - FOAD exemples de parcours -

Estimation et tests statistiques, TD 5. Solutions

Analyse exploratoire des données

Introduction à MATLAB R

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Statistiques 0,14 0,11

Leica DM4000 B LED. Une imagerie facilitée par un éclairage brillant!

Introduire un nouveau type de maille ou un nouvel élément de référence

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Par Richard Beauregard. Novembre 2011

INF6304 Interfaces Intelligentes

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Traitement numérique de l'image. Raphaël Isdant

3. Caractéristiques et fonctions d une v.a.

Les mesures à l'inclinomètre

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Chapitre 3. Les distributions à deux variables

Introduction à Expression Web 2

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

MS PROJECT Prise en main. Date: Mars Anère MSI. 12, rue Chabanais PARIS E mail : jcrussier@anere.com Site :

CHAPITRE IX : Les appareils de mesures électriques

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Leçon N 4 : Statistiques à deux variables

EXTRACTION ET RÉINTÉGRATION DE COMPTA COALA DE LA PME VERS LE CABINET

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Parcours FOAD Formation EXCEL 2010

WHS ProRealTime. édition

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

Réussir et traiter ses photos sous UV avec Photoshop

Cours de Métrologie & Assurance qualité

TITRE PARTIE TITRE SECTION. Faire des anaglyphes avec CatiaV5

Statistique : Résumé de cours et méthodes

«Tous les sons sont-ils audibles»

Vis à billes de précision à filets rectifiés

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Programme détaillé. LES TABLEAUX DE BORD Formation en présentiel (21 h) accompagnée d un parcours e-learning Excel (5 h)

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Loi binomiale Lois normales

Le calcul du barème d impôt à Genève

Le traitement du 5ème concours A.I.P. pour l objet SH2-155 de Franck JOBARD

Programme de Formation Office 2010 Word, Excel, Powerpoint et Outlook 2010 pour Windows

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

Création de maquette web

Big data et sciences du Vivant L'exemple du séquençage haut débit

Module 6 Envois de matières infectieuses réfrigérés avec de la glace carbonique

«Manuel Pratique» Gestion budgétaire

Copropriété: 31, rue des Abondances Boulogne-Billancourt

TUTORIEL IMPRESS. Ouvrir Impress cocher «présentation vierge», «suivant» cocher «écran», «suivant» cocher «standard», «créer»

TEMPÉRATURE DE SURFACE D'UNE ÉTOILE

Analyse en Composantes Principales

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

LES GENERATEURS DE NOMBRES ALEATOIRES

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

I- Définitions des signaux.

PLAN DE COURS CEGEP DU VIEUX-MONTRÉAL

Q6 : Comment calcule t-on l intensité sonore à partir du niveau d intensité?

backlog du produit Product Owner

Transcription:

Universitatea Tehnica din Cluj-Napoca Traitement du signal génomique (TSG) Cours 4 Master: Traitement du signal et des images (TSI) - 2015 -

Motivation Une fois extraites des valeurs d'intensités ponctuelles de l'image de puces à ADN pré-traitement des données est nécessaire avant d'être regroupés et classés Pré-traitement de l'aide pour résoudre certains problèmes d'analyse de données: Mise à l'échelle des données pour l'analyse; Éliminer l'effet introduit par les sources de variabilité Identifier les valeurs ou microarrays discordants; 2

Sources de variabilité Il ya plusieurs niveaux de variabilité dans le niveau de expression d'un gène. Au niveau supérieur: la variabilité biologique de la population à partir de laquelle les échantillons ont été prélevés Au niveau d experiment: variabilité entre la préparation de l'échantillon et l'étiquetage; hybridation variabilité introduite lorsque échantillons identiques sont hybridées sur différentes puces; la variabilité entre les niveaux d'expression de gènes déterminés pour réplicants de même microarray La variabilité entre les individus Le niveau d'expression des individus La variabilité dans la préparation d'échantillons La variabilité entre les puces à ADN a l'hybridation La variabilité entre les gènes obtenue par réplication Le niveau d'expression du gène 3

Sources de variabilité La variabilité introduite par la population utilisé Quel sera l'arnm utilisé? Il est possible de tester différents échantillons en parallèle? Pour déterminer la variabilité biologique est nécessaire de créer des répliques d'expériences. Le traitement des échantillons Conditions expérimentales préparation de tissu Préparation de la cible L'isolement de l'arn doit être utilisé des quantités identiques de tissu, des méthodes identiques de l'extraction d'arn; L'étiquetage devrait être la même quantité de peinture utilisée pour chaque hybridation 4

Sources de variabilité Les puces à ADN Le même échantillon ne doit hybride sur différents visages dans des laboratoires différents; La distribution uniforme des points peut être obtenu en utilisant un robot Diapositives doivent être manipulés de la même manière Hybridation Durée: Longue hybridation de vie conduira à satuartion Température: 45 C et l'hybridation entre 65oC est Acquisition de données numérisation d'images La détection de l'arrière-plan et des taches 5

Matrice de données de puces à Spots Genes Les données brutes images de puces à ADN ADN données intermédiaires Images Les données finales Matrice niveaux d'expression échantillons Les spots correspondant à gènes Niveaux d'expression 6

Transformées Transformation logarithmique: X l = log 2 (X) où X est la matrice de données et X l est la matrice apres la transformé logarithmique. Avantages: La variation est constante pour tous les niveaux d'intensité La distribution d'erreur tend vers une distribution normale La distribution a une intensité en forme de cloche de Gauss Il réduit les intensités d'asymétrie. En utilisant le logarithme en base 2 transformé ratio intensités dans la différence logarithmique, provoquant degré plus léger du changement «fold-change» 7

Transformées Fold change Transformation Log 2 4 down-regulated -2 3 down-regulated -1.58 2 down-regulated -1 1.5 down-regulated -0.58 No change 0 1.5 up-regulated 0.58 2 up-regulated 1 3 up-regulated 1.58 4 up-regulated 2 Convertir le degré de changement R / G en degré logarithmique 8

Transformées Histogrammes des intensités d'accompagnement avant et après transformation logarithmique 9

Transformées - informatia este grupata in coltul din stanga jos - variabilitatea creste odata cu cresterea valorii intensitatii - informatia este mai bine distribuita - variabilitatea se reduce 10

Transformées Transformateur de puissance X t = X β où X est la matrice des données de puces à ADN, X t est la matrice transformé et β > 0 - β = ½ -> X t = X transformé racine carrée - β = 1/3 -> X t = X 1/3 transforme cube racine Transformation logarithmique généralisée 2 2 X log X X 2 S où α est la moyenne de l'arrière-plan, ε et η est les facteurs d'erreur avec une distribution normale de moyenne 0 et de variance σ 2, et S 2 e 2 e 2 1 11

La visualisation des données - Graphiques MA -analyse log 2 (R) vs. log 2 (G) consiste à traiter les deux intensités séparément - oeil humain à distinguer des écarts plus dures que une ligne diagonale à une ligne horizontale M log 2 A log 2 R G RG - rapport d'intensité logarithmique R / G - intensité moyenne logarithmique 12

Graphique log 2 (R) vs. log 2 (G) Graphique MA 13

La visualisation des données - Box-plot Val. Extrêmes (valeurs aberrantes) Slide 2 Slide 1 Cy3 Cy5 Cy3 Cy5 valeur maximale Q3 quartile supérieur valeur médiane Q1 quartile inférieur valeur minimum 14

Normalisation Normalisation décrit le processus d'éliminer ou de minimiser les variations non biologiques qui se produisent dans les niveaux d'intensité mesurés de telle sorte que les différences biologiques entre les niveaux d'expression génique peuvent être détectés En général, la normalisation globale vise à éliminer les effets, effets qui peuvent être vus à partir des représentations graphiques de données à partir d'un ou de plusieurs lames microarray Il existe différentes méthodes pour le type de normalisation ADNc et oligonucléotide 15

Normalisation Que gènes peuvent être utilisés? Tous les gènes sur la lame Gene gènes constamment exprimées dans différentes conditions housekeeping Gene contrôle - gènes enrichis 16

Normalisation Sur la diapositive Normalisation fondée sur le redressement global La normalisation d'intensité Normalisation dans le bloc Entre les lames répliquées Entre plusieurs lames Normalisation en escaladant normalisation quantile 17

Normalisation sur la diapositive log 2 R/G log 2 R/G - c = log 2 R/ (kg) c - peut être un exemple constant la moyenne ou la médiane du rapport R / G - peut-être une fonction définie sur toutes les valeurs dans un bloc d'intensités ponctuelles - la fonction est calculée en utilisant LOWESS (LOcally WEighted Scatterplot Smoothing) pour le graphique log 2 R/G vs log 2 ( (R*G)) 18

Normalisation sur la diapositive Function Lowess fonction de lissage Cleveland est une technique qui permet de régler la courbe de lissage d'un ensemble de données le degré de lissage est déterminé par la largeur de la fenêtre pour une plus grande largeur de la fenêtre obtiendra une courbe lisse pour une largeur inférieure obtiendra variations locales 19

Normalisation sur la diapositive Normalisation fondée sur le redressement global log 2 R/G -> log 2 R/G - c = log 2 R/(kG) - c = log 2 k - la moyenne ou de la médiane rapport logarithmique de gènes spécifiques, par exemple gènes houskeeping; - k = R i / G i 20

Normalisation sur la diapositive b) La normalisation d'intensité Il aligne le centre de données dans un graphique MA, le déplacement des valeurs de M de la paire (A, M) c = c(a) log 2 R/G -> log 2 R/G - c (A) = log 2 R/(k(A)G) Pour le calcul de c (A) est utilisée la fonction LOWESS 21

Normalisation sur la diapositive La distribution des valeurs d'intensité dans un graphique de MA avant et après la normalisation sur la base de l'intensité 22

Normalisation sur la diapositive Variations lame d'impression introduites apparaissent après la normalisation global 23

Normalisation sur la diapositive c) Normalisation dans le bloc est nécessaire en raison des erreurs semblait lame ou artefacts atteindre cet peut se produire en raison de l'hybridation La même méthode Utilisé comme la normalisation basée sur l'intensité, mais c i (A) est la fonction LOWESS qui ajuste le graphique MA juste pour les bloc i log 2 R/G -> log 2 R/G - c i (A) = log 2 R/(k i (A)G) 24

Normalisation sur la diapositive Graphique MA après normalisation au sein de chaque bloc 25

Normalisation sur la diapositive Distribution des blocs de données et les graphiques bxplot parcelle après la normalisation au sein de chaque bloc 26

Normalisation sur la diapositive Les valeurs de l'histogramme M Noir: valeurs non normalisées; Rouge: la normalisation global; Vert: la normalisation a base de l'intensité; Bleu: la normalisation dans le bloc 27

Normalisation entre les lames répliquées Dans chaque lame, un demi-bloc taches sont exprimés alors que la moitié ne sont pas exprimées du tout 28

Normalisation entre les lames répliquées Lamela 1, M = log 2 (R/G) - c Lamela 2, M = log 2 (R /G ) - c En supposant que c = c 'est réalisée une auto-normalisation des deux lames : [ (log 2 (R/G) - c) - (log 2 (R /G ) - c ) ] / 2 [ log 2 (R/G) + log 2 (G /R ) ] / 2 [ log 2 (RG /GR ) ] / 2 29

Normalisation entre plusieurs lames Une méthode simple de la normalisation entre les différentes lames est normalisée par échelle constitué de valeurs logarithmiques de l'alignement de signal de sorte que tous les canaux ont la même médiane La médiane est pas des méthodes communes importants de l'analyse après la normalisation Une valeur appréciée est égale à zéro, de sorte que les valeurs positives et négatives peut être déterminée facilement par rapport à la médiane 30

normalisation par échelle La première étape de normalisation est centré, et est d'obtenir des distributions avec des valeurs médianes égal à zéro en soustrayant le rapport logarithmique médiane des intensités; 31

normalisation par échelle Après avoir centré les données médianes zéro permettra de déterminer la déviation absolue médiane(mad) MAD = median i ( X i median j (X j ) ) Détermination du paramètre de mise à l'échelle c, la moyenne géométrique des valeurs paramètre MAD Mise à l'échelle de la normalisation se compose de colonnes de la matrice rapport de multiplication c / MAD 32

Normalisation en escaladant 33

Des valeurs médianes

Centré les donnes

Déterminer la déviation absolue médiane(mad)

Détermination du paramètre de mise à l'échelle c

Détermination du paramètre de mise à l'échelle c

normalisation par échelle

normalisation par échelle Les 12 lames après normalisation par échelle 40

Normalisation quantile normalisation quantile est une méthode souvent utilisée dans la normalisation des données de puces à ADN Affymetrix La méthode peut être utilisée pour l'adnc microarray En normalisation quantile chaque canal aura le même quantile. x q = quantile d'ordre N d'une liste de valeurs numériques (0 <q <= 1) est le plus petit nombre q de telle sorte qu'une proportion d'éléments de la liste sont inférieures ou égales à elle. la médiane = x 0.5 ; Q1 = x 0.25 ; Q3 = x 0.75 41

Normalisation quantile Graphiques box-plot des 12 diapositives après la normalisation quantile 42

Log Red Normalisation quantile Log Green Graphique intensités des deux canaux R vs G avant normalisation 43

Log Red Normalisation quantile Log Green Graphique des intensités des canaux R vs G après normalisation 44

Normalisation quantile Les étapes de normalisation sont: 1. Détermination de la valeur logarithmique minimum pour chaque canal 2. Détermination des minima moyenne en 1 3. Les valeurs de remplacement définis au point 1 à la valeur moyenne calculée au paragraphe 2 4. Répétez les étapes 1 à 3 pour toutes les valeurs des valeurs de canaux dans l'ordre croissant, du plus bas au plus haute valeur 45

Normalisation quantile

Detectia valorilor extreme (outlier) Outlier: o observatie X gj, care difera de majoritatea valorilor X gi, pentru aceeasi gena Valori extreme Metode de detectie a valorilor extreme: reguli nerezistente de detectie a valorilor extreme Regula scorului z (Testul lui Grubbs) Regula coeficientului de variatie (CV) reguli rezistente de detectie a valorilor extreme Regula scorului z rezistent 59

Detectia valorilor extreme (outlier) Regula scorului z Se determina scorul z pentru fiecare gena: X g unde genei g. X z gi g gi sg si s g reprezinta media si deviatia standard a Valoarea X gj este o valoare extrema daca z gj este mare, de exemplu z gj > 5. X 60

Detectia valorilor extreme (outlier) Regula coeficientului de variatie (CV) Cea mai departata observatie X gi fata de medie, se considera valoare extrema daca valoarea coeficientului de variatie pentru gena g, CV g, depaseste un prag stabilit. X g CV g s X g g 61

Detectia valorilor extreme (outlier) Dezavantaje ale regulilor nerezistente Ambele se bazeaza pe marimi statistice (media si deviatia standard) care sunt puternic influentate de valorile extreme Masking (Mascare) o valoare extrema ramane nedetectata deoarece poate fi ascunsa de propria influenta asupra marimilor statisitice sau poate fi ascunsa de o valoare extrema adiacenta. Swamping o valoare normala poate fi clasificata drept valoare extrema datorita prezentei unor valori extreme irelevante. 62

Detectia valorilor extreme (outlier) Regula scorului z rezistent regula ce utilizeaz marimi statistice rezistente la valori extreme: valoarea mediana si abaterea mediana absoluta (MAD) * scorul z rezistent, z gi, se determina pentru fiecare gena g cu relatia: z X X * gi g gi sg X unde si reprezinta mediana si abaterea mediana absoluta a g genei g. s g valoarea X gj este valoare extrema daca este mare, de * z gj exemplu > 5 * z gj 63

Bibliografie [1] D. Amaratunga, J. Cabrera, Exploration and Analysis of DNA Microarray and Protein Array Data, Wiley-Interscience, 2003 [2] Yang, et al., Normalization for cdna Microaray Data, Nucliec Acids Research, Vol. 30, 4, 2002 [3] John Quackenbush, Microarray data normalization and transformation, Nature Genetics Supplement, volume 32, December 2002 [4] Dov Stekel, Microarray Bioinformatics, Cambridge University Press, 2003 [5] Warren J. Ewens, Gregory R. Grant, Statistical Methods in Bioinformatics, Springer, 2001 64