Sylvain Mareschal [@etu.univ-rouen.fr] CGH-array



Documents pareils
Biomarqueurs en Cancérologie

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

CATALOGUE DES PRESTATIONS DE LA

Mesure agnostique de la qualité des images.

Big data et sciences du Vivant L'exemple du séquençage haut débit

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Gestion obligataire passive

23. Interprétation clinique des mesures de l effet traitement

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

ALK et cancers broncho-pulmonaires. Laurence Bigay-Gamé Unité d oncologie thoracique Hôpital Larrey, Toulouse

INF6304 Interfaces Intelligentes

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Traitement bas-niveau

Quantification de l AgHBs Pouquoi? Quand?

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

DERIVES SUR ACTIONS ET INDICES. Christophe Mianné, Luc François

Surveillance épidémiologique : application à la détection et la prédiction des épidémies

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Gènes Diffusion - EPIC 2010

Métastase unique d un NPC: Une question singulière? Jean Louis Pujol - Xavier Quantin Mohammad Chakra Fabrice Barlési

La nouvelle planification de l échantillonnage

Le traitement conservateur des tumeurs malignes des membres a largement remplacé les amputations

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

MAP 553 Apprentissage statistique

Evaluation générale de la qualité des données par âge et sexe

MCMC et approximations en champ moyen pour les modèles de Markov

données en connaissance et en actions?

La surveillance biologique des salariés Surveiller pour prévenir

Les renseignements suivants sont destinés uniquement aux personnes qui ont reçu un diagnostic de cancer

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

1 les caractères des êtres humains.

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Cours d analyse technique. Henri Janssen INVESTA

CAPTEURS - CHAINES DE MESURES

Introduction à MATLAB R

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

MABioVis. Bio-informatique et la

DynAmiser vos investissements

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Pourquoi R devient incontournable en recherche, enseignement et développement

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Système de sécurité de périmètre INTREPID

Pemetrexed, pionnier de la chimiothérapie histoguidée. Dr Olivier CASTELNAU Institut Arnault TZANCK ST Laurent du Var

REUNION PRESSE JEUDI 13 FEVRIER Contact presse CAPmedias / Anne COPEY / anne.copey@capmedias.

Spectrophotomètre double faisceau modèle 6800

Les OGM. 5 décembre Nicole Mounier

Expérience 3 Formats de signalisation binaire

Information génétique

Les tests de génétique moléculaire pour l accès aux thérapies ciblées en France en 2011

Audits de sécurité, supervision en continu Renaud Deraison

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Estimations définitives des prix pour les bobines d acier laminé à chaud européens, reconnues par le secteur

Réunion publique/téléconférence

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

TD de Biochimie 4 : Coloration.

Transmission de données. A) Principaux éléments intervenant dans la transmission

Scanner de film numérique

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Introduction : Essais de phase I

Génétique et génomique Pierre Martin

Peut-on ne pas reprendre des marges «insuffisantes» en cas de Carcinome canalaire infiltrant

Résultats annuels Exercice clos au 30 avril juin 2015

EXPERIAN FOOTFALL: COMPTEZ-LES. ATTIREZ-LES. CONVERTISSEZ-LES.

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Projet audio. Analyse des Signaux ELE2700

Systèmes de transmission

de calibration Master 2: Calibration de modèles: présentation et simulation d

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

4. Résultats et discussion

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Précision d un résultat et calculs d incertitudes

Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE

Les plateformes de génétique

Les différents types de cancers et leurs stades. Dr Richard V Oncologie MédicaleM RHMS Baudour et Erasme La Hulpe 1/12/07

Comptabilité énergétique

CHAPITRE IX : Les appareils de mesures électriques

Faculté de Médecine Comité des thèses Année 2012 Séminaire-Atelier n 1

Les atouts et faiblesses des caméras TEP dédiées, TEP corps entier, TEP-CT, TEMP pour la quantification

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Que faire lorsqu on considère plusieurs variables en même temps?

Bases de données et outils bioinformatiques utiles en génétique

Un laboratoire d auto-immunité paperless : mythe ou réalité? L.Lutteri Laboratoire d auto-immunité Service de Chimie Clinique CHU Liège

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

ÉVOLUTION DE L'ACCIDENTALITÉ ROUTIÈRE DANS LE DÉPARTEMENT DE LA HAUTE-VIENNE Valeurs cumulées sur les 12 derniers mois avec courbe de tendance

CHAPITRE 3 LA SYNTHESE DES PROTEINES

cytogénétiques , 12, 13, ainsi qu à des travaux moléculaires 14, 15 16, les questions posées par l équipe

10 juin 2010 Polytech Lille. Organisé par le Certia Interface, AQUIMER et le RMT (Réseau Mixte Technologique) Gestion durable des fluides.

Représentation d une distribution

Soutenance de stage Laboratoire des Signaux et Systèmes

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Détection et prise en charge de la résistance aux antirétroviraux

Transcription:

Master bioinformatique, Université de Rouen Sylvain Mareschal [@etu.univ-rouen.fr] CGH-array Van de Wiel et al (2011 Brief Bioinform. Jan;12(1:10-21. Preprocessing and downstream analysis of microarray DNA copy number profiles.

1. Théorie 1.1. Principe Fragmentation du génome Enzymes de restriction Sonication Hybridations compétitives Un ADN cible (vert Un ADN référence (rouge Localement sur le génome Historiquement BAC (10 2 à 10 3 pour hg 60-mer généralement (10 5 à 10 6 actuellement Réparties sur le génome ou la région cible Deux scans successifs Fluorescences verte et rouge Identification grâce aux sondes de position Qualité (sondes contrôles, pixels outliers Calcul des s M (F vert / F rouge M > 0 : amplification M < 0 : délétion Theisen 2008 Agilent 44K Martin Figeac

1. Théorie 1.2. Anomalies visibles http://cvirtuel.cochin.univ-paris5.fr/cytogen/2-1.htm Délétion Inversion Amplification Amplification en tandem Amplification + insertion A B A A Translocation équilibrée Translocation déséquilibrée Circularisation Disomie uniparentale (UPD

1. Théorie 1.3. Workflow Localisation Scan, mapping Traitement des sondes Biais Segmentation CBS Copy calling Seuils, N, HMM copies amp normal Analyse globale Pénétrance, MCR, clustering puces

2. Pratique - les biais 2.1. Biais de sondes - puces en général Mesure de la qualité de la puce Biais d intensité MA plot Derivative Log Ratio Spread (DLRS DLRS = IQR(diff(M / (1,349 * sqrt(2 Centralisation Communément admis Médiane / Moyenne inadaptées M = M - mode(m Attention aux polyploïdes (M chromosomique LOWESS A amplification > A normal > A deletion Risqué sur ADN complexes (perte d altérations Caroline Bérard (A derivative chromosomique Excellent < 0,2 < Good < 0,3 < Poor Kincaid et al (2007 US 2007/0031883 A1 application patent 2007 Analyzing CGH data to identify aberrations. Median Absolute Deviation (MAD MAD = median(m median(m Quartile 3 Quartile 1 LOWESS sur sondes normales Même principe, en excluant les altérations Revient à analyser les données durant la pré-analyse! - K-mean clustering Staaf et al (2007 BMC Genomics. - Segmentation Van Houte et al (2010 Bioinformatics. Densité 2D Régression de la crête d(r, V Essentiellement des sondes normales (majoritaires Chen et al (2008 Bioinformatics. Aug 15;24(16:1749-56. Van de Wiel et al (2011 Brief Bioinform. Jan;12(1:10-21. Preprocessing and downstream analysis of microarray DNA copy number profiles. Bruit de fond Soustraction Possible mais peu utilisée Effet sur les intensités faibles Filtration éventuelle intensité M = 0,5 intensité M = 0,25 Normalisation inter-array Variance, quantiles Hypothèse de distributions similaires déraisonnable A éviter, sauf si profils équivalents (rare

2. Pratique - les biais 2.2. Biais de sondes - CGH spécifiques Vagues Phénomène mal connu + ou - fort selon la quantité d ADN Lié à la composition en GC WACA Leprêtre et al (2010 NAR Apr;38(7:e94. Waved acgh: to smooth or not to smooth. 5 LOWESS successives - %GC(sonde +/- 150kb - %GC(sonde +/- 500kb - %GC(sonde - %GC(fragment génomique ciblé - taille(fragment génomique ciblé Calculs préalables nécessaires Calculer les biais par sonde, par design Modification selon le protocole utilisé Implémentation peu confortable RReportGenerator, Agilent, pas de calcul des biais Voir cghra.probes Leprêtre et al 2009 Plaques de calibration Van de Wiel et al (2009 Bioinformatics. May 1;25(9:1099-104 Smoothing waves in array CGH tumor profiles. Régression sur données d hybridation normal / normal Nécessite une série du même design Nombreux biais corrigés Biais spatial CGH : positions aléatoires Pas de lien spatial puce / chromosome Répartition homogène attendue des M Artefact local Traces de doigt, de colle Gradient Mélange de réactifs hétérogène Lames mal immergées Canal spécifique ou non Rarement identique sur les 2 canaux Impact sur le à surveiller Impact fort Augmente le bruit sur tout le génome Perturbe la modélisation Corriger les artefacts locaux Seule solution : exclure les sondes - Délimitation manuelle - Clustering spatial (MANOR Corriger les gradients Régression envisageable - Plus simple : exclure la puce - Corrigé indirectement par la print-tip LOWESS - 2D LOWESS (MANOR Bioconductor MANOR Neuvial et al (2006 BMC Bioinformatics. May 22;7:264. Spatial normalization of array-cgh data. Neuvial et al 2006

2. Pratique - les biais 2.3. Biais d expérience Cellularité ADN cible rarement homogène Nombreuses sous-populations cellulaires Une altération peut n en toucher qu une partie Effet sur les s M observé = moyenne(m chaque cellule Effet variable selon les proportions Cellules normales Non concernées par les altérations (2 copies Resserrent M autour de 0 Exemple d une délétion : 0% normales log(1/2 = -1 10 % normales log((1/2*90% + (2/2*10% = -0,86 20 % normales log((1/2*80% + (2/2*20% = -0,74 50 % normales log((1/2*50% + (2/2*50% = -0,42 Sous-populations tumorales CNV propres à une ou plusieurs sous-populations Analyse complexe (fréquent dans les tumeurs solides Modélisation du nombre de copies risquée Effacer les cellules normales Estimation cytologique de p tum M (( i cible i réf * p tum + ( i réf i réf * (1 - p tum M' ( i cible i réf M' ((2 M - 1 + p tum / p tum Éviter les sous-populations - Micro-dissection - Single-cell (micromanipulation, Whole Genome Amplification Hannemann et al (2011 PLoS One. 6(11:e26362 Quantitative high-resolution genomic analysis of single cancer cells. Anomalies constitutionnelles Attention à l ADN de référence Habituellement : pool d ADN normaux variations constitutionnelles Polymorphismes importants > 200 CNV (76 loci sur 20 individus, jusqu à 100 kb Sebat et al (2004 Science. Jul 23;305(5683:525-8. Large-scale copy number polymorphism in the human genome. Solution 1 : filtration à l échelle de la série Régions généralement courtes (< 100 kb Très fort recouvrement d une puce à l autre Amplifiées et délétées générallement Polymorphisme chromosomique Solution 2 : filtration selon des données publiques Database of Genomic Variants Répertoire de CNV constitutionnels Méthodes et designs très hétérogènes (CGH-BAC, NGS Recouvrement jamais parfait design 1 réalité design 2 Somatique Solution 3 : utiliser l ADN normal correspondant Anomalie invisible si présente dans la tumeur et la référence (ratio Simplifie grandement l'analyse en oncologie

3. Pratique - la puce 3.1. Segmentation - CBS X 10 000 (stopping rule i 1 j 1 j 2 i max j 3 chromosomique Données lissées Circularisation Calcul des t comparaison de x j max Z = max(t Permutations Algorithme de segmentation Segmente les chromosomes en régions de comparables Olshen et al. (2004 Biostatistics. Oct;5(4:557-72. Circular binary segmentation for the analysis of array-based DNA copy number data. Σ(Z perm > Z < α? oui non Standard actuel Willenbrock & Fridlyand (2005 Bioinformatics. Nov 15;21(22:4084-91. A comparison study: applying segmentation to array CGH data for downstream analyses. Gourmand (Nombreuses itérations x (Nombreuses permutations Ajout du mode hybride Ajout de stopping rule Venkatraman & Olshen (2007 Bioinformatics. Mar 15;23(6:657-63. A faster circular binary segmentation algorithm for the analysis of array CGH data. Voir aussi : GLAD Hupé et al (2004 Bioinformatics. Dec 12;20(18:3413-22 Analysis of array CGH data: from signal ratio to gain and loss of DNA regions.

3. Pratique - la puce 3.2. Calling - au plus simple Problème trivial en théorie Délétion homozygote o (0/2 -inf Délétion hétérozygote t (1/2 = -1 Normal M n (2/2 = 0 -inf -1 0 0.58 1 1+ Amplification t (3/2 = 0,585 Double amplification t (4/2 = 1 0 1 2 3 4 5+ copies Nombreux biais en pratique Qualité d'adn, manipulation, mesure, cellularité... Utilisation de seuils -inf -1 0 0.58 1 1+ Avec 2 seuils, perte de la distinction du nombre de copies Choix délicat 0 1 2 3 4 5+ copies Seuils unitaires Seuils : 0,8 < ratio < 1,2-0,32 < M < 0,26 Basé sur l observation d hybridations normal / normal Généralisation très risquée Weiss et al., J Pathol 2003 délétion amplification Seuils quantiles Considère les 50% centraux (Q 1 Q 3 comme normaux Seuils +/- 1 copie : mean(m normal +/- 4*sd(M normal Seuils +/- 2 copies : 3 e et 97 e percentiles Hypothèse forte sur la distribution des s Aguirre et al., PNAS 2004 Seuils assistés Observation du d anomalies larges confirmées (FISH, caryotype Corrélation entre techniques pas toujours évidente Coût supplémentaire -inf -1 0 0.58 1 1+ -2-1 +1 +2 -inf -1 0 0.58 1 1+

3. Pratique - la puce 3.3. Calling - modèles de mélange gaussien Problème trivial en théorie Délétion homozygote o (0/2 -inf Délétion hétérozygote t (1/2 = -1 Normal M n (2/2 = 0 -inf -1 0 0.58 1 1+ Amplification t (3/2 = 0,585 Double amplification t (4/2 = 1 0 1 2 3 4 5+ copies Nombreux biais en pratique Qualité d'adn, manipulation, mesure, cellularité... Modélisation gaussienne -inf -1 0 0.58 1 1+ Variation à ce modèle simple : bruit de fond 0 1 2 3 4 5+ copies Application directe aux sondes Estimation difficile, peu utilisé Picard et al., BMC Bioinformatics 2005 sondes Application aux segments : CGHcall Van de Wiel et al., Bioinformatics 2007 6 états autorisés M probe,segment,sample ~ N(µ segment,sample, σ² µ segment,sample ~ Σ( p etat * N(µ etat, σ² etat Moyennes exactes inconnues Biais de cellularité, fluorochrome... chromosomique segments Estimation des paramètres Expectation-Maximization Modèle commun à la série (suppose les cellularités identiques! -inf -1 0 0.58 1 0 1 2 3 4 1+ 5+ copies

3. Pratique - la puce 3.4. Calling - modèles de Markov cachés élétion p da Nombre restreint d états pour une sonde Délétée, normale ou amplifiée Un modèle gaussien pour le de chaque état p d -1 0 0,58 p dn p dd Sondes le long d'un chromosome = suite d états Le plus probable : même état que la sonde précédente Possibilité de changer d état (point de cassure M n M a M normal p nd p dd p dn p da p n p nn M n p nd p nn p na M a p ad p an p aa -1 0 0,58 p na État initial aléatoire M amplif. p d p an p a M n p n p aa M a p a -1 0 0,58 p ad Problème bien connu Estimation des modèles et probabilités de transition par algorithme EM Reconstruction de la chaîne d états par algorithme de Viterbi (1967 Bioconductor acgh Fridlyand et al (2004 J. Multivar. Anal.;90:132-153. Hidden Markov models approach to the analysis of array CGH data. M a M a M a M a chromosomique Bioconductor snapcgh (BioHMM Prise en compte des distances inter-sondes Marioni et al (2006 May 1;22(9:1144-6 BioHMM: a heterogeneous hidden Markov model for segmenting array CGH data. M n M n M n

4. Pratique - l étude 4.1. Anomalies récurrentes Pénétrance Proportion de la série concernée Définie en chaque point du génome Définie pour chaque type d altération (amplification, délétion... P délétion,point = n patients délétés,point / n patients étudiés Minimal Common Regions Région communément altérée dans la série Recouvrement entre les CNV de puces différentes Pas de définition consensuelle Littéralement : région commune minimale M M Patient 2 M MCR Patient 2 M M Patient 2 M Définition un peu extrême Sensible aux artefacts (micro-altérations dues à une sonde étendre en diminuant la similarité requise Lenz et al (2008 PNAS Sep 9;105(36:13520-5 Molecular subtypes of DLBCL arise by distinct genetic pathways. Patient 2 MCR (100% de la série Patient 2 (artefact SRA (2/3 de la série Patient 2 (artefact P étendre en comblant les gaps Aguirre et al (2004 PNAS. 101(24:9067-9072. High-resolution characterization of the pancreatic adenocarcinoma genome. Met en évidence de larges régions d intérêt Bras ou chromosomes entiers Seuil subjectif 2 MCR Patient 2 MCR Patient 2

4. Pratique l'étude 4.2. Analyse intégrée : GISTIC 2 Mermel et al., Genom Biol 2011 GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers. Étape 1 : pre-processing (voir diapo précédentes Étape 2 : déconstruction des profils (ZD Arm-level CNV 5 4 3 2 1 0 Profil segmenté Déconstruction #1 Déconstruction #2 Étape 3 : calcul des scores par sonde - G ~ Σ (amplitude x fréquence - Relocalisation aléatoire des sondes de chaque patient (permutations Aucune altération récurrente attendue (H 0 p = f(g permuté > G réel Étape 4 : liaison des CNV aux pics (G max Définition de «pics» (maxima locaux de G, > seuil Attribution des CNV observés au pic qu'ils chevauchent Étape 5 : extension des pics (RegBounder Objectif : γ% de chances de contenir le gène driver γ élevé = régions très élargies Modélisation de G par relocalisation aléatoire des segments Aucune altération récurrente attendue (H 0 En pratique Outil populaire en oncologie (version 1 surtout Implémenté MATLAB, disponible en stand-alone Nécessite des données segmentées normalisées, éviter le copy calling préalable

4. Pratique - l étude 4.3. Classification des échantillons Clustering basé sur les distances Liu et al (2006 Bioinformatics. Aug 15;22(16:1971-8 Distance-based clustering of CGH data. Distance numérique entre chaque paire d échantillons S2 5 S1 7 8 1 S3 Cluster 2 S2 5 5 8 7 Cluster 1 S1 1 S3 Autres approches Modèles de Markov Shah et al (2009 Bioinformatics. Jun 15;25(12:i30-8 Model-based clustering of array CGH data. Analyse en Composante Principale Sujet peu abordé Approches variées Ni consensus, ni études comparatives Implémentations pas toujours disponibles 4 5 S4 4 S4 Cluster 3 Plusieurs échelles possibles - Sondes : régions larges privilégiées - Segments : plus stable mais plus complexe Plusieurs distances possibles - Différence de Log-ratio - Différence de Z-Score : (M mean(m / sd(m - Différence de copies (après modélisation - Index de Jaccard (altéré VS non-altéré Plusieurs analyses des distances possibles - K-means (Liu et al 2006 - Clustering hiérarchique (nombreux algorithmes d agrégation S2 S4 S1 S3