Le Restriction Fragment Differential Display : méthode d analyse à grande échelle du transcriptome



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Introduction aux bases de données: application en biologie

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

CATALOGUE DES PRESTATIONS DE LA

Les OGM. 5 décembre Nicole Mounier

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

TD de Biochimie 4 : Coloration.

β-galactosidase A.2.1) à 37 C, en tampon phosphate de sodium 0,1 mol/l ph 7 plus 2-mercaptoéthanol 1 mmol/l et MgCl 2 1 mmol/l (tampon P)

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

TSTI 2D CH X : Exemples de lois à densité 1

Biomarqueurs en Cancérologie

3: Clonage d un gène dans un plasmide

Big data et sciences du Vivant L'exemple du séquençage haut débit

Le langage SQL Rappels

LES DECIMALES DE π BERNARD EGGER

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed

Partie II Cours 3 (suite) : Sécurité de bases de données

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Extraction d information des bases de séquences biologiques avec R

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

altona altona RealStar CMV PCR Kit 1.0 always a drop ahead. 04/2015 altona Diagnostics GmbH Mörkenstr Hamburg Germany

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

La PCR en temps réel: principes et applications

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

Bases de données Cours 1 : Généralités sur les bases de données

Gènes Diffusion - EPIC 2010

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

SERVICES DE SEQUENÇAGE

MANUEL D INSTALLATION D UN PROXY

1. Introduction Création d'une requête...2

Système de surveillance des rayonnements RAMSYS

ANALYSE DES TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE RÉNALES

Mesures et incertitudes

La diffusion des résultats statistiques du recensement de la population

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Précision d un résultat et calculs d incertitudes

Introduction à la Génomique Fonctionnelle

NET BOX DATA Télégestion d'équipements via Internet & Intranet

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Visio Kit. Mode d'emploi

Création de Sous-Formulaires

Plus courts chemins, programmation dynamique

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Perl Orienté Objet BioPerl There is more than one way to do it

Jean-François Boulicaut & Mohand-Saïd Hacid

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

ISC Système d Information Architecture et Administration d un SGBD Compléments SQL

MABioVis. Bio-informatique et la

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

THESE. pour obtenir LE GRADE DE DOCTEUR. Spécialité INFORMATIQUE. Ecole Doctorale : Informatique et Information pour la Société. par Sylvain BLACHON

Fig. 1 Le détecteur de LHCb. En bas à gauche : schématiquement ; En bas à droite: «Event Display» développé au LAL.

Formation L.M.D. en instrumentation biomédicale. Mise en œuvre dans une université scientifique et médicale : Claude Bernard Lyon I

Modélisation 3D par le modèle de turbulence k-ε standard de la position de la tête sur la force de résistance rencontrée par les nageurs.

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Microsoft Hosted Exchange 2010 DOCUMENT D EXPLOITATION

CHARTE INFORMATIQUE LGL

MYRIAD. l ADN isolé n est à présent plus brevetable!

Comment consolider des données

1 LE L S S ERV R EURS Si 5

Manuel d intégration API FTP SMS ALLMYSMS.COM

HRP H 2 O 2. O-nitro aniline (λmax = 490 nm) O-phénylène diamine NO 2 NH 2

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

SOMMAIRE. Travailler avec les requêtes... 3

MANUEL D UTILISATION DE LA SALLE DES MARCHES APPEL D OFFRES OUVERT ACCES ENTREPRISES. Version 8.2

Comment utiliser WordPress»

Bibliographie Introduction à la bioinformatique

Une méthode d apprentissage pour la composition de services web

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Statistiques à une variable

Initiation à Excel. Frédéric Gava (MCF)

CATALOGUE Parcours de Formations E-Learning BILAN FORMATION STAGE. e-learning

Institut Supérieure Aux Etudes Technologiques De Nabeul. Département Informatique

SEQUENÇAGE LI-COR DNA 4200

Un exemple d'authentification sécurisée utilisant les outils du Web : CAS. P-F. Bonnefoi

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

COMPTABILITE SAGE LIGNE 30

Évaluation de la régression bornée

Rapport Scientifique Seine-Aval 3

Contrôle de l'expression génétique :

SQL MAP. Etude d un logiciel SQL Injection

Pour vos questions ou une autorisation d utilisation relative à cette étude vous pouvez contacter l équipe via contact@4gmark.com

Saisie sur un ordinateur OS/390 Ici sur jedi.informatik.uni-leipzig.de ou

Programmation Web. Madalina Croitoru IUT Montpellier

Transcription:

Le Restriction Fragment Differential Display : méthode d analyse à grande échelle du transcriptome Naïra Naouar 1, Guilhem Cleris 1, Elodie de Laplanche 2, Hélène Simonnet 2 and Guy Perrière 1 1 Laboratoire de Biométrie et Biologie Évolutive, UMR CNRS 5558, Université Claude Bernard - Lyon I, 43 bd. du 11 Novembre 1918, 69622 VILLEURBANNE Cedex, France naouar,perriere@biomserv.univ-lyon1.fr 2 Centre de Génétique Moléculaire et Cellulaire, UMR CNRS 5534, Université Claude Bernard - Lyon I, 43 bd. du 11 Novembre 1918, 69622 VILLEURBANNE Cedex, France coujard@cgmc.univ-lyon1.fr, simonnet@univ-lyon1.fr Résumé Nous proposons ici une méthode alternative d analyse du transcriptome : le Restriction Fragment Differential Display (RFDD). Cette technique combine l expérimentation biologique et l analyse bioinformatique des résultats associés à cette expérimentation. Elle a donc nécessité l implémentation de nouveaux outils informatiques ainsi que la conception d une nouvelle banque de données : RFDD-Base. La gestion de cet environnement s est faite par l intermédiaire de programmes combinant les langages C, postgresql et PHP. Nous présentons ici l ensemble de ces outils ainsi que le protocole expérimental associé au RFDD. Il est accessible à l URL http ://pbil.univ-lyon1.fr/software/rfdd/index.php. Keywords: Transcriptome, base de données, service Web. 1 Introduction Le but ici est de présenter une nouvelle méthode d analyse du transcriptome à grande échelle : le Restriction Fragment Differential Display (RFDD). Jusqu à présent, trois méthodes étaient préférentiellement utilisées pour ce type d étude : les puces à ADN [1], le Serial Analysis of Gene Expression (SAGE) [2], le Differential Display [3]. Comparée aux trois méthodes précédentes, le RFDD présente l avantage de se mettre en place rapidement avec un coût moins important, aussi bien d un point de vue financier que du matériel biologique nécessaire. Le RFDD est une technique issue du Differential Display. Il consiste à comparer l ensemble des transcrits exprimés dans diverses conditions et permet ainsi de déterminer les variations induites. L expérimentation biologique consiste à fragmenter les ARNm puis à les marquer par des adaptateurs. Ils seront par la suite amplifiés par une série de 64 PCR discriminantes : on a ainsi une séparation du transcriptome. Les produits de PCR sont ensuite séparés par electrophorèse sur un séquenceur automatique et les résultats sont stockés dans des fichiers en vue d être analysés par les applications informatiques dédiées au RFDD. Cette étude se répète pour chaque condition biologique de manière à ce qu on ait 64 fois n PCR pour n conditions biologiques étudiées. L analyse bioinformatique consiste à identifier les produits d amplification des différentes PCR de manière à reconstituer le transcriptome et à analyser les variations d expression suivant les conditions expérimentales. Pour ce faire, nous avons tout d abord conçu in silico une banque de fragments représentative d ARNm. A partir des fichiers de données, nous réalisons un alignement des résultats de manière à relier les produits d amplification identiques dans les différentes conditions expérimentales et nous associons à chaque produit d amplification un ou plusieurs candidats issu(s) de la banque de fragments générée in silico. Ainsi, nous retrouvons l ensemble des transcrits exprimés ainsi que leur variation d expression dans différentes les conditions expérimentales.

2 Protocole expérimental 2.1 Etude biologique Elle se fait par l utilisation de kits commercialisés par Qbiogene et se décompose en plusieurs étapes (Fig.1). Adaptateur spécifique de l amorce discriminante Adaptateur spécifique de l amorce fluorescente Adaptateurs de ligation + Amorce fluorescente L 1 Digestion enzymatique des ADNc 3 4 ARNm 2 Synthèse d ADNc Ligation aux adptateurs AAAAAAA TTTTTTTT N N N cncncn Amorce discriminante 64 PCRs discriminantes 1 2 3 4 63 64 5 Séparation par séquenceur automatique FIG. 1. Protocole expérimental du RFDD. (1) Rétro-transcription et duplication des ARNm en ADNc. (2) Digestion totale des ADNc par HhaI ou TaqI. (3) Les fragments de digestion sont ligués à l adaptateur complémentaire de l amorce fluorescente et à l adaptateur complémentaire de l amorce discriminante. (4) On a 64 PCR différentes spécifiques des 64 amorces discriminantes. (5) Séparation des amplicons par le séquenceur automatique.

Dans un premier temps il est nécessaire d extraire les ARNm totaux d un tissu ou de cellules dans une condition donnée. Ces ARNm sont ensuite rétro-transcrits et dupliqués de manière à générer des ADNc double brins. Ces derniers vont pouvoir être digérés par une enzyme de restriction. Deux kits sont commercialisés par Qbiogene et chacun est spécifique d une enzyme de restriction particulière. Ainsi, deux enzymes peuvent être utilisées pour l analyse : TaqI, dont le site de reconnaissance est T/CGA et qui coupe après la thymine ; et HhaI, qui reconnaît le site GCG/C et coupe après la seconde guanine. Les fragments obtenus par cette diges- A Condition A PCR TAT Run1 TaqI_ConditionA A01 2 1 13,76 87 Run1 TaqI_ConditionA A01 2 2 17,78 35 Run1 TaqI_ConditionA A01 2 3 28,74 75 Run1 TaqI_ConditionA A01 2 176 408,61 34 B Condition B PCR TAT Run1 TaqI_ConditionB A02 2 1 13,76 87 Run1 TaqI_ConditionB A02 2 2 17,78 35 Run1 TaqI_ConditionB A02 2 3 28,74 75 Run1 TaqI_ConditionB A02 2 169 404,24 34 C Condition C PCR TAT Run1 TaqI_ConditionC A03 2 1 13,77 75 Run1 TaqI_ConditionC A03 2 2 17,78 35 Run1 TaqI_ConditionC A03 2 3 28,74 75 Run1 TaqI_ConditionC A03 2 173 398,13 34 Produits de PCRs des 3 conditions (A, B, C). Séparation des amplicons par le séquenceur. Fichier d entrée du programme pour l analyse des PCRs numéro 1 (triplet discriminant : TAT) pour les 3 conditions. FIG. 2. Exemple de résultat du séquenceur pour l analyse de la PCR numéro 1 (TAT) après digestion par TaqI pour 3 conditions expérimentales (A, B, C). Les produits de ces 3 PCR sont séparés au niveau du séquenceur automatique qui génère un fichier de sortie. Ce fichier de sortie est ensuite modifié pour correspondre au format d entrée du programme. tion vont être ligués à deux types d adaptateur et amplifiés par PCR. Lors de la PCR de RFDD, on aura deux amorces différentes, spécifiques de ces adaptateurs. La première amorce est une amorce unique et commune reconnaissant l un des adaptateurs. Cette amorce est couplée à un fluorochrome et va permettre la détection des amplicons (produits d amplification) lors de leur séparation. La seconde amorce est une amorce discriminante variable reconnaissant le deuxième adaptateur, le site de restriction de l enzyme et 3 nucléotides en amont du site de restriction. Dans la mesure où il y a 64 manières de générer un triplet NNN, il existe 64 amorces discriminantes différentes par kit. Dans une deuxième étape on réalise donc une série de 64 PCR, chacune utilisant l amorce unique et une des 64 amorces discriminantes désignés par un numéro de 1 à 64. De part

la conformation des adaptateurs (l un avec une extrémité franche, l autre avec une extrémité cohésive), seuls les fragments ayant ligués les deux adaptateurs différents seront amplifiés lors de la PCR. Enfin, les produits d amplification sont séparés en fonction de leur taille par un séquenceur automatique (de préférence un séquenceur à capillaire). Chaque puits de la plaque introduite dans le séquenceur contient le produit d une PCR particulière (on a 64 PCR différentes, il faut donc 64 puits pour récupérer l ensemble des informations pour l étude d une condition expérimentale). La taille de chaque amplicon est évaluée en paires de bases grâce à un marqueur de taille introduit dans chaque puits avec l échantillon et qui est détecté dans un canal de fluorescence différent. A chaque exécution, le séquenceur génère un fichier de sortie (spécifique du séquenceur utilisé). Dans ce fichier, on trouve la taille des amplicons ainsi que leur intensité de fluorescence. Les données générées par une étude sont le reflet d une condition particulière. On réalise donc autant de fois ce protocole que l on a de conditions à étudier (Fig.2). 2.2 Principe d identification bioinformatique des amplicons De chaque amplicon nous connaissons sa taille, ainsi que des portions de sa séquence : 4 nucléotides (site de restriction) à une extrémité et 7 nucléotides (site de restriction et triplet discriminant) à l autre (Fig.3). FIG. 3. Amplicon : produit d amplification de PCR. Chaque amplicon est ligué à ses deux extrémités par un adaptateur et est caractérisé par sa taille et par 11nt : le site de restriction XXXX (en deux exemplaires) plus les 3nt discriminants NNN

Ceci nous permettra, pour chaque amplicon, d associer un ou plusieurs transcrits candidats par comparaison à une banque de données. De plus, on s attend à ce que chacun des différents amplicons issus d un même ARNm varie de la même manière, donc pour des amplicons issus d un même ARNm, les variations de fluorescence iront dans le même sens. On validera ainsi les candidats répondant à ces critères. Dans la mesure où chaque séquenceur génère un fichier de sortie particulier, nous avons établi un format de fichier standard accepté par le programme qui prend en compte les données obtenues par le séquenceur. 2.3 Format des fichiers Suivant le séquenceur utilisé, les fichiers de sortie vont être différents. Le programme gère les fichiers en fonction du triplet discriminant. Il est nécessaire d établir un fichier par triplet, donc 64 fichiers au total. Remarque : il est également possible au programme de gérer en même temps les données concernant au maximum 10 triplets : au lieu d avoir 64 fichiers, on a donc 7 fichiers contenant les données des 64 PCR (les données concernant chaque PCR étant concaténées les unes à la suite des autres dans un même fichier). Le fichier d entrée du programme doit être partagé en sept colonnes pour pouvoir être analysé par le programme (présenté dans le paragraphe suivant) : le numéro d identification de la plaque (ou RUN pour le séquenceur), un numéro d identification correspondant au numéro de PCR réalisée donc au triplet discriminant, le numéro du puits (au niveau du séquenceur) 3, le numéro du canal de fluorescence de l échantillon 3, le numéro de l amplicon, la taille de l amplicon, l intensité de fluorescence de l amplicon 3. 3 Analyse bioinformatique L étude expérimentale se base sur deux aspects majeurs : la fragmentation des ARNm suivie de l amplification des fragments, puis, la génération d un fichier contenant le résultat de l analyse des produits d amplification par le séquenceur. L ensemble des transcrits exprimés va ensuite pouvoir être estimé par l analyse bioinformatique du fichier de sortie du séquenceur. Cette analyse va consister tout d abord à aligner les résultats issus de différentes conditions expérimentales en classant les amplicons en fonction de leur taille et en associant à chaque condition expérimentale le niveau de fluorescence de l amplicon. Puis, le programme va déterminer pour chaque amplicon un ou plusieurs candidats potentiels en prenant en considération les 4+7nt connus de sa séquence ainsi que sa taille. Pour ce faire, nous avons développé des outils en adéquation avec le protocole expérimental. Dans un premier temps, il était nécessaire de générer in silico les fragments de digestion susceptibles d être observés. Pour cela, nous avons construit une base de données que nous avons nommé RFDD-Base. Dans un second temps, nous avons créé une interface Web où l utilisateur pouvait non seulement consulter les profils de restriction de ses transcrits d intérêt, mais également classer et identifier les amplicons séparés par le séquenceur. 3.1 La base de données RFDD-Base RFDD-Base (Fig.4) est une banque de séquences codantes associées aux fragments de digestion obtenues par la digestion in silico de ces séquences par TaqI et HhaI. La génération de RFDD-Base est faite par un programme C contenant une série de requêtes codées en postgresql. 3 donné par le séquenceur automatique

ESPECE ENZ_RESTR id_enz_restr nom_enz_restr site_enz_restr position_coupure espace_coupure DIGESTION id_digestion #id_espece #id_enz_restr nb_base id_espece nom_espece SEQUENCE id_sequence num_genbank taille_sequence #id_cluster_de_redondance gene_annot product_annot TRIPLET id_triplet triplet taille_amorce FRAGMENT id_fragment #id_cluster_de_redondance position_debut position_fin rang nb_frag_tot #id_triplet CLUSTER_DE_REDONDANCE id_cluster_de_redondance #id_espece nb_redondance relation n 1 FIG. 4. Modèle logique des données de RFDD-Base. Les informations relatives aux séquences issues de GenBank et aux fragments générés par digestion in silico sont organisées dans les différentes tables représentées dans ce schéma.

Séquences d étude. Les séquences étudiées sont les CDS (Coding DNA sequence), annotées comme telles dans GenBank [4]. Elles ont été obtenues après interrogation de ACNUC [5]. ACNUC est une base de données entité/association dont le système de gestion a été écrit en C. En utilisant des librairies ACNUC dans notre programme, il nous a été possible de récupérer l ensemble des CDS de GenBank et de les stocker dans la table sequence de RFDD-Base. A ce jour, les séquences étudiées sont les séquences de Homo sapiens et Rattus norvegicus. Il est bien entendu possible d ajouter les séquences d autres espèces au sein de la banque. Digestion in silico. A partir de l ensemble des séquences des CDS récupérées de GenBank, nous avons réalisé une digestion in silico des CDS. Pour ce faire, la table enzyme ainsi que la table fragment ont été créées dans RFDD-Base. Les sites de restriction présents dans chaque séquence ont été répertorié dans une liste, et, suivant la position des sites de coupure, nous avons généré les fragments de restriction issus de chaque séquence. Cependant, si deux sites de coupures sont très proches (plus particulièrement quand il s agit du site de restriction de HhaI : GCG/C, dans les régions GC riche), alors l enzyme de restriction ne peut couper au niveau de ces deux sites. Nous avons donc défini pour chaque enzyme un écart minimal de coupure correspondant à l ecart en nombre de bases pour que l enzyme puisse couper au niveau de deux sites [6,7]. Cet écart correspond au domaine de liaison de l enzyme de restriction sur l ADNc. Recherche des redondances. Sachant que GenBank est une base de données très redondante, une étape de recherche des séquences redondantes est effectuée après chaque digestion. En effet, il est possible qu une même séquence puisse exister avec des numéros d accession différents. Nous détectons donc ces doublons par une recherche de similarités des profils de restriction enregistrés dans RFDD-Base. Si nous obtenons des profils de restriction similaires pour des séquences ayant des numéros d accession différents, alors, nous comparons ces séquences. Si ces dernières sont identiques, nous les rassemblons dans un même cluster de redondance avec la création d une table cluster de redondance. Mise à jour de RFDD-Base. La quantité des séquences au sein des banques de données évoluant de manière exponentielle, ACNUC est mise à jour quotidiennement. De ce fait, il est nécessaire de mettre à jour RFDD- Base de façon régulière. Il suffit de relancer le programme de digestion pour ajouter les nouvelles séquences de GenBank dans RFDD-Base, détruire celles ayant été supprimées et changer celles qui auront subi des modifications. 3.2 Interface Web Le RFDD est accessible à l URL http ://pbil.univ-lyon1.fr/software/rfdd/index.php au sein du PBIL [8]. Elle a été réalisée par une interface graphique réalisée en PHP, RFDD-Base est interrogée par des requêtes postgresql. L utilisateur connecté peut consulter les profils de restriction de Homo sapiens ou Rattus norvegicus, mais surtout, en entrant le fichier formaté obtenu après l étude biologique, obtenir les variatoins de chaque amplicon dans les conditions expérimentales effectuées, et les transcrits candidats possibles pour chaque amplicon. Recherche des profils de restriction. Cette partie est décomposée en deux sous-parties. Dans un premier temps, il est possible à l utilisateur de réaliser une recherche simple. En sélectionnant l enzyme de restriction désirée ainsi que le numéro d accession ou le nom d un gène particulier ou encore, le nom d une protéine particulière, l utilisateur obtient l ensemble des fragments qui leur est associé. Il peut également réaliser une

recherche avancée où il a la possibilité de consulter des profils de restriction répondant à des critères plus complexes. Il peut ici spécifier le nom de l espèce, l enzyme de restriction, les séquences dont au moins un des fragments présente un triplet discriminant particulier, un intervalle de taille des fragments de digestion souhaités, un nombre de fragments compris entre deux bornes définies par l utilisateur. Pour chaque option, l utilisateur sélectionne le champ à prendre en considération. Les résultats de cette étude peuvent être affichés sous format HTML, et obtenir les profils de restriction de chaque transcrit d intérêt ; mais aussi sous format texte, où l on a une énumération de l ensemble des transcrits répondant aux critères. Identification des amplicons. Pour accéder à cette partie du programme, il est nécessaire d avoir réalisé l expérimentation biologique et de disposer des fichiers formatés correspondant à l étude. L utilisateur est ici invité à indiquer le nom de l espèce étudiée, le nom de l enzyme utilisée ainsi que le nombre de conditions expérimentales. Il doit également indiquer le nombre de liste de produits de PCR concaténés dans le fichier à analyser. Puis, l utilisateur peut entrer un nom pour chaque condition étudiée (label). Pour chaque PCR et pour chaque condition expérimentale, l utilisateur doit spécifier le triplet correspondant à l amorce d étude ainsi que le numéro d execution, le nom de l échantillon, le puits ainsi que le canal (cf. Format des fichiers). Une fois chaque liste d amplicons issus d une PCR paramétrée (amplicons obervés), il faut indiquer les valeurs seuils acceptées pour déterminer l égalité de taille entre amplicons. Ces valeurs seuils peuvent être exprimées soit en pourcentage de base soit en nombre de bases. Soit x cette valeur seuil, le programme va considérer que deux amplicons sont identiques si leurs tailles sont égales à plus ou moins x% ou x bases. Il faut paramétrer deux valeurs seuils. La première valeur sert à déterminer quels sont les amplicons égaux entre les différentes conditions expérimentales. Ces amplicons observés sont associés par le programme qui calcule une taille observée correspondant à leur taille moyenne. La seconde valeur seuil va être utilisée pour comparer la taille observée (moyenne des amplicons obervées) à la taille théorique de l amplicon virtuel proposé par le programme. Les intensités de fluorescence peuvent varier d un run à un autre. De ce fait, l utilisateur peut pondérer ces valeurs de fluorescence par la fluorescence totale du puits. L utilisateur peut paramétrer l affichage des résultats en spécifiant quel type de séparateur est désiré pour les valeurs décimales (virgule, point ou autre), la précision de ces valeurs (de 0 à 7 chiffres après la virgule) mais aussi choisir une abréviation pour les données inconnues. A la fin, si l utilisateur a bien paramétré l ensemble de ces options, il reçoit par mail un lien vers le fichier de résultats de son analyse dont il poura spécifier le nom. Pour réaliser cette partie nous avons conçu un nouveau programme C accessible via l interface graphique. 3.3 Exemple d utilisation Pour présenter le site RFDD, nous donnons un exemple en figure 5 et 6. Nous étudions les variations d expression des transcrits chez l homme pour 3 conditions A, B et C. Nous avons utilisé le kit TaqI et nous présentons ici comment utiliser le site pour obtenir les résultats d analyse pour une PCR discriminante : la PCR numéro 1 (T AT ). Dans un premier temps il faut préciser dans la partie Automated identification le nom de l espèce et le nombre de conditions à considérer ainsi que le nombre d amorces prises en compte par le fichier d entrée. Puis, l utilisateur est invité à entrer le fichier à analyser et à valider (Fig.5). Après avoir vérifié que l espèce et l enzyme de restriction sont bien Homo Sapiens et TaqI (Fig. 6), il faut introduire les noms des différentes conditions expérimentales (Label). Puis, les différents paramètres liés à chaque condition expérimentale doivent être spécifiés : le nom du run, de l échantillon (sample), du puits (well) et le canal de lecture (channel). Ensuite, l utilisateur doit paramétrer les valeurs seuils. Lors de la recherche des amplicons identiques dans les différentes conditions expérimentales, le programme acceptera une erreur de 0.25%. De même, le programme proposera des amplicons candidats avec une erreur acceptée de 1%.

1 2 3 4 5 FIG. 5. Identification (I) : Description de l expérience. Spécifier (1)le nom de l espèce, (2)l enzyme de restriction, (3)le nombre de conditions expérimentales, (4)le nombre de PCR considérées. (5)Entrer le fichier à considérer

1. Vérifier l espèce et l enzyme 2. Indiquer les noms des différentes conditions 3. Pour chaque condition préciser les paramètres. 4. Indiquer les valeurs seuils de tolérance pour l alignement. 5. Choisir de pondération la fluorescence ou non. Cette valeur divise la fluorescence de chaque pic par la somme de toutes les fluorescences. 6. Affichage des résultats FIG. 6. Identification (II) : saisie des paramètres expérimentaux.

Puis, l utilisateur peut choisir de pondérer ou non les valeurs de fluorescence par la fluorescence totale de chaque puit. Sachant que les valeurs obtenues seront comprises entre 0 et 1, il est possible à l utilisateur de multiplier ces valeurs par un coefficient multiplicateur de manière à avoir des valeurs supérieures à 1. Après avoir vérifier que les différentes conditions paramétrées, il suffit d entrer un nom de fichier de sortie (par défaut le programme le nommera results.txt et son adresse mail pour recevoir le fichier (Fig.7). 1. Vérifier les conditions avant de continuer. 2. Indiquer le nom de fichier de sortie. 3. Entrer l email pour réception des résultats. FIG. 7. Identification (III) : Lancement du programme (a) Vérification des paramètres, choix du nom du fichier de sortie. L utilisateur est invité à communiqué son email pour recevoir ses résultats. (b) Le programme a pris en compte tous les paramètres et après execution enverra le résultat à l adresse mail spécifiée

4 Conclusion et Perspectives Cette méthode présente le gros avantage de ne pas être excessivement onéreuse mais également de ne pas nécessiter d étape de séquençage. Cependant, elle reste sensible aux erreurs de séquençage et d annotation contenues dans GenBank. De plus, les CDS ne sont que des portions d ARNm. Il est donc prévu de réactualiser RFDD-Base avec des données provenant de RefSeq [9] car les séquences contenues dans cette banque sont des séquences annotées d ARNm avec leurs régions 3 UTR et 5 UTR. De plus, RefSeq est une banque non redondante. Il sera donc possible de modifier le programme C associé à la digestion en retirant l étape de recherche de redondance et d alléger RFDD-Base en supprimant la table cluster de redondance. L ensemble des programme auront ainsi une complexité plus faible que pour la gestion des séquences issues de GenBank. Remerciements Nous remercions particulièrement Dominique Mouchiroud pour toutes les fructueuses discussions que nous avons partagées, ainsi que Bruno Spataro et Stephane Delmotte pour leur aide, leur disponibilité et leurs bons conseils pour l ensemble des problèmes informatiques rencontrés. Nous sommes reconnaissant à Qbiogene, à l IFR41 (CNRS), à la Ligue Contre le Cancer (comité du Rhône) et à l Université Claude Bernard pour leur aide financière. Références [1] M. Schena, D. Shalon, RW. Davis, PO. Brown, Quantitative monitoring of gene expression patterns with a complementary DNA microarray, Science, 270, 467-70, 1995. [2] Velculescu VE, Madden SL, Zhang L, Lash AE, Yu J, Rago CJ, Lal A, Wang CJ, Beaudry GA, Ciriello KM, et al. Analysis of human transcriptomes, Nature Genetics, 23, 387-388, 1999. [3] Peng Liang and Arthur B. Pardee, Differential Display of eukaryotic messenger RNA by means of the Polymerase Chain Reaction, Science, 257, 967-971, 1992. [4] C. Keller, M. Corcoran, RJ. Roberts, Computer programs hadling nucleic acid sequences, Nucleic Acids Res., 12, 379-386, 1984. [5] M. Gouy, F. Milleret, C. Mugnier, M. Jacobzone and C. Gautier, ACNUC : a nucleic acid sequence data base analysis system, Nucleic Acids Res, 12, 121-127, 1984. [6] RJ Roberts, PA. Myers, A. Morrison, K. Murray, A specific endonuclease from Haemophilus haemoliticus, J. Mol. Biol., 103, 199-208, 1976. [7] Weiguo Cao, Binding kinetics and footprinting of TaqI endonucleas : effects of metal cofactors on sequence-specific interactions, Biochemistry, 38, 8080-7, 1999. [8] G. Perrière, C. Combet, S. Penel, C. Blanchet, J. Thioulouse, C. Geourjon, J. Grassot, C. Charavay, M. Gouy, L. Duret and G. Deléage, Integrated databanks access and sequence/structure analysis services at the PBIL. Nucleic Acids Res., 31, 3393-3399, 2003. [9] DR. Maglot, KS. Katz, H. Sicotte, KD Pruitt, NCBI s LocusLink and RefSeq, Nucleic Acids Res., 28, 126-8, 2000.