«Algorithmes pour le séquençage haut débit»

Transcription

1 Loïk LE DRÉAU Master 2 de Recherche en Informatique Supelec, Rennes Étude bibliographique : «Algorithmes pour le séquençage haut débit» Janvier 2010 Encadrant : Dominique LAVENIER Équipe : Symbiose Laboratoire : IRISA, Rennes 1

2 Table des matières 1 Introduction Notions importantes La bio-informatique Éléments de génétique Le séquençage du génome Les séquenceurs L'assemblage Les algorithmes d'assemblage La correction d'erreur Les algorithmes La parallélisation Conclusion

3 1 Introduction Ce document présente une étude bibliographique en préambule au stage de fin d'étude de Master recherche. Celui-ci porte sur les «Algorithmes parallèles pour le séquençage haut débit». Ce travail sera effectué au sein de l'équipe Symbiose de l'irisa. Le séquençage évoqué est celui du génome ; les algorithmes auront pour objectif de corriger les erreurs en sortie des séquenceurs. La construction d'algorithmes parallèles de qualité sera la priorité du stage. Dans un premier temps l'étude ce portera sur la bio-informatique et par extension la génétique afin de présenter le cadre de travail. Puis, cet exposé présentera une définition du séquençage du génome ainsi qu'un historique des différents séquenceurs qui ont été ou sont utilisés. Afin de préciser ce que les algorithmes de correction d'erreur auront à traiter ; il sera présenté l'étape d'assemblage qui utilisera les séquences corrigées, ce qui complètera le rôle des algorithmes. Dans une dernière partie, nous feront un point sur les différents algorithmes de correction d'erreurs existants. Enfin, nous conclurons avec les pistes qui pourraient être suivies pour les améliorer. 3

4 2 Notions importantes 2.1 La bio-informatique La biologie est un domaine de recherche très vaste et complexe. Il est donc nécessaire pour le biologiste de faire appel à des scientifiques de domaine différents afin de l'aider dans sa compréhension du vivant. La collaboration de biologiste, informaticien, mathématicien et physicien, est la base de la bio-informatique. Les fruits de cette association sont la modélisation de l'évolution d'une population animale, en passant par la modélisation moléculaire, l'analyse du génome et le séquençage du génome. La bioinformatique est aussi nommée «biologie in silico», par analogie avec in vitro ou in vivo. Dans ce document, nous allons nous intéresser au séquençage du génome. De ce fait, quelques rappels de génétique sont nécessaires. 2.2 Éléments de génétique Tous le monde a entendu un jour parler de génétique par des mots comme hérédité, clonage, ADN ou maladie génétique. La génétique a pour objectif de comprendre les mécanismes cachés derrière ces mots. Le point autour duquel ce domaine gravite est le support de l'information génétique. Pour la compréhension de l'exposé il est important de savoir où il ce trouve et comment il est codé. Comme vous le savez sûrement, une cellule est l'unité du vivant à l'exception des virus. Elle donne une structure, une fonction et permet la multiplication de tout être vivant. Dans le cas des organismes multicellulaires, les cellules fonctionnent de manière autonomes tout en restant coordonnées. Les cellules de même type sont réunies en tissus, eux-mêmes réunis en organes. Le matériel génétique est contenu dans le noyau de la cellule quand il existe. Le matériel génétique se présente sous la forme de longs filaments appelés ADN. Il est parfois regroupé en chromosome. ADN ou acide désoxyribonucléique est constitué de deux chaînes de nucléotides entrelacés prenant la forme d'une double hélice. Figure 1: Localisation de l'adn 4

5 Il existe quatre nucléotides différenciés grâce à la base azotée située au bout de celui-ci. Ceci constitue un alphabet composé des lettres A, T, G et C. L'ADN ne sort pas du noyau. Des complexes protéiques copient donc l'adn en un brin d'arn. L'information est la même, seul les T deviennent des U. Puis l'arn est traduit en protéine. Chaque triplet de lettres est mis en correspondance avec un acide aminé. Le code génétique est la table d'association des triplets de lettres avec les acides aminés [14]. Le génome est l'ensemble des séquences d'adn d'un individu. Il est constitué de séquences qui sont traduites en ARN puis en protéine : les gènes et d'autres qui sont «silencieuses». Sa taille varie fortement selon l'organisme étudié. Les mammifères ont un génome de l'ordre de plusieurs milliards de paires de bases (pb). Figure 2: Le code génétique Virus Bactéries Eucaryotes Organisme Taille du génome (Mpb) Nb de gènes estimés Virus de la grippe 0,013 Mimivirus (virus géant) 1, Mycoplasma pneumoniae (la plus petite bactérie) 0, Escherichia coli 4, Encephalitozoon cuniculi (parasite) 2, Homo sapiens Souris Maïs Amoeba dubia (le plus grand génome) Tableau 1: Taille du génome de quelques organismes 5

6 3 Le séquençage du génome Le séquençage du génome permet de convertir l'information chimique de l'adn en une autre visible par un être humain ou un ordinateur. Cette conversion permettra l'analyse du génome d'un individu [12]. La première séquence d'adn déterminée par Wu et Taylor en 1971 était seulement composé d'une douzaine de bases. La méthode qu'ils ont utilisée ne pouvait pas être utilisée à grande échelle. Ensuite, la méthode du séquençage par addition et soustraction permit à Sanger et al. de séquencer les 5386 pb du génome du phage XΦ 174 en 1977a. Ce sont les débuts du séquençage avant l'arrivée des séquenceurs plus performants [15]. 3.1 Les séquenceurs Dans cette section nous allons faire un petit tour d'horizon des séquenceurs qui ont été utilisés par les chercheurs. La première méthode a avoir été utilisée de manière intensive fut développée par Allan Maxam et Walter Gilbert en Cette méthode chimique consiste à marquer radioactivement un bout de la chaîne d'adn et de détruire successivement chaque base azotée. Quatre solutions différentes sont utilisées pour pour différencier la destruction d'une des bases et le résultat peut être lu par une autoradiographie sur gel. Cette méthode a été utilisée de manière intensive jusqu'en Les raisons de son abandon sont tout d'abord la haute toxicité des substances employées ainsi que le manque l'automatisation [13]. Aussi créée en 1977b, la méthode de Sanger et al dite «par terminaison de chaîne» est très différente de la première dans son principe. Cette méthode consiste à modifier le complexe enzymatique intervenant dans la réplication de l'adn de telle façon à arrêter la chaîne dès qu'il se retrouve face à une base donnée. L'expérience est réalisée pour les quatre bases azotées. Les résultats des expériences sont disposés dans quatre pistes d'une plaque à électrophorèse, afin de lire les résultats. La méthode de Sanger se prête facilement à l'automatisation du séquençage ce qui explique qu'elle soit la base de la plupart des séquenceurs utilisés aujourd'hui. Il est intéressant de noter que Walter Gilbert et Fredérick Sanger ont reçu le prix Nobel de chimie en 1980 «pour leurs contributions concernant la détermination des séquences de bases des acides nucléiques». La méthode de Sanger a été automatisée en 1987 (Prober et al.) grâce à l'utilisation de marqueurs fluorescents et d'un système de détection. La fluorescence et la préparation automatique des milieux réactionnaires est la base des séquenceurs les plus utilisés jusqu'à aujourd'hui. Cette avancée a trois avantages majeurs. Le premier est l'utilisation d'une seule piste sur la plaque d'électrophorèse. Cela permet un gain de place mais aussi l'absence de biais du à une différence entre les pistes. Le deuxième avantage est que les résultats sont lisibles par une machine. Le dernier avantage a été apporté par l'introduction d'une nouvelle génération de machines. Mullikan et McMurray ont remplacé l'électrophorèse par une séparation capillaire réduisant ainsi le nombre d'opérations manuelles et augmentant le débit [12][13]. Aujourd'hui, les séquenceurs de deuxième génération peuvent traiter des milliard de paire de base par cycle de fonctionnement. Trois des technologies en concurrence sont 454 de roche, Solexa de Illumina et SOLiD de Abi. Elles ont été introduites sur le marché 6

7 respectivement en 2005, 2006 et Les méthodes qu'elles utilisent sont différentes et beaucoup moins coûteuses et plus fiables que les méthodes existantes précédemment. Le séquenceur utilisé dans le laboratoire sera un Solexa. Il produit des petites séquences de 25 à 35 pb (augmentée à 75/100 avec la nouvelle génération) en très grand nombre. Les petites séquences ne sont pas l'idéal si l'on veut faire de l'assemblage. D'où la nécessité de corriger les erreurs avant cette étape [16]. 3.2 L'assemblage L'étape d'assemblage consiste à reconstituer la séquence entière de d'adn à partir des séquences produites par un séquenceur. Il existe deux catégories d'assemblage l'une comparative avec une séquence d'adn de référence et l'autre dite «de novo» pour le séquençage sans référence. Nous allons nous intéresser à la deuxième catégorie et plus précisément l'assemblage «de novo» avec des séquences courtes. Celle-ci nécessite d'avoir séquencé plusieurs fois le brin d'adn afin de trouver des correspondances Les algorithmes d'assemblage Les algorithmes permettant l'assemblage des séquences sont réparties en plusieurs classes, les principales sont les algorithmes gloutons, Overlap-Layout- Concensus et De Bruijne. Pour chaque classe nous allons présenter ses caractéristiques ainsi que quelques algorithmes les composant. Les Algorithmes gloutons Un algorithme glouton fait à chacune de ses étapes un choix qui est localement optimal, dans l'espoir d'obtenir un résultat final optimal global. Il n'y a pas de retour arrière dans ces algorithmes. Dans beaucoup de cas, il explore totalement l'espace des possibilités. Bien souvent les algorithmes gloutons ne peuvent pas passer à l'échelle. Une heuristique gloutonne est un algorithme qui ne fait pas toujours des choix optimaux dans le but de converger rapidement. L'algorithme SSAKE 3.0 La préparation de l'algorithme consiste en une normalisation et une organisation des séquences. Puis il sélectionne la séquence la plus redondante pour être la séquence de référence : «seed» Chaque itération procède de la manière suivante : Énumération des préfixes possibles pour un chevauchement parfait minimum (fixé par un paramètre) avec le «seed» Recherche des séquences dans un arbre des préfixes Consensus entre les séquences pour le choix des trois lettres suivantes au chevauchement (le choix des lettres est indépendant) Ajout des lettres au «seed» Fin lorsque toutes les possibilités ont été parcourues 7

8 Dans le cas de l'assemblage, les algorithmes gloutons sont les plus simples et les plus intuitifs. SSAKE, VCAKE et SHARCGS sont trois de ces algorithmes. VCAKE se distingue de SSAKE par le fait que le consensus est fait sur un mot de k lettres (k-mers) et pas sur trois lettres indépendantes. SHARCGS publié par Dohm et al [4] en 2007 suit le processus de SSAKE. Mais, avant la phase d'assemblage il effectue une mise à l'écart de toutes les séquences erronées. De plus, l'algorithme est moins sensible aux répétitions dans le génome que SSAKE et est bien adapté à l'assemblage «de novo» de short reads (séquences de moins de 120pb). Overlap-Layout-Consensus (OLC) Ces algorithmes sont partis du constat que les séquences fournies à un assembleur peuvent être représentées comme un graphe. Les noeuds représentent chaque séquence et les arcs le chevauchement (overlap) entre deux séquences. Le problème de l'assemblage consiste donc à trouver un chemin qui passera une fois par chaque noeud. Un tel chemin est dit hamiltonien. Le domaine de la théorie des graphes permet donc de résoudre les problèmes d'assemblage. L'étape «Overlap» de l'algorithme consiste à calculer les chevauchements et à constituer le graphe. L'étape de «Layout» permet, grâce à la théorie des graphes, d'éliminer les informations redondantes dans l'ensemble des séquences. Enfin le «Consensus» effectue l'alignement de toutes les séquences du génome tout en admettant quelques alignements imparfaits soumis à un vote majoritaire [17]. Figure 3: Overlap-Layout-Consensus [18] Le principal problème des algorithmes OLC est qu'ils sont plutôt sensibles aux séquences se répétant dans le génome. En effet l'algorithme ne va pas prendre en considération celles-ci à cause de l'opération de layout qui va souvent supprimer les répétitions. EDENA est un algorithme OLC publié par Hernandez et al. [5]. Son objectif est de produire un résultat correct sans demander des ressources matérielles aussi conséquentes que les algorithmes gloutons. EDENA peut assembler de «H. acinonychis» en moins de 20 minutes alors que SSAKE met 18 heures et SHARCGS 8 heures. 8

9 Recherche de chemin eulérien L'idée de base de ces algorithmes est la construction d'un automate de tous les enchaînements de k-mer possibles dans les séquences, ce qu'on appelle un automate de «De Bruijn». Un chemin eulérien doit passer une et une seule fois dans chaque arc de l'automate. Après la construction de l'automate on recherche un chemin eulérien dans l'automate. L'automate et le chemin sont recalculés itérativement avec d'introduction d'une contrainte d'enchaînement observée dans une séquence ce qui revient à rechercher le super-chemin euclidien [17]. En 2001 Pevzner et al. sont les premiers à présenter un algorithme basé sur la recherche du super-chemin. La méthode permet de trouver une solution aux problèmes rencontrés par les algorithmes OLC dû aux répétitions de séquence génomique. Leur approche est la base du projet EULER [6][11]. EULER a ensuite été raffiné par Chaisson et Pevzner en 2007 avec l'assembleur EULER-SR [2] de telle façon à gérer plus facilement les short reads. En 2009, Simpson et al. [9] ont créé AbySS. Un assembleur pouvant être exécuté de manière parallèle sur une machine permettant un gain important de temps d'exécution. Butler et al. présentent en 2008 une nouvelle méthode d'assemblage appelée ALLPATHS [1]. Celle-ci a été pensée de telle manière à s'adapter au microreads (séquences de petites tailles : 25-50pb) des séquenceurs tel que Solexa ou SOLiD. Les auteurs considèrent que le calcul de l'overlap entre les microreads n'est pas approprié. Ils proposent de une indexation numérique des k-mer pour limiter le nombre de ces opérations. 4 La correction d'erreur Lors de l'assemblage du génome les erreurs faites par les séquenceurs posent problème. La solution est soit de les prendre en compte lors de l'assemblage (consensus), soit de faire des un pré-traitement capables de les corriger [11]. Un des avantages de la deuxième solution est qu'il permet de faciliter l'exécution des algorithmes d'assemblage. Tout d'abord, nous allons faire une présentation de quelques méthodes permettant la correction d'erreurs. Ensuite, nous évoquerons la parallélisation et de ses avantages. 4.1 Les méthodes L'un des critères qui est souvent retenu pour savoir si une séquence est correcte est le nombre de fois qu'elle apparaît dans l'ensemble des séquences. L'argument est que les brins sont clonés et coupés aléatoirement avant le séquençage pour pouvoir avoir des correspondances. Donc une séquence se retrouvant plusieurs fois a plus de chances d'être bonne. Ce critère est utilisé dans plusieurs algorithmes d'assemblage et de correction d'erreurs. Le premier critère peut laisser passer quelques erreurs même si c'est rare. L'assembleur SHARCGS utilise un second critère basé sur le fait qu'une séquence erronée à très peu de chances de trouver une autre séquence la complétant. Le premier critère peut suffire à lui seul à condition de régler les paramètres de celui-ci. Un paramètre est le nombre à partir duquel on considère la séquence correcte. Et le second est la longueur des séquences que l'on va observer. ECINDEL (pré-processing de EULER) autorise les deux paramètres contrairement au protocole SHRAP [10] qui considère les séquences entières. Francis YL Chin et al. [3] proposent un algorithme permettant de calculer les valeurs optimales des paramètres. 9

10 L'article de Pavel A. Pevzner et al. [7] est intéressant et permet d'illustrer la méthode ECINDEL. Ils réussissent à obtenir de bons résultats en faisant une élimination des orphelins suivie d'un alignement des spectres (Voir ci-dessous). Ensuite ils expliquent qu'il y a toujours un compromis à faire entre la correction d'erreur et la corruption de données et qu'il est préférable d'éliminer une ambiguïté pour l'assemblage que l'inverse. Une des difficultés dans la correction d'erreurs est de différencier une erreur d'une répétition avec peu de changements. La méthode de Pavel A. Pevzner et al. [7] Soit s une chaîne issu du séquençage du génome G. Un l-uplet est dit solide s'il est contenu dans plus de M chaînes et faible sinon. M est un paramètre du programme. Soit T une collection de l-uplets appelé le spectre. Une chaîne s est dite une T-chaine si tous ses l-uplets appartiennent à T. Soit Sp g le spectre des l-uplets solides de l'ensemble des s. Spectral Alignement Problem (SAP) Sachant une chaîne s et un spectre T, résoudre un SAP est trouver le nombre minimum de mutations à faire pour transformer s en une T-chaîne. La programmation dynamique peut permettre la résolution d'un SAP. Un SAP peut-être utilisé pour la correction d'erreur ssi le nombre de mutation n'est pas trop important. La méthode procède par alignement successif des chaînes sur le spectre Sp g. Sp g est recalculée à chaque itération. Cette méthode a permis d'éliminer un nombre important d'erreurs dans un projet séquençage d'une bactérie, mais ne prend pas bien en compte certaines spécificités de l'assemblage. Les auteurs expliquent une autre méthode de correction d'erreurs. Par exemple le nombre maximum d'erreurs dans une séquence n'est pas prise en compte. Soit S={s 1, s 2,..., s n } l'ensemble des chaînes issues du séquençage de G et l un entier. Le spectre de S est S l contenant les l-uplets de s 1, s 2,..., s n et des chaînes inversées de s 1, s 2,..., s n. Soit Δ une majoration du nombre d'erreurs dans chaque chaîne. Error correction problem Sachant S, Δ et l, on fait au maximum Δ corrections dans une chaîne de S tout en minimisant la taille de S l. Une erreur dans une chaîne entraîne 2l l-uplets erronés (2d si l'erreur se trouve une distance d de la fin de la chaîne et d < l). Une approche gloutonne peut trouver une correction dans la chaîne s qui réduit la taille de S l par 2l (ou 2d). Une autre approche est l'élimination des orphelins. Un orphelin est un l-uplet ayant une faible occurrence (inférieure à M), il n'a qu'une chaîne voisine (un caractère de différence) et que la voisine ai une occurrence plus forte qu'elle. L'élimination des orphelins gloutonne commence à corriger les positions orphelines (là où l'orphelin diffère du voisin) qui réduisent de 2l la taille de S l. Ensuite la condition 2l est relâché par la soustraction d'un coefficient δ. Jia Zheng et al. [11] ont apporté l'idée de prendre en compte une estimation de la couverture de séquence dans la correction d'erreurs. 10

11 La méthode ECINDEL à été reprise par Jonathan Butler et al. [1] pour leur algorithme ALLPATHS. Ils ont effectué une sorte de boosting en utilisant plusieurs longueurs k de chaînes différentes. Les séquences solides sont désignées à l'unanimité et les erreurs sont corrigées selon leurs résultats pour chaque k. 4.2 La parallélisation Depuis un moment on a pu voir un changement sur le marché du matériel informatique. En effet, avant les années 2000 on assistait à une surenchère sur la fréquence dans les processeurs et maintenant c'est la course à la parallélisation massive. Les constructeurs ont vu qu'ils seraient arrivés à une limite en terme de fréquence et de dispersion de chaleur. Le moyen de contourner ces limites est la parallélisation des calculs. Une adaptation des algorithmes séquentiels est nécessaire afin de bénéficier du gain de performance. La programmation parallèle existait déjà avec les FPGA et les MasPar. Le développement des outils de programmation sur FPGA comme Handel-C et surtout la croissance phénoménale de la puissance des cartes graphiques a réellement fait émerger le domaine du parallélisme. Grâce au CUDA et aux autres langages de programmation sur carte graphique on est enfin capable de faire fonctionner des algorithmes très gourmands sur des PC de bureau pour un coup minime comparé aux super calculateurs qui étaient nécessaires. C'est pourquoi l'assemblage du génome et par extension la correction d'erreur doit être portée sur GPU ou au moins parallélisée. Dans le descriptif des assembleurs j'ai parlé de AbySS comme étant un algorithme parallèle. Il a été implémenté en C++ et utilise le passage de message pour la communication parallèle. La partie distribuée est le graphe de Bruijn dans lequel les noeuds sont des agents distribués s'envoyant des messages. Haixiang Shi et al. [8] présentent un algorithme de correction d'erreurs implémenté en CUDA. Il est basé sur la résolution du SAP et se divise en deux parties l'une gérant le vote des chaînes et l'autre décide de l'action à faire. Le «speedup» minimum obtenu est de 10 par rapport à la méthode utilisée par EULER-SR. Ce qui commence à être intéressant surtout que la précision est de plus de 98 %. L'algorithme parallèle en CUDA [8] Soit R les n séquences de longueur L issues du séquenceur et r i l'une d'elle. Soit T m,l (R) le spectre de R où m est le seuil de «solidité»(voir méthode de Pevzner) et l la longueur des l-uplets. Il est nécessaire que l'on puisse accéder concurrentiellement à T m,l (R). La première partie de l'algorithme consiste à lancer dans n thread un vote pour chacune des séquences. Ce vote sert à marquer les erreurs par rapport au spectre, c-à-d la position et la «bonne» lettre donnée par le spectre. C'est un vote par une mutation simple donc deux erreurs trop proches ne seront pas bien détectés. La deuxième partie lancée de la même manière que la première prend en entrée le vote. Dans un premier temps il calcule le maximum des votes et le couple (position, lettre) obtenant la majorité des suffrages. Si le maximum est nul il renvoie la séquence non modifiée. Si tous les l-uplets de r i appartiennent à T m,l (R) alors on corrige r i. Sinon, on taille ou l'on supprime r i. 11

12 5 Conclusion Cette présente bibliographie nous a permis de mettre d'aborder la bio-informatique et de mieux cerner le cadre et les objectifs du stage. Afin de débuter le stage dans les meilleures conditions, une phase de lecture de code et d'apprentissage du CUDA ou un autre langage, s'imposera. Nous avons pu voir que la plupart des travaux concernant le séquencage, l'assemblage et la correction d'erreurs sont récents. Des avancés sont encore possibles. Si on regarde de près on peut voir que les algorithmes d'assemblage suivent les générations des séquenceurs. La conséquence a été la production d'un bon nombre d'articles adaptant les anciennes méthodes à la baisse de la longueur des séquences. Mais maintenant que les séquenceurs recommencent à augmenter la taille des séquences, d'autres pistes s'ouvrent comme la parallélisation des algorithmes. Le point de départ du stage sera la méthode utilisée par H. Shi et al. [8]. Concrètement, nous allons implémenter la méthode et l'évaluer par une étude empirique complémentaire. L'étude se portera sur le paramétrage à l'image de l'article de F. Chin et al. [3]. L'objectif sera savoir si leur méthode de calcul des paramètres peut être appliquée. Ensuite, nous pensons que la puissance de la carte graphique suffit à créer un boosting de plusieurs méthodes de correction. Pour finir, nous chercherons à créer un nouvel algorithme parallèle. 12

13 Les articles Références Les livres [1] J. Butler, I. MacCallum, M. Kleber, I. A. Shlyakhter, M. K. Belmonte, E. S. Lander, C. Nusbaum, and D. B. Jaffe, (2008) «ALLPATHS: De novo assembly of whole-genome shotgun microreads», Genome Res 18: [2] M. J. Chaisson and P. A. Pevzner, (2008) «Short read fragment assembly of bacterial genomes», Genome Res 18: [3] F. Chin, H. Leung, W. Li, and S. Yiu, (2009) «Finding optimal threshold for correction error reads in DNA assembling», BMC Bioinformatics 10(Suppl 1): S15 [4] J. C. Dohm, C. Lottaz, T. Borodina, and H. Himmelbauer, (2007) «SHARCGS, a fast and highly accurate short-read assembly algorithm for de novo genomic sequencing», Genome Res 17: [5] D. Hernandez, P. François, L. Farinelli, M. Østerås, and J. Schrenzel, (March 10, 2008) «De novo bacterial genome sequencing: Millions of very short reads assembled on a desktop computer», Genome Res. published online [6] P. A. Pevzner, H. Tang and M. S. Waterman, (2001) «An Eulerian path approach to DNA fragment assembly» Proc. Natl. Acad. Sci. 98: [7] P. A. Pevzner, H. Tang, M. S. Waterman, (April, 2001) «A new approach to fragment assembly in DNA sequencing», Proceedings of the fifth annual international conference on Computational biology, p , April 22-25, 2001, Montreal, Quebec, Canada [doi> / ] [8] H. Shi, B. Schmidt, W. Liu, and W. M. Wittig, (2009) «Accelerating error correction in high-throughput short-read dna sequencing data with CUDA», IPDPS '09: Proceedings of the IEEE International Symposium on Parallel\&Distributed Processing, pp [9] J. T. Simpson, K. Wong, S. D. Jackman, J. E. Schein, S. J.M. Jones, and I. Birol, (2009) «ABySS: A parallel assembler for short read sequence data», Genome Res 19: [10] A. Sundquist, M. Ronaghi, M. Tang, P. A. Pevzner, S. Batzoglou, (2007) «Whole-Genome Sequencing and Assembly with High-Throughput, Short-Read Technologies», PLoS ONE 2(5): e484. [doi> /journal.pone ] [11] J. Zheng, H Waileong et H. Tang, (2007) «An improved algorithme for error correction of reads in DNA fragment assembly» ReComb [12] T.A. Brown «Génomes» aux éditions Flammarion [13] Griffiths, Miller, Suzuki, Lewontin, et Gelbart «Introduction à l'analyse génétique» aux éditions DeBoeck Université [14] MO. Monchicourt «Les enquêtes : Le génome séquencé» aux éditions Platypus press [15] Primrose, Twyman et Old «Principes de génie génétique» aux éditions De Boeck Les présentations [16] MC. Le Paslier, (2009) «Les outils de séquençage / re-séquençage», Colloque EPGV [17] J. Nicolas (2004«Assemblage ciblé de séquences : un problème d optimisation d actualité» présentation pour l'équipe Symbiose, Irisa [18] W. Qi, (April,2009) «Genome Sequence Assembly», COST 13