Sommaire. A) Méthode de contrôle manuel des résultats produits par GLADX

Transcription

1

2 Sommaire Définitions et abréviations Résumé Introduction I. Matériel II. Méthode A) Méthode de contrôle manuel des résultats produits par GLADX B) Comparaison des résultats de l outil GLADX avec les résultats issus d une étude publiée par S.Kuraku et S.Kuratani en 2011 III. Résultats et discussion A) Résultats de la première étape de l analyse des données : identification, classement et filtrage des artefacts A.1) Définition des artefacts : les différents types d artefacts identifiés A.2) Nombres d artefacts identifiés et distribution des différentes catégories d artefacts A.3) Solutions pour éliminer les artefacts A.4) Résultats obtenus après filtrages B) Résultats de la deuxième étape de l analyse des données C) Perspectives : propositions pour l amélioration de l outil GLADX Conclusion Bibliographie 1

3 Résumé La biologie a connu d importants bouleversements ces dernières années avec l arrivée du séquençage massif mettant à jour les génomes complets de nombreuses espèces. Cette production intensive d informations nécessite la création et l utilisation d outils permettant des analyses informatiques automatisées. Les donnés biologiques prennent tout leurs sens lorsqu elles sont interprétées à la lumière de l évolution. En ce sens, les études évolutives sont absolument nécessaires pour mettre en exergue les données biologiques. Dans ce contexte, le laboratoire étudie l évolution des génomes et protéomes. Le travail présenté dans ce rapport est un élément d un plus vaste projet portant sur les pertes de gènes au cours de l évolution. Dans le cadre de ce projet, le laboratoire a développé un nouvel outil informatique nommé GLADX au sein de la plate forme DAGOBAH. Cet outil est capable de détecter automatiquement, pour toutes les espèces d un phylum choisi, la présence ou l absence d un gène, et grâce à des étapes systématiques de réannotation, peut confirmer les pertes, identifier et analyser les pseudogènes et découvrir de nouveaux gènes. Cette approche est basée sur l utilisation de phylogénies, de prédictions protéiques et sur l analyse de mutations génétiques. Au cours de mon stage j ai étudié le niveau de fiabilité des résultats produits par GLADX : pour l ensemble des gènes étudiés seul un peu plus de la moitié des pertes de gènes sont détectées correctement. Afin d améliorer la qualité des résultats, des filtres ont été intégrés à GLADX, ce qui a permis d augmenter la fiabilité de l outil jusqu à 70%. La détection d événements de pertes ou de pseudogènisations par GLADX est donc encore loin d être parfaite, mais c est un outil intéressant qui peut encore être amélioré. 2

4 Définitions et abréviation : BLAST : Basic Local Alignement Search Tool. Programme informatique qui effectue des comparaisons de sequences. Le mot Blast est rentré aujourd hui dans le langage courant et signifie une recherche de séquences «similaires». Les séquences «similaire» ainsi identifiées sont appelées des hits. BLASTN : Blast entre des séquences nucléotidiques BLASTP : Blast entre des séquences protéiques Boostrap : c est une technique d inférence statistique basée sur des ré-échantillonages successifs de données. Elle est utilisée pour tester la robustesse des noeuds phylogénétiques, plus la valeur calculée est proche de 100, plus un noeud est soutenu et donc plus il est fiable. EST : Expressed Sequence Tag = Marqueur de séquence exprimée ; c est une courte séquence d ADN complémentaire. Orthologie :des gènes sont dit orthologues lorsqu ils sont issus d un ancêtre commun. Ce sont des gènes provenant d un événement de spéciation. Paralogie : Des gènes sont dit paralogues lorsqu ils sont issus d un événement de duplication Pseudogène : Les pseudogènes sont des séquences homologues à des gènes, devenues non fonctionnelles car elles ont été trop dégradées au cours du temps. La perte de la fonction d origine peut faire suite à l échec de la transcription ou de la traduction, ou être due à la production d une protéine qui n a pas le même répertoire fonctionnel que le gène d origine. TBLASTN : Blast d une protéine contre des séquences nucléotidiques Transposon : Les transposons sont des séquences ADN capable de se déplacer dans le génome et de se multiplier, par un mécanisme appelé transposition. Le pourcentage de transposons dans un génome peut varier énormément d une espèce à l autre. 3

5 Introduction J ai réalisé mon stage au sein de l entreprise Xegen(21) en collaboration avec le laboratoire EBM (Evolution biologique et modélisation) de Marseille qui est une unité du LATP d Aix-Marseille (Laboratoire d'analyse Topologie et Probabilités). L entreprise Xegen a été fondée par Mr Paganni, Mr Gouret et Mr Pontarotti, tous les trois sont membres du laboratoire EBM. Cette start-up a pour objectif de réaliser des annotations fonctionnelles de séquences de haute qualité et à haut débit. Pour cela, elle s appuie sur des outils développés au sein du laboratoire EBM, dont le module GLADX(3) qui est implémenté dans une plate forme multi-agent nommée DAGOBAH (5) et qui permet, en collaboration avec d autres outils, de détecter et dater les pertes de gènes et pseudogénisations qui ont eu lieu au cours de l évolution de façon précise et automatique. Les résultats obtenus avec GLADX peuvent être utilisés de différentes façons pour réaliser des annotations de séquences. L étude des pertes de gènes implique généralement des méthodes basées sur la similarité des séquences, la plus répandue étant celle des COGs (12) qui permet de créer des clusters de groupes d orthologues appelés COGs. Un autre type de méthodes, plus sensibles et plus précises existe, les méthodes basées sur la phylogénie (1), ces méthodes sont rares et peu employées car longues et difficiles à mettre en œuvre. Ces deux types de méthodes ne permettent cependant pas d identifier les pseudogènes ou les séquences géniques oubliées lors de l annotation des génomes. Un troisième type de méthodes a donc été imaginé pour identifier ces gènes et pseudogènes, ces approches sont basées sur la recherche de similarité au niveau génomique et l alignement de séquences (14). La stratégie mise en place avec GLADX combine ces différentes méthodes afin d identifier les événements de pertes de gènes ainsi que les gènes ratés et pseudogènes de façon automatique. Cela permet donc d avoir une approche globale et automatisée, ce qui n avait jamais été fait jusqu à maintenant. Le but de mon stage au sein de l entreprise était d analyser manuellement les résultats obtenus par le module GLADX. Il fallait, d une part définir le niveau de qualité et de fiabilité des résultats et d autre part, trier les différents types de problèmes identifiés lors de l analyse et trouver des solutions pour les régler afin d améliorer la qualité des résultats de GLADX. 4

6 I. Matériel Les résultats que j ai analysés ont été produits en associant différents outils informatiques. Dans une première partie je vais présenter de manière succincte la plate forme DAGOBAH, la stratégie qui a été mise au point pour réaliser la détection des pertes et pseudogénéisations ainsi que les principaux outils et banques de données impliqués. Dans une deuxième partie je décrirai les outils et banques de données que j ai employés au cours de mes analyses Pour commencer, DAGOBAH : il s agit d un système constitué de plusieurs agents, ces agents sont des logiciels, ils sont bâtis comme des systèmes experts (c'est-à-dire un logiciel imitant la réflexion scientifique à l aide de règles logiques) avec des niveaux de complexité variables. Tous les agents peuvent travailler en parallèle et échanger des informations entre eux. Certains agents travaillant de concert forment des sous ensemble de DAGOBAH nommés modules, GLADX est l un de ces modules. DAGOBAH détecte automatiquement l ensemble des événements génétiques ayant eu lieu au cours de l évolution : échanges de domaines homologues ou non, insertions, délétions, gains, pertes, pseudogénéisations, transferts horizontaux, duplications. La stratégie développée dans l optique de détecter les pertes et pseudogénisations de gènes a été élaborée en associant des logiciels implémentés dans DAGOBAH et d autres outils, dont : - OrthoMCL (9), un logiciel indépendant (non lié à DAGOBAH), qui réalise des clusters de groupes de gènes orthologues (nommés COG) - FIGENIX (7), il s agit d une librairie logiciel, c'est-à-dire un ensemble de fonctions utilitaires disponibles. Cette librairie est intégrée dans DAGOBAH. Les fonctions qu elle contient sont utilisées par certains agents de DAGOBAH, ces agents peuvent alors lancer à travers FIGENIX des logiciels externes comme Blast. FIGENIX permet de générer automatiquement une phylogénie à partir d une séquence requête. - GLADX (3) est un module pour la recherche les pseudogènes, vérification et datation des pertes de gènes. - Phylopattern (6) est aussi une librairie logiciel utilisée par certains agents de DAGOBAH pour lire les arbres phylogénétiques (annotation et recherche de motifs). Cette stratégie comporte plusieurs étapes (les étapes dans lesquelles intervient GLADX sont présentées dans le schéma de GLADX, figure 1): 1) Constitution de groupes de gènes orthologues (COG) par le logiciel OrthoMCL, à partir de toutes les séquences protéiques présentes dans la banque ENSEMBL57 (18). Ces groupes d orthologues sont ensuite analysés par des agents de DAGOBAH qui infèrent l état absent ou présent des espèces représentées sur un arbre d espèces, pour détecter les apparitions et pertes de 5

7 gènes. (arbre d espèce utilisé présenté en figure 2 et 3). Les espèces choisies pour réaliser la recherche d orthologues sont représentées dans l arbre d espèces au verso, il s agit uniquement d espèces eucaryotes. 2) Puis sélection des groupes d orthologues pour lesquels le gène est absent chez Homo Sapiens, vérification et datation de l événement de perte (ici perte étudiée en mode espèces, c'est-à-dire que tous les sous arbres ou feuilles provenant d un nœud ancêtre de l espèce dont est issu le gène requête et n ayant pas subi de duplication sont considérés comme orthologues à la séquence requête ; et non en mode lignée, où tous les gènes orthologues sont définis à partir de l ancêtre commun. Illustration figure 4) 3) Ensuite identification du gène appartenant au groupe d orthologues défini par OrthoMCL qui est issu de l espèce la plus proche de l homme. Sa séquence est utilisée pour réaliser une phylogénie sur FIGENIX en n employant que des séquences issues des espèces choisies lors de la première étape. Puis détection des événements de pertes de gènes sur cette phylogénie. A ce niveau là, il existe deux modes d utilisation de GLADX, le mode simple : les événements de pertes sont affichés sur un arbre d espèce et l étude du gène s arrête à ce niveau là ; et le mode complet : l étude continue, les pseudogènes et gènes orthologues ratés lors des premières étapes sont recherchés dans les banques de données génomiques. (Lors de l étude des gènes par GLADX, les gènes pour lesquels la perte détectée par OrthoMCL semblait avoir eu lieu avant le dernier ancêtre commun aux Amniotes ont d abord été étudiés en mode simple. Si la phylogénie a révélé la présence de gènes orthologues à la requête chez les Amniotes, qui ont été ratés par OrthoMCL, alors l étude a été relancée en mode complet.) 4) Recherche, dans le génome des espèces où le gène est manquant, de gènes orthologues existants mais non identifiés lors des étapes précédentes ou de pseudogènes. Cette recherche est réalisée via un TBlastN (4) contre la banque ADN de ENSEMBL57. La séquence requête utilisée pour le TBlastN est la séquence de la protéine orthologue qui est issue de l espèce la plus proche de celle dans laquelle l orthologue est manquant. Les quatre premiers hits issus du TblastN sont utilisés l un après l autre comme séquences requêtes pour réaliser de nouvelles phylogénies jusqu à ce que l on identifie dans une de ces phylogénies, au moins une séquence orthologue au hit qui soit aussi orthologue à la séquence de départ de l étude dans la phylogénie réalisée en 3 (soit une séquence orthologue commune entre ces deux phylogénies) ou jusqu'à ce que les quatre hits soient épuisés. Si aucun orthologue commun n est identifié pour aucun des hits, l étude s arrête à ce niveau là, et les événements de perte sont indiqués sur un arbre d espèce. Dans l autre cas deux types d analyses peuvent ensuite être réalisées : analyse au niveau protéique, analyse au niveau génomique. 6

8 5) Analyse au niveau protéique : La séquence protéique est ensuite prédite à partir d un grand morceau de la séquence ADN contenant le hit identifié comme orthologue. La position chromosomique de la séquence identifiée est relevée afin de savoir si une protéine déjà connue ne serait pas annotée à cette position. Puis des tests de similarité et de longueur sont réalisés entre la séquence du hit analysé et la séquence de référence de l étude. Si lors de ces tests, les scores obtenus sont inférieurs à des seuils préalablement fixés alors cela signifie que les séquences sont trop divergentes pour une étude au niveau nucléotidique, l étude reste au niveau protéique (en effet les séquences sont mieux conservées au niveau protéique). L étude au niveau protéique consiste à contrôler l évolution de la protéine identifiée pour vérifier que son évolution est bien cohérente avec l évolution des autres protéines orthologues à la séquence requête de l étude, grâce à des tests d identité et de divergence (figure 5.d). Si les résultats obtenus indiquent une évolution cohérente alors la séquence analysée est bien un gène orthologue candidat, dans le cas contraire elle est considérée comme un pseudogène. Si, lors du premier test, la séquence du hit analysé obtient des scores supérieurs aux seuils fixés, alors l étude se fait au niveau génomique 6) L analyse au niveau génomique permet de détecter les mutations affectant la séquence au cours de l évolution. La séquence analysée est envoyée à deux logiciels reconstituant les séquences ancestrales : laganm(2) et Ortheus(10). Les résultats obtenus sont transmis à un agent qui scanne les mutations apparaissant entre la séquence analysée et son ancêtre. Si le logiciel détecte des mutations telles que : délétions ou gains de codon Stop ou de codon Start, mutations non sens, délétions, insertions, pertes de site d épissage alors la séquence est considérée comme un pseudogène. Dans le cas contraire la séquence analysée est un gène orthologue candidat. Les banques de données utilisées par les logiciels lors de ces différentes étapes sont : banque de données ENSEMBL57, banque de données Ref Seq pour les séquences issues d Arabidopsis thaliana ou de certains Fungi et JGI(20) pour Branchiostoma floridae, Nematostella vectensis et certains Fungi. Les résultats obtenus sont présentés dans IODA (17) (Gene Loss studie), et sont regroupés en quatre packs. Chaque étude est exposée sous la forme suivante (voir illustration au verso, figure 5.a,b,c,d) : d abord un arbre d espèces ou sont signalées les espèces dans lesquelles le gène est manquant, ainsi que les événements de pertes, pseudogénisations, et tout autre type d événements. Puis la phylogénie construite à partir de la séquence requête ; suivie d une présentation des différents hits identifiés par TblastN pour chacune des espèces manquantes et les études réalisées à partir de ces hits ; on peut aussi accéder aux résultats de l analyse au niveau protéique ou génomique de ces séquences. 7

9 Lorsqu on lance une étude sur GLADX, il est possible de modifier le niveau de la phylogénie à partir duquel on veut étudier le gène, c'est-à-dire le phylum dans lequel on veut réaliser l étude, cela s appelle le scope ; on peut par exemple étudier tous les Eutéleostomi, ou seulement les Amniotes. Les banques de données et les logiciels utilisés lors de mes analyses manuelles sont : banques de données non redondante (nr) du NCBI, Banques de données ENSEMBL57 et 66(16), Swissprot, JGI, banque ADN nr du NCBI et banque d ADN de l EBI, banque d EST du NCBI, BlastP, BlastN et TBlastN du NCBI, FIGENIX. II.Méthodes Le but de mon stage était de contrôler les résultats produits par GLADX présentés dans IODA. Les études pour lesquelles le gène n est pas réellement perdu mais est identifié comme perdu dans IODA et celles pour lesquelles le gène est réellement perdu à un moment de l évolution différent de celui noté dans l arbre des espèces de IODA sont appelés des artefacts. Il fallait donc identifier les études de gènes qui sont, ou non, des artefacts. Pour savoir si un gène est réellement perdu et vérifier la date de sa perte il faut comparer les résultats de l étude de GLADX avec ceux obtenus par une autre méthode et observer si il y a ou non congruence des différentes études, ce qui permet de valider ou non les études réalisées par GLADX. Deux types de contrôles ont été réalisés sur un certains nombre d études GLADX: une étude manuelle des gènes dont les résultats sont comparés avec ceux produits par GLADX, cela sert ensuite à calculer la proportion d artefacts présents dans l ensemble des résultats de GLADX. Puis une comparaison entre les résultats de GLADX et ceux issus d une étude publiée par Kuraku et Kuratani en 2011 (8) concernant les pertes de gènes chez les Eutheria. Ce contrôle permet de vérifier que les résultats obtenus par GLADX ont été retrouvés dans une autre étude, de comparer les pourcentages d études correctes des deux méthodes, et d identifier de possibles gènes perdus qui seraient ratés par GLADX ; cela constitue donc une validation externe de notre méthode et de notre outil. A. Méthode de contrôle manuel des résultats produits par GLADX Dans un premier temps j ai comparé les résultats présents dans IODA avec ceux que l on obtient lorsque on réalise l étude de façon manuelle en refaisant le blast, la phylogénie, la recherche de gènes manqués ou pseudogènes, en utilisant la banque de données nr au lieu de ENSMBL57 (pour vérifier que les résultats obtenus sont validées quelques soit la banque de données utilisée). J ai aussi vérifié les pseudogènes présentés dans IODA dans les banques de données ADN nr, ENSEMBL66 et EST. 8

10 L analyse manuelle comporte plusieurs étapes que je vais maintenant détailler : 1) La séquence de départ de l étude GLADX est utilisée comme séquence requête pour réaliser un blastp contre la banque de données nr du NCBI. On note alors le pourcentage d identités communes entre la séquence requête et les différents hits, les espèces présentes dans ce résultat de blast, la longueur des hits, leurs scores et leurs E-value. Une séquence doit présenter environ 25% d identités sur toute sa longueur en commun avec la séquence requête pour qu il y ait une possibilité que ce soit un orthologue. Si la séquence requête ne correspond à aucune séquence dans la banque de données nr du NCBI (au moins 95% d identité) alors l étude est réalisée sur le site de l EBI (banques de données : ENSEMBL66 et Swissprot). Le résultat du blast permet de détecter certains artefacts: si les premiers hits, après la séquence correspondant à la requête, sont tous issus d espèces de bactéries alors il est probable qu il y ait un problème dans les résultats de l étude. En effet cela signifie que le gène est absent chez tous les autres eucaryotes et donc qu il a été perdu chez de nombreuses espèces, ce qui est peu plausible pour un gène normal, l étude de cette séquence sera donc très perturbée. De même on est probablement en présence d un artefact si la séquence requête appartient au groupe des Eumetazoa et que les premiers hits sont tous issus d espèces de plantes, ou si la séquence requête appartient au groupe des Tetrapodes et que les premiers hits sont tous issus d espèces d insectes. De plus les espèces d insectes ou de bactéries n étant pas présentes dans l arbre des espèces de GLADX, les séquences qui en sont issues ne sont pas prises en compte lors de l étude, les perturbations qu elles engendrent ne sont donc pas visibles dans IODA et l étude en est encore plus faussée. Si on obtient aucune séquence proche (au moins 25% d identité commune) de la séquence requête (hors elle-même) dans aucunes banques de données, ou si les premiers hits du Blast sont issus d espèces diverses éloignées phylogénétiquement les unes des autres, alors on peut supposer que les résultats des études de ces gènes sont faux car cette séquence présente probablement un problème (de séquençage ou autres ). Pour confirmer ces suppositions, on analyse la phylogénie de la séquence requête présentée dans IODA, si elle est très faiblement soutenue (boostrap faibles) et que la plupart des nœuds ont été réarrangés (nœuds notung notés nr), alors cela confirme les déductions précédentes, ces études sont bien des artefacts. Dans le cas contraire on poursuit l étude de la séquence. 2) Ensuite la phylogénie de la séquence requête est reconstruite de façon automatique via FIGENIX, en utilisant la banque de données nr et un nombre maximal de séquences de 100 (paramètre : blast filter cut). Durant les étapes de la reconstruction, on note la qualité de 9

11 l alignement final (nombre de séquences et longueur de l alignement ; plus l alignement est court et moins la phylogénie sera fiable), et les problèmes rencontrés (qui ont nécessité de modifier les paramètres par défaut). On note aussi la qualité des boostrap qui reflète la qualité de la phylogénie (plus ils sont élevés, plus elle est fiable). Puis la phylogénie obtenue est comparée avec celle présentée dans IODA, si les deux phylogénies sont congruentes alors on peut en conclure que le résultat de l étude présenté dans IODA est fiable. Si elles ne sont pas congruentes, alors on se fie à la phylogénie qui semble la plus fiable (cf critères cités précédemment : boostrap, paramètres, alignements) et aux informations obtenues par le blast en 1), pour conclure sur la probabilité que le résultat de l étude IODA soit faux. Si la phylogénie de IODA est clairement plus fiable que celle construite avec la banque nr et que le blast est correct, alors on suppose que le résultat de l étude GLADX est vrai. Si les deux phylogénies ne sont pas congruentes mais qu elles sont toutes les deux aussi fiables, alors il est impossible de trancher. Dans tous les cas où les phylogénies ne sont pas congruentes, on note les gènes orthologues à la séquence requête dans la phylogénie de IODA et on les recherche dans la nouvelle phylogénie et son Blast, et inversement. On repère alors les séquences orthologues à la requête dans l une des deux phylogénies qui sont absentes de l autre phylogénie : - Si ces séquences correspondent à des hits très éloignés dans les résultats du BlastP de la séquence requête (quelque soit la banque de données utilisée), avec de faibles valeurs de E- value, c est que ces séquences sont probablement mal placées dans la phylogénie. Cela pourrait être lié à un problème de réarrangement des nœuds. - Si ces séquences sont absentes du BlastP de l autre phylogénie, il faut vérifier que ces séquences sont présentes dans les deux banques de données, qu elles sont exactement les mêmes (pas de mutations présentes dans l une et pas dans l autre) et que, si elles existent, elles n ont pas étés éliminées par un des filtres de FIGENIX. Le problème de l étude peut aussi être lié à un niveau de scope (illustration figure 6.c) Si la non congruence des phylogénies est liée à un problème de banques de données, alors l étude manuelle du gène s arrête à ce niveau là, si il s agit d un autre problème ou si la cause du problème n a pu être identifiée, alors l étude se poursuit 3) Une fois que les artefacts ont été identifiés, on recherche alors les causes de ces artefacts grâce à différents tests : Contrôle de la longueur de la séquence pour savoir si celle-ci ne serait pas trop courte pour donner des résultats de blast fiables. Test pour savoir si la séquence requête n est pas une séquence avec un motif répété, ce qui pourrait perturber le blast et l alignement Ce test est réalisé à l aide d outils informatiques 10

12 permettant l alignement d une séquence avec elle-même, ces outils sont contenus dans EMBOSS (11, 15). Test pour savoir si la séquence n est pas un transposon grâce à un blast contre la banque de données Repbase (13, 19) (banque de données répertoriant l ensemble des séquences de transposons et séquences répétées connues) Enfin on contrôle toutes les étapes ayant abouties à la phylogénie de IODA : filtres, blast, paramètres modifiés, scopes. 4) Pour finir on vérifie la fiabilité des pseudogènes et des gènes sauvés présentés dans IODA. A partir de chacune des séquences de ces pseudogènes ou gènes on réalise un blastp contre la banques de données nr (ou ENSEMBL66 plus Swissprot si le gène de départ de l étude est absent de nr). Si dans le résultat de ce blastp on identifie bien la séquence à l origine de l étude ainsi que ces orthologues, avec au moins 25% d identités communes et en tant qu une des premières séquences de leurs espèces respectives, alors la séquence testée est probablement bien un pseudogène ou un gène orthologue. Pour confirmer cette supposition, on contrôle la qualité de la phylogénie du hit présentée dans IODA, si celle-ci est bien soutenue, alors cela confirme la supposition précédente. En revanche, si la séquence du gène ou pseudogène blast avec d autres séquences que celles du groupe d orthologues ou avec aucune séquence, ou si sa phylogénie est mal soutenue, alors c est possible qu il y ait un problème. On teste alors les autres hits identifiés comme candidats par GLADX via un BlastP pour voir si l un de ces hits ne correspondrait pas au véritable pseudogène ou gène, qui n aurait pas été pris en compte car le logiciel n a pas réussi à construire une phylogénie à partir de sa séquence ou parce qu il vient après le hit choisi et n a donc pas été étudié. Si le scope est trop large et rate des duplications, on peut aussi supposer que ce pseudogène ou gène est un artefact. Si aucun de ces problèmes n est identifiés, on reconstruit la phylogénie du hit correspondant au gène ou pseudogène avec FIGENIX (banque de donnée nr, 100 séquences maximum) pour savoir si elle est bien en accord avec la phylogénie du hit de IODA. Si la séquence du hit n est pas orthologue à la séquence requête de l étude dans la nouvelle phylogénie, et que cette phylogénie est fiable, alors on peut supposer que le pseudogène ou gène sauvé est faux. Dans le cas contraire le pseudogène est validé. Enfin si la séquence d un pseudogène équivaut en fait à un gène fonctionnel dans la banque de données nr (entre 100 et 98% d identité sur toute la longueur du pseudogène), on commence par vérifier si ce gène est aussi présent dans la dernière version de ENSEMBL(66), si c est bien le cas on en conclu qu il n y a pas eu pseudogénéisation et que le gène est entier et fonctionnel. Sinon on compare la séquence du hit du pseudogène et celle du gène entier, au niveau 11

13 nucléotidique, pour identifier les variations présentes sur la séquence du hit qui en font un pseudogène. Puis on contrôle laquelle de ces deux séquences est la plus fiable en réalisant un TblastN contre la banque de données EST du NCBI, à partir des morceaux d ADN de chacune des séquences où une variation a été observée. Si les variations sont bien présentes sur tous les EST, alors c est la séquence présentée dans IODA qui est juste et il s agit bien d un pseudogène, si elles ne sont observées sur aucun EST il s agit d un gène fonctionnel, enfin si une partie des EST portent les mutations et les autres non, il est impossible de trancher. Cette méthode de contrôle a été utilisée pour analyser les résultats des études de gènes identifiés comme perdus par GLADX. Quatre types de gènes perdus ont été étudiés : les gènes perdus entre le dernier ancêtre commun aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes, les gènes perdus entre le dernier ancêtre commun aux Tétrapodes et le dernier ancêtre commun aux Amniotes, les gènes perdus entre le dernier ancêtre commun situé au nœuds nommé «invente dagobah-1» sur l arbre d espèces et le dernier ancêtre commun aux Catarrhini, et enfin, les gènes perdus entre le dernier ancêtre commun situé au nœuds nommé «invente dagobah-1» et Homo sapiens. Le nombre de gènes étudiés pour les différents niveaux d étude est présenté dans le tableau page suivante. Date de la perte Entre le dernier ancêtre commun aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes Entre le dernier ancêtre commun aux Tétrapodes et le dernier ancêtre commun aux Amniotes Entre le dernier ancêtre commun «invente dagobah-1» et le dernier ancêtre commun aux Catarrhini Phylum le plus large dans lequel le gène étudié est identifié comme perdu par GLADX (= niveau d étude) Tous les gènes identifiés comme perdus entre le dernier ancêtre commun aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes, soit 55 gènes, ont été étudiés afin d avoir une base solide pour réaliser des statistiques décrivant les résultats obtenus par GLADX. Puis trois autres dates ont aussi été étudiées afin d avoir une vision plus globale des résultats, et de savoir ainsi si l outil fonctionne aussi bien avec des gènes perdus récemment qu avec des gènes perdus il y a longtemps, avec des gènes d espèces bien étudiées aussi bien qu avec des gènes d espèces peu étudiées. Dans la suite de ce document, les quatre différents types de gènes étudiés seront décrits par le plus large phylum dans lequel ils sont absents, ainsi les gènes perdus entre le dernier ancêtre commun Nombre de gènes étudiés Tétrapodes 55 Amniotes 20 Catarrhini 11 Entre le dernier ancêtre commun «invente dagobah-2» et Homo Sapiens Homo Sapiens 20 Table1 : Présentation du nombre de gènes perdus aux différentes dates choisies qui ont été étudiés et identification du phylum le plus large possible dans lequel le gène étudié est perdu (on appellera cela le niveau d étude). Présentation des niveaux d études sur l arbre d espèce figure 2 aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes seront appelés gènes perdus chez les 12

14 Tétrapodes, les gènes perdus entre le dernier ancêtre commun aux Tétrapodes et le dernier ancêtre commun aux Amniotes seront appelés gènes perdus chez les Amniotes et ainsi de suite. B. Comparaison des résultats de l outil GLADX avec les résultats issus d une étude publié par S.Kuraku et S.Kuratani en 2011 (8) Dans un deuxième temps j ai comparé les résultats présentés dans IODA avec les résultats exposés dans une étude concernant les pertes de gènes chez les Eutheria (ainsi que chez les Prototheria et les Theria) à partir de séquences requêtes de la banque de données ENSEMBL55 issues de Gallus gallus : il s agit d une étude publiée en 2011 par Kuraku et Kuratani. La stratégie qu ils ont employée dans leur étude est découpée en plusieurs parties 1) Tout d abord trois groupes d espèces ont été définis : poulet (Gallus gallus), in-group (Theria) et out-group (Xenopus, Clupeocephala). Les auteurs ont réalisé un BlastP à partir de chacune des séquences de poulet et ont recherché dans ces résultats de Blast les séquences les plus proches issues des groupes in et out, Les «hits» scores de ces séquences ont ensuite été convertis en distances évolutives. Les distances évolutives entre la séquence de poulet et son meilleur hit du groupe in d une part, et entre la séquence de poulet et son meilleur hit du groupe out d autre part permettent de calculer la différence entre ces deux distances : D. Pour prendre en compte le principe du best hit réciproque les auteurs ont aussi calculé un paramètre appelé index de paralogie : Rin. 2) Ensuite cinq familles de gènes bien étudiés et fiables ont été choisies. Pour tous les gènes de ces familles D et Rin ont été calculé, ce qui a permis de définir les seuils de ces paramètres afin de trier les autres gènes en deux catégories : fiables et non fiables. De plus, les gènes de poulet pour lesquels les «hits» scores de blast sont tous inférieurs à 200 chez les espèces du groupe out et les gènes comportant des doigts de zinc ont été éliminés. 3) Puis les auteurs ont construit manuellement un arbre phylogénétique pour chacune des séquences de poulet en utilisant des séquences de la banque de données nr du NCBI et ENSEMBL55. Ce qui a ensuite permit de déterminer l état absent ou présent du gène chez les différentes espèces sélectionnées pour construire l arbre. 4) La dernière étape consiste à essayer de sauver des séquences protéiques qui n auraient pas été détectées du premier coup car elles étaient mal annotées dans ENSEMBL. Pour cela ils ont réalisé un TBlastN à partir de chacune des séquences de poulet, contre la banque EST du NCBI et la banque des séquences génomiques de ENSEMBL55. Au final 147 gènes ont été identifiés comme perdus chez les Eutheria, Theria et Prototheria. 13

15 Cette étude est différente de la notre sur de nombreux points : elle comporte des filtres plus strictes pour la sélection des séquences requêtes, elle n est pas entièrement automatisée, il n y a aucune recherche de pseudogènes, enfin seuls les gènes issus de poulet ont été utilisés comme requêtes. Étant donné que les pseudogènes n ont pas été étudiés dans l article, les problèmes liés à des pseudogènes faux ne sont donc pas comptés comme artefacts dans cette deuxième partie, ce qui permet de mieux comparer notre outil avec les résultats de l article. Mais ces données ne pourront pas être prises en compte pour calculer l efficacité globale de l outil III.Résultats et discussion Au total 317 gènes ont été étudiés, dont 144 lors de la première étape (106 pour la recherche d artefacts et 38 lors d une phase ultérieure (cf page 18)), 180 lors de la seconde, parmi ces gènes, 7 ont été étudiés dans les deux étapes. La première méthode d analyse des données est la plus fiable pour évaluer le taux de réussite de notre logiciel car les problèmes de pseudogènes sont bien pris en compte, elle permettra de calculer le taux d artefacts, et de définir des filtres pour les éliminer. La deuxième étape d analyse des données se fera après filtrage des artefacts. A) Résultats de la première étape de l analyse des données: identification, classement et filtrage des artefacts A.1) Définition des artefacts : les différents types d artefacts identifiés Les différents artefacts identifiés ont été triés en 8 catégories différentes Artefact de répétition (figure 6.d) : ils sont liés à des séquences comportant des motifs répétés, ces séquences sont détectées grâce à des logiciels de EMBOSS, et présentent des Blast et des alignements très perturbés. Ces artefacts sont dus majoritairement à des séquences de Branchiostoma floridae, en effet son génome comporte beaucoup de séquences répétées dont plusieurs sont probablement dues à des problèmes de séquençage. Les gènes identifiés comme des transposons grâce à un blast conte la banque de données Repbase (figure 6.b). Ils présentent souvent des Blast avec des hits issus d espèces très éloignées phylogénétiquement les unes des autres, ce qui perturbe la phylogénie. Cependant certaines études liées à ces gènes semblent tout de même présenter des résultats corrects. Les artefacts liés à des pseudogènes (illustration figure 6.e) ou gènes sauvés : Dans ces cas, soit les pseudogènes sont des gènes fonctionnels non reconnus, soit les pseudogènes ou les gènes 14

16 sauvés ne sont pas orthologues à la séquence de départ de l étude, mais paralogues, soit les pseudogènes ont été ratés car ils n ont pas permis de construire de phylogénie. Les causes de ces problèmes peuvent être des hits trop courts pour détecter les gènes fonctionnels correspondants, ou pour faire la différence entre paralogue et orthologue. Il semble aussi qu un seul orthologue commun à la phylogénie du hit et à celle de la séquence de départ de l étude soit un peu faible pour affirmer que les deux séquences sont orthologues. Les artefacts liés à des problèmes de banques de données, tels que l absence de séquence dans certaines banques ou des différences minimes dans les séquences pouvant induire des mutations ; ces artefacts ne sont pas imputables à notre outil. Les gènes dont les premiers hits dans le Blast sont soit des plantes, soit des bactéries, voir des insectes selon l espèce dont est issue la séquence requête (voir page 7 ; illustration figure 6.a). Ces problèmes sont considérés comme liés à des contaminations des banques de données, ou à des transferts de gènes entre espèces. Les séquences trop courtes. Ce problème a déjà été en grande partie traité grâce à un filtre mis en place au cours de l étude des gènes par GLADX, seuls quelques gènes étudiés avant la mise en place de ce filtre sont présents dans les résultats. Les artefacts liés à des problèmes de phylogénie tels que : les erreurs de scope (phylum étudié trop large ou trop restreint pour voir toutes les duplications, illustration figure 6.c),), les réarrangements de nœuds et les boostrap très faibles Ils peuvent être dus à des séquences trop variables en longueur ou en composition, des alignements trop courts Les artefacts que nous avons appelés «zone d ombre» pour lesquels la phylogénie de IODA et celle constituée lors de l analyse manuelle sont tout aussi fiables mais ne sont pas congruentes, et pour lesquelles le problème à l origine de cette divergence n a pu être identifié. 15

17 A.2) Nombres d artefacts identifiés et distribution des différentes catégories d artefacts On a obtenu les résultats présentés dans les deux tableaux ci dessous Nombre d études validées par la méthode manuelle et pourcentage : Niveau d étude (phylum le plus large dans lequel le gène est perdu) Nombre de gènes étudiés Nombres de gènes dont l étude GLADX a été validée par l analyse manuelle taux de réussite de GLADX = pourcentage d études de gène réalisées par GLADX dont les résultats sont validés par l analyse manuelle Tétrapodes % Amniotes % Homo % Catarrhini % Total % Table 3 : Nombre et pourcentage d études réalisées par GLADX et présentées dans IODA dont les résultats sont en accord avec ceux de l analyse manuelle que j ai effectuée et qui sont donc validées, et ce pour chaque niveaux d étude. Les études restantes ont donc été identifiées comme des artefacts. Les résultats totaux ont été calculés pour l ensemble des gènes perdus étudiés. Le taux de réussite de l outil représente en fait la proportion d études de GLADX qui sont validées par l analyse manuelle, c est un bon indicateur de la fiabilité du travail réalisé par l outil. Et on obtient la répartition des artefacts suivante : Types d artefact Tétrapodes Niveau d étude Amniotes Homo, Catarrhini Pourcentage des différents types d artefacts pour l ensemble des artefacts identifiés lors de l analyse manuelle Contaminations/ transferts % Transposons % Problèmes de Phylogénie % Zone d ombre % Répétitions % Banques de données % Pseudogènes ou gènes sauvés % Longueur % Total % Table 4 : Répartition des artefacts dans les 8 catégories d artefact définies en III- A pour les quatre types de gènes et pourcentage total de chacune des catégories d artefacts sur l ensemble des artefacts identifiés lors de l analyse. Résultats présentés graphiquement au verso, figure 7 16

18 Si on observe les résultats concernant le pourcentage total de réussite on note que l outil est fiable dans 55.7% des cas, ce qui est faible puisque seul un peu plus de la moitié des études sont validées. Cependant on constate que cette faiblesse est liée en partie aux gènes perdus chez Homo sapiens ou chez les Catarrhini. En effet, il existe une grande différence de taux de réussite, et donc de fiabilité de l outil, entre les études des gènes perdus chez les Tetrapodes ou les Amniotes, avec 69.1 et 65% d étude validées, respectivement, et celles concernant les gènes perdus chez Homo Sapiens ou chez les Catarrhini, puisque seules 25% de ces études sont correctes. On peut supposer que cette différence de taux de réussite entre les gènes perdus au niveau Tetrapodes ou Amniote et Homo sapiens ou Catarrhini est liée en partie à la difficulté d identifier correctement les pseudogènes ou gènes sauvés puisque ce type d artefacts est identifié uniquement dans les études concernant des gènes perdus chez les Catarrhini ou chez Homo sapiens. Or on a vu précédemment (page 4) que les gènes perdus avant le dernier ancêtre commun aux Amniotes ont été étudié en mode simple, c'est-àdire qu il n y a pas eu de recherche de pseudogènes pour ces gènes, donc les gènes perdus entre le dernier ancêtre commun aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes ne présentent pas de pseudogènes. On pourrait alors penser que la différence de mode d étude des gènes infère sur les résultats obtenus et que le mode complet constitue une source d erreur supplémentaire pour les gènes perdus après le dernier ancêtre commun aux Amniotes, ce qui pourrait induire des taux de réussite différents. Cependant, on constate qu aucun artefact lié à un pseudogène n est identifié pour les 20 gènes étudiés perdus chez les Amniotes, alors que 5 des 31 études analysées pour des gènes perdus chez Homo sapiens ou chez les Catarrhini présentent des problèmes liés à des pseudogènes. On en conclu donc que la recherche de pseudogènes induit des artefacts pour les gènes perdus chez les Catarrhini ou chez Homo sapiens, mais pas ou très peu pour les gènes perdus chez les amniotes. Ce n est donc pas le fait de rechercher des pseudogènes qui pose problème en soit, mais plutôt la facilité à identifier des pseudogènes, qui ne sont pas toujours orthologues, dans des espèces apparues récemment comme les primates. En effet les pseudogènes sont plus facilement détectables lorsque la perte est récente, et de plus les génomes des primates et de Homo sapiens ont été plus étudiés que les génomes d espèces non eutheria, il y a donc plus de séquences disponibles, et il est donc plus aisé de détecter chez eux des pseudogènes, vestiges d orthologues ou de paralogues. Cela représente donc une source d erreurs possibles supplémentaire pour l étude de ces gènes par rapport aux gènes perdus il y a plus longtemps pour lesquels il y a moins de chance de découvrir des pseudogènes, ceux-ci disparaissant au cours du temps. Cependant, ce problème de pseudogènes ne concerne que 5 artefacts sur 23, soit 21.8 % des artefacts, et ne suffit pas à expliquer entièrement la différence de taux d études correctes. On peut penser que le grand nombre de séquences répertoriées pour les Prototheria augmente aussi les risques de désaccord entre 17

19 banques de données. Une partie non négligeable des artefacts à ce niveau là sont en effet liés à des problèmes de banques de données (8 sur 23, soit 35% environ). On observe aussi une source d artefacts importante pour les gènes perdus au niveau des Tétrapodes et des Amniotes, qui n existe pas pour les gènes perdus au niveau de Homo Sapiens et des Catarrhini, les artefacts liés à des gènes identifiés comme des transposons. Une possibilité pour expliquer cette différence de répartition étant qu il y ait tout simplement plus d éléments transposables chez les Tétrapode et les Amniotes choisis pour l étude que chez les Catarrhini, le pourcentage de transposons dans le génome étant très variable d une espèce à l autre. Au vu des résultats de l analyse manuelle on pourrait donc regrouper ensemble les Tétrapodes et les Amniotes d une part puisqu ils présentent des statistiques très similaires, et les Catarrhinbi et Homo sapiens de l autre, afin de décrire les résultats obtenus de manière plus simple. Les autres types d artefacts sont répartis de manière équitable dans les différents niveaux d étude. Les problèmes les plus courants étant des problèmes liés à la reconstruction de la phylogénie. Ces problèmes sont nombreux car comme on l a vu précédemment, ils peuvent avoir de nombreuses causes. Si on exclut les problèmes de banques de données, qui ne sont imputables à notre outil, le pourcentage de réussite grimpe jusqu à : 8/23= 34.8% pour les gènes perdus chez Homo sapiens ou chez les Catarrhini et 51/73= 69.9% pour les gènes perdus chez les Amniotes ou chez les Tetrapodes, soit au total, 59/96= 61.5% d études validées. L outil détecte donc les pertes de gènes correctement 6 fois sur 10, le système de détection des pertes et pseudogènes ne semble donc pas encore tout à fait au point. Pour améliorer la qualité de détection de l outil il faut donc filtrer les résultats obtenus par GLADX afin d éliminer les artefacts. A.3) Solutions pour éliminer les artefacts Plusieurs solutions ont été imaginées et mises en place pour filtrer les résultats et tenter d éliminer les études de gènes dont les résultats sont erronés : Pour éliminer les transposons et les séquences comportant des répétitions un même filtre a été utilisé : il consiste en un blast de chacune des séquences contre la banque de données RepBase. Les séquences correspondant à des hits avec une E-value maximale de 10-3 sont considérées comme des transposons ou des séquences à motifs répétés et éliminées. Le seuil de la E-value a été fixé en testant les séquences identifiées comme artefacts. Il existe cependant un léger problème, les séquences transposons étant identifiées comme telles par le blast Repbase et présentant des résultats de blastp altérés sont reconnues avec des E-value autour de 10-5 majoritairement, alors que les séquences répétées ne sont reconnues qu avec des E-value 18

20 comprises entre 10-5 et 10-3, donc en voulant identifier ces deux types d artefacts via le même filtre on risque d éliminer comme transposons des séquences dont l étude est correcte. Pour éliminer les séquences liées à des problèmes de contamination ou transfert, on a réalisé plusieurs filtres : un pour l ensemble des séquences qui implique que, si les 30 premiers hits du Blast comprennent uniquement des séquences bactériennes, hors séquences de l'espèce de la requête, alors il s'agit d'un artefact. Un pour toutes les séquences requêtes issues d'espèces appartenant au phylum 7735, si les 30 premiers hits comprennent uniquement, hors séquences issues de l espèce de la requête, des séquences de plantes et, ou de bactéries, alors il s'agit d'un artefact. Pour toutes les séquences issues d'espèces appartenant au phylum , si les 30 premiers hits comprennent uniquement, hors séquence de l espèce requête, des séquences d'insectes ou, et de plantes ou, et de bactéries, alors il s'agit d'un artefact. Pour les problèmes concernant les pseudogènes faux : tous les pseudogènes ayant une longueur supérieure à 30% de la séquence qui a servi de requête pour identifier le hit correspondant et qui ont pour plus proche voisin, dans leur phylogénie, un gène fonctionnel issu de la même espèce que celle dont ils sont issus, sont considérés comme des artefacts. En effet cela signifie qu il existe un gène complet dans l espèce qui correspond à la séquence du pseudogène. Ces pseudogènes artefactuels peuvent être soit des paralogues pris pour des orthologues, soit des gènes fonctionnels vus comme des pseudogènes. Les artefacts qui doivent être corrigés par ces filtres sont donc : Transposons, Répétitions, Pseudogènes, Contamination et transfert. Or on a 8 transposons, 2 contaminations, 5 répétitions et 5 problèmes de pseudogènes, ce qui fait donc 20/47 artefacts éliminés, ce qui équivaut à environ 42.5% du total des artefacts (plus en détails, 34.8% des artefacts identifiés pour les gènes perdus chez Homo sapiens et Catarrhini, et 50% pour les gènes perdus chez les Tétrapodes et les Amniotes). 19

21 A.4) Résultats obtenus aprés filtrages Les résultats présents dans IODA ont été filtrés par les 4 filtres présentés en 3). Le nombre de gènes filtrés, artefacts ou non, ainsi que le taux de réussite de GLADX après filtrage ont été calculés pour les gènes déjà étudiés précédemment. On obtient les résultats suivants : Niveau d étude (phyllum pour lequel le gène est perdu) Nombre d études éliminés Pourcentage d études de génes éliminées Artefacts éliminés Pourcentage d artefacts éliminés Etudes correctes éliminées Pourcentage d études correctes éliminées Taux de réussite de l outil Tétrapodes 12 12/55 = 21.8% 11 11/17 = 64.7% 1 1/38= 2.6% 37/43 = 86% Amniotes 7 7/20= 35.0% 4 4/7 = 57.1% 3 3/13= 23.1% 10/13 = 76.9% Homo, Catarrhini 9 9/31 = 29% 8 8/23= 34.8% 1 1/8 = 12.5% 7/22= 31.8% Total 31 28/106 = 26.4% 25 23/47 = 48.9% 6 5/ 59 = 8.4% 54/78 = 69.2% Table 5 : Nombres et pourcentage de gènes éliminés après passages des études dans nos différents filtres, dont nombre et. pourcentage d artefacts et d études correctes éliminés, et taux de réussite, pour chaque niveau d étude. Représentation graphique de l évolution des taux de réussite pour chaque niveau d étude avant et après le filtrage des gènes, figure 8 D après la table 5,on peut noter que les filtres éliminent environ 49 % des artefacts détectés lors de la première étapes de l analyse, (dont 63% pour les gènes perdus chez les Tétrapodes ou chez les Amniotes et 34.8% pour les gènes perdus chez Catarrhini ou chez Homo Sapiens) ce qui est plus que ce que l on attendait puisque les artefacts qui doivent être corrigés par ces filtres ne représentent en tout que 42.5% environ des artefacts, donc 6.5% des artefacts sont éliminés en plus. Or on note que environ 8% de gènes dont l étude est correcte sont éliminés à tort, on peut donc penser que les filtres éliminent 8% de l ensemble des séquences pour de mauvaises raisons, donc les 8% d artefacts éliminés supplémentaires pourraient être des gènes éliminés pour de mauvaises raisons, comme pour les gènes corrects. Un nouveau lot de gènes filtrés à été étudié pour vérifier le taux de gènes présentant une étude correcte qui sont éliminés. Sur 38 séquences filtrées étudiées, 3 d entre elles ont été filtrées alors que le résultat de leur étude était juste, soit 3/38 = 7.9%. Ce qui est proche de la valeur observée précédemment. Il faut donc comprendre pourquoi des séquences dont l étude est correcte ont été filtrées. Après étude détaillée de ces cas on constate que le problème est essentiellement lié au filtre transposons-répétitions, en effet la E-value maximale de 10-3 est correcte pour identifier les séquences à motifs répétés, mais bien plus élevée que celle nécessaire pour identifier correctement les transposons (qui serait plutôt de 10-5, cf page 16-17), ce qui entraine une sur prédiction des transposons, et donc l élimination, en tant que transposons, de séquences dont l étude est correcte. Malgré ce problème, on constate que le filtrage des gènes augmente le taux de réussite de l outil, à tous les niveaux d étude et de manière générale, puisqu il passe globalement de 55.7% à 69.3% 20

Montrer encore