LASTRUCCI EMMANUELLE MASTER 1 BBSG, LUMINY

INTRODUCTION: La phylogénie moléculaire a pour essence de reconstruire les relations de parenté entre des séquences de nucléotides ou d'acides aminés (aa). Elle permet ainsi d'étudier les relations de parenté entre les espèces qui les portent et de répondre aux nombreuses problématiques liées à l'évolution du génome. De nombreux évènements participent à l'évolution des génomes tel que les duplications et les réarrangements. Contrairement à certaines idées reçues, ils n'ont pas uniquement évolué par acquisition de gènes et de complexité mais aussi en ayant subit des pertes de gènes, phénomènes encore peu étudiés. Les pseudogènes sont des segments d'adn homologues d'un gène contenant des mutations qui les empêchent d'être fonctionnels. À l'aide de la phylogénie moléculaire et à partir d'espèces entièrement séquencés, le laboratoire essaye actuellement d'identifier les gènes bien établies chez les vertébrés, mais fonctionnellement inactifs dans la lignée humaine. C'est dans ce but qu'a été crée le logiciel Geneloss, (en cour de publication), conçu par jacques Dainat, doctorant au sein du laboratoire. A partir d un gène d intérêt, et à l'aide d'études phylogénétiques, Geneloss essaye de retrouver chez 21 espèces de vertébrés (voir annexe1), dont le génome est entièrement séquencé, le gène orthologue. Ceux-ci sont des segments homologues aux seins d espèces différentes, qui proviennent d une séquence unique présente dans le dernier ancêtre commun. Pour ce faire, GeneLoss utilise la base de données Ensembl, version 57, considérée comme bien annotée. Lorsqu un gène orthologue semble absent chez une espèce, GeneLoss vérifie à l'aide de TblastN la présence de séquences similaires. Lorsque des séquences sont détectées, une vérification phylogénétique est faite pour conclure si celle-ci est orthologue. Dans la plupart des cas, la séquence nucléique est comparée à une séquence orthologue connue afin de détecter de possibles mutations. Le logiciel a ainsi permis de confirmer des pertes et des pseudogènes décrits dans la littérature ainsi que de découvrir de nouveaux gènes perdus. De façon très intéressante, Geneloss a également permis de sauver plusieurs gènes intacts alors qu ils étaient considérés comme perdus ou non codants dans les bases de données. La sélection naturelle crée des mutations aléatoires de l ADN. Il peut s agir de substitutions catégorisables en deux groupes: Les substitutions synonymes (Ds), conduisent à des mutations neutres car elles ne changent pas l'acide aminé traduit. Les substitutions non synonymes (Dn), qui conduisent à un changement de l'a.a peuvent avoir un impact délétère, avantageux ou neutre sur la protéine. Il est possible de faire une estimation de la pression de sélection (w) grâce au ratio Dn/Ds afin de déterminer le type de sélection auquel est soumis un gène. Lorsqu il est supérieur à 1, on est en présence d une sélection positive qui favorise les changements. Quand il est inférieur à 1, on est en présence d une sélection purifiante. Ainsi les changements sont contre-sélectionnés puisque Ds est bien supérieur à Dn (exemple: les gènes de ménage). Enfin, lorsque le ratio est égal à un, il n y a pas de variation. On dit que le gène subit une sélection relâchée ou neutre. (Ex: les pseudogènes) Ainsi, l objectif de mon travail a été de trouver, par expertise humaine, des indices complémentaires et non intégrés dans le logiciel qui confirmeront l existence de ces gènes et leur fonctionnalité. Pour cela, nous avons déterminé, pour les 53 gènes considérés comme sauvé par Geneloss, l existence éventuelle d un transcript dans les bases de données expérimentales ainsi que le type de pression de sélection subit par chacun d eux et ainsi, d obtenir un indice supplémentaire permettant de déterminer l existence d une fonctionnalité. 2

MATERIEL ET METHODE : Geneloss: outil développé au laboratoire. On utilise le génome de 21 vertébrés dont 5 primates pour lesquels le génome est entièrement séquencé et dont la position des gènes sur les chromosomes est connue. La sélection des gènes à étudier se fera à partir de groupes d orthologues déjà calculés par OrthoMCL et présents dans les bases de données en ligne. Parmi ces groupes, seulement ceux où l homme est absent sont sélectionnés pour être étudiés avec GeneLoss. Pour chaque groupe d'orthologue, Geneloss cherche des indices pour expliquer l'absence de l'orthologue humain. Il y a 4 possibilités: le gène est perdu, il est présent et pseudogène, il est présent et semble intact, il est présent et c est un artéfact. Sur les 365 études ayant montrées des évènements chez l'homme, une 50 aine d évènements concernent des gènes sauvés putatifs. Les bases de données utilisées Ensembl est un projet commun entre EMBL-EBI. Il s agit d un système produisant l'annotation automatique des principaux génomes eucaryotes totalement séquencés. Nous avons comparé les données des versions 57 et 61 afin de vérifier l évolution des annotations. Nous avons également utilisé les bases de données d EST et d ARNm (refseq) intégrées dans le NCBI, afin de vérifier l existence de transcripts des gènes considérés. PAML, suite de logiciels d analyse phylogénétique. Phylogenetic Analysis by Maximum Likelihood, PAML (Ziheng Yang 2007), est un logiciel permettant un indice supplémentaire sur l existence du gène et de son type d évolution. 1) Outils disponibles dans PAML : PAML est un logiciel contenant différents programmes permettant de faire des analyses phylogénétiques de séquences d ADN ou de protéines en utilisant le maximum de vraissamblance. Il possède une collection de modèles de substitutions très sophistiqués, capitale pour de telles analyses. Il implémente les programmes suivant: BASEML, CODEML, EVOLVER, PAMP, YNOO, MCMCTREE and CHI2. Nous avons utilisé le programme Codeml qui permet d analyser des séquences d ADN codant pour des protéines ou d acides aminés, en implémentant le modèle de substitution de codon de Goldman et Yang (1994). Ce programme permet de comparer et de tester des arbres phylogénétiques, d apprécier le temps de divergence sous une horloge globale ou locale, ainsi que d estimer le taux de substitutions synonymes et non synonymes. L estimation de la pression de sélection a été faite sur les mammifères exclusivement. Ils jouent le rôle de «background» pour l homme. Au final, parmi les 21 espèces de départ, notre étude se fera sur l homme, le chimpanzé, le gorille, le pongo, le macaque, le rat, la souris, le chien, le cheval, le sanglier, le taureau et l opossum. Codeml retourne un récapitulatif des données entrées mais aussi, nous renvoie pour chaque branche de l arbre, le taux de mutations synonymes, non-synonymes, du ratio DN/DS et de la valeur du log de vraissamblance. Pour fonctionner, le logiciel a besoin des 3 fichiers entrés décrits ci-dessous. 3

2) Paramètres utilisés : Le premier fichier indispensable est le fichier contrôle qui contient les paramètres à déterminer (annexe 2). Nous avons utilisé le model de substitution de codon de Goldman et Yang (1994) pour les séquences d ADN codants pour des protéines, en spécifiant seqtype=1. Dans notre analyse nous voulons que le calcul de la fréquence de substitution de codon dépende de la 3ème position du codon. Pour cela, CodonFreq doit correspondre à la matrice F3X4. En spécifiant Nssites=0, nous indiquons au logiciel que nous voulons que le ratio (w) soit fait en fonction des branches de l arbre. Codeml permet également de calculer le w en fonction d un site particulier ou en fonction à la fois du site et de la branche. Ce choix est nécessaire pour pouvoir déterminer le type de sélection que subit la totalité d un gène. Nous avons utilisé deux des plusieurs modèles proposés par Codeml. L un permet d obtenir une valeur de w indépendante pour chaque branche de l arbre. Ce modèle signifie que nous estimons que chaque espèces évoluent séparément les une des autres. L autre calcule le ratio d une branche (ou de plusieurs branches) en fonction de la moyenne des autres branches. 3) Préparation des données : Codeml imposant que les séquences soient pré-alignées et que leurs longueurs soient les mêmes et multiples de 3, il est indispensable de préparer notre jeu de séquences qui est le deuxième fichier d entrées du logiciel. En fonction des résultats de Geneloss, nous récupérons, pour les espèces possédant le gène, les séquences nucléiques correspondantes. Ensuite, nous réalisons un alignement global par CLUSTALW dont le résultat est visualisable par SEAVIEW. Nous avons réajusté manuellement notre alignement à partir d un groupe extérieur déterminé, généralement le chien ou la souris car ils sont bien annotés. L étude de la pression de sélection n est faisable que sur des régions codantes et assez bien conservées. Pour cela, nous avons enlevé les UTR (untranslated region) des séquences, en fonction de celles de notre groupe extérieur. De plus, nous avons également supprimé les régions mals conservées par multiples de 3, en faisant attention au cadre de lecture de notre groupe extérieur. Codeml ne les acceptant pas, tous les gaps et codons stop doivent être enlevés. «Translate» d EXPASY, transforme les séquences nucléiques en séquences protéiques. Cela permet de repérer les codons stop et de les supprimer. Les gaps restants le sont également sans interférer sur le cadre de lecture. Le dernier fichier d entrée correspond à l arbre phylogénétique (annexe3) des espèces qui apparaissent dans notre jeu de données. Il est au format «newick» et correspond à l arbre de la vie dont la longueur des branches correspond aux nombres de substitutions nucléiques par codon. 4) Interprétation des résultats avec chi2 : Pour chaque jeu de séquences, les deux modèles du Codeml tournent successivement. L utilisation d un test du chi2 à partir des 2 valeurs du log de vraissamblance donné par le Codeml, permet de déterminer lequel des deux modèles est le mieux adapté. Il se fait à partir du programme CHI2 implémenté dans le logiciel PAML. 4

RESULTAT: Pour expliquer la procédure d analyse qui permet de déterminer l existence et la fonctionnalité d un gène, nous prenons comme exemple les résultats obtenus à partir du gène d intérêt du Pan troglodytes : ENSPTRP00000011472 (séquence de départ utilisée par Geneloss). La première étape permet de vérifier l existence, dans les bases de données expérimentales (EST du NCBI), d un transcript du gène. La comparaison entre la version 57 et 61 d Ensembl révèle une nouvelle réanotation du gène. Il devient «protein coding (v61)» au lieu de «processed transcript (v57)». Ceci montre une évolution d annotation dans les bases de données. On calcule ensuite la pression de sélection, en fonction des deux modèles du Codeml afin de conclure à l existence éventuelle d une fonctionnalité. Afin de vérifier les choix des paramètres du fichier contrôle de Codeml, nous avons étudié la pression de sélection que subit un pseudogène, reconnu comme tel chez l homme. Un pseudogène étant un gène qui tend à disparaître, il subit des mutations synonymes et non-synonymes aléatoires, appelé sélections neutres. La valeur du ratio correspondante est alors proche de 1. Nous obtenons comme valeurs : 0.79 et 0.97 pour les modèles 1et 2 respectivement. Elles nous permettent ainsi de confirmer le choix de nos paramètres. Cette vérification terminée, nous avons finalement testé 53 gènes sauvés chez l'homme par Geneloss et considérés comme non codants ou absents dans la version 57 d Ensembl. Pour déterminer quel est le modèle le plus proche de la réalité, nous utilisons la valeur du log de vraissamblance donné par Codeml. Elle correspond à la probabilité d'obtenir les données en fonction de différents paramètres tel que l'arbre phylogénétique, les longueurs des branches et d'autres paramètres du modèle d'évolution. Le modèle 1 permet d'attribuer à chaque branches de l'arbre un ratio différent. La valeur du log de vraissamblance sous ce modèle est de logm1= -8230.3508. Le modèle 2, qui attribue un ratio différent pour certaines branches (que nous avons ciblé par «#» ou «$» ) en fonction de la valeur du ratio d'une référence (background), a une valeur de logm2= -8219.6621. Nous savons également que le modèle 1 évolue sous 2n-1 paramètres (n étant le nombre d'espèces) soit 18 paramètres dans notre cas. Le modèle 2 évolue ici sous 3 paramètres uniquement. Nous comparons 2*(logM1- logm2) avec la distribution du chi² pour un degré de liberté df =15 afin de tester lequel de ces deux modèles est le plus proche de la réalité. Ainsi 2deltal = 2*(logM1 - logm2)= 38,62. Ce ratio étant positif nous pouvons conclure que le modèle M1 semble meilleur. Cependant, le modèle 1 possède beaucoup de paramètres. Il faut alors vérifier la significativité du résultat obtenu en fonction de leurs nombres. Le logiciel CHI2, autre logiciel du package PAML, donne la table de distribution du chi² en fonction du degré de liberté (annexe 4). D'après cette table, pour que nos résultats soient significatifs à 0,05%, avec un degré de liberté=15, il faut que 2 deltal soit supérieur à 21,99. Ceci étant vérifié, nous pouvons conclure que le modèle 1 est effectivement le meilleur et que ceci n'est pas du au hasard. Les valeurs du modèle 1 peuvent donc être utilisé pour l analyse. Nous constatons une corrélation entre les différents ratios obtenus par Codeml et ceux de GeneLoss. Ce dernier sauve le gène chez l'homme, mais également chez le gorille. Les ratios correspondant sont respectivement de 0,2809 et de 0,2826. Ceci signifie que le gène, pour ces espèces, subit une sélection purifiante (comme chez tous les primates). Il est donc bien présent et fonctionnel chez l homme, comme chez les primates. Pour ce même exemple, Geneloss considère que le gène de l'ancêtre commun au sanglier et au cheval subit une apogénisation. Ceci est conforté par les résultats du Codeml qui calcule un ratio de 1.78 pour cet ancêtre. Cette valeur hautement significative correspond à une forte sélection positive pouvant aboutir à une nouvelle fonction du gène. Ainsi les analyses de génomiques comparatives faites par Geneloss sont quasi toutes appuyées par les valeurs obtenues par le Codeml. En effet, pour les 53 gènes étudiés, nous avons obtenu 35 sélections purifiantes, 16 sélections positives, 1 cas de sélection relâchée et 1 cas qui reste indéterminé au vu de la petite longueur de la séquence étudiée et du peu de mutations survenues chez les espèces. L analyse des modèles par le test du Chi2 montre que dans 30% des cas étudiés, le modèle 1 est meilleur. Dans les autres, aucun des deux modèles n a de supériorité. Ils apportent tous deux les mêmes informations. l analyse par la version 61 d Ensembl montre que 40% des gènes ont été ré annotés correctement. 5

Le tableau suivant fait le récapitulatif des différents résultats obtenus. MODÈLE 1 meilleur MODÈLE 2 meilleur Aucun modèle n'est meilleur, mais ils donnent les mêmes résultats SÉLECTION NÉGATIVE SÉLECTION POSITIVE PSEUDO- GÈNE AUCUNE ANALYSE POSSIBLE TO- TAL 10 6 0 0 16 0 0 0 0 0 25 10 1 1 37 Vérification possible par 19 5 0 0 24 Ensembl61 aucune vérification possible par Ensembl61 16 11 1 1 29 TOTAL 35 16 1 2 53 CONCLUSION et DISCUSSION: Tableau 2: récapitulatif des résultats obtenus. De nombreux gènes ont été nouvellement annotés grâce à GeneLoss, un outil développé au laboratoire au sein duquel j'ai effectué mon stage. Grâce à l'étude de la pression de sélection j'ai pu prouver que 96% d'entre eux n'évoluaient pas sous la neutralité, ce qui donne un indice supplémentaire pour confirmer leur activité. L'analyse que j'ai mené montre les différentes étapes qui serait nécessaires afin d'automatiser au travers d'outils bioinformatiques, la recherche d'information sur l'activité des gènes. Ce stage m a permis de me familiariser avec le fonctionnement de plusieurs outils et bases de données (Codeml, Ensembl, NCBI, Clustal, Seaview, Expasy, Figenix ). J ai surtout pu me rendre compte de certains problèmes auxquels la bioinformatique est confrontée: détecter au sein de la masse d'informations produites, les erreurs de prédictions, les mauvaises annotations ainsi que les contradictions existantes au sein des BD. Le génome humain, qui contient plus de 20 000 gènes, est un des génomes le mieux étudié. Malgré cela, j'ai confirmé au cours de mon stage l'existence de 50 nouveaux gènes humains. Ceci laisse présager du lourd travail d'annotation encore nécessaire, non seulement dans le génome humain, mais également chez toutes les espèces séquencées. La nécessité de garder un esprit critique à chaque étape est un élément primordial et indispensable afin d éviter de mauvaises conclusions. 6

REFERENCE : Site internet : Ensembl 57 : http://mar2010.archive.ensembl.org/index.html Clustalw : http://www.ebi.ac.uk/tools/msa/clustalw2/ Translate : http://expasy.org/tools/dna.html PAML: http://abacus.gene.ucl.ac.uk/software/paml.html Publication : Roman Tatusov, et al. The COG database: an update version includes eukaryotes. Dominique Laffly «ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2». Dainat Jacques, «Évolution du protéome chez les vertébrés : perte de gène et pseudogènisation». Laurent Guijarro, et al. «Adaptation du système de recherche d évènements génétiques : DAGOBAH, aux génomes bactériens». Phillipe Gouret et al. FIGENIX : Intelligent automation of genomic annotation: expertise integration in a new sogftware platform. Ziheng Yang et al. «PAML 4: Phylogenetic Analysis by Maximum Likelihood. Etienne GJ Danchin et al. «Eleven ancestral gene families lost in mammals and vertebrates while otherwise universally conserved in animals Phillipe Lopez et al. «Phylogénie et évolution moléculaires». Stephane Guindon et al. Modeling the site-specific variation od selection patterns along lineages. 7

ANNEXE : Annexe 1 : arbre des espèces 8

Annexe 2 : fichier contrôle seqfile = lysozymesmall.txt treefile = lysozymesmall.trees outfile = sorite44 noisy = 1 * 0,1,2,3,9: how much rubbish on the screen verbose = 0 * 1: detailed output, 0: concise output runmode = 0 * 0: user tree; 1: semi-automatic; 2: automatic * 3: StepwiseAddition; (4,5):PerturbationNNI seqtype = 1 * 1:codons; 2:AAs; 3:codons-->AAs CodonFreq = 2 * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table clock = 0 * 0: no clock, unrooted tree, 1: clock, rooted tree model = 1 * models for codons: * 0:one, 1:b, 2:2 or more dn/ds ratios for branches NSsites = 0 icode = 0 * dn/ds among sites. 0:no variation, 1:neutral, 2:positive * 0:standard genetic code; 1:mammalian mt; 2-10:see below fix_kappa = 0 * 1: kappa fixed, 0: kappa to be estimated kappa = 2 * initial or fixed kappa fix_omega = 0 * 1: omega or omega_1 fixed, 0: estimate omega = 2 * initial or fixed omega, for codons or codon-transltd AAs fix_alpha = 1 * 0: estimate gamma shape parameter; 1: fix it at alpha alpha =.0 * initial or fixed alpha, 0:infinity (constant rate) Malpha = 0 * different alphas for genes ncatg = 4 * # of categories in the dg or AdG models of rates getse = 0 * 0: don't want them, 1: want S.E.s of estimates RateAncestor = 0 * (1/0): rates (alpha>0) or ancestral states (alpha=0) method = 0 * 0: simultaneous; 1: one branch at a time Annexe 3 : fichier entrée de l arbre aux format «newick» 11 ((((((1:0.059, 2:0.059):0.008, 3:0.067):0.016, 4:0.083):0.162, 5:0.245):0.648, (6:0.082, 7:0.082):0.811):0.162, (8:0.812, (9:0.731, (10:0.569, 11:0.569):0.162):0.081):0.243); 9

Annexe 4 : table du chi2 10