Sommaire. A) Méthode de contrôle manuel des résultats produits par GLADX

Dimension: px
Commencer à balayer dès la page:

Download "Sommaire. A) Méthode de contrôle manuel des résultats produits par GLADX"

Transcription

1

2 Sommaire Définitions et abréviations Résumé Introduction I. Matériel II. Méthode A) Méthode de contrôle manuel des résultats produits par GLADX B) Comparaison des résultats de l outil GLADX avec les résultats issus d une étude publiée par S.Kuraku et S.Kuratani en 2011 III. Résultats et discussion A) Résultats de la première étape de l analyse des données : identification, classement et filtrage des artefacts A.1) Définition des artefacts : les différents types d artefacts identifiés A.2) Nombres d artefacts identifiés et distribution des différentes catégories d artefacts A.3) Solutions pour éliminer les artefacts A.4) Résultats obtenus après filtrages B) Résultats de la deuxième étape de l analyse des données C) Perspectives : propositions pour l amélioration de l outil GLADX Conclusion Bibliographie 1

3 Résumé La biologie a connu d importants bouleversements ces dernières années avec l arrivée du séquençage massif mettant à jour les génomes complets de nombreuses espèces. Cette production intensive d informations nécessite la création et l utilisation d outils permettant des analyses informatiques automatisées. Les donnés biologiques prennent tout leurs sens lorsqu elles sont interprétées à la lumière de l évolution. En ce sens, les études évolutives sont absolument nécessaires pour mettre en exergue les données biologiques. Dans ce contexte, le laboratoire étudie l évolution des génomes et protéomes. Le travail présenté dans ce rapport est un élément d un plus vaste projet portant sur les pertes de gènes au cours de l évolution. Dans le cadre de ce projet, le laboratoire a développé un nouvel outil informatique nommé GLADX au sein de la plate forme DAGOBAH. Cet outil est capable de détecter automatiquement, pour toutes les espèces d un phylum choisi, la présence ou l absence d un gène, et grâce à des étapes systématiques de réannotation, peut confirmer les pertes, identifier et analyser les pseudogènes et découvrir de nouveaux gènes. Cette approche est basée sur l utilisation de phylogénies, de prédictions protéiques et sur l analyse de mutations génétiques. Au cours de mon stage j ai étudié le niveau de fiabilité des résultats produits par GLADX : pour l ensemble des gènes étudiés seul un peu plus de la moitié des pertes de gènes sont détectées correctement. Afin d améliorer la qualité des résultats, des filtres ont été intégrés à GLADX, ce qui a permis d augmenter la fiabilité de l outil jusqu à 70%. La détection d événements de pertes ou de pseudogènisations par GLADX est donc encore loin d être parfaite, mais c est un outil intéressant qui peut encore être amélioré. 2

4 Définitions et abréviation : BLAST : Basic Local Alignement Search Tool. Programme informatique qui effectue des comparaisons de sequences. Le mot Blast est rentré aujourd hui dans le langage courant et signifie une recherche de séquences «similaires». Les séquences «similaire» ainsi identifiées sont appelées des hits. BLASTN : Blast entre des séquences nucléotidiques BLASTP : Blast entre des séquences protéiques Boostrap : c est une technique d inférence statistique basée sur des ré-échantillonages successifs de données. Elle est utilisée pour tester la robustesse des noeuds phylogénétiques, plus la valeur calculée est proche de 100, plus un noeud est soutenu et donc plus il est fiable. EST : Expressed Sequence Tag = Marqueur de séquence exprimée ; c est une courte séquence d ADN complémentaire. Orthologie :des gènes sont dit orthologues lorsqu ils sont issus d un ancêtre commun. Ce sont des gènes provenant d un événement de spéciation. Paralogie : Des gènes sont dit paralogues lorsqu ils sont issus d un événement de duplication Pseudogène : Les pseudogènes sont des séquences homologues à des gènes, devenues non fonctionnelles car elles ont été trop dégradées au cours du temps. La perte de la fonction d origine peut faire suite à l échec de la transcription ou de la traduction, ou être due à la production d une protéine qui n a pas le même répertoire fonctionnel que le gène d origine. TBLASTN : Blast d une protéine contre des séquences nucléotidiques Transposon : Les transposons sont des séquences ADN capable de se déplacer dans le génome et de se multiplier, par un mécanisme appelé transposition. Le pourcentage de transposons dans un génome peut varier énormément d une espèce à l autre. 3

5 Introduction J ai réalisé mon stage au sein de l entreprise Xegen(21) en collaboration avec le laboratoire EBM (Evolution biologique et modélisation) de Marseille qui est une unité du LATP d Aix-Marseille (Laboratoire d'analyse Topologie et Probabilités). L entreprise Xegen a été fondée par Mr Paganni, Mr Gouret et Mr Pontarotti, tous les trois sont membres du laboratoire EBM. Cette start-up a pour objectif de réaliser des annotations fonctionnelles de séquences de haute qualité et à haut débit. Pour cela, elle s appuie sur des outils développés au sein du laboratoire EBM, dont le module GLADX(3) qui est implémenté dans une plate forme multi-agent nommée DAGOBAH (5) et qui permet, en collaboration avec d autres outils, de détecter et dater les pertes de gènes et pseudogénisations qui ont eu lieu au cours de l évolution de façon précise et automatique. Les résultats obtenus avec GLADX peuvent être utilisés de différentes façons pour réaliser des annotations de séquences. L étude des pertes de gènes implique généralement des méthodes basées sur la similarité des séquences, la plus répandue étant celle des COGs (12) qui permet de créer des clusters de groupes d orthologues appelés COGs. Un autre type de méthodes, plus sensibles et plus précises existe, les méthodes basées sur la phylogénie (1), ces méthodes sont rares et peu employées car longues et difficiles à mettre en œuvre. Ces deux types de méthodes ne permettent cependant pas d identifier les pseudogènes ou les séquences géniques oubliées lors de l annotation des génomes. Un troisième type de méthodes a donc été imaginé pour identifier ces gènes et pseudogènes, ces approches sont basées sur la recherche de similarité au niveau génomique et l alignement de séquences (14). La stratégie mise en place avec GLADX combine ces différentes méthodes afin d identifier les événements de pertes de gènes ainsi que les gènes ratés et pseudogènes de façon automatique. Cela permet donc d avoir une approche globale et automatisée, ce qui n avait jamais été fait jusqu à maintenant. Le but de mon stage au sein de l entreprise était d analyser manuellement les résultats obtenus par le module GLADX. Il fallait, d une part définir le niveau de qualité et de fiabilité des résultats et d autre part, trier les différents types de problèmes identifiés lors de l analyse et trouver des solutions pour les régler afin d améliorer la qualité des résultats de GLADX. 4

6 I. Matériel Les résultats que j ai analysés ont été produits en associant différents outils informatiques. Dans une première partie je vais présenter de manière succincte la plate forme DAGOBAH, la stratégie qui a été mise au point pour réaliser la détection des pertes et pseudogénéisations ainsi que les principaux outils et banques de données impliqués. Dans une deuxième partie je décrirai les outils et banques de données que j ai employés au cours de mes analyses Pour commencer, DAGOBAH : il s agit d un système constitué de plusieurs agents, ces agents sont des logiciels, ils sont bâtis comme des systèmes experts (c'est-à-dire un logiciel imitant la réflexion scientifique à l aide de règles logiques) avec des niveaux de complexité variables. Tous les agents peuvent travailler en parallèle et échanger des informations entre eux. Certains agents travaillant de concert forment des sous ensemble de DAGOBAH nommés modules, GLADX est l un de ces modules. DAGOBAH détecte automatiquement l ensemble des événements génétiques ayant eu lieu au cours de l évolution : échanges de domaines homologues ou non, insertions, délétions, gains, pertes, pseudogénéisations, transferts horizontaux, duplications. La stratégie développée dans l optique de détecter les pertes et pseudogénisations de gènes a été élaborée en associant des logiciels implémentés dans DAGOBAH et d autres outils, dont : - OrthoMCL (9), un logiciel indépendant (non lié à DAGOBAH), qui réalise des clusters de groupes de gènes orthologues (nommés COG) - FIGENIX (7), il s agit d une librairie logiciel, c'est-à-dire un ensemble de fonctions utilitaires disponibles. Cette librairie est intégrée dans DAGOBAH. Les fonctions qu elle contient sont utilisées par certains agents de DAGOBAH, ces agents peuvent alors lancer à travers FIGENIX des logiciels externes comme Blast. FIGENIX permet de générer automatiquement une phylogénie à partir d une séquence requête. - GLADX (3) est un module pour la recherche les pseudogènes, vérification et datation des pertes de gènes. - Phylopattern (6) est aussi une librairie logiciel utilisée par certains agents de DAGOBAH pour lire les arbres phylogénétiques (annotation et recherche de motifs). Cette stratégie comporte plusieurs étapes (les étapes dans lesquelles intervient GLADX sont présentées dans le schéma de GLADX, figure 1): 1) Constitution de groupes de gènes orthologues (COG) par le logiciel OrthoMCL, à partir de toutes les séquences protéiques présentes dans la banque ENSEMBL57 (18). Ces groupes d orthologues sont ensuite analysés par des agents de DAGOBAH qui infèrent l état absent ou présent des espèces représentées sur un arbre d espèces, pour détecter les apparitions et pertes de 5

7 gènes. (arbre d espèce utilisé présenté en figure 2 et 3). Les espèces choisies pour réaliser la recherche d orthologues sont représentées dans l arbre d espèces au verso, il s agit uniquement d espèces eucaryotes. 2) Puis sélection des groupes d orthologues pour lesquels le gène est absent chez Homo Sapiens, vérification et datation de l événement de perte (ici perte étudiée en mode espèces, c'est-à-dire que tous les sous arbres ou feuilles provenant d un nœud ancêtre de l espèce dont est issu le gène requête et n ayant pas subi de duplication sont considérés comme orthologues à la séquence requête ; et non en mode lignée, où tous les gènes orthologues sont définis à partir de l ancêtre commun. Illustration figure 4) 3) Ensuite identification du gène appartenant au groupe d orthologues défini par OrthoMCL qui est issu de l espèce la plus proche de l homme. Sa séquence est utilisée pour réaliser une phylogénie sur FIGENIX en n employant que des séquences issues des espèces choisies lors de la première étape. Puis détection des événements de pertes de gènes sur cette phylogénie. A ce niveau là, il existe deux modes d utilisation de GLADX, le mode simple : les événements de pertes sont affichés sur un arbre d espèce et l étude du gène s arrête à ce niveau là ; et le mode complet : l étude continue, les pseudogènes et gènes orthologues ratés lors des premières étapes sont recherchés dans les banques de données génomiques. (Lors de l étude des gènes par GLADX, les gènes pour lesquels la perte détectée par OrthoMCL semblait avoir eu lieu avant le dernier ancêtre commun aux Amniotes ont d abord été étudiés en mode simple. Si la phylogénie a révélé la présence de gènes orthologues à la requête chez les Amniotes, qui ont été ratés par OrthoMCL, alors l étude a été relancée en mode complet.) 4) Recherche, dans le génome des espèces où le gène est manquant, de gènes orthologues existants mais non identifiés lors des étapes précédentes ou de pseudogènes. Cette recherche est réalisée via un TBlastN (4) contre la banque ADN de ENSEMBL57. La séquence requête utilisée pour le TBlastN est la séquence de la protéine orthologue qui est issue de l espèce la plus proche de celle dans laquelle l orthologue est manquant. Les quatre premiers hits issus du TblastN sont utilisés l un après l autre comme séquences requêtes pour réaliser de nouvelles phylogénies jusqu à ce que l on identifie dans une de ces phylogénies, au moins une séquence orthologue au hit qui soit aussi orthologue à la séquence de départ de l étude dans la phylogénie réalisée en 3 (soit une séquence orthologue commune entre ces deux phylogénies) ou jusqu'à ce que les quatre hits soient épuisés. Si aucun orthologue commun n est identifié pour aucun des hits, l étude s arrête à ce niveau là, et les événements de perte sont indiqués sur un arbre d espèce. Dans l autre cas deux types d analyses peuvent ensuite être réalisées : analyse au niveau protéique, analyse au niveau génomique. 6

8 5) Analyse au niveau protéique : La séquence protéique est ensuite prédite à partir d un grand morceau de la séquence ADN contenant le hit identifié comme orthologue. La position chromosomique de la séquence identifiée est relevée afin de savoir si une protéine déjà connue ne serait pas annotée à cette position. Puis des tests de similarité et de longueur sont réalisés entre la séquence du hit analysé et la séquence de référence de l étude. Si lors de ces tests, les scores obtenus sont inférieurs à des seuils préalablement fixés alors cela signifie que les séquences sont trop divergentes pour une étude au niveau nucléotidique, l étude reste au niveau protéique (en effet les séquences sont mieux conservées au niveau protéique). L étude au niveau protéique consiste à contrôler l évolution de la protéine identifiée pour vérifier que son évolution est bien cohérente avec l évolution des autres protéines orthologues à la séquence requête de l étude, grâce à des tests d identité et de divergence (figure 5.d). Si les résultats obtenus indiquent une évolution cohérente alors la séquence analysée est bien un gène orthologue candidat, dans le cas contraire elle est considérée comme un pseudogène. Si, lors du premier test, la séquence du hit analysé obtient des scores supérieurs aux seuils fixés, alors l étude se fait au niveau génomique 6) L analyse au niveau génomique permet de détecter les mutations affectant la séquence au cours de l évolution. La séquence analysée est envoyée à deux logiciels reconstituant les séquences ancestrales : laganm(2) et Ortheus(10). Les résultats obtenus sont transmis à un agent qui scanne les mutations apparaissant entre la séquence analysée et son ancêtre. Si le logiciel détecte des mutations telles que : délétions ou gains de codon Stop ou de codon Start, mutations non sens, délétions, insertions, pertes de site d épissage alors la séquence est considérée comme un pseudogène. Dans le cas contraire la séquence analysée est un gène orthologue candidat. Les banques de données utilisées par les logiciels lors de ces différentes étapes sont : banque de données ENSEMBL57, banque de données Ref Seq pour les séquences issues d Arabidopsis thaliana ou de certains Fungi et JGI(20) pour Branchiostoma floridae, Nematostella vectensis et certains Fungi. Les résultats obtenus sont présentés dans IODA (17) (Gene Loss studie), et sont regroupés en quatre packs. Chaque étude est exposée sous la forme suivante (voir illustration au verso, figure 5.a,b,c,d) : d abord un arbre d espèces ou sont signalées les espèces dans lesquelles le gène est manquant, ainsi que les événements de pertes, pseudogénisations, et tout autre type d événements. Puis la phylogénie construite à partir de la séquence requête ; suivie d une présentation des différents hits identifiés par TblastN pour chacune des espèces manquantes et les études réalisées à partir de ces hits ; on peut aussi accéder aux résultats de l analyse au niveau protéique ou génomique de ces séquences. 7

9 Lorsqu on lance une étude sur GLADX, il est possible de modifier le niveau de la phylogénie à partir duquel on veut étudier le gène, c'est-à-dire le phylum dans lequel on veut réaliser l étude, cela s appelle le scope ; on peut par exemple étudier tous les Eutéleostomi, ou seulement les Amniotes. Les banques de données et les logiciels utilisés lors de mes analyses manuelles sont : banques de données non redondante (nr) du NCBI, Banques de données ENSEMBL57 et 66(16), Swissprot, JGI, banque ADN nr du NCBI et banque d ADN de l EBI, banque d EST du NCBI, BlastP, BlastN et TBlastN du NCBI, FIGENIX. II.Méthodes Le but de mon stage était de contrôler les résultats produits par GLADX présentés dans IODA. Les études pour lesquelles le gène n est pas réellement perdu mais est identifié comme perdu dans IODA et celles pour lesquelles le gène est réellement perdu à un moment de l évolution différent de celui noté dans l arbre des espèces de IODA sont appelés des artefacts. Il fallait donc identifier les études de gènes qui sont, ou non, des artefacts. Pour savoir si un gène est réellement perdu et vérifier la date de sa perte il faut comparer les résultats de l étude de GLADX avec ceux obtenus par une autre méthode et observer si il y a ou non congruence des différentes études, ce qui permet de valider ou non les études réalisées par GLADX. Deux types de contrôles ont été réalisés sur un certains nombre d études GLADX: une étude manuelle des gènes dont les résultats sont comparés avec ceux produits par GLADX, cela sert ensuite à calculer la proportion d artefacts présents dans l ensemble des résultats de GLADX. Puis une comparaison entre les résultats de GLADX et ceux issus d une étude publiée par Kuraku et Kuratani en 2011 (8) concernant les pertes de gènes chez les Eutheria. Ce contrôle permet de vérifier que les résultats obtenus par GLADX ont été retrouvés dans une autre étude, de comparer les pourcentages d études correctes des deux méthodes, et d identifier de possibles gènes perdus qui seraient ratés par GLADX ; cela constitue donc une validation externe de notre méthode et de notre outil. A. Méthode de contrôle manuel des résultats produits par GLADX Dans un premier temps j ai comparé les résultats présents dans IODA avec ceux que l on obtient lorsque on réalise l étude de façon manuelle en refaisant le blast, la phylogénie, la recherche de gènes manqués ou pseudogènes, en utilisant la banque de données nr au lieu de ENSMBL57 (pour vérifier que les résultats obtenus sont validées quelques soit la banque de données utilisée). J ai aussi vérifié les pseudogènes présentés dans IODA dans les banques de données ADN nr, ENSEMBL66 et EST. 8

10 L analyse manuelle comporte plusieurs étapes que je vais maintenant détailler : 1) La séquence de départ de l étude GLADX est utilisée comme séquence requête pour réaliser un blastp contre la banque de données nr du NCBI. On note alors le pourcentage d identités communes entre la séquence requête et les différents hits, les espèces présentes dans ce résultat de blast, la longueur des hits, leurs scores et leurs E-value. Une séquence doit présenter environ 25% d identités sur toute sa longueur en commun avec la séquence requête pour qu il y ait une possibilité que ce soit un orthologue. Si la séquence requête ne correspond à aucune séquence dans la banque de données nr du NCBI (au moins 95% d identité) alors l étude est réalisée sur le site de l EBI (banques de données : ENSEMBL66 et Swissprot). Le résultat du blast permet de détecter certains artefacts: si les premiers hits, après la séquence correspondant à la requête, sont tous issus d espèces de bactéries alors il est probable qu il y ait un problème dans les résultats de l étude. En effet cela signifie que le gène est absent chez tous les autres eucaryotes et donc qu il a été perdu chez de nombreuses espèces, ce qui est peu plausible pour un gène normal, l étude de cette séquence sera donc très perturbée. De même on est probablement en présence d un artefact si la séquence requête appartient au groupe des Eumetazoa et que les premiers hits sont tous issus d espèces de plantes, ou si la séquence requête appartient au groupe des Tetrapodes et que les premiers hits sont tous issus d espèces d insectes. De plus les espèces d insectes ou de bactéries n étant pas présentes dans l arbre des espèces de GLADX, les séquences qui en sont issues ne sont pas prises en compte lors de l étude, les perturbations qu elles engendrent ne sont donc pas visibles dans IODA et l étude en est encore plus faussée. Si on obtient aucune séquence proche (au moins 25% d identité commune) de la séquence requête (hors elle-même) dans aucunes banques de données, ou si les premiers hits du Blast sont issus d espèces diverses éloignées phylogénétiquement les unes des autres, alors on peut supposer que les résultats des études de ces gènes sont faux car cette séquence présente probablement un problème (de séquençage ou autres ). Pour confirmer ces suppositions, on analyse la phylogénie de la séquence requête présentée dans IODA, si elle est très faiblement soutenue (boostrap faibles) et que la plupart des nœuds ont été réarrangés (nœuds notung notés nr), alors cela confirme les déductions précédentes, ces études sont bien des artefacts. Dans le cas contraire on poursuit l étude de la séquence. 2) Ensuite la phylogénie de la séquence requête est reconstruite de façon automatique via FIGENIX, en utilisant la banque de données nr et un nombre maximal de séquences de 100 (paramètre : blast filter cut). Durant les étapes de la reconstruction, on note la qualité de 9

11 l alignement final (nombre de séquences et longueur de l alignement ; plus l alignement est court et moins la phylogénie sera fiable), et les problèmes rencontrés (qui ont nécessité de modifier les paramètres par défaut). On note aussi la qualité des boostrap qui reflète la qualité de la phylogénie (plus ils sont élevés, plus elle est fiable). Puis la phylogénie obtenue est comparée avec celle présentée dans IODA, si les deux phylogénies sont congruentes alors on peut en conclure que le résultat de l étude présenté dans IODA est fiable. Si elles ne sont pas congruentes, alors on se fie à la phylogénie qui semble la plus fiable (cf critères cités précédemment : boostrap, paramètres, alignements) et aux informations obtenues par le blast en 1), pour conclure sur la probabilité que le résultat de l étude IODA soit faux. Si la phylogénie de IODA est clairement plus fiable que celle construite avec la banque nr et que le blast est correct, alors on suppose que le résultat de l étude GLADX est vrai. Si les deux phylogénies ne sont pas congruentes mais qu elles sont toutes les deux aussi fiables, alors il est impossible de trancher. Dans tous les cas où les phylogénies ne sont pas congruentes, on note les gènes orthologues à la séquence requête dans la phylogénie de IODA et on les recherche dans la nouvelle phylogénie et son Blast, et inversement. On repère alors les séquences orthologues à la requête dans l une des deux phylogénies qui sont absentes de l autre phylogénie : - Si ces séquences correspondent à des hits très éloignés dans les résultats du BlastP de la séquence requête (quelque soit la banque de données utilisée), avec de faibles valeurs de E- value, c est que ces séquences sont probablement mal placées dans la phylogénie. Cela pourrait être lié à un problème de réarrangement des nœuds. - Si ces séquences sont absentes du BlastP de l autre phylogénie, il faut vérifier que ces séquences sont présentes dans les deux banques de données, qu elles sont exactement les mêmes (pas de mutations présentes dans l une et pas dans l autre) et que, si elles existent, elles n ont pas étés éliminées par un des filtres de FIGENIX. Le problème de l étude peut aussi être lié à un niveau de scope (illustration figure 6.c) Si la non congruence des phylogénies est liée à un problème de banques de données, alors l étude manuelle du gène s arrête à ce niveau là, si il s agit d un autre problème ou si la cause du problème n a pu être identifiée, alors l étude se poursuit 3) Une fois que les artefacts ont été identifiés, on recherche alors les causes de ces artefacts grâce à différents tests : Contrôle de la longueur de la séquence pour savoir si celle-ci ne serait pas trop courte pour donner des résultats de blast fiables. Test pour savoir si la séquence requête n est pas une séquence avec un motif répété, ce qui pourrait perturber le blast et l alignement Ce test est réalisé à l aide d outils informatiques 10

12 permettant l alignement d une séquence avec elle-même, ces outils sont contenus dans EMBOSS (11, 15). Test pour savoir si la séquence n est pas un transposon grâce à un blast contre la banque de données Repbase (13, 19) (banque de données répertoriant l ensemble des séquences de transposons et séquences répétées connues) Enfin on contrôle toutes les étapes ayant abouties à la phylogénie de IODA : filtres, blast, paramètres modifiés, scopes. 4) Pour finir on vérifie la fiabilité des pseudogènes et des gènes sauvés présentés dans IODA. A partir de chacune des séquences de ces pseudogènes ou gènes on réalise un blastp contre la banques de données nr (ou ENSEMBL66 plus Swissprot si le gène de départ de l étude est absent de nr). Si dans le résultat de ce blastp on identifie bien la séquence à l origine de l étude ainsi que ces orthologues, avec au moins 25% d identités communes et en tant qu une des premières séquences de leurs espèces respectives, alors la séquence testée est probablement bien un pseudogène ou un gène orthologue. Pour confirmer cette supposition, on contrôle la qualité de la phylogénie du hit présentée dans IODA, si celle-ci est bien soutenue, alors cela confirme la supposition précédente. En revanche, si la séquence du gène ou pseudogène blast avec d autres séquences que celles du groupe d orthologues ou avec aucune séquence, ou si sa phylogénie est mal soutenue, alors c est possible qu il y ait un problème. On teste alors les autres hits identifiés comme candidats par GLADX via un BlastP pour voir si l un de ces hits ne correspondrait pas au véritable pseudogène ou gène, qui n aurait pas été pris en compte car le logiciel n a pas réussi à construire une phylogénie à partir de sa séquence ou parce qu il vient après le hit choisi et n a donc pas été étudié. Si le scope est trop large et rate des duplications, on peut aussi supposer que ce pseudogène ou gène est un artefact. Si aucun de ces problèmes n est identifiés, on reconstruit la phylogénie du hit correspondant au gène ou pseudogène avec FIGENIX (banque de donnée nr, 100 séquences maximum) pour savoir si elle est bien en accord avec la phylogénie du hit de IODA. Si la séquence du hit n est pas orthologue à la séquence requête de l étude dans la nouvelle phylogénie, et que cette phylogénie est fiable, alors on peut supposer que le pseudogène ou gène sauvé est faux. Dans le cas contraire le pseudogène est validé. Enfin si la séquence d un pseudogène équivaut en fait à un gène fonctionnel dans la banque de données nr (entre 100 et 98% d identité sur toute la longueur du pseudogène), on commence par vérifier si ce gène est aussi présent dans la dernière version de ENSEMBL(66), si c est bien le cas on en conclu qu il n y a pas eu pseudogénéisation et que le gène est entier et fonctionnel. Sinon on compare la séquence du hit du pseudogène et celle du gène entier, au niveau 11

13 nucléotidique, pour identifier les variations présentes sur la séquence du hit qui en font un pseudogène. Puis on contrôle laquelle de ces deux séquences est la plus fiable en réalisant un TblastN contre la banque de données EST du NCBI, à partir des morceaux d ADN de chacune des séquences où une variation a été observée. Si les variations sont bien présentes sur tous les EST, alors c est la séquence présentée dans IODA qui est juste et il s agit bien d un pseudogène, si elles ne sont observées sur aucun EST il s agit d un gène fonctionnel, enfin si une partie des EST portent les mutations et les autres non, il est impossible de trancher. Cette méthode de contrôle a été utilisée pour analyser les résultats des études de gènes identifiés comme perdus par GLADX. Quatre types de gènes perdus ont été étudiés : les gènes perdus entre le dernier ancêtre commun aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes, les gènes perdus entre le dernier ancêtre commun aux Tétrapodes et le dernier ancêtre commun aux Amniotes, les gènes perdus entre le dernier ancêtre commun situé au nœuds nommé «invente dagobah-1» sur l arbre d espèces et le dernier ancêtre commun aux Catarrhini, et enfin, les gènes perdus entre le dernier ancêtre commun situé au nœuds nommé «invente dagobah-1» et Homo sapiens. Le nombre de gènes étudiés pour les différents niveaux d étude est présenté dans le tableau page suivante. Date de la perte Entre le dernier ancêtre commun aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes Entre le dernier ancêtre commun aux Tétrapodes et le dernier ancêtre commun aux Amniotes Entre le dernier ancêtre commun «invente dagobah-1» et le dernier ancêtre commun aux Catarrhini Phylum le plus large dans lequel le gène étudié est identifié comme perdu par GLADX (= niveau d étude) Tous les gènes identifiés comme perdus entre le dernier ancêtre commun aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes, soit 55 gènes, ont été étudiés afin d avoir une base solide pour réaliser des statistiques décrivant les résultats obtenus par GLADX. Puis trois autres dates ont aussi été étudiées afin d avoir une vision plus globale des résultats, et de savoir ainsi si l outil fonctionne aussi bien avec des gènes perdus récemment qu avec des gènes perdus il y a longtemps, avec des gènes d espèces bien étudiées aussi bien qu avec des gènes d espèces peu étudiées. Dans la suite de ce document, les quatre différents types de gènes étudiés seront décrits par le plus large phylum dans lequel ils sont absents, ainsi les gènes perdus entre le dernier ancêtre commun Nombre de gènes étudiés Tétrapodes 55 Amniotes 20 Catarrhini 11 Entre le dernier ancêtre commun «invente dagobah-2» et Homo Sapiens Homo Sapiens 20 Table1 : Présentation du nombre de gènes perdus aux différentes dates choisies qui ont été étudiés et identification du phylum le plus large possible dans lequel le gène étudié est perdu (on appellera cela le niveau d étude). Présentation des niveaux d études sur l arbre d espèce figure 2 aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes seront appelés gènes perdus chez les 12

14 Tétrapodes, les gènes perdus entre le dernier ancêtre commun aux Tétrapodes et le dernier ancêtre commun aux Amniotes seront appelés gènes perdus chez les Amniotes et ainsi de suite. B. Comparaison des résultats de l outil GLADX avec les résultats issus d une étude publié par S.Kuraku et S.Kuratani en 2011 (8) Dans un deuxième temps j ai comparé les résultats présentés dans IODA avec les résultats exposés dans une étude concernant les pertes de gènes chez les Eutheria (ainsi que chez les Prototheria et les Theria) à partir de séquences requêtes de la banque de données ENSEMBL55 issues de Gallus gallus : il s agit d une étude publiée en 2011 par Kuraku et Kuratani. La stratégie qu ils ont employée dans leur étude est découpée en plusieurs parties 1) Tout d abord trois groupes d espèces ont été définis : poulet (Gallus gallus), in-group (Theria) et out-group (Xenopus, Clupeocephala). Les auteurs ont réalisé un BlastP à partir de chacune des séquences de poulet et ont recherché dans ces résultats de Blast les séquences les plus proches issues des groupes in et out, Les «hits» scores de ces séquences ont ensuite été convertis en distances évolutives. Les distances évolutives entre la séquence de poulet et son meilleur hit du groupe in d une part, et entre la séquence de poulet et son meilleur hit du groupe out d autre part permettent de calculer la différence entre ces deux distances : D. Pour prendre en compte le principe du best hit réciproque les auteurs ont aussi calculé un paramètre appelé index de paralogie : Rin. 2) Ensuite cinq familles de gènes bien étudiés et fiables ont été choisies. Pour tous les gènes de ces familles D et Rin ont été calculé, ce qui a permis de définir les seuils de ces paramètres afin de trier les autres gènes en deux catégories : fiables et non fiables. De plus, les gènes de poulet pour lesquels les «hits» scores de blast sont tous inférieurs à 200 chez les espèces du groupe out et les gènes comportant des doigts de zinc ont été éliminés. 3) Puis les auteurs ont construit manuellement un arbre phylogénétique pour chacune des séquences de poulet en utilisant des séquences de la banque de données nr du NCBI et ENSEMBL55. Ce qui a ensuite permit de déterminer l état absent ou présent du gène chez les différentes espèces sélectionnées pour construire l arbre. 4) La dernière étape consiste à essayer de sauver des séquences protéiques qui n auraient pas été détectées du premier coup car elles étaient mal annotées dans ENSEMBL. Pour cela ils ont réalisé un TBlastN à partir de chacune des séquences de poulet, contre la banque EST du NCBI et la banque des séquences génomiques de ENSEMBL55. Au final 147 gènes ont été identifiés comme perdus chez les Eutheria, Theria et Prototheria. 13

15 Cette étude est différente de la notre sur de nombreux points : elle comporte des filtres plus strictes pour la sélection des séquences requêtes, elle n est pas entièrement automatisée, il n y a aucune recherche de pseudogènes, enfin seuls les gènes issus de poulet ont été utilisés comme requêtes. Étant donné que les pseudogènes n ont pas été étudiés dans l article, les problèmes liés à des pseudogènes faux ne sont donc pas comptés comme artefacts dans cette deuxième partie, ce qui permet de mieux comparer notre outil avec les résultats de l article. Mais ces données ne pourront pas être prises en compte pour calculer l efficacité globale de l outil III.Résultats et discussion Au total 317 gènes ont été étudiés, dont 144 lors de la première étape (106 pour la recherche d artefacts et 38 lors d une phase ultérieure (cf page 18)), 180 lors de la seconde, parmi ces gènes, 7 ont été étudiés dans les deux étapes. La première méthode d analyse des données est la plus fiable pour évaluer le taux de réussite de notre logiciel car les problèmes de pseudogènes sont bien pris en compte, elle permettra de calculer le taux d artefacts, et de définir des filtres pour les éliminer. La deuxième étape d analyse des données se fera après filtrage des artefacts. A) Résultats de la première étape de l analyse des données: identification, classement et filtrage des artefacts A.1) Définition des artefacts : les différents types d artefacts identifiés Les différents artefacts identifiés ont été triés en 8 catégories différentes Artefact de répétition (figure 6.d) : ils sont liés à des séquences comportant des motifs répétés, ces séquences sont détectées grâce à des logiciels de EMBOSS, et présentent des Blast et des alignements très perturbés. Ces artefacts sont dus majoritairement à des séquences de Branchiostoma floridae, en effet son génome comporte beaucoup de séquences répétées dont plusieurs sont probablement dues à des problèmes de séquençage. Les gènes identifiés comme des transposons grâce à un blast conte la banque de données Repbase (figure 6.b). Ils présentent souvent des Blast avec des hits issus d espèces très éloignées phylogénétiquement les unes des autres, ce qui perturbe la phylogénie. Cependant certaines études liées à ces gènes semblent tout de même présenter des résultats corrects. Les artefacts liés à des pseudogènes (illustration figure 6.e) ou gènes sauvés : Dans ces cas, soit les pseudogènes sont des gènes fonctionnels non reconnus, soit les pseudogènes ou les gènes 14

16 sauvés ne sont pas orthologues à la séquence de départ de l étude, mais paralogues, soit les pseudogènes ont été ratés car ils n ont pas permis de construire de phylogénie. Les causes de ces problèmes peuvent être des hits trop courts pour détecter les gènes fonctionnels correspondants, ou pour faire la différence entre paralogue et orthologue. Il semble aussi qu un seul orthologue commun à la phylogénie du hit et à celle de la séquence de départ de l étude soit un peu faible pour affirmer que les deux séquences sont orthologues. Les artefacts liés à des problèmes de banques de données, tels que l absence de séquence dans certaines banques ou des différences minimes dans les séquences pouvant induire des mutations ; ces artefacts ne sont pas imputables à notre outil. Les gènes dont les premiers hits dans le Blast sont soit des plantes, soit des bactéries, voir des insectes selon l espèce dont est issue la séquence requête (voir page 7 ; illustration figure 6.a). Ces problèmes sont considérés comme liés à des contaminations des banques de données, ou à des transferts de gènes entre espèces. Les séquences trop courtes. Ce problème a déjà été en grande partie traité grâce à un filtre mis en place au cours de l étude des gènes par GLADX, seuls quelques gènes étudiés avant la mise en place de ce filtre sont présents dans les résultats. Les artefacts liés à des problèmes de phylogénie tels que : les erreurs de scope (phylum étudié trop large ou trop restreint pour voir toutes les duplications, illustration figure 6.c),), les réarrangements de nœuds et les boostrap très faibles Ils peuvent être dus à des séquences trop variables en longueur ou en composition, des alignements trop courts Les artefacts que nous avons appelés «zone d ombre» pour lesquels la phylogénie de IODA et celle constituée lors de l analyse manuelle sont tout aussi fiables mais ne sont pas congruentes, et pour lesquelles le problème à l origine de cette divergence n a pu être identifié. 15

17 A.2) Nombres d artefacts identifiés et distribution des différentes catégories d artefacts On a obtenu les résultats présentés dans les deux tableaux ci dessous Nombre d études validées par la méthode manuelle et pourcentage : Niveau d étude (phylum le plus large dans lequel le gène est perdu) Nombre de gènes étudiés Nombres de gènes dont l étude GLADX a été validée par l analyse manuelle taux de réussite de GLADX = pourcentage d études de gène réalisées par GLADX dont les résultats sont validés par l analyse manuelle Tétrapodes % Amniotes % Homo % Catarrhini % Total % Table 3 : Nombre et pourcentage d études réalisées par GLADX et présentées dans IODA dont les résultats sont en accord avec ceux de l analyse manuelle que j ai effectuée et qui sont donc validées, et ce pour chaque niveaux d étude. Les études restantes ont donc été identifiées comme des artefacts. Les résultats totaux ont été calculés pour l ensemble des gènes perdus étudiés. Le taux de réussite de l outil représente en fait la proportion d études de GLADX qui sont validées par l analyse manuelle, c est un bon indicateur de la fiabilité du travail réalisé par l outil. Et on obtient la répartition des artefacts suivante : Types d artefact Tétrapodes Niveau d étude Amniotes Homo, Catarrhini Pourcentage des différents types d artefacts pour l ensemble des artefacts identifiés lors de l analyse manuelle Contaminations/ transferts % Transposons % Problèmes de Phylogénie % Zone d ombre % Répétitions % Banques de données % Pseudogènes ou gènes sauvés % Longueur % Total % Table 4 : Répartition des artefacts dans les 8 catégories d artefact définies en III- A pour les quatre types de gènes et pourcentage total de chacune des catégories d artefacts sur l ensemble des artefacts identifiés lors de l analyse. Résultats présentés graphiquement au verso, figure 7 16

18 Si on observe les résultats concernant le pourcentage total de réussite on note que l outil est fiable dans 55.7% des cas, ce qui est faible puisque seul un peu plus de la moitié des études sont validées. Cependant on constate que cette faiblesse est liée en partie aux gènes perdus chez Homo sapiens ou chez les Catarrhini. En effet, il existe une grande différence de taux de réussite, et donc de fiabilité de l outil, entre les études des gènes perdus chez les Tetrapodes ou les Amniotes, avec 69.1 et 65% d étude validées, respectivement, et celles concernant les gènes perdus chez Homo Sapiens ou chez les Catarrhini, puisque seules 25% de ces études sont correctes. On peut supposer que cette différence de taux de réussite entre les gènes perdus au niveau Tetrapodes ou Amniote et Homo sapiens ou Catarrhini est liée en partie à la difficulté d identifier correctement les pseudogènes ou gènes sauvés puisque ce type d artefacts est identifié uniquement dans les études concernant des gènes perdus chez les Catarrhini ou chez Homo sapiens. Or on a vu précédemment (page 4) que les gènes perdus avant le dernier ancêtre commun aux Amniotes ont été étudié en mode simple, c'est-àdire qu il n y a pas eu de recherche de pseudogènes pour ces gènes, donc les gènes perdus entre le dernier ancêtre commun aux Euteleostomi et le dernier ancêtre commun aux Tétrapodes ne présentent pas de pseudogènes. On pourrait alors penser que la différence de mode d étude des gènes infère sur les résultats obtenus et que le mode complet constitue une source d erreur supplémentaire pour les gènes perdus après le dernier ancêtre commun aux Amniotes, ce qui pourrait induire des taux de réussite différents. Cependant, on constate qu aucun artefact lié à un pseudogène n est identifié pour les 20 gènes étudiés perdus chez les Amniotes, alors que 5 des 31 études analysées pour des gènes perdus chez Homo sapiens ou chez les Catarrhini présentent des problèmes liés à des pseudogènes. On en conclu donc que la recherche de pseudogènes induit des artefacts pour les gènes perdus chez les Catarrhini ou chez Homo sapiens, mais pas ou très peu pour les gènes perdus chez les amniotes. Ce n est donc pas le fait de rechercher des pseudogènes qui pose problème en soit, mais plutôt la facilité à identifier des pseudogènes, qui ne sont pas toujours orthologues, dans des espèces apparues récemment comme les primates. En effet les pseudogènes sont plus facilement détectables lorsque la perte est récente, et de plus les génomes des primates et de Homo sapiens ont été plus étudiés que les génomes d espèces non eutheria, il y a donc plus de séquences disponibles, et il est donc plus aisé de détecter chez eux des pseudogènes, vestiges d orthologues ou de paralogues. Cela représente donc une source d erreurs possibles supplémentaire pour l étude de ces gènes par rapport aux gènes perdus il y a plus longtemps pour lesquels il y a moins de chance de découvrir des pseudogènes, ceux-ci disparaissant au cours du temps. Cependant, ce problème de pseudogènes ne concerne que 5 artefacts sur 23, soit 21.8 % des artefacts, et ne suffit pas à expliquer entièrement la différence de taux d études correctes. On peut penser que le grand nombre de séquences répertoriées pour les Prototheria augmente aussi les risques de désaccord entre 17

19 banques de données. Une partie non négligeable des artefacts à ce niveau là sont en effet liés à des problèmes de banques de données (8 sur 23, soit 35% environ). On observe aussi une source d artefacts importante pour les gènes perdus au niveau des Tétrapodes et des Amniotes, qui n existe pas pour les gènes perdus au niveau de Homo Sapiens et des Catarrhini, les artefacts liés à des gènes identifiés comme des transposons. Une possibilité pour expliquer cette différence de répartition étant qu il y ait tout simplement plus d éléments transposables chez les Tétrapode et les Amniotes choisis pour l étude que chez les Catarrhini, le pourcentage de transposons dans le génome étant très variable d une espèce à l autre. Au vu des résultats de l analyse manuelle on pourrait donc regrouper ensemble les Tétrapodes et les Amniotes d une part puisqu ils présentent des statistiques très similaires, et les Catarrhinbi et Homo sapiens de l autre, afin de décrire les résultats obtenus de manière plus simple. Les autres types d artefacts sont répartis de manière équitable dans les différents niveaux d étude. Les problèmes les plus courants étant des problèmes liés à la reconstruction de la phylogénie. Ces problèmes sont nombreux car comme on l a vu précédemment, ils peuvent avoir de nombreuses causes. Si on exclut les problèmes de banques de données, qui ne sont imputables à notre outil, le pourcentage de réussite grimpe jusqu à : 8/23= 34.8% pour les gènes perdus chez Homo sapiens ou chez les Catarrhini et 51/73= 69.9% pour les gènes perdus chez les Amniotes ou chez les Tetrapodes, soit au total, 59/96= 61.5% d études validées. L outil détecte donc les pertes de gènes correctement 6 fois sur 10, le système de détection des pertes et pseudogènes ne semble donc pas encore tout à fait au point. Pour améliorer la qualité de détection de l outil il faut donc filtrer les résultats obtenus par GLADX afin d éliminer les artefacts. A.3) Solutions pour éliminer les artefacts Plusieurs solutions ont été imaginées et mises en place pour filtrer les résultats et tenter d éliminer les études de gènes dont les résultats sont erronés : Pour éliminer les transposons et les séquences comportant des répétitions un même filtre a été utilisé : il consiste en un blast de chacune des séquences contre la banque de données RepBase. Les séquences correspondant à des hits avec une E-value maximale de 10-3 sont considérées comme des transposons ou des séquences à motifs répétés et éliminées. Le seuil de la E-value a été fixé en testant les séquences identifiées comme artefacts. Il existe cependant un léger problème, les séquences transposons étant identifiées comme telles par le blast Repbase et présentant des résultats de blastp altérés sont reconnues avec des E-value autour de 10-5 majoritairement, alors que les séquences répétées ne sont reconnues qu avec des E-value 18

20 comprises entre 10-5 et 10-3, donc en voulant identifier ces deux types d artefacts via le même filtre on risque d éliminer comme transposons des séquences dont l étude est correcte. Pour éliminer les séquences liées à des problèmes de contamination ou transfert, on a réalisé plusieurs filtres : un pour l ensemble des séquences qui implique que, si les 30 premiers hits du Blast comprennent uniquement des séquences bactériennes, hors séquences de l'espèce de la requête, alors il s'agit d'un artefact. Un pour toutes les séquences requêtes issues d'espèces appartenant au phylum 7735, si les 30 premiers hits comprennent uniquement, hors séquences issues de l espèce de la requête, des séquences de plantes et, ou de bactéries, alors il s'agit d'un artefact. Pour toutes les séquences issues d'espèces appartenant au phylum , si les 30 premiers hits comprennent uniquement, hors séquence de l espèce requête, des séquences d'insectes ou, et de plantes ou, et de bactéries, alors il s'agit d'un artefact. Pour les problèmes concernant les pseudogènes faux : tous les pseudogènes ayant une longueur supérieure à 30% de la séquence qui a servi de requête pour identifier le hit correspondant et qui ont pour plus proche voisin, dans leur phylogénie, un gène fonctionnel issu de la même espèce que celle dont ils sont issus, sont considérés comme des artefacts. En effet cela signifie qu il existe un gène complet dans l espèce qui correspond à la séquence du pseudogène. Ces pseudogènes artefactuels peuvent être soit des paralogues pris pour des orthologues, soit des gènes fonctionnels vus comme des pseudogènes. Les artefacts qui doivent être corrigés par ces filtres sont donc : Transposons, Répétitions, Pseudogènes, Contamination et transfert. Or on a 8 transposons, 2 contaminations, 5 répétitions et 5 problèmes de pseudogènes, ce qui fait donc 20/47 artefacts éliminés, ce qui équivaut à environ 42.5% du total des artefacts (plus en détails, 34.8% des artefacts identifiés pour les gènes perdus chez Homo sapiens et Catarrhini, et 50% pour les gènes perdus chez les Tétrapodes et les Amniotes). 19

21 A.4) Résultats obtenus aprés filtrages Les résultats présents dans IODA ont été filtrés par les 4 filtres présentés en 3). Le nombre de gènes filtrés, artefacts ou non, ainsi que le taux de réussite de GLADX après filtrage ont été calculés pour les gènes déjà étudiés précédemment. On obtient les résultats suivants : Niveau d étude (phyllum pour lequel le gène est perdu) Nombre d études éliminés Pourcentage d études de génes éliminées Artefacts éliminés Pourcentage d artefacts éliminés Etudes correctes éliminées Pourcentage d études correctes éliminées Taux de réussite de l outil Tétrapodes 12 12/55 = 21.8% 11 11/17 = 64.7% 1 1/38= 2.6% 37/43 = 86% Amniotes 7 7/20= 35.0% 4 4/7 = 57.1% 3 3/13= 23.1% 10/13 = 76.9% Homo, Catarrhini 9 9/31 = 29% 8 8/23= 34.8% 1 1/8 = 12.5% 7/22= 31.8% Total 31 28/106 = 26.4% 25 23/47 = 48.9% 6 5/ 59 = 8.4% 54/78 = 69.2% Table 5 : Nombres et pourcentage de gènes éliminés après passages des études dans nos différents filtres, dont nombre et. pourcentage d artefacts et d études correctes éliminés, et taux de réussite, pour chaque niveau d étude. Représentation graphique de l évolution des taux de réussite pour chaque niveau d étude avant et après le filtrage des gènes, figure 8 D après la table 5,on peut noter que les filtres éliminent environ 49 % des artefacts détectés lors de la première étapes de l analyse, (dont 63% pour les gènes perdus chez les Tétrapodes ou chez les Amniotes et 34.8% pour les gènes perdus chez Catarrhini ou chez Homo Sapiens) ce qui est plus que ce que l on attendait puisque les artefacts qui doivent être corrigés par ces filtres ne représentent en tout que 42.5% environ des artefacts, donc 6.5% des artefacts sont éliminés en plus. Or on note que environ 8% de gènes dont l étude est correcte sont éliminés à tort, on peut donc penser que les filtres éliminent 8% de l ensemble des séquences pour de mauvaises raisons, donc les 8% d artefacts éliminés supplémentaires pourraient être des gènes éliminés pour de mauvaises raisons, comme pour les gènes corrects. Un nouveau lot de gènes filtrés à été étudié pour vérifier le taux de gènes présentant une étude correcte qui sont éliminés. Sur 38 séquences filtrées étudiées, 3 d entre elles ont été filtrées alors que le résultat de leur étude était juste, soit 3/38 = 7.9%. Ce qui est proche de la valeur observée précédemment. Il faut donc comprendre pourquoi des séquences dont l étude est correcte ont été filtrées. Après étude détaillée de ces cas on constate que le problème est essentiellement lié au filtre transposons-répétitions, en effet la E-value maximale de 10-3 est correcte pour identifier les séquences à motifs répétés, mais bien plus élevée que celle nécessaire pour identifier correctement les transposons (qui serait plutôt de 10-5, cf page 16-17), ce qui entraine une sur prédiction des transposons, et donc l élimination, en tant que transposons, de séquences dont l étude est correcte. Malgré ce problème, on constate que le filtrage des gènes augmente le taux de réussite de l outil, à tous les niveaux d étude et de manière générale, puisqu il passe globalement de 55.7% à 69.3% 20

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment. Sommaire Séquence 6 Nous avons vu dans les séances précédentes qu au cours des temps géologiques des espèces différentes se sont succédé, leur apparition et leur disparition étant le résultat de modifications

Plus en détail

Base de données bibliographiques Pubmed-Medline

Base de données bibliographiques Pubmed-Medline Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

Génomique Comparative et intégrative

Génomique Comparative et intégrative Génomique Comparative et intégrative Introduction : Le big data : on peut traiter des données massives à présent, l'objectif à présent est d'éviter les transferts de données trop longs. On a tout à portée

Plus en détail

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots Université Toulouse 3 Paul Sabatier(UT3 Paul Sabatier) Informatique Spécialité Bioinformatique Eric AUDEMARD lundi 28 novembre 2011 Détection des duplications en tandem au niveau nucléique à l'aide de

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale.

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale. Version du Date document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale Commentaires 1 Table des matières 1 Introduction / Identification...

Plus en détail

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite. Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite. Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs, relations,

Plus en détail

Avis n 94-02 sur la méthodologie relative aux comptes combinés METHODOLOGIE RELATIVE AUX COMPTES COMBINES

Avis n 94-02 sur la méthodologie relative aux comptes combinés METHODOLOGIE RELATIVE AUX COMPTES COMBINES CONSEIL NATIONAL DE LA COMPTABILITÉ Avis n 94-02 sur la méthodologie relative aux comptes combinés Le Conseil national de la comptabilité réuni en formation de Section des entreprises le 28 octobre 1994,

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Introduction aux bases de données: application en biologie

Introduction aux bases de données: application en biologie Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,

Plus en détail

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits 2.0 Interprétation des cotes d évaluation des risques relatifs aux produits L interprétation des cotes attribuées dans le cadre des évaluations des risques relatifs aux produits décrite plus loin repose

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Accédez au test ici http://myspeed.visualware.com/index.php

Accédez au test ici http://myspeed.visualware.com/index.php Test de vitesse VoIP Pourquoi faire le test? Un test de vitesse VoIP est un moyen efficace d évaluer la capacité de votre connexion Internet à prendre en charge un système de téléphonie VoIP. D autres

Plus en détail

Premiers Pas avec OneNote 2013

Premiers Pas avec OneNote 2013 Premiers Pas avec OneNote 2 Présentation de OneNote 3 Ouverture du logiciel OneNote 4 Sous Windows 8 4 Sous Windows 7 4 Création de l espace de travail OneNote 5 Introduction 5 Présentation des différentes

Plus en détail

Format de l avis d efficience

Format de l avis d efficience AVIS D EFFICIENCE Format de l avis d efficience Juillet 2013 Commission évaluation économique et de santé publique Ce document est téléchargeable sur www.has-sante.fr Haute Autorité de santé Service documentation

Plus en détail

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed 6, bd maréchal Juin F-14050 Caen cedex 4 Spécialité Informatique 2 e année Rapport de projet Gestion du parc informatique matériel et logiciel de l Ensicaen SAKHI Taoufik SIFAOUI Mohammed Suivi ENSICAEN

Plus en détail

Xi Ingénierie. La performance technologique au service de votre e-commerce. Comment exploiter les cookies sur vos applications web en toute légalité?

Xi Ingénierie. La performance technologique au service de votre e-commerce. Comment exploiter les cookies sur vos applications web en toute légalité? Xi Ingénierie La performance technologique au service de votre e-commerce Comment exploiter les cookies sur vos applications web en toute légalité? Copyright 2012 Xi Ingénierie Toute reproduction ou diffusion

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Guide du/de la candidat/e pour l élaboration du dossier ciblé

Guide du/de la candidat/e pour l élaboration du dossier ciblé Guide du/de la candidat/e pour l élaboration du dossier ciblé en vue de l obtention du titre de "Conseiller ère diplômé e en orientation professionnelle, universitaire et de carrière" par la validation

Plus en détail

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF 10 REPÈRES POUR LA MISE EN ŒUVRE DU DISPOSITIF «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 MEN-DGESCO 2013 Sommaire 1. LES OBJECTIFS DU DISPOSITIF 2. LES ACQUISITIONS PRIORITAIREMENT VISÉES 3. LES LIEUX

Plus en détail

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous : BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les

Plus en détail

Rapport de stage d initiation

Rapport de stage d initiation Ministère de l enseignement supérieur et de la recherche scientifique Direction Générale des Études Technologiques Institut Supérieur des Etudes Technologiques de SILIANA Département Technologies de l

Plus en détail

Recherche dans un tableau

Recherche dans un tableau Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6

Plus en détail

Complément d information concernant la fiche de concordance

Complément d information concernant la fiche de concordance Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

COMMUNICATION TECHNIQUE N TCV060 Ed. 01. OmniVista 4760 Nb de pages : 18 Date : 12-07-2005 URGENTE NON URGENTE TEMPORAIRE DEFINITIVE

COMMUNICATION TECHNIQUE N TCV060 Ed. 01. OmniVista 4760 Nb de pages : 18 Date : 12-07-2005 URGENTE NON URGENTE TEMPORAIRE DEFINITIVE COMMUNICATION TECHNIQUE N TCV060 Ed. 01 OmniVista 4760 Nb de pages : 18 Date : 12-07-2005 URGENTE NON URGENTE TEMPORAIRE DEFINITIVE OBJET : GESTION ANNUAIRE Veuillez trouver ci-après une documentation

Plus en détail

Consignes pour la remise des données RESEAU

Consignes pour la remise des données RESEAU Consignes pour la remise des données RESEAU Le système RESEAU permet principalement de transférer et de regrouper des géodonnées provenant de différentes bases de données des services des eaux (= fichier

Plus en détail

Introduction aux concepts d ez Publish

Introduction aux concepts d ez Publish Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de

Plus en détail

LES OUTILS DU TRAVAIL COLLABORATIF

LES OUTILS DU TRAVAIL COLLABORATIF LES OUTILS DU TRAVAIL COLLABORATIF Lorraine L expression «travail collaboratif» peut se définir comme «l utilisation de ressources informatiques dans le contexte d un projet réalisé par les membres d un

Plus en détail

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne Sophie Morlaix To cite this version: Sophie Morlaix. L indice de SEN, outil de mesure de l équité

Plus en détail

TD n o 8 - Domain Name System (DNS)

TD n o 8 - Domain Name System (DNS) IUT Montpellier - Architecture (DU) V. Poupet TD n o 8 - Domain Name System (DNS) Dans ce TD nous allons nous intéresser au fonctionnement du Domain Name System (DNS), puis pour illustrer son fonctionnement,

Plus en détail

Taille optimale dans l industrie du séchage du bois et avantage compétitif du bois-énergie : une modélisation microéconomique.

Taille optimale dans l industrie du séchage du bois et avantage compétitif du bois-énergie : une modélisation microéconomique. Taille optimale dans l industrie du séchage du bois et avantage compétitif du bois-énergie : une modélisation microéconomique Alexandre SOKI cole Supérieure du ois Atlanpôle P 10605 Rue hristian Pauc 44306

Plus en détail

Cours 1 : introduction

Cours 1 : introduction Cours 1 : introduction Modèle entité-association Exemple : Deux entités (produit et dépôt) sont mises en relation (stock). Une entité doit être constituée d un identifiant et peut être complétée par des

Plus en détail

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Bases de données des mutations

Bases de données des mutations Bases de données des mutations CFMDB CFTR2 CFTR-France / Registre Corinne THEZE, Corinne BAREIL Laboratoire de génétique moléculaire Montpellier Atelier Muco, Lille, 25-27 septembre 2014 Accès libre http://www.genet.sickkids.on.ca/app

Plus en détail

Introduction MOSS 2007

Introduction MOSS 2007 Introduction MOSS 2007 Z 2 Chapitre 01 Introduction à MOSS 2007 v. 1.0 Sommaire 1 SharePoint : Découverte... 3 1.1 Introduction... 3 1.2 Ce que vous gagnez à utiliser SharePoint... 3 1.3 Dans quel cas

Plus en détail

Clément ALBRIEUX (69)

Clément ALBRIEUX (69) Pratique 20 : Une nouvelle identité entrepreneuriale 287 Le témoin : Clément ALBRIEUX (69) 30 collaborateurs Comment est définie et gérée l innovation dans votre cabinet? Les collaborateurs du cabinet

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

L INTEGRATION D UN NOUVEAU COLLABORATEUR

L INTEGRATION D UN NOUVEAU COLLABORATEUR L INTEGRATION D UN NOUVEAU COLLABORATEUR «Rien ne sert de bien sélectionner, il faut aussi savoir intégrer à point!» Si un recrutement réussi dépend avant toute chose d une solide procédure de sélection,

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

Analyse structurée de solutions pour BMC Remedy IT Service Management v 7

Analyse structurée de solutions pour BMC Remedy IT Service Management v 7 LIVRE BLANC SUR LES PRATIQUES ITIL Analyse structurée de solutions pour BMC Remedy IT Service Management v 7 Exploiter le potentiel des pratiques ITIL grâce aux ateliers d analyse de solutions organisés

Plus en détail

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Avis sur p. 24.

Plus en détail

MANUEL D UTILISATION DE LA SALLE DES MARCHES APPEL D OFFRES OUVERT ACCES ENTREPRISES. Version 8.2

MANUEL D UTILISATION DE LA SALLE DES MARCHES APPEL D OFFRES OUVERT ACCES ENTREPRISES. Version 8.2 MANUEL D UTILISATION DE LA SALLE DES MARCHES APPEL D OFFRES OUVERT ACCES ENTREPRISES Version 8.2 Vous allez utiliser les services en ligne de la plate forme de dématérialisation de la Salle des Marchés

Plus en détail

Norme comptable internationale 7 Tableau des flux de trésorerie

Norme comptable internationale 7 Tableau des flux de trésorerie Norme comptable internationale 7 Tableau des flux de trésorerie Objectif Les informations concernant les flux de trésorerie d une entité sont utiles aux utilisateurs des états financiers car elles leur

Plus en détail

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Online Intelligence Solutions LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Comment intégrer les KPI à sa stratégie d entreprise? Par Jacques Warren WHITE PAPER WHITE PAPER A PROPOS DE JACQUES WARREN

Plus en détail

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme Fonctions linéaires et affines 3eme 1 Fonctions linéaires 1.1 Vocabulaire Définition 1 Soit a un nombre quelconque «fixe». Une fonction linéaire associe à un nombre x quelconque le nombre a x. a s appelle

Plus en détail

TERMES DE RÉFÉRENCE AXE : FORMATION CREATION ET GESTION DE BASES DE DONNEES

TERMES DE RÉFÉRENCE AXE : FORMATION CREATION ET GESTION DE BASES DE DONNEES REPUBLIQUE TUNISIENNE --*-- MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA RECHERCHE SCIENTIFIQUE, DES TECHNOLOGIES DE L INFORMATION ET DE LA COMMUNICATION TERMES DE RÉFÉRENCE AXE : FORMATION CREATION ET

Plus en détail

Harp - Basculement des élèves en début d année

Harp - Basculement des élèves en début d année Ministère de l'education Nationale - Académie de Grenoble - Région Rhône-Alpes C entre A cadémique de R essources et de M aintenance I nformatique Le 04/09/2012 Equipements - Assistance - Maintenance Code

Plus en détail

RÈGLEMENT 23-103 SUR LA NÉGOCIATION ÉLECTRONIQUE ET L ACCÈS ÉLECTRONIQUE DIRECT AUX MARCHÉS

RÈGLEMENT 23-103 SUR LA NÉGOCIATION ÉLECTRONIQUE ET L ACCÈS ÉLECTRONIQUE DIRECT AUX MARCHÉS Dernière modification en vigueur le 1 er mars 2014 Ce document a valeur officielle chapitre V-1.1, r. 7.1 RÈGLEMENT 23-103 SUR LA NÉGOCIATION ÉLECTRONIQUE ET L ACCÈS ÉLECTRONIQUE DIRECT AUX MARCHÉS A.M.

Plus en détail

LIVRE BLANC AMÉLIOREZ VOS PERFORMANCES MARKETING ET COMMERCIALES GRÂCE À UNE GESTION DE LEADS OPTIMISÉE

LIVRE BLANC AMÉLIOREZ VOS PERFORMANCES MARKETING ET COMMERCIALES GRÂCE À UNE GESTION DE LEADS OPTIMISÉE AMÉLIOREZ VOS PERFORMANCES MARKETING ET COMMERCIALES GRÂCE À UNE GESTION DE LEADS OPTIMISÉE 2 A PROPOS Pourquoi la gestion des leads (lead management) est-elle devenue si importante de nos jours pour les

Plus en détail

Écriture de journal. (Virement de dépense)

Écriture de journal. (Virement de dépense) Écriture de journal (Virement de dépense) SERVICE DES FINANCES Équipe de formation PeopleSoft version 8.9 Août 2014 TABLES DES MATIERES AVERTISSEMENT... 3 INTRODUCTION... 4 RAISONS JUSTIFIANT LA CRÉATION

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Bibliographie Introduction à la bioinformatique

Bibliographie Introduction à la bioinformatique Bibliographie Introduction à la bioinformatique 5. Les bases de données biologiques, SQL et la programmation Python/C++ Zvelebil et Baum, Understanding bioinformatics Beighley, Head First SQL Chari, A

Plus en détail

1S9 Balances des blancs

1S9 Balances des blancs FICHE 1 Fiche à destination des enseignants 1S9 Balances des blancs Type d'activité Étude documentaire Notions et contenus Compétences attendues Couleurs des corps chauffés. Loi de Wien. Synthèse additive.

Plus en détail

GESTION DE STOCKS AVEC CIEL GESTION COMMERCIALE

GESTION DE STOCKS AVEC CIEL GESTION COMMERCIALE GESTION DE STOCKS AVEC CIEL GESTION COMMERCIALE La gestion de stocks est complexe. Deux questions illustrent cette complexité : Première question : en supposant que le stock d un article comprenne 2 unités

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

TEPZZ 568448A_T EP 2 568 448 A1 (19) (11) EP 2 568 448 A1 (12) DEMANDE DE BREVET EUROPEEN. (51) Int Cl.: G07F 7/08 (2006.01) G06K 19/077 (2006.

TEPZZ 568448A_T EP 2 568 448 A1 (19) (11) EP 2 568 448 A1 (12) DEMANDE DE BREVET EUROPEEN. (51) Int Cl.: G07F 7/08 (2006.01) G06K 19/077 (2006. (19) TEPZZ 68448A_T (11) EP 2 68 448 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 13.03.2013 Bulletin 2013/11 (1) Int Cl.: G07F 7/08 (2006.01) G06K 19/077 (2006.01) (21) Numéro de dépôt:

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Analyse des données de séquençage massif par des méthodes phylogénétiques

Analyse des données de séquençage massif par des méthodes phylogénétiques Analyse des données de séquençage massif par des méthodes phylogénétiques Roux S., Taib N., Mangot J.F., Hugoni M., Mary I., Ravet V., Bronner G., Enault F., Debroas D. Équipe Microbiologie de l'environnement

Plus en détail

Cegid Business Line. Version 2008 Release 2. Service d'assistance Téléphonique 0 825 070 025

Cegid Business Line. Version 2008 Release 2. Service d'assistance Téléphonique 0 825 070 025 Fiche version Cegid Business Line Version 2008 Release 2 Service d'assistance Téléphonique 0 825 070 025 Sommaire Les nouveautés fonctionnelles version 2008 Release 2...3 Comptabilité... 3 Relevés bancaires...3

Plus en détail

NORME INTERNATIONALE D AUDIT 330 REPONSES DE L AUDITEUR AUX RISQUES EVALUES

NORME INTERNATIONALE D AUDIT 330 REPONSES DE L AUDITEUR AUX RISQUES EVALUES NORME INTERNATIONALE D AUDIT 330 REPONSES DE L AUDITEUR AUX RISQUES EVALUES Introduction (Applicable aux audits d états financiers pour les périodes ouvertes à compter du 15 décembre 2009) SOMMAIRE Paragraphe

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti Hamid Mohamed Aden, Directeur du CRIPEN, Djibouti Xavier Roegiers, Professeur à l Université de Louvain, Directeur

Plus en détail

Avertissement sur les Risques Associés aux CFDs

Avertissement sur les Risques Associés aux CFDs CMC MARKETS UK PLC Avertissement sur les Risques Associés aux CFDs January 2015 RCS Paris: 525 225 918 Société immatriculée en Angleterre sous le numéro 02448409 Agréée et réglementée par la Financial

Plus en détail

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts Analyse des coûts Les techniques de calcul et d analyse des coûts portent le nom de comptabilité analytique ou comptabilité de gestion. Ces deux termes seront utilisés indifféremment dans ce cours. Contrairement

Plus en détail

TUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters

TUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters TUTORIAL REUTERS Connexion à Reuters Allez sur https://portal.hpd.global.reuters.com/auth/login.aspx Le login est reut@ensimag.imag.fr, =1 à 5, le et le mot de passe étant ceux qui vous ont été

Plus en détail

Utilisation avancée de SugarCRM Version Professional 6.5

Utilisation avancée de SugarCRM Version Professional 6.5 Utilisation avancée de SugarCRM Version Professional 6.5 Document : Utilisation_avancee_SugarCRM_6-5.docx Page : 1 / 32 Sommaire Préambule... 3 I. Les rapports... 4 1. Les principes du générateur de rapports...

Plus en détail

TESTS D'HYPOTHESES Etude d'un exemple

TESTS D'HYPOTHESES Etude d'un exemple TESTS D'HYPOTHESES Etude d'un exemple Un examinateur doit faire passer une épreuve type QCM à des étudiants. Ce QCM est constitué de 20 questions indépendantes. Pour chaque question, il y a trois réponses

Plus en détail

Windows Internet Name Service (WINS)

Windows Internet Name Service (WINS) Windows Internet Name Service (WINS) WINDOWS INTERNET NAME SERVICE (WINS)...2 1.) Introduction au Service de nom Internet Windows (WINS)...2 1.1) Les Noms NetBIOS...2 1.2) Le processus de résolution WINS...2

Plus en détail

TPM Totale Productive Maintenance

TPM Totale Productive Maintenance T.P.M ou Topo Maintenance Méthodes de maintenance TPM Totale Productive Maintenance 1 T.P.M ou Topo Maintenance 1. CONTEXTE GENERAL La TPM (de l anglais Total Productive Maintenance) est un système global

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

Analyse et interprétation des données

Analyse et interprétation des données 8 Analyse et interprétation des données Les données de l enquête peuvent être utilisées pour différents types d analyses aussi bien au niveau national qu au niveau international. Ce chapitre explique comment

Plus en détail

La correction des erreurs d'enregistrement et de traitement comptables

La correction des erreurs d'enregistrement et de traitement comptables La correction des erreurs d'enregistrement et de traitement comptables Après l'étude des différents types d'erreurs en comptabilité (Section 1) nous étudierons la cause des erreurs (Section 2) et les techniques

Plus en détail

UserReplay. UserReplay. Départments ecommerce et Marketing. Service Client. Web Ops/ Infrastructure: Développement du site et Support technique

UserReplay. UserReplay. Départments ecommerce et Marketing. Service Client. Web Ops/ Infrastructure: Développement du site et Support technique E-Commerce Augmenter la conversion, le montant du panier et la réten on Marke ng/ux Identifier et résoudre les freins à la conversion Service Client Diminuer les temps de résolution des appels et documenter

Plus en détail

REER, CELI ou prêt hypothécaire : comment faire le bon choix?

REER, CELI ou prêt hypothécaire : comment faire le bon choix? REER, CELI ou prêt hypothécaire : comment faire le bon choix? Jamie Golombek L épargne est une pratique importante. Elle nous permet de mettre de côté une partie de nos revenus actuels afin d en profiter

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Chapitre 4 : les stocks

Chapitre 4 : les stocks Chapitre 4 : les stocks Stocks et actifs Une entreprise achète généralement des biens pour les utiliser dans son processus de production, ce sont les matières premières et les fournitures, elle peut également

Plus en détail

Modèle de changement d organisation. Leanpizza.net présente. Petit Guide Rapide du jeu de cartes Modèle de Changement d Organisation

Modèle de changement d organisation. Leanpizza.net présente. Petit Guide Rapide du jeu de cartes Modèle de Changement d Organisation Guide rapide Leanpizza.net présente Petit Guide Rapide du jeu de cartes Modèle de Changement d Organisation v1.0 Rédacteur : Olivier Lafontan Traduction : Yannick Quenec hdu Date : 29 juin 2010 - Guide

Plus en détail

Les tests génétiques à des fins médicales

Les tests génétiques à des fins médicales Les tests génétiques à des fins médicales Les tests génétiques à des fins médicales Nous avons tous hérité d une combinaison unique de gènes de la part de nos parents. Cette constitution originale et l

Plus en détail

Livre Blanc WebSphere Transcoding Publisher

Livre Blanc WebSphere Transcoding Publisher Livre Blanc WebSphere Transcoding Publisher Introduction WebSphere Transcoding Publisher vous permet d'offrir aux utilisateurs des informations Web adaptées à leurs besoins. Il vous permet, par exemple,

Plus en détail

NOTIONS DE RESEAUX INFORMATIQUES

NOTIONS DE RESEAUX INFORMATIQUES NOTIONS DE RESEAUX INFORMATIQUES GENERALITES Définition d'un réseau Un réseau informatique est un ensemble d'équipements reliés entre eux afin de partager des données, des ressources et d'échanger des

Plus en détail

ITIL V3. Transition des services : Principes et politiques

ITIL V3. Transition des services : Principes et politiques ITIL V3 Transition des services : Principes et politiques Création : janvier 2008 Mise à jour : août 2009 A propos A propos du document Ce document de référence sur le référentiel ITIL V3 a été réalisé

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail