Université de la Méditerranée Aix-Marseille II Faculté des sciences de Luminy THESE. Pour obtenir le grade de

Dimension: px
Commencer à balayer dès la page:

Download "Université de la Méditerranée Aix-Marseille II Faculté des sciences de Luminy THESE. Pour obtenir le grade de"

Transcription

1 Université de la Méditerranée Aix-Marseille II Faculté des sciences de Luminy N o attribué par la bibliothèque _ _ _ _ _ _ _ _ _ _ THESE Pour obtenir le grade de DOCTEUR DE L UNIVERSITE DE LA MEDITERRANEE Discipline : BIOINFORMATIQUE présentée et soutenue publiquement par François ENAULT Le 21 octobre 2005 Titre : Contribution à la prédiction de la fonction des gènes par l analyse de leur contexte génomique et de leur co-évolution. Directeur de thèse : Jean-Michel CLAVERIE JURY M. Jean-Michel CLAVERIE Directeur M. Hervé DARBON Président M. Patrick FORTERRE Rapporteur M. Olivier GASCUEL Rapporteur M. Karsten SUHRE co-directeur

2

3 INTRODUCTION 7 Contexte 7 1 Les méthodes d'annotation fonctionnelle Les méthodes par homologie et leurs limites L'analyse du contexte génomique 9 2 Les trois principales méthodes d'analyse du contexte génomique Fusion de gènes Proximité des gènes sur le chromosome Les profils phylogénétiques 14 3 Les différents types de profils phylogénétiques Les profils binaires basés sur l'homologie Les profils binaires basés sur l'orthologie Les profils continus basés sur la similarité 20 4 Utiliser les profils pour décrypter les liens entre protéines Distance entre profils deux à deux Réseaux fonctionnels de protéines 22 5 Objectifs de la thèse 22 CHAPITRE 1. AMELIORATION DES PROFILS PHYLOGENETIQUES 25 1 Introduction 25 2 Définition des profils et des distances Construction des profils phylogénétiques Définition des distances gène à gène testées 28 3 Comparaison des distances et validation Utilisation d'ecocyc Etude de la conservation des différents types de protéines Choix objectif d'une distance Le problème des paralogues Comparaison avec la méthode binaire Vérification basée sur les opérons Test des plus proches voisins pour différents voisinages 43 4 Méthode d'annotation automatique MultiFun Formule Résultats 46 5 Conclusion 46

4 CHAPITRE 2. PHYDBAC : UN SERVEUR WEB BASE SUR LES PROFILS PHYLOGENETIQUES 49 1 Fonctionnement et utilité de Phydbac Description Construction dynamique des profils Partie pré-calculée sur Escherichia coli 50 2 Description de Phydbac à travers un exemple La membrane des bactéries à Gram négatif Le système tol/pal Description des profils Voisinage des profils Analyse approfondie pour la protéine pal 55 3 Conclusion 57 CHAPITRE 3. PHYDBAC2, UN SERVEUR WEB BASE SUR L ANALYSE DU CONTEXTE GENOMIQUE 59 1 Données et langages utilisés Données génomiques Chaîne de traitement automatique Développement de Phydbac 60 2 Nouvelles fonctionnalités visuelles Zoom sur les profils Profils COG Annotation complète Aides à la sélection de protéines Récupération des profils des meilleurs homologues 64 3 Intégration des trois méthodes de génomiques comparatives Profil Phylogénétique Consensus (PPC) Co-localisation Lien vers FusionDB Conclusion 69 CHAPITRE 4. LA SECTION PREDICTION DE FONCTION DE PHYDBAC 71 1 Implémentation des trois méthodes génomiques Profils Phylogénétiques Consensus (P) Détection des co-localisations (C) Identification des gènes ayant fusionné (F) 76 2

5 2 Comparaison entre P, C et F et le score final 77 3 Comparaison avec les bases de données existantes 78 4 Prédictions de catégories GO Description de GO Procédure d annotation 82 5 L interface Web à travers un exemple 83 6 Prédiction pour une séquence quelconque But Méthodes Interface 86 7 Conclusion 86 CHAPITRE 5. APPLICATION AUX VIRUS 89 1 Classification des virus 89 2 Les profils phylogénétiques viraux Les grands virus à ADN double brin Profils des gènes «ubiquitaires» de Mimivirus et limite de la méthode Profils des domaines trouvés dans les séquences virales Liens entre gènes à partir des distances entre profils de domaines Conclusion 96 DISCUSSION ET PERSPECTIVES 99 1 Les profils phylogénétiques Nos améliorations Perspectives pour les profils de gènes de procaryotes L analyse du contexte génomique Associations entre protéines et scores Prédictions fonctionnelles Le logiciel PHYDBAC Première version basée sur les profils Extension aux autres méthodes génomiques Prédictions fonctionnelles Un outil de référence Les profils phylogénétiques appliqués aux virus 105 3

6 BIBLIOGRAPHIE 107 ANNEXES : ARTICLES PUBLIES OU EN COURS DE REVISION 115 Article Annotation of bacterial genomes using improved phylogenomic profiles 115 Article Phydbac (Phylogenommic display of bacterial genes): an interactive resource for the annotation of bacterial genomes 121 Article Phydbac2 : improved inference of gene function using interactive phylogenomic profiling and chromosomal location analysis 127 Article Phydbac Gene Function predictor : a gene annotation tool based on genomic context analysis 133 4

7 Figure 1. Méthode de la Pierre de Rosette...11 Figure 2. Méthode des clusters de gènes ou des opérons Figure 3. Méthode des gènes voisins Figure 4. Méthode des profils phylogénétiques...15 Figure 5. Profils phylogénétiques des COGs impliqués dans la mobilité...16 Figure 6. Méthodes des profils phylogénétiques continus...26 Figure 7. Distances d (c) au sein de la population totale et dans les voies metaboliques Figure 8. Zoom sur les queues des fonctions de répartition Figure 9. Nombre de bactéries dans lequel les E. coli sont retrouvés Figure 10. Distances d (cwm) au sein de la population totale et dans les voies metaboliques Figure 11. Distances d (cwm) au sein de la population totale et dans les voies metaboliques calculees pour R (norm) Figure 12. Relation entre la distance D et d (cmw) Figure 13. Distributions des distances pour les paralogues Figure 14. Distributions des distances au sein des opérons...42 Figure 15. Comparaison des résultats donnés par différentes méthodes Figure 16. Nombre et qualité des prédictions pour les gènes de MultiFun Figure 17. Structure de la membrane des bactéries à Gram négatif Figure 18. Le système tol/pal dans l enveloppe d Escherichia coli Figure 19. Profils phylogénétiques des protéines composant le système tol/pal...53 Figure 20. Les profils phylogénétiques de la protéine pal et de ses voisins Figure 21. Annotations de la protéine pal et de ses voisins...55 Figure 22. Arbre non raciné de pal et de ses 11 plus proches voisins Figure 23. Profils basés sur les information de COG Figure 24. Protéines membres du COG2885 pour protéo-bactérie Gamma...63 Figure 25. Visualisation des profils de phor d E. coli et de ses homologues...65 Figure 26. Affichage type du voisinage d un gène dans plusieurs espèces...67 Figure 27. Capture d écran des résultats de FusionDB pour le COG Figure 28. Description de la méthodologie utilisée dans la section prédiction de fonction Figure 29. Taux de succès des différents scores...77 Figure 30. Comparaison des bases de données...80 Figure 31. Affichage type de la section Prédiction de fonction...83 Figure 32. Profils des gènes de Mimivirus ubiquitaires chez les NCLDV...92 Figure 33. Profils des gènes ubiquitaires de Mimivirus et de leurs domaines...94 Figure 34. Profils des voisins phylogénétiques de L244 en passant par le COG Figure 35. Profils des gènes codant la ribonucléotide réductase dans Mimivirus

8 6

9 Introductiion Contexte Depuis le début des années 90, de multiples programmes de séquençage systématique ont décrypté de très nombreux génomes. Des méthodes de traitement informatique sont nécessaires pour interpréter et transformer ce pool de données en connaissances nouvelles utilisables à leur tour. Un des principaux buts de la bioinformatique moderne consiste à localiser l'ensemble des séquences codantes (gènes) du génome et à prédire la fonction des protéines pour lesquelles codent ces gènes. Les protéines étant les principaux catalyseurs, éléments structuraux, éléments de signalisation et machines moléculaires des tissus biologiques, déterminer leur fonction permet de mieux appréhender le fonctionnement général de l'organisme. La comparaison des nouvelles séquences à celles déjà annotées expérimentalement est la méthode d annotation fonctionnelle la plus directe et la plus répandue. Une séquence similaire, à la fonction connue, n est pourtant pas identifiée pour tous les gènes d un organisme nouvellement séquencés. De plus, la séquence représente une sorte de photographie dans le temps : l'analyse de la séquence ne peut donc révéler qu'une vision statique. L analyse du contexte génomique s'attache, quant à elle, à déterminer la signification biochimique et biologique des protéines à travers une analyse des génomes dans leur globalité. L identification de partenaires impliqués dans les mêmes processus métaboliques ou interagissant ouvre le champ à une vision dynamique (spatiale et cinétique) des processus cellulaires et du rôle de chaque protéine dans la cellule. La génomique permet ainsi d'accéder à une compréhension plus globale du fonctionnement de la cellule. 7

10 1 Les méthodes d'annotation fonctionnelle 1.1 Les méthodes par homologie et leurs limites Principe La principale procédure pour obtenir des informations sur la fonction des molécules protéiques, la seule utilisée il y a encore une dizaine d'années, est composée de deux étapes : 1) des expériences biochimiques, génétiques ou structurales permettent dans un premier temps d obtenir des connaissances sur le rôle moléculaire ou cellulaire d'une protéine particulière. 2) la ou les fonctions attribuées à cette protéine sont ensuite étendues à ses homologues Définition de l homologie Deux séquences sont dites homologues si elles ont un ancêtre commun. En pratique, l'homologie est mise en évidence en recherchant des similitudes entre les séquences. La similitude n'est pas toujours une preuve d'homologie: lorsque la similitude entre deux séquences est faible et porte sur une courte région, il est possible que cette ressemblance soit due à une convergence fonctionnelle ou structurale, ou simplement au hasard (Doolittle 1994a). Lorsque la similitude protéique est supérieure à 30% sur au moins 100 résidus, il est presque certain que les séquences dérivent d'un ancêtre commun (Doolittle 1990) Logiciels de recherche de similarités BLAST (Basic Local Alignment Search Tool) (Altschul et al. 1990) permet la recherche rapide de séquences similaires à une séquence dans de grandes bases de données. BLAST, cité plus de dix mille fois dans des articles scientifiques, est un des programmes informatiques les plus couramment utilisés par les biologistes. La significativité des alignements produits est évaluée statistiquement en fonction de leur longueur, de la composition de la séquence, de la taille de la banque et de la matrice 8

11 de score utilisée. Des protocoles d'alignement plus sensibles ont par la suite été développés, comme le programme PSI-BLAST (Altschul et al. 1997). A partir d'un ensemble de séquences homologues à une protéine donnée, un profil est construit et les séquences significativement similaires à ce profil sont recherchées. De la même manière, les chaînes de Markov cachées des familles de protéines de la base de données PFAM (Bateman et al. 2002) permettent de détecter des homologies lointaines ratées par de simples alignements de séquences. Ces outils basés sur l'homologie permettent de générer des annotations fonctionnelles de manière automatique pour de nombreux gènes. Pourtant, entre 20 et 50% des gènes d'organismes nouvellement séquencés ne présentent aucune similarité significative avec une séquence connue, ou seulement avec des séquences de fonction inconnue (Roberts 2004). De plus, une similitude entre deux séquences dénote une structure proche entre ces deux protéines, ce qui implique une fonction biochimique comparable entre ces deux produits (catalyse d une même réaction ou interaction avec les mêmes partenaires). L'attribution fonctionnelle par homologie concerne donc la fonction moléculaire des protéines mais ne donne aucune indication sur le processus biologique dans lequel les protéines interviennent ni sur leurs localisations dans la cellule. Ces limites rendent nécessaires les méthodes allant au-delà de l'identification de similarités de séquences. 1.2 L'analyse du contexte génomique Contrairement aux méthodes d homologie qui ne s intéressent qu à une séquence donnée à la fois, les méthodes de génomique comparative (Galperin and Koonin 2000; Marcotte 2000a; Eisen 1998) utilisent la globalité de l'information contenue dans les génomes pour émettre des hypothèses sur la fonction cellulaire des protéines. La fiabilité de ces méthodes dites d'analyse du contexte génomique est en constante amélioration, grâce à l'augmentation quasi exponentielle du nombre de génomes séquencés L'avalanche de séquences génomiques L'automatisation des techniques de séquençage permet dorénavant de décrypter rapidement des génomes de taille importante. Ainsi, en 1995, la première séquence 9

12 génomique d'un micro-organisme, la bactérie Haemophilus influenzae (Fleischmann et al. 1995), était publiée, puis en 1996, celle d'un être unicellulaire eucaryote, la levure Saccharomyces cerevisiae (Goffeau et al. 1996), en 1998, celle d'un organisme pluricellulaire, le ver nématode Caenorhabditis elegans (C. elegans sequencing consortium 1998) et depuis 2001 la séquence du génome humain est disponible (International human génome consortium 2001; Venter et al. 2001). Début 2005, le nombre de génomes séquencés atteint 240, contre 60 début 2001 et 30 début La plupart de ces organismes sont des bactéries (180) ou archaea (31), mais il s y trouve aussi plus de 10 génomes de champignons et plus de 15 organismes pluricellulaires. Ce nombre conséquent de génomes complets rend les procédures de génomique comparative réellement fiables alors que le nombre restreint de génomes disponibles à la fin du siècle dernier permettait uniquement de prouver que les concepts utilisés étaient justes. Voyons quels sont ces concepts Les différentes méthodes dites d analyse du contexte génomique Ces méthodes associent des éléments du génome d'un organisme en comparant leurs situations dans d'autres organismes. En effet, les gènes codants pour des protéines fonctionnellement liées (i) ont parfois fusionné en une seule et même séquence codante dans un autre organisme (méthode de la pierre de Rosette) (Enright et al. 1999; Marcotte et al. 1999a), (ii) font souvent partie d'unités transcriptionnelles communes (méthodes des clusters de gènes), (Yada et al. 1999; Salgado et al. 2000; Ermolaeva et al. 2001) ou sont proches dans plusieurs génomes (méthodes des gènes voisins) (Dandekar et al. 1998; Overbeek et al. 1999), ou (iii) ont évolué de manière corrélée (méthodes des profils phylogénétiques) (Pellegrini et al. 1999; Huynen et Bork 1998; Gaasterland et Ragan 1998). Les paires de protéines associées sont dites fonctionnellement liées, c est-à-dire susceptibles d'intervenir dans les mêmes voies métaboliques ou de former un complexe structural. Une fonction déjà déterminée d'une des deux protéines d'une association donne donc des indications sur la fonction de l'autre élément de la paire. Même si deux protéines associées sont de fonction inconnue, savoir qu'elles sont potentiellement liées peut suggérer des expériences futures et permet une meilleure compréhension du fonctionnement cellulaire de l'organisme. Nous allons maintenant étudier chacun de ces trois concepts dans le détail. 10

13 2 Les trois principales méthodes d'analyse du contexte génomique 2.1 Fusion de gènes Principe et exemple La méthode de fusion ou de Pierre de Rosette identifie des paires de protéines potentiellement liées grâce à l'analyse des cas de fusion de gènes : comme le montre la Figure 1, deux protéines A et B distinctes dans un organisme 1 peuvent être exprimées en une seule chaîne polypeptidique dans un autre organisme 2. Cette chaîne est appelée séquence Pierre de Rosette car elle révèle une relation entre les parties qui la composent. Dans de nombreux cas, deux protéines codées par des gènes fusionnés en un seul interagissent physiquement (Enright et al. 1999) ou participent à des étapes consécutives de mêmes voies métaboliques. La recherche systématique de séquences Pierre de Rosette au sein des autres génomes donne ainsi un nombre conséquent d'associations fortes. Par exemple, les deux sous-unités de la gyrase gyra et gyrb d'escherichia coli sont homologues avec des parties distinctes de la topoisomérase II de Saccharomyces cerevisiae (Marcotte et al. 1999a). Les protéines gyra et gyrb associées par cette méthode n'étant pas similaires en séquence, ce type d'association fonctionnelle n aurait pu être détecté par recherche d homologie. Figure 1. Méthode de la Pierre de Rosette. Cette méthode est illustrée ici de manière schématique : deux protéines indépendantes A et B de l'organisme 1. Une séquence de l'organisme 2 est homologue à ces deux protéines en des endroits distincts. L'existence d'une protéine dite Pierre de Rosette suggère un lien fonctionnel entre A et B. 11

14 2.1.2 Recherche des cas de fusion de domaines protéiques Les fusions de gènes, entraînées par les réarrangements chromosomiques, n impliquent souvent que des relations d'homologie sur des segments de gènes. Ainsi, les séquences Pierre de Rosette sont généralement des protéines mosaïques constituées de domaines qui ont des origines évolutives différentes (Patthy 1991, Doolittle et Bork 1993). Une implémentation simple de la recherche des cas de fusion consiste, dans un premier temps, à aligner grâce à BLASTp toutes les séquences codant pour des protéines d'un organisme de départ avec les séquences d'une base de données non redondante. Deux séquences protéiques non homologues qui s'alignent sur des parties distinctes d'une troisième protéine d'un autre organisme sont dites fusionnées (Yanai et al ; Bowers et al. 2004a). Le nombre conséquent de génomes entièrement séquencés et donc de gènes disponibles pour cette recherche rendent nécessaires l estimation de la probabilité de trouver par hasard un gène Pierre de Rosette en fonction du nombre d'homologues de chaque gène le constituant (Strong et al. 2003; Bowers et al. 2004a). 2.2 Proximité des gènes sur le chromosome Organisation des gènes en opérons Une association fonctionnelle entre deux protéines peut également être déduite de la position des gènes codant ces protéines sur les différents chromosomes. Ce concept s'appuie sur l'organisation des gènes en opérons, particularité des génomes procaryotes. Les gènes d'un opéron sont disposés à la suite sur un même brin d'adn, cette chaîne de gènes étant contrôlée par une unique zone de régulation. Tous ces gènes seront transcrits sur le même ARN messager puis traduits simultanément en protéines. Cette organisation est un moyen simple pour assurer la synthèse coordonnée de protéines dépendantes. Un opéron peut par exemple être composé d'une enzyme et de ses facteurs de régulation, d'enzymes spécifiques d'une voie métabolique ou encore de protéines formant un complexe structural. 12

15 2.2.2 Associations déduites de l organisation en opéron Deux concepts permettent de détecter les gènes appartenant à un même opéron : 1. la méthode des clusters de gènes (Figure 2) identifie les opérons présents dans un génome donné. Les opérons peuvent notamment être détectés grâce à une analyse des promoteurs et des terminateurs de transcription (Yada et al. 1999). De courtes distances intergéniques entre des gènes adjacents d'un même brin sont également représentatives de l'organisation des gènes en opéron, un tiers des gènes en opéron de Escherichia coli se chevauchant (Salgado et al. 2000). Cette caractéristique est d'ailleurs vraie pour tous les organismes procaryotes, même pour les archaea (Moreno-Hagelsieb et Collado-Vides 2002). Pour une paire de gènes adjacents dans l'espèce de départ, la probabilité qu ils forment un opéron, déduite de la distance intergénique dans cette espèce, est renforcée si l ordre de ces deux gènes est conservé dans d'autres organismes (Ermolaeva et al. 2001). Une étude récente combine à la fois l'information donnée par les distances intergéniques entre gènes d'un même organisme et celle déduite de la conservation de la proximité de leurs orthologues dans tous les autres génomes (Price et al. 2005). Figure 2. Méthode des clusters de gènes ou des opérons. Représentation des éléments génétiques minimums nécessaires pour des gènes adjacents sur le même brin, transcrits indépendamment (i) ou ensemble en tant qu'opéron (ii). Les éléments promoteurs et terminateurs de la transcription sont nécessaires dans le premier cas, alors que seul un site de fixation du ribosome (RBS) est indispensable entre deux gènes d'un opéron. 13

16 2. la méthode des gènes voisins (Figure 3) est basée sur ce principe de conservation de l'ordre des gènes dans différents génomes (Dandekar et al. 1998; Overbeek et al. 1999). Chaque couple de gènes appartenant à un groupe dont l'ordre est significativement conservé est une association fonctionnelle potentielle. Le but de cette méthode est de déterminer tous les opérons conservés dans plusieurs espèces. Contrairement à la méthode des clusters de gènes (Figure 2), elle n'est pas restreinte à un organisme de départ. Par contre l'identification des opérons présents dans une seule ou dans un petit nombre d espèces n'est pas possible avec cette méthode des gènes voisins. Figure 3. Méthode des gènes voisins. Représentation schématique de la position de trois gènes (parties verte, rouge et bleue) et de leurs homologues dans trois génomes. Deux gènes, ici le rouge et le vert, sont proches dans les trois génomes et ont donc des fonctions potentiellement liées. 2.3 Les profils phylogénétiques La troisième méthode utilisant l'information génomique dans sa globalité est basée sur le fait que des protéines présentes et absentes chez les mêmes espèces sont souvent fonctionnellement liées (Pellegrini et al. 1999). En effet, les protéines travaillent rarement seules et le fonctionnement de beaucoup de voies métaboliques et de complexes est altéré par la perte d'un de leurs composants. Ainsi, un organisme nécessitant un complexe ou une voie métabolique porte les gènes le constituant. A l'inverse, les gènes codant les protéines d'un complexe ou d'une voie métabolique 14

17 inutile à un organisme pourront avoir disparu de son génome. Les motifs de conservation des protéines sont décrits par des profils phylogénétiques. Le profil d'une protéine représente la présence (1) ou l'absence (0) de séquences homologues dans des organismes dont le génome est entièrement séquencé. Un profil est donc classiquement un vecteur binaire de longueur n, où n correspond au nombre de génomes utilisés dans l'étude. Les protéines ayant le même profil peuvent ensuite être regroupées au sein de clusters (Figure 4). Figure 4. Méthode des profils phylogénétiques. Représentation schématique du génome d E. coli et de quatre autres génomes bactériens et de leurs gènes. (i) Les homologues aux six gènes d E. coli sont déterminés dans les quatre génomes par BLASTp. (ii) Les profils phylogénétiques de ces six gènes sont construits en fonction de la présence/absence d'homologues. (iii) Les profils identiques sont regroupés et (iv) une association fonctionnelle est déduite pour chaque paire de gènes d'un même cluster. 15

18 L ensemble des protéines impliquées dans la mobilité des bactéries illustre cette notion. La nage est le type de mobilité le plus fréquent chez les procaryotes et résulte de la rotation de flagelles (Euzéby 2005). Figure 5. Profils phylogénétiques des COGs impliqués dans la mobilité. Les profils des COGs, obtenus dans String (von Mering et al. 2003), sont ici disposés en colonnes, les bactéries (en groupes ou non) en lignes. Chaque COG de la figure contient un gène d E. coli impliqué dans la mobilité. Ces profils phylogénétiques binaires sont très similaires. 16

19 Ces fines structures filamenteuses sont constituées de trois parties, un filament hélicoïdal, un crochet et un corpuscule basal formées respectivement par les protéines flic, flge et par le complexe flga, flgb, flgc, flgd et flgg. Les déplacements des bactéries flagellaires sont déterminés par le sens de rotation des flagelles : la rotation dans le sens inverse des aiguilles d'une montre propulse la bactérie dans une direction ; la rotation dans le sens contraire provoque une culbute ou un pivotement. Chez les entérobactéries, deux protéines (mota et motb) sont impliquées dans la rotation et trois autres (flig, flim, flin) forment le complexe d'inversion qui détermine le sens de rotation des flagelles induit par la nature du milieu. Les gènes codant les protéines impliquées dans les différentes étapes de la mobilité apparaissent dans tous les génomes de bactéries flagellaires et sont absents chez toutes les autres bactéries (Figure 5). Ces protéines ont donc des profils très proches. Si l on regroupe les protéines d E. coli en fonction de leur profil, les protéines impliquées dans la mobilité forment un seul et même cluster. Les annotations fonctionnelles connues de certaines protéines d'un cluster permettent ensuite de faire des hypothèses quant au rôle de celles non caractérisées. 3 Les différents types de profils phylogénétiques Depuis l invention de cette méthode en , différentes manières de construire des profils phylogénétiques ont été développées et testées. Ces méthodes reposent sur l utilisation des différentes relations entre les gènes : simples similarités de séquence, homologies ou encore orthologies. D'abord binaires et basés sur des homologies déduites directement des alignements deux à deux, les profils ont ensuite bénéficié du développement de méthodes d'identification des groupes d'orthologues. Des profils continus, basés sur les similarités de séquence, ont été implémentés parallèlement. Nous avons notamment étudié ce type de profil en détail et proposé une nouvelle formule pour la construction des profils afin que ceux-ci reflètent mieux l information de co-évolution des gènes. 17

20 3.1 Les profils binaires basés sur l'homologie La manière la plus simple de construire un profil phylogénétique d une protéine est de déterminer la présence et l absence d homologues de cette protéine uniquement à partir des résultats des alignements de cette séquence et de toutes celles des différentes bactéries considérées dans l étude. Pour cela, l'expectation value (E-value) des alignements peut être utilisée. L E-value d'un alignement A est une estimation de la probabilité de trouver un alignement au score au moins aussi bon que A par hasard, dans une base de données de même taille et de même composition que celle utilisée lors du BLAST. Plus la valeur est faible (proche de 0) plus les séquences sont similaires. Dans de nombreuses études (Bowers et al. 2004a; Strong et al. 2003; Zheng et al. 2002), deux séquences provenant de génomes différents sont déclarées homologues si leur alignement a une E-value inférieure à D'une manière similaire, la significativité statistique du score d'un alignement peut être estimée en fonction du nombre de séquences considérées dans l'étude (Pellegrini et al. 1999). Malheureusement, cette approche est loin d'être parfaite car fixer un seuil unique ne permet pas de déterminer de façon fiable les séquences réellement homologues, tout particulièrement dans les organismes très distants sur le plan évolutif. Non seulement elle ne permet pas une détection exacte des homologues mais elle ne tient pas non plus compte du fait que deux séquences homologues n'ont pas forcément la même fonction. 3.2 Les profils binaires basés sur l'orthologie Distinction des gènes orthologues et paralogues Des gènes apparentés qui ont subi uniquement des changements mineurs (insertions ou délétions de courte taille, substitutions), sont homologues sur toute leur longueur. Parmi ces gènes dits homéomorphes (Barker et George 1994), on distingue ceux qui sont orthologues, c'est à dire ceux qui ont divergé à la suite d'un événement de spéciation, et ceux qui sont paralogues c'est à dire qui découlent d'un événement de duplication génique au sein d'un génome (Fitch 1970; Gogarten et Olendzenski 1999; Eisen 1998). Cette distinction est importante pour les études fonctionnelles puisque deux gènes paralogues, même très proches en séquence, peuvent avoir des fonctions 18

21 et des modes de régulation différents et ne sont donc pas strictement comparables contrairement aux gènes orthologues. Différencier les gènes orthologues et paralogues est donc important pour analyser le rôle de chaque protéine dans une cellule. Les profils basés sur l'orthologie, tenant compte des différents cas possibles, sont les plus justes. Malheureusement, la différenciation entre orthologues et paralogues est une tâche difficile qui ne peut être effectuée par de simples comparaisons deux à deux de séquences Clusters de groupes d orthologues (COGs) Une identification de ces deux types de gènes homologues permet donc une analyse plus fine des voies métaboliques. La classification automatique utilisée pour construire les Clusters de Groupes d'orthologues (COGs) est la principale procédure d'identification des orthologues chez les organismes procaryotes entièrement séquencés (Tatusov et al. 2000, 2001). La classification est faite par comparaison des protéomes de tous les génomes entre eux avec BLAST. Deux séquences de génomes distincts présentant les meilleures similarités réciproques sont déterminées comme étant des paires d'orthologues. Si les gènes X de l'espèce A et Y de l'espèce B sont orthologues, on s'attend en effet à ce que dans le génome B, Y soit le plus proche homologue de X et réciproquement, que dans le génome A, X soit le plus proche homologue de Y. Les séquences liées par meilleure similarité réciproque sont ensuite regroupées en ensembles d'au moins trois séquences. Ces groupes sont unis en un seul s'ils ont deux séquences en commun Profils à partir des COGs Le profil phylogénétique d'un COG est sa représentation sous forme de vecteur binaire. Le profil d un COG est égal à 1 pour les colonnes correspondant aux organismes apparaissant dans le COG, 0 pour les autres (von Mering et al. 2005; Wu et al. 2003; Bowers et al. 2004b). Cette représentation indique la présence ou l absence de protéines ayant la même fonction. Malheureusement, cette approche d'identification des orthologues appliquée pour construire les COG n'est pas parfaite. En effet, l'information concernant les paralogues est perdue puisque dès le début de la procédure, ceux-ci sont mis dans le même COG. De plus, la procédure de COG n'est pas entièrement automatique, les groupes contenant des protéines multi-domaines et les groupes très larges étant examinés et traités manuellement. Ainsi seuls 73 des

22 organismes séquencés sont disponibles sur le site du NCBI à ce jour (avril 2005). De plus, les critères de réunion des groupes ont été établis pour être satisfaisants dans la majorité des cas, mais de nombreux cas particuliers entraînent des résultats erronés ou incomplets notamment les cas de variations des vitesses évolutives, les événements de duplication ou les pertes de gènes. 3.3 Les profils continus basés sur la similarité Dans les profils continus, les valeurs en chaque point dépendent de la qualité de l'alignement correspondant. Dans un profil continu classique (Marcotte 2000a; Date et Marcotte 2003), la valeur du profil d un gène i à la colonne j (correspondant à l organisme j ) est : P ij 1 = log( E ij ) avec P ij tronqué à 1 si P ij > 1. E ij est l'e-value la plus faible parmi celle des alignements entre la protéine i et toutes les protéines de l'organisme j. Pour E ij supérieure à 10-6, P ij est aussi ramené à 1. L'absence d'homologue à une protéine i dans un organisme j induit l'absence d'orthologue à i dans j et donc le profil de i à la colonne j vaut 0 pour tous les types de profils. Par contre, la présence d'une séquence similaire à i dans un autre organisme k ne signifie pas systématiquement qu'un orthologue à i est présent dans k. Ces profils continus différencient chaque cas en incorporant les degrés de divergence entre séquences et contiennent ainsi plus d'information que la simple présence ou absence des gènes. Les profils continus ne sont pas basés sur la notion de co-occurrence comme les profils binaires mais sur une notion de co-évolution. Le principe n est plus seulement que deux gènes fonctionnellement liés sont présents et absents chez les mêmes organismes mais que de tels gènes doivent évoluer à des vitesses similaires. Les profils continus exploitent ce concept d une manière quantitative alors que les profils binaires restent sur un plan qualitatif. En outre, cette méthode basée sur les similarités de séquences permet de s'affranchir de l arbitraire d un seuil de significativité tout en tenant compte de la qualité des similarités de séquences. 20

23 4 Utiliser les profils pour décrypter les liens entre protéines 4.1 Distance entre profils deux à deux La comparaison des profils phylogénétiques nous permet d'évaluer le degré de coévolution. Dans les premières études (Huynen et Bork 1998; Gaasterland et Ragan 1998), les protéines présentes dans les mêmes espèces étaient simplement regroupées, le nombre très réduit de génomes séquencés (<10) ne permettant pas d'analyse plus fine. Pour Pellegrini et al. (1999), les profils sont de longueur 16 et même si la base de l'étude repose sur des clusters de protéines aux profils identiques, les profils ayant une position différente sont également considérés. Le nombre de génomes entièrement séquencés ayant doublé chaque année entre 1999 et 2003, les comparaisons de profils reposent maintenant sur un calcul plus fin et plus discriminant entre vecteurs. L'information mutuelle s'est imposée comme distance entre profils (Bowers et al. 2004a; Mellor et al. 2002; Strong et al. 2003; von Mering et al. 2005) même si d'autres donnent des résultats comparables comme le coefficient de corrélation de Pearson (Wu et al. 2003), la distance de Hamming (Zheng et al. 2002; Bilu et Linial 2002 ) ou encore une fonction linéaire discriminante (Marcotte et al. 2000b). L'information mutuelle, une fonction venant de la théorie de l'information, permet de quantifier la co-occurrence des gènes dans les différents génomes à travers la quantité d'information que l'une des variables apporte sur l'autre. L'information mutuelle M(i,j) entre deux gènes i et j est la somme des entropies H(i) et H(j) des distributions de i et de j moins l'entropie combinée H(i,j) des deux distributions (Kullback 1959, Huynen et al. 2000). L'information mutuelle entre deux profils est maximale quand (1) les deux gènes sont conservés dans la moitié des génomes (les entropies individuelles sont alors maximales), et (2) si les gènes sont conservés dans les mêmes génomes (l'entropie combinée est minimale). Des gènes aux profils anti-corrélés, i.e. lorsqu un des deux gènes est présent dans un génome, l'autre est absent et vice et versa, ont aussi tendance à remplir des tâches similaires (Morett et al. 2003; Date et Marcotte 2003). C'est le cas pour les gènes analogues (Galperin et Koonin 2000; Daugherty et al. 2001), i.e. des gènes à la séquence différente qui jouent des rôles similaires dans différents organismes. 21

24 La comparaison deux à deux des profils (corrélation ou anti-corrélation), effectuée grâce à une distance, permet donc de détecter des relations pour des paires de gènes en quantifiant l information de co-évolution. Des informations sur la fonction d un gène non caractérisé peuvent ensuite être déduites de la fonction des gènes associés. 4.2 Réseaux fonctionnels de protéines La méthode des profils phylogénétiques, ainsi que les autres méthodes d'analyse du contexte génomique, permettent de détecter des relations simples (deux à deux) entre des protéines. Ces liens putatifs entre protéines d'un organisme peuvent être utilisés simultanément pour former un réseau (Marcotte et al. 1999b; Osterman et Overbeek 2003; Dandekar et Sauerborn 2002). De tels réseaux permettent de décrypter le fonctionnement cellulaire global d un organisme et l'identification des sous-réseaux peut notamment être très instructive. En effet, la modularité fonctionnelle est sans doute un aspect important des systèmes biologiques (Snel et al. 2002; Ravasz et al. 2002). La détection de modules au sein de ces réseaux, à l'aide par exemple de méthodes de clustering non supervisé (Sokal et Michener 1958; Enright et al. 2002), montre que ces sous-réseaux correspondent à des systèmes cellulaires connus, notamment aux voies métaboliques (74% des enzymes connues de E. coli sont retrouvées ensemble dans un module) (von Mering et al. 2003b; Doerks et al. 2004). Une fonction peut donc être attribuée aux protéines non caractérisées apparaissant dans des modules dans lesquels une fonction ressort significativement. 5 Objectifs de la thèse Notre objectif est de déduire le plus d'informations sur la fonction éventuelle des protéines à partir des séquences génomiques. Cet objectif est particulièrement intéressant dans le cadre d un projet de génomique structurale comme le projet ASG (Après Séquençage Génome) commencé au laboratoire Information Génomique et Structurale (IGS) en Ce projet, réalisé en partenariat avec Aventis, une des plus importantes compagnies pharmaceutiques internationales, a pour but de 22

25 déterminer la structure et la fonction de gènes choisis comme étant des cibles potentielles de nouvelles molécules antibactériennes. En effet, la résistance de certaines bactéries à tous les antibiotiques connus ainsi que leur adaptation aux nouvelles drogues antibactériennes provoque un besoin continu d identifier de telles molécules. Dans ce cadre, des prédictions fonctionnelles sont les bienvenues de même que des partenaires d'interactions potentiels. Cet objectif s'inscrit dans l'effort fait pour mieux connaître les liens entre les protéines à travers une meilleure compréhension des phénomènes de sélection positive que de tels liens imposent au niveau génétique. Mon travail a d'abord été exclusivement centré sur la méthode des profils phylogénétiques appliquée à la bactérie Escherichia coli. Parallèlement au développement d un logiciel basé sur ces travaux, j ai ensuite étendu mon analyse aux trois méthodes d analyse du contexte génomique appliquées aux nombreux organismes procaryotes séquencés. J ai enfin testé et adapté la méthode des profils aux gènes des grands virus à ADN double brin. Ces différentes étapes chronologiques et thématiques forment les chapitres de ma thèse : 1 Nous avons tout d abord procédé à une étude approfondie des profils phylogénétiques des gènes d E. coli. Simultanément à cette étude, nous avons mis en place une procédure permettant une analyse quantitative de l information récupérée pour différents types de profils ainsi que pour différentes distances entre profils. La formule pour construire les profils et la distance utilisée sont les plus adaptées pour détecter les protéines ayant le «mieux» co-évolué. Nous avons également développé une procédure automatique d'annotation fonctionnelle des protéines basée sur ces distances entre profils. 2 De ces travaux est né Phydbac (Phylogenomic Display Of Bacterial Genes), un logiciel web interactif permettant l'affichage des profils des protéines d'e. coli ainsi que la recherche des protéines ayant évolué d une manière corrélée. 3 Une nouvelle version de Phydbac intégrant de manière visuelle toutes les méthodes d analyse du contexte génomique a ensuite été mise en place. Des liens vers les événements de fusions potentielles présents dans FusionDB (Suhre et al. 2004) ainsi que l affichage de voisinages conservés pour un gène cible ont été mis à disposition. De nombreuses nouvelles options permettent à l utilisateur une étude plus approfondie des associations possibles pour un gène d intérêt. 4 Nous avons ensuite centré notre étude sur l amélioration des trois méthodes d'analyse du contexte génomique. Des prédictions fonctionnelles en 23

26 terme Gene Ontology (Harris et al. 2004) ainsi que les associations potentielles sur lesquelles ces prédictions sont basées sont accessibles dans «Gene Function Predictor», une nouvelle base de données liée à Phydbac. 5 Enfin, une interface web pour les profils des gènes viraux ainsi que des domaines retrouvés dans les protéines a été implémenté. 24

27 Chapiitre 1. Amélliioratiion des profiills phyllogénétiiques 1 Introduction Comme vu dans le chapitre précédent, le principe de la méthode des profils phylogénétiques est comparable à celui des méthodes d'analyse de l'expression génétique. Ces méthodes consistent à mesurer le niveau d'expression de gènes dans plusieurs conditions puis à comparer les profils d'expression obtenus. Les gènes ayant des profils corrélés, c'est-à-dire les gènes exprimés de manière similaire dans les différentes conditions, sont dits co-exprimés et ont souvent un lien fonctionnel. Dans le cas des profils phylogénétiques, le niveau d'expression d'un gène dans une condition est remplacé par le degré de similarité de ce gène avec un éventuel homologue trouvé au sein de la bactérie correspondante. Les gènes ayant des profils corrélés, c'est-à-dire les gènes présentant des niveaux de similarités comparables dans les mêmes bactéries, ont donc co-évolué. De la même façon que pour la coexpression, l'hypothèse sous jacente est que la co-évolution de deux protéines implique un lien fonctionnel entre elles. Contrairement à l étude principale (Pellegrini et al. 1999) décrivant cette méthode et dans laquelle les profils sont binaires et basés sur l homologie, nos profils sont continus et basés sur les similarités de séquences. Une nouvelle formule construit le profil d un gène à partir des valeurs des alignements entre le gène correspondant et la séquence la plus similaire dans chaque génome bactérien (Figure 6). Plusieurs distances différentes entre protéines, calculées à partir des profils, sont définies et comparées afin de déterminer la mieux adaptée. Pour réaliser cette comparaison entre types de profil et entre distances, nous avons défini une nouvelle procédure utilisant les informations connues sur les voies métaboliques contenues dans Ecocyc (Karp et al. 2002). En effet, les protéines appartenant à une même voie sont fonctionnellement liées et susceptibles d'avoir été soumises à une pression évolutive similaire. Deux 25

28 populations différentes de couples de gènes sont définies, celle constituée des couples de gènes appartenant aux mêmes voies métaboliques et la population totale. Les distributions des distances au sein de ces populations nous permettent de comparer les différents types de profils (binaires et continus) et les différentes distances entre profils. La comparaison de ces distributions nous permet également d'étudier la validité de la méthode et de ses hypothèses. Une validation supplémentaire est réalisée en utilisant les gènes appartenant à un même opéron. Figure 6. Méthodes des profils phylogénétiques continus. Représentation schématique du génome de E. coli et de quatre autres génomes bactériens et de leurs gènes. (i) Les ORFs présentant une similarité de séquence avec les six gènes de E. coli sont déterminés dans les quatre génomes par BLASTp. (ii) Les profils phylogénétiques de ces six gènes sont construits en fonction du score relatif des alignements. (iii) Une distance phylogénétique est calculée entre chaque couple de gènes. (iv) Plus la distance est faible entre deux gènes, plus une association fonctionnelle entre eux est probable. 26

29 Les distances entre profils nous donne accès, pour un gène donné, aux gènes ayant eu une évolution similaire, i. e. à ses voisins phylogénétiques. Une procédure d'annotation automatique des protéines d'escherichia coli est établie à partir des annotations de ces voisins puis appliquée aux gènes de fonction inconnue. 2 Définition des profils et des distances 2.1 Construction des profils phylogénétiques Dans le cadre du projet ASG, les bioinformaticiens et les biologistes du laboratoire tentent de déterminer la structure et la fonction de certaines protéines de la bactérie Escherichia coli. Cette bactérie est un composant de la flore intestinale des vertébrés, incluant l homme, ainsi qu un pathogène impliqué dans un large spectre d infections intestinales et extraintestinales. E. coli est un organisme modèle sur lequel un savoir extensif a été accumulé tant sur le plan de la biologie moléculaire que de la physiologie. Son génome se présente sous la forme d'un chromosome circulaire d'environ paires de bases (Blattner et al. 1997) contenant environ gènes (Serres et al. 2001). Pour notre étude, les données utilisées sont celles établies sur la souche K-12, qui fut la première séquencée et la plus étudiée. Les informations fournies par Ecogene (Rudd 2000), une base de données sur les gènes et les protéines de cette souche dont les annotations proviennent de la littérature et de l'analyse du génome (expériences et prédictions), nous permettent d'identifier gènes putatifs codant pour des protéines. Déterminer le profil phylogénétique d un gène, c'est-à-dire déterminer dans quels génomes une séquence significativement proche de ce gène est retrouvée, nécessite aussi de sélectionner plusieurs génomes procaryotes. Les 71 génomes bactériens à la séquence complète et publique sont utilisés. Pour chacun de ces génomes, prendre l'ensemble des gènes présents dans les bases de données semble trop restrictif. Pour éviter de passer à côté d'une séquence similaire à un des gènes d'e. coli, des ensembles d'orfs plus larges que les ensembles de gènes annotés sont utilisés pour chaque génome. Un ORF, Open Reading Frame ou cadre ouvert de lecture, est une 27

30 région de l'adn potentiellement codante. Une prédiction de ces régions codantes putatives pour ces génomes est établie en utilisant le logiciel OrfDb. Chaque gène d'e. coli est ensuite comparé à tous ces ORFs bactériens. Le logiciel BLASTp (Altschul et al. 1997) est utilisé pour rechercher les similarités significatives entre ces séquences. Nous obtenons alignements avec un score supérieur à un seuil de significativité fixe et faible (score de BLAST > 50). Cette liste d'alignements est réduite à entrées en ne gardant pour chaque gène et chaque bactérie que le meilleur score entre ce gène et tous les ORFs de cette bactérie. On pose : N = nombre de gènes d'e. coli pris pour l'étude, ici M = nombre de bactéries et d'archaea bactéries prises pour l'étude, ici 71. On note S ab le meilleur score entre un gène a d'e. coli et les ORFs de la bactérie b et s aa le score de BLAST du gène a contre lui même. S ab est bien sûr égal à zéro s'il n'existe pas de séquence similaire au gène a dans la bactérie b. Les scores sont alors stockés dans une matrice R de N lignes représentant les gènes d'e. coli et M colonnes représentant les différentes bactéries. La matrice R est obtenue par (Figure 6): = {( R ) / ( a, b) [ 1, N] [ 1 M ]} avec (, b) R ab, S a : Rab = s Normaliser S ab par s aa permet de rendre les valeurs indépendantes de la taille du gène et comprises entre 0 et 1. ab aa 2.2 Définition des distances gène à gène testées Définissons maintenant différentes distances gène à gène, distances basées sur les profils phylogénétiques de ces gènes ainsi que sur les coefficients de corrélation linéaire entre profils. La formule du coefficient de corrélation c ij entre les profils des gènes i et j est la i, j 1, N suivante : ( ) [ ] 2 M ( Rik Ri. ).( R jk R j. ) M k = 1 c ij = avec : R 1/ 2 i. = 2 k= 1 M M 2 ( Rik Ri. ) ( R jk Rj. ) k = 1 k = 1 R ik M 28

31 Trois distances différentes sont définies, soit ( i, j) [ 1, N ] 2 - la distance euclidienne : : d ( e) ij = M ( Rik R jk ) k = la distance basée sur les coefficients de corrélation linéaire entre profils : d ( c) ij = 1 - la distance euclidienne des coefficients de corrélation linéaire entre profils : c ij d ( ec) ij = N ( cik c jk ) k = 1 2 Les applications d (e) et d (ec) sont bien des distances (distance euclidienne entre des vecteurs) alors que d (c) n'est qu'une application semi-métrique car elle ne respecte pas l'inégalité triangulaire. Pour chaque distance, une matrice carrée ( N N ) contenant toutes les valeurs des distances gène à gène chez Escherichia coli est stockée. Les informations données par chaque distance doivent maintenant être testées, pour estimer à quel point ces données sont représentatives d'une co-évolution, et comparées, afin de déterminer la mieux adaptée à ce type d étude. 3 Comparaison des distances et validation 3.1 Utilisation d'ecocyc Afin de comparer les différentes distances mais aussi de tester la validité de la méthode, nous avons défini une nouvelle procédure utilisant des informations connues sur la fonction des gènes. Les annotations présentes dans la base de données Ecocyc (Encyclopedia of E. coli Genes and Metabolism) sont utilisées comme référence (Karp et al. 2002). Ecocyc est une base de données décrivant la machinerie cellulaire d'e. coli et regroupant la description de toutes les voies métaboliques connues. Cette base de données décrit 202 voies, constituées de 676 gènes différents, apparaissant souvent dans plusieurs voies (1 342 apparitions de gènes au total) (Tableau 1). Les gènes présents dans les voies métaboliques codent pour des enzymes. 29

32 Nom description gène 1 gène CRE-PWY Signal Transduction Syst EG10728 EG11218 EG10730 HISTSYN-PWY histidine biosynthesis EG10446 EG10448 EG10450 EG10451 EG10449 EG10444 THREOCAT-PWY threonine catabolism EG13140 EG10512 EG gènes.. EG11623 EG10990 SORBDEG-PWY sorbitol degradation EG14062 EG10282 EG10971 EG10700 EG10699 ANARESP1-PWY anaerobic respiration EG10024 EG10025 EG gènes.. EG12316 EG10803 Tableau 1. Exemples de voies métaboliques présentes dans Ecocyc. L'hypothèse sur laquelle repose la méthode des profils phylogénétiques est que des gènes ayant évolué de manière corrélée sont fonctionnellement liés. Si cette hypothèse est correcte, les profils des gènes appartenant aux mêmes voies métaboliques devraient être significativement mieux corrélés que ceux de gènes pris aléatoirement. Les distances devraient donc être significativement plus faibles pour des gènes de mêmes voies que pour des gènes pris au hasard. Pour tester ce point, trois populations différentes sont définies : intra-voies : les distances entre les gènes appartenant aux mêmes voies métaboliques, soit valeurs gène à gène. inter-voies : les distances entre les gènes appartenant au moins à une voie et formant un sous-ensemble de 676 gènes, soit valeurs différentes. population totale : les distances entre tous les gènes, soit valeurs. Les trois distances sont comparées à travers leurs distributions et fonctions de répartition pour ces trois populations (pour un exemple, voir le résultat pour la distance d (c) sur la Figure 7). De plus, un intérêt tout particulier est porté aux couples ayant une distance phylogénétique très faible, c'est-à-dire aux gènes ayant évolué de manière similaire. Le zoom sur les queues des fonctions de répartition pour chaque population (Figure 8) montre que 11% des couples de gènes de la population intravoies ont une distance d (c) inférieure à 0,08, contre 9% pour la population totale et seulement 2% pour la population inter-voies. Deux points apparaissent clairement sur les Figure 7A, Figure 7B et Figure 8 établies avec d (c), ainsi que sur celles des autres distances. Tout d'abord, un résultat indispensable pour pouvoir continuer l'étude avec les mêmes hypothèses : les distributions des distances pour intra-voies et inter-voies sont clairement différentes, ces deux ensembles étant pourtant constitués des mêmes gènes. 30

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Cellules procaryotes Service histologie Pr.k.mebarek

Cellules procaryotes Service histologie Pr.k.mebarek Cellules procaryotes Service histologie Pr.k.mebarek I) Les cellules procaryotes II) Les cellules eucaryotes o 1) Caractéristiques générales des cellules eucaryotes o 2) Organisation des cellules eucaryotes

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015 Andrew Tolonen atolonen@genoscope.cns.fr Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015 A- Généralités I- La vie sur terre telle que nous la connaissons ne

Plus en détail

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006 La reconnaissance moléculaire: la base du design rationnel En 1890 Emil Fisher a proposé le modèle "serrure et clé" pour expliquer la façon de fonctionner des systèmes biologiques. Un substrat rentre et

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

Système immunitaire artificiel

Système immunitaire artificiel République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieure Université des Sciences et de la Technologie D Oran Mohammed Boudiaf (USTO) Faculté des Sciences Département d Informatique

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

3: Clonage d un gène dans un plasmide

3: Clonage d un gène dans un plasmide 3: Clonage d un gène dans un plasmide Le clonage moléculaire est une des bases du génie génétique. Il consiste à insérer un fragment d'adn (dénommé insert) dans un vecteur approprié comme un plasmide par

Plus en détail

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE DES PLANTES

Plus en détail

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z

Plus en détail

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE Biologie LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE Février 2006 I. L'INTRODUCTION Chaque cellule d'un organisme supérieur provient de la multiplication d'une cellule préexistante (cellule

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Analyse des données de séquençage massif par des méthodes phylogénétiques

Analyse des données de séquençage massif par des méthodes phylogénétiques Analyse des données de séquençage massif par des méthodes phylogénétiques Roux S., Taib N., Mangot J.F., Hugoni M., Mary I., Ravet V., Bronner G., Enault F., Debroas D. Équipe Microbiologie de l'environnement

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Date : 18.11.2013 Tangram en carré page

Date : 18.11.2013 Tangram en carré page Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches

Plus en détail

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M belayach@fsr.ac.ma 1 1.Le réseau

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

2. Activités et Modèles de développement en Génie Logiciel

2. Activités et Modèles de développement en Génie Logiciel 2. Activités et Modèles de développement en Génie Logiciel Bernard ESPINASSE Professeur à l'université d'aix-marseille Plan Les Activités du GL Analyse des besoins Spécification globale Conceptions architecturale

Plus en détail

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Architecture d'entreprise : Guide Pratique de l'architecture Logique Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web LogAnalyzer Thomas Guyet 1,2, René Quiniou 2 et Marie Odile Cordier 3 1 AGROCAMPUS OUEST 2 INRIA/IRISA Centre de Rennes (Équipe DREAM) 3 Université de Rennes/IRISA (Équipe DREAM) Contact : thomas.guyet@irisa.fr

Plus en détail

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6 Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6 1 1.But et théorie: Le but de cette expérience est de comprendre l'intérêt de la spectrophotométrie d'absorption moléculaire

Plus en détail

Introduction aux bases de données: application en biologie

Introduction aux bases de données: application en biologie Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,

Plus en détail

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION Le candidat est tenu d avoir complété tous les cours préalables à la date limite prévue, soit le 15 septembre pour le trimestre d automne et le 1 er février pour le trimestre d hiver. L Université peut

Plus en détail

grande simple microscope microscope inventé années 1825. biologie = cellule) et (logos de plus en Anglais. Utilise un La microscopie, 1665,

grande simple microscope microscope inventé années 1825. biologie = cellule) et (logos de plus en Anglais. Utilise un La microscopie, 1665, Cours de Biologie Cellulaire Présentés par Mr CHELLI A. FSNV 2012/ /2013 CHAPITRE I : INTRODUCTION A LA BIOLOGIE CELLULAIRE A- Introduction et définitionn de la biologie cellulaire : Il était difficile

Plus en détail

STRUCTURE ET FONCTION DES PLURICELLULAIRES

STRUCTURE ET FONCTION DES PLURICELLULAIRES Plan de cours STRUCTURE ET FONCTION DES PLURICELLULAIRES 101-FYA-PT Pondération 3-1-2 Gilles Bourbonnais (C360) gilles.bourbonnais@dgpc.ulaval.ca Sciences de la Nature / PASC@L http://ici.cegep-ste-foy.qc.ca/profs/gbourbonnais/

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

Bases de Données. Plan

Bases de Données. Plan Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle

Plus en détail

MS PROJECT 2000. Prise en main. Date: Mars 2003. Anère MSI. 12, rue Chabanais 75 002 PARIS E mail : jcrussier@anere.com Site : www.anere.

MS PROJECT 2000. Prise en main. Date: Mars 2003. Anère MSI. 12, rue Chabanais 75 002 PARIS E mail : jcrussier@anere.com Site : www.anere. DOCUMENTATION MS PROJECT 2000 Prise en main Date: Mars 2003 Anère MSI 12, rue Chabanais 75 002 PARIS E mail : jcrussier@anere.com Site : www.anere.com Le présent document est la propriété exclusive d'anère

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration L'évolution de VISUAL MESSAGE CENTER Architecture et intégration Sommaire Résumé exécutif Base technologique : VISUAL Message Center 2 3 VISUAL Message Center Core Engine VISUAL Message Center Extended

Plus en détail

PHYSIQUE Discipline fondamentale

PHYSIQUE Discipline fondamentale Examen suisse de maturité Directives 2003-2006 DS.11 Physique DF PHYSIQUE Discipline fondamentale Par l'étude de la physique en discipline fondamentale, le candidat comprend des phénomènes naturels et

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

La légalité du «marketing viral»

La légalité du «marketing viral» SERVICE PUBLIC FÉDÉRAL ÉCONOMIE, PME, CLASSES MOYENNES ET ÉNERGIE Direction générale Régulation et Organisation du Marché Cellule Economie électronique La légalité du «marketing viral» Septembre 2005 1

Plus en détail

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition 09-0749 1 WHO/EMP/MAR/2009.3 Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition Synthèse des résultats des études publiées entre 1990 et 2006 Organisation

Plus en détail

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution? Les Rencontres de l Inra au Salon de l agriculture Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution? Lundi 23 février 2015 Programme 14h30

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M Communiqué de presse 1 er avril 2014 GÉNOMIQUE TESTS DE DIAGNOSTIC GÉNÉTIQUE R&D Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M Offre sursouscrite 4,7 fois,

Plus en détail

Chaînes de Markov au lycée

Chaînes de Markov au lycée Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat

Plus en détail

2 Grad Info Soir Langage C++ Juin 2007. Projet BANQUE

2 Grad Info Soir Langage C++ Juin 2007. Projet BANQUE 2 Grad Info Soir Langage C++ Juin 2007 Projet BANQUE 1. Explications L'examen comprend un projet à réaliser à domicile et à documenter : - structure des données, - objets utilisés, - relations de dépendance

Plus en détail

Les OGM. 5 décembre 2008. Nicole Mounier

Les OGM. 5 décembre 2008. Nicole Mounier Les OGM 5 décembre 2008 Nicole Mounier Université Claude Bernard Lyon 1 CGMC, bâtiment Gregor Mendel 43, boulevard du 11 Novembre 1918 69622 Villeurbanne Cedex OGM Organismes Génétiquement Modifiés Transfert

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC {Sebastien.Carrere, Ludovic.Legrand,Jerome.Gouzy}@toulouse.inra.fr {Fabrice.Legeai,Anthony.Bretaudeau}@rennes.inra.fr CATI BBRIC 35 bioinformaticiens

Plus en détail

VOLUME I ETUDES DE CAS RELATIFS A DES PROJETS DE PASSATION ELECTRONIQUE DE MARCHES PUBLICS

VOLUME I ETUDES DE CAS RELATIFS A DES PROJETS DE PASSATION ELECTRONIQUE DE MARCHES PUBLICS RAPPORT DE SITUATION VOLUME I ETUDES DE CAS RELATIFS A DES PROJETS DE PASSATION ELECTRONIQUE DE MARCHES PUBLICS JUILLET 2004 Original document in English available at http://europa.eu.int/idabc/eprocurement

Plus en détail

Le test s'est déroulé en trois étapes successives

Le test s'est déroulé en trois étapes successives TEST SUR LES BASES BIBLIOGRAPHIQUES Rapport* du bureau Marcel van Dijk L'étude qui suit présente les résultats du test quantitatif et qualitatif de 5 bases bibliographiques disponibles en France : BNOPALE

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

Université de Lausanne

Université de Lausanne Université de Lausanne Records management et archivage électronique : cadre normatif Page 2 Ce qui se conçoit bien s énonce clairement Nicolas Boileau Page 3 Table des matières Qu est- ce que le «records

Plus en détail

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst Biochimie I Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1 Daniel Abegg Sarah Bayat Alexandra Belfanti Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst Laboratoire

Plus en détail

Instructions relatives à la soumission d une question sur le sujet d étude

Instructions relatives à la soumission d une question sur le sujet d étude Programme de bourses de recherche Amy Mahan pour évaluer l impact de l accès public aux TIC Instructions relatives à la soumission d une question sur le sujet d étude Table des matières À propos la Question

Plus en détail

5. Matériaux en contact avec l eau

5. Matériaux en contact avec l eau Monitoring de la qualité Microbiologique de l eau potable dans les réseaux de distributions Intérêt de l utilisation d un kit de mesure rapide de la flore totale UTLISATIONS 1. Surveillance de Réseau mixte

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

les deux premières années du Bachelor of Science en sciences pharmaceutiques

les deux premières années du Bachelor of Science en sciences pharmaceutiques UNIVERSITÉ DE FRIBOURG SUISSE FACULTÉ DES SCIENCES UNIVERSITÄT FREIBURG SCHWEIZ MATHEMATISCH-NATURWISSENSCHAFTLICHE FAKULTÄT Plan d'études pour les deux premières années du Bachelor of Science en sciences

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail

Interne Forces Faiblesses Externe Opportunités Menaces

Interne Forces Faiblesses Externe Opportunités Menaces L ANALYSE SWOT 1 Pourquoi utiliser cet outil en évaluation? L'analyse SWOT (Strengths Weaknesses Opportunities Threats) ou AFOM (Atouts Faibses Opportunités Menaces) est un outil d'analyse stratégique.

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

Exercices de dénombrement

Exercices de dénombrement Exercices de dénombrement Exercice En turbo Pascal, un entier relatif (type integer) est codé sur 6 bits. Cela signifie que l'on réserve 6 cases mémoires contenant des "0" ou des "" pour écrire un entier.

Plus en détail

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. Synthèse des travaux réalisés 1. Problématique La question D7 du plan d exécution du Programme National de Recherches

Plus en détail

Filière «Économie et Entreprise» 2015/2016

Filière «Économie et Entreprise» 2015/2016 Filière «Économie et Entreprise» 2015/2016 1. Présentation de la filière Économie et Entreprise La filière «Economie et entreprises» de quatrième année de SciencesPo Strasbourg donne aux étudiants, dans

Plus en détail

Chapitre 1: Facteurs d'échelle

Chapitre 1: Facteurs d'échelle Chapitre 1: Facteurs d'échelle Des considérations générales sur la taille des objets ou des êtres vivants et leur influence sur différents paramètres, permettent d'établir simplement quelques lois ou tendances,

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Consensus Scientifique sur. les. Champs statiques

Consensus Scientifique sur. les. Champs statiques page 1/8 Consensus Scientifique sur Source : OMS (2006) les Champs statiques Résumé & Détails: GreenFacts Contexte - Les équipements d imagerie médicale par résonance magnétique (IRM), les trains et les

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie S3 Spécialité : Recherches en psychologie UE OBLIGATOIRES UE 1 : Epistémologie et méthodes de recherche en psychologie Ce séminaire aborde plusieurs aspects de la recherche en psychologie. Il présente

Plus en détail

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique Tuteur : Anne Muhr-Tailleux cardiovasculaires et diabète (Equipe 1) Institut

Plus en détail

plate-forme mondiale de promotion

plate-forme mondiale de promotion plate-forme mondiale de promotion À propos de The Institute of Internal Auditors (Institut des auditeurs internes) L'institut des auditeurs internes (IIA) est la voix mondiale de la profession de l'audit

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition RELÈVE SCIENTIFIQUE AU SERVICE 2 e édition Juin 2011 Réalisé par : Partenaire financier du CQVB : Objectif : Ce répertoire vise à faciliter le maillage entre les étudiants-chercheurs universitaires et

Plus en détail

Le management des risques de l entreprise Cadre de Référence. Synthèse

Le management des risques de l entreprise Cadre de Référence. Synthèse Le management des risques de l entreprise Cadre de Référence Synthèse SYNTHESE L incertitude est une donnée intrinsèque à la vie de toute organisation. Aussi l un des principaux défis pour la direction

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

NOTATIONS PRÉLIMINAIRES

NOTATIONS PRÉLIMINAIRES Pour le Jeudi 14 Octobre 2010 NOTATIONS Soit V un espace vectoriel réel ; l'espace vectoriel des endomorphismes de l'espace vectoriel V est désigné par L(V ). Soit f un endomorphisme de l'espace vectoriel

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Conclusions de la 9ème réunion du Groupe Consultatif du SYGADE

Conclusions de la 9ème réunion du Groupe Consultatif du SYGADE Conclusions de la 9ème réunion du Groupe Consultatif du SYGADE Le Groupe consultatif du SYGADE soumet à l'attention du Secrétaire général de la CNUCED les conclusions suivantes formulées lors de sa 9ième

Plus en détail

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012. 1 Du même auteur chez le même éditeur Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012. AFNOR 2013 Couverture : création AFNOR Éditions Crédit photo 2011 Fotolia

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

La légalité du marketing viral

La légalité du marketing viral Service public fédéral Economie, P.M.E., Classes moyennes et Energie Le SPF Economie vous informe! La légalité du marketing viral La légalité du marketing viral Auteur et traduction La version d origine

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB... Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au

Plus en détail

claroline classroom online

claroline classroom online de la plate-forme libre d'apprentissage en ligne Claroline 1.4 Manuel Révision du manuel: 06/2003 Créé le 07/09/2003 12:02 Page 1 Table des matières 1) INTRODUCTION...3 2) AFFICHER LA PAGE DE DEMARRAGE...3

Plus en détail

1 les caractères des êtres humains.

1 les caractères des êtres humains. Quelques rappels des classes précédentes ACTIVITÉ livre pages 8 et 9 : apprendre le bilan de la page 9 Les êtres vivants sont répartis en espèces. Chaque être vivant est formé de cellules. schéma d une

Plus en détail

Vue d ensemble de la vie microbienne

Vue d ensemble de la vie microbienne Vue d ensemble de la vie microbienne C HAPITRE D EUX I Structure cellulaire et évolution 22 2.1 Les structures cellulaires et virales 22 2.2 L organisation de l ADN dans les cellules microbiennes 24 2.3

Plus en détail