Familles de gènes. Nadia El-Mabrouk

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Big data et sciences du Vivant L'exemple du séquençage haut débit

Génomique Comparative et intégrative

MABioVis. Bio-informatique et la

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Analyse des données de séquençage massif par des méthodes phylogénétiques

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

SysFera. Benjamin Depardon

Les bases de données transcriptionnelles en ligne

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Gènes Diffusion - EPIC 2010

Identification de nouveaux membres dans des familles d'interleukines

Compte-rendu de fin de projet

CHAPITRE 3 LA SYNTHESE DES PROTEINES

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

TEPZZ A_T EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (51) Int Cl.: G07F 7/08 ( ) G06K 19/077 (2006.

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Introduc)on à Ensembl/ Biomart : Par)e pra)que

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Bases moléculaires des mutations Marc Jeanpierre

Élasticité des applications à base de services dans le Cloud

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Recherche pour le bénéfice b. des PME et les Associations de PME: res

Les débuts de la génétique

COMITÉ ADMINISTRATIF ET JURIDIQUE. Quarante-huitième session Genève, 20 et 21 octobre 2003

Accédez au test ici

1 les caractères des êtres humains.

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Mr le Depanneur. Le depanneur est un membre de la disposisition de secours financier Mr le Depanneur ayant un compte depanneur actif ou approuvé.

Eco-système calcul et données

Bases de données des mutations

point On obtient ainsi le ou les points d inter- entre deux objets».

Luca : à la recherche du plus proche ancêtre commun universel Patrick Forterre, Simonetta Gribaldo, Céline Brochier

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Des Big Data aux Big Brothers Jean- Gabriel Ganascia Equipe ACASA LIP6 Université Pierre and Marie Curie Labex OBVIL PRES Sorbonne Université

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

XtremWeb-CH : Une plateforme Global Computing pour les applications de haute performance

Introduction au Data-Mining

Check-list: Collisions entre signes distinctifs

Minimisation de la somme des retards dans un jobshop flexible

Corrigé du baccalauréat S Asie 21 juin 2010

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

COMMUNAUTE ECONOMIQUE ET MONETAIRE DE L AFRIQUE CENTRALE LA COMMISSION

UML (Paquetage) Unified Modeling Language

Restauration Scolaire Lycée Français Josué-Hoffet. Cahier des Charges et Contrat 2014

UE6 - Cycle de vie du médicament : Conception rationnelle

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

CHAPITRE 15 LES CREANCES ET DETTES EN MONNAIES ETRANGERES

Big Data et la santé

L éco-responsabilité appliquée à l informatique

Etude, par simulations, de l intérêt d une sélection génomique dans une population porcine de type mâle

Les OGM. 5 décembre Nicole Mounier

Intégration de la dimension sémantique dans les réseaux sociaux

Base de données bibliographiques Pubmed-Medline

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

La musique et le cinéma

PROGRAMME D HABILETÉS EN FAUTEUIL ROULANT (WSP-F)

Sommeil, fatigue au volant et jeunes conducteurs

STATISTIQUES. UE Modélisation pour la biologie

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

Une nouvelle génération de serveur

Algèbre binaire et Circuits logiques ( )

Introduction à la Génomique Fonctionnelle

C-JDBC. Emmanuel Cecchet INRIA, Projet Sardes.

Présentation d Entreprise

Les structures de données. Rajae El Ouazzani

Goodyear Les pneumatiques longue distance qui font économiser du carburant

Gestion de clusters de calcul avec Rocks

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

Caches sémantiques coopératifs pour la gestion de données sur grilles

Les compléments alimentaires

Formation tableur niveau 1 (Excel 2013)

Prudence, Epargne et Risques de Soins de Santé Christophe Courbage

Visual Taxe 4.1.0B04 minimum

Cours 6. Sécurisation d un SGBD. DBA - M1ASR - Université Evry 1

Crépi Joint à élasticité durable Remontée. Bande d'étanchéité Stahlton et /ou colle de montage et d'étanchéité Stahlton

Réplication des données

GESTION DES EQUIPEMENTS

Gestion des Incidents (Incident Management)

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

Identification interactive des plantes et système d'information collaboratif. P. Bonnet, J.-f. Molino & al. Umr AMAP. Equipe-projet IMEDIA

CH.6 Propriétés des langages non contextuels

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Epreuve de biologie... 2 Annexe : Liste des sujets de la session

Identification des incontournables à la démarche Lean

Recherche d information textuelle

Rapport de certification

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

où «p» représente le nombre de paramètres estimés de la loi de distribution testée sous H 0.

Les ontologies pour l intégration sémantique : enjeux et défis

Port de Saint Laurent du Var - Barème des redevances Année /10

O SUSHI, stratégie de déploiement de 60 boutiques sur le territoire national d ici Depuis 2008, l enseigne développe son réseau de franchises

Transcription:

Familles de gènes Nadia El-Mabrouk

Les gènes Parties codantes de l ADN Unités de base de l héridité. Une fois les gènes identifiés, ils doivent être annotés pour leur fonction.

Familles de gènes Des gènes «apparentés» peuvent être regroupés en clusters, ou éparpillés dans un ou dans plusieurs chromosomes. Par exemple les gènes Globin:

Opazo J C et al. PNA 2008;105:12950-12955 Genomic structure of the β-globin gene cluster in therian mammals.

Duplication de gènes Ohno, 1970, «Evolution by gene duplication»: La duplication de gènes (créant des paralogues) est l évènement évolutif principal entraînant l émergence de nouvelles fonctions. L une des deux copies échappe à la pression de sélection et est libre d évoluer.

Duplication de gènes Cause la plus courante: Recombinaisons inégales au cours de la méiose. En général du à la présence de répétitions. Donne lieu à des duplications en tandem. a) b)

Évolution des gènes a a a b 1 2 3 4 b a c a 1 c 1 a 2 a 2 b 3 b 4 b 1 2 3 4

Évolution des gènes 1 2 3 4 1 c 1 a 2 a 2 b 3 b 4 b 1 2 3 4

Évolution des gènes 1 2 3 4 1 c 1 a 2 a 2 b 3 b 4 b

Homologie, orthologie, paralogie Homologues: Gènes ayant un ancêtre commun. Orthologues: Leur plus récent ancêtre commun a subit une spéciation. Paralogues: Leur plus récent ancêtre commun a subit une duplication Xénologues: Gènes ayant été transmis par transfert horizontal.

Évolution des gènes 1 2 3 4 1 c 1 a 2 a 2 b 3 b 4 b orthologues

Évolution des gènes 1 2 3 4 1 c 1 a 2 a 2 b 3 b 4 b paralogues

Évolution des gènes 1 2 3 4 1 c 1 a 2 a 2 b 3 b 4 b paralogues

Arbre de gènes Pour inférer orthologues/paralogues: 1. Regrouper les gènes par famille. 2. Inférer un arbre de gènes. 3. Le «réconcilier» avec l arbre des espèces pour identifier les duplications et les spéciations.

Familles de gènes Les gènes sont généralement regroupés par similarité de séquences. Hypothèse sous-jacentes: Des gènes «similaires» sont originaires d une même copie ancestrale, i.e. sont homologues. Une variété d outils de regroupements des gènes en familles: COG, InParanoid, OrthoMCL, Proteinortho.

Méthode d homologie de séquence Méthodes des «best BLAT hits»: Regroupe les copies le plus «similaires» en fonction des scores de BLAT. BBH «Bi-directional best Blast Hit»: Meilleur score de similarité dans «les deux sens»

La base de données COG COG: Clusters of Orthologous Groups of Genes Classifie les protéines des génomes complètement séquencés en se basant sur le concept d orthologie. Idée générale: un «bidirectional best hit» n est considéré que s il est «confirmé» par une troisième séquence. Les membres d un COG doivent appartenir à au moins 3 espèces. Cette validation avec une 3 ème séquence a pour but d éviter les erreurs causées par la perte de gènes: choix d un paralogue plutôt qu un orthologue. a b c

Arbre de gènes Pour inférer orthologues/paralogues: 1. Regrouper les gènes par famille; 2. Inférer un arbre de gènes 3. Le «réconcilier» avec l arbre des espèces pour identifier les duplications et les spéciations.

Arbres de gènes Méthodes phylogénétiques diverses et variées PHYLIP, NJ, PAUP, PhyML, MrBayes, RAxML Banques de données d arbres de gènes divers et variés: Ensembl Compara, PHOG, MetaPHOrs, PhylomeDB, PANTHER.

EXEMPLE Arbre d Ensembl Hedgehog proteins (onic, Indian, Desert)

Arbre de gènes Pour inférer orthologues/paralogues: 1. Regrouper les gènes par famille; 2. Inférer un arbre de gènes 3. Le «réconcilier» avec l arbre des espèces pour identifier les duplications et les spéciations.

Réconciliation Arbre de gènes G pour une famille {g1, g2, g3, g4, g5} provenant des génomes {a,b,c,d} G a b c d g1:a g2:b g3:b g4:c g5:d

Réconciliation On ne garde que le nom du génome de provenance G a b c d a b b c d

Réconciliation Expliquer la différence entre G et par des événements de spéciation, duplication et pertes. G a b c d a b b c d

Réconciliation péciation. G peciation a b c d a b b c d

Réconciliation Duplication deux copies dans le génome b G a b c d a b b c d

Réconciliation Duplication deux copies dans le génome b une duplication doit avoir eu lieu G Duplication a b c d a b b c d

Réconciliation Duplication deux copies dans le génome b une duplication doit avoir eu lieu à l un des deux ancêtres G Duplication a b c d a b b c d

Réconciliation Perte Duplication avant la spéciation a-b: a aurait dû avoir deux copies aussi Une copie a dû être perdue dans a G Perte a b c d a b b c d

Réconciliation G a b b c d a b b c d

Réconciliation Critère de parcimonie: Minimiser duplications+pertes (mutation cost) G g e f a1 b1 b2 c1 d1 a b c d Arbre réconcilié g e e e f a1 b1 a2 b2 c1 d1

LCA Mapping LCA Mapping (Bonizzoni et al., 2003) Chaque nœud de G est associé au LCA de ses feuilles dans. g G e f a b c d a b b c d

LCA Mapping LCA Mapping (Bonizzoni et al., 2003) Chaque nœud de G est associé au LCA de ses feuilles dans. e g f e e g G f a b c d a b b c d

LCA Mapping LCA Mapping (Bonizzoni et al., 2003) Chaque nœud de G est associé au LCA de ses feuilles dans. Un nœud de G une duplication ssi il a la même étiquette que l un (ou les deux) de ses fils. e g f Duplication e e g G f a b c d a b b c d