Génomique Comparative et intégrative



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Bases de données des mutations

Gènes Diffusion - EPIC 2010

CATALOGUE DES PRESTATIONS DE LA

Big data et sciences du Vivant L'exemple du séquençage haut débit

Génétique et génomique Pierre Martin

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Biomarqueurs en Cancérologie

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

MABioVis. Bio-informatique et la

Bases moléculaires des mutations Marc Jeanpierre

Les OGM. 5 décembre Nicole Mounier

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Hémochromatose génétique non liée à HFE-1 : quand et comment la rechercher? Cécilia Landman 11 décembre 2010

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

3: Clonage d un gène dans un plasmide

Identification de nouveaux membres dans des familles d'interleukines

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

VI- Expression du génome

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

Les tests génétiques à des fins médicales

Détection et prise en charge de la résistance aux antirétroviraux

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

MYRIAD. l ADN isolé n est à présent plus brevetable!

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

TD de Biochimie 4 : Coloration.

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Univers Vivant Révision. Notions STE

Chapitre 2 - Complexité des relations entre génotype et phénotype

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Exercices de génétique classique partie II

Séquence 1. Reproduction conforme de la cellule et réplication de l ADN Variabilité génétique et mutation de l ADN

I. La levure Saccharomyces cerevisiae: mode de vie

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Bases de données et outils bioinformatiques utiles en génétique

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?

Introduction à la Génomique Fonctionnelle

Les débuts de la génétique

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Que faire lorsqu on considère plusieurs variables en même temps?

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

INFORMATION GÉNÉTIQUE et REPRODUCTION SEXUÉE

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

Cellules procaryotes Service histologie Pr.k.mebarek

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

INF6304 Interfaces Intelligentes

ROTARY INTERNATIONAL District 1780 Rhône-Alpes Mont-Blanc Don volontaire de cellules souches

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Hépatite chronique B Moyens thérapeutiques

EXERCICES : MECANISMES DE L IMMUNITE : pages

La résistance d'agents infectieux aux médicaments antimicrobiens

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

COUSIN Fabien KERGOURLAY Gilles. 19 octobre de l hôte par les. Master 2 MFA Responsable : UE Incidence des paramètres environnementaux

Séquence 2. L expression du patrimoine génétique. Sommaire

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Conférence technique internationale de la FAO

Contrôle de l'expression génétique :

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

FICHE N 8 Photodiversité, d une banque d images à un portail d activités en ligne Anne-Marie Michaud, académie de Versailles

1 les caractères des êtres humains.

L axe 5 du Cancéropole Nord Ouest

LA TRANSMISSION DES CARACTÈRES

Information génétique

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Base de données bibliographiques Pubmed-Medline

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

AMAMI Anaïs 3 C LORDEL Maryne. Les dons de cellules & de tissus.

Le but de la radioprotection est d empêcher ou de réduire les LES PRINCIPES DE LA RADIOPROTECTION

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Comparaison des enjeux énergétiques de la France et de l Allemagne

Feuille d exercices 2 : Espaces probabilisés

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

Samuel Bassetto 04/2010

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Gènes de prédisposition au diabète, une belle avancée!

Principales causes de décès selon le groupe d âge et plus

Traitement bas-niveau

LIVRE BLANC Pratiques recommandées pour l utilisation de Diskeeper sur les réseaux SAN (Storage Area Networks)

données en connaissance et en actions?

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Les réseaux cellulaires

Dépistage drépanocytose. Édition 2009

I - CLASSIFICATION DU DIABETE SUCRE

eduscol Santé et social Enseignement d'exploration

Au-delà du coalescent : quels modèles pour expliquer la di

Les renseignements suivants sont destinés uniquement aux personnes qui ont reçu un diagnostic de cancer

Les tests de génétique moléculaire pour l accès aux thérapies ciblées en France en 2011

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Transcription:

Génomique Comparative et intégrative Introduction : Le big data : on peut traiter des données massives à présent, l'objectif à présent est d'éviter les transferts de données trop longs. On a tout à portée de main à présent, on a la possibilité de questionné plus les données pour en savoir plus sur le vivant. Un autre changement important en biologie, c'est un passage d'une biologie analytique (on se focaliser sur un gène, adn) à un niveau d'intégration supérieur, systémique (plus isolement mis dans son complexe, ou dans son réseau d interaction), grâce notamment au haut débit. On va vraiment vers l'intégrative. On est passé de 1996 du premier génome complet, à des milliers de génomes en 2013 (dont projet 1000 génomes). On passe à une comparaison à très grande échelle, permettant d'en savoir plus l'évolution. Mais on peut faire des comparaisons plus proche, pour savoir les régions génomiques conservés, et du coup pour trouver des régions importantes du génome. On peut aussi se rapprocher entre espèces très proches (exemple homme primate) pour savoir les éléments génétiques qui sont propre à l'homme. On peut aller plus loin maintenant, on peut avoir plusieurs génomes d'une même espèce, par exemple pour comparer des personnes saines, et malades pour trouver ce qui va favoriser la formation de la maladie. Ainsi on pourra tester nos génomes, pour savoir si on a tel élément génétique qui va former une maladie ou d'adapter le traitement en fonction du génome, vers une génomique personnalisé. On peut même séquencer plusieurs cellules d'une même tumeur, et comparer les génomes à l'intérieur de la tumeur (comparaison du même individu). On peut s'intéresser à la présence d'un gène, mais aussi de micro ARN. On peut aussi voir entre la sourie et l'homme s'il y a des introns en plus, des variations de longueurs, positions. Une autre chose qu'on compare c'est l'organisation des éléments génétiques. Sinon les séquences génomiques, pour regarder les régions conservées entre les organismes, pour essayer voir ce qui est fonctionnel. En faisant ces comparaisons on cherche à savoir l'évolution des génomes, pour comprendre comment évolue les génomes, par exemples dans le génome pathogènes, quelles sont les tendances général, et essayer de comprendre comment ça marche. Et puis il y a des aspects plus applicatifs on va s'appuyer sur le fait qu'on est plein de séquences pour les interpréter, pour comprendre comment les gènes sont réguler, qu'ils fonctionnent : c'est beaucoup plus complexe. La génomique comparative est donc beaucoup utilisée pour ça. Aussi utilisé pour comparer des pathogènes pour savoir s'ils sont sensibles à un antibiotique, pour connaître les gènes impliqués dans cette résistance. Pour finir le coté génomique personnelle. I) L'évolution de l'adn a) Nature, cause, longueur des variations, polymorphismes et devenir des variations Il y a de nombreuses types d'événements : substitutions, réarrangement équilibré et déséquilibrés, modifications des nombres de chromosomes, et par transferts horizontales : Réarrangement équilibré peuvent être une - Inversion de l'adn (un morceau d'adn des deux brins s 'échange), - Translocation il y a déplacement de deux régions qui s'échangent, alors que la transposition un seul fragment se déplace. 1

Réarrangement déséquilibrés : - il y a des duplications, avec une seule région qui se retrouve à plusieurs endroit du génome : par exemple en tandem : ADN satélique, minisatelite : on retrouve donc des duplications proches l'une de l'autre. Il y a aussi inversée ou une copie est inversée, mais c'est plutôt rare. Pour finir dispersé, qu'on retrouve plus loin dans l'adn, souvent à cause de transposons à ADN. - Pour terminer les délétions, ou il y a une séquence d'adn qui est perdu. Modifications du nombre de chromosomes : - fusion de 2 chromosomes en 1, mais aussi fission ou 1 chromosome donne 2 chromosomes. - L'aneuploïdie ou un (ou plusieurs chromosomes) sont en nombre anormal, le cas le plus connu étant la trisomie 21. - La polyploïdie (duplication du génome complet) : autopolyploïdie : le génome se duplique (une ou plusieurs fois) à l'intérieur d'une même espèce. Allopolyploïdie : le génome est dupliqué suite à l'hybridation entre 2 espèces proches. L'ADN peut aussi varier quand le génome vient d'ailleurs, avec une rencontre avec un autre organisme (transfert horizontale) : - D'abord il y a la transformation : récupération d'un ADN et intégrer à son ADN. - La conjugaison appariement, mise en place d une structure d échange et transfert d ADN à la cellule acceptrice, - La transduction qui est un transfert de gènes par l'intermédiaire d'un bactériophage ou d'un virus (incorporation d ADN de la cellule hôte au moment de l encapsidation). - Le parasitisme, symbiose : à cause de la proximité il se peut que l'hôte puisse récupérer l'adn du parasite, l'inverse est aussi possible. Grâce aux intégrases il est possible d'intégrer de l'adn à des sites spécifiques. Les variations sont causées par des divers facteurs. - Il y a les facteurs exogènes : due à des molécules réactives, ou encore par des radiations. - Puis les facteurs endogènes, comme les accidents lors de la réplication et réparation, action 2

d'endonucléase ou de topoisomérases, recombinaisons ectopiques illégitimes => éléments répétés, et action des éléments mobiles (transposons, et rétrotransposons, phages virus, plasmides) Les variations sont de tailles variées : il y a les petites variations : Mutations ponctuelles et dans ce cas une seule base est affectée (insertion, délétion, décalage de cadre de lecture, substitution, mutation faux sens et non-sens ou synonyme dans les régions codantes). - Mutations à petite échelle (<1KB ou 50pb suivant les auteurs) : délétion/insertion, duplication et inversion. Les variants sont répertoriés dans la banque dbsnp (NCBI) Puis il y a ceux de plus de 1KB (ou 50pb) : - Insertion, invertion, transposition d'éléments mobiles, délétions, duplication et translocation. Cela inclus les variations du nombre de copie d une région génomique. Banque dbvar Le polymorphisme : Coexistence naturelle de séquence alternative (allèles) pour un locus donné dans une population. L allèle le moins fréquence représente >1% de la population. Sinon considéré comme une mutation rare. (Exemple : SNP, CNP, VNTR). Un exemple est le cancer du côlon cible chimio thérapeutique : la thymidiate synthase (essentielle à la prolifération cellulaire) Lors d'une mutation, quand il y a aucun effet apparent : on appelle ça le polymorphisme neutre. Puis il y a du polymorphisme qui peut avoir des conséquences fonctionnelles : - Transcription (par exemple une mutation dans un promoteur il y a modification du pattern d'expression) - Stabilité des ARNm (par exemple mutation dans un site de polyadénylation => dégradation de l ARNt) - Traduction (exemple : traduction interrompue prématurément suite à une mutation non-sens ou un indel qui cause un décalage de cadre.), - Stabilité ou localisation de la protéine (exemple : mutation qui altère le repliement de la protéine.) - Fonction de la protéine Le devenir des variations : - Sélection et neutralisme : fitness = valeur adaptative ou sélective = succès reproducteur => nombre de descendants viables et fertiles. Une variation peut être neutre, délétère ou avantageuse. - Sélection positive : Augmentation de la fréquence des allèles - Sélection négative (purifiante) - Dérive génétique (Genetic drift) : Fluctuation aléatoire de la fréquence des allèles. Particulièrement important dans des petites populations, après un goulot d étranglement, effet fondateur. Une mutation délétère peut se propager par dérive génétique. La sélection directionnelle qui peut être positive ou négative : si l'allèle est très mauvais il sera supprimé, et dans le cas contraire il sera multiplié (exemple dans la mutation du gène de lactase permettant à 80% de la population de digéré le lait à l'âge adulte. Dans le cas de la sélection stabilisante on reste dans les valeurs moyennes, les extrêmes sont éliminés. 3

Dans le cas de la sélection diversifiante, c'est le contraire on garde les valeurs extrêmes. La sélection balancée : il y a plusieurs sélections, et privilégie le fait d'avoir plusieurs allèles différents qui fonctionnent ensemble. II) Méthodologie de base en génomique comparative : a) Prédiction des relations d orthologie/inparalaogie/outparalogie Orthologues : Les gènes ici d'un être commun par un événement de spéciation. Paralogues : Viennent de la même espèce et il y a un événement de duplication : deux exemplaire d'un gène. Devenir des paralogues après duplication : - Il se peut qu'un des gènes garde sa fonction et l autre dégénère : pseudogène. - Il se peut qu un des gènes garde sa fonction initiale et que l autre évolue rapidement ce qui amène vers une nouvelle fonction. - Dans le cas où le gène ancestral ait plusieurs fonctions, les deux gènes peuvent perdre une partie de leur fonction ce qui formerait une complémentation. - Ou bien maintien de la fonction ancestral mais spéciation Inparalogue : On considère qu'ils sont encore proches. Emerge après la séparation des deux espèces Outparalogue : Ils sont considérés comme divergents. Proviennent d une duplication qui a eu lieu avant la spéciation. 4

Exemple : - Chez l'homme on voit que les gènes MTM1, MTMR1 et MTMR2 viennent d'un gène ancestral qu'on voit chez la drosophile : on peut donc dire qu'il y a eu duplication. - On voit la différence entre homo sapiens et musculus et on voit qu'il manque un gène chez la sourie! Il manque donc un gène chez la sourie. Chez l'homme ils sont coortologues à ceux de melanogaster. Et sont inparalogue entre eux. Certains programmes essayent de prédire les orthologues : On fait du blast de chaque protéine d'un génome sur l'autre. Meilleur hit réciproque : on regarde le meilleur hit dans chaque protéine. Puis on le fait dans l'autre sens. On a aussi Orthoinspector : Blast sur une protéine, recherche des inparalogues. On va considérer que toutes les protéines trouvé avant celle d'une autre espèce sont inparalogue par rapport à cet organisme. Et il y a aussi OrthoMCL et Inparanoid. 5

Mais on trouve notamment des méthodes basés sur la phylogénie : besoin d'un alignement multiple (difficile si les séquences deviennent divergentes). Mais pas de méthode purement basé sur la phylogénie car besoin d'une base de données. Comparaison de méthodes existantes : Spécificité = mesure la capacité d'un test à donner un résultat négatif lorsque l'hypothèse n'est pas vérifiée (Quand faible : sous-prédiction) Sensibilité = mesure sa capacité à donner un résultat positif lorsqu'une hypothèse est vérifiée (Quand faible : sur-prédiction). b) Comparaison de l organisation chromosomique Synténie (synteny) : Définition classique : co-localisation d éléments génétiques sur un même chromosome Définition récente : conservation de l ordre des gènes Recherche de synténie entre espèces : - 1ère approche: alignement de séquences génomiques - 2ème approche (basée sur les gènes) : o Identification des gènes orthologues entre 2 génomes o Localisation physique sur le ou les chromosomes o Identification de gènes «co-localisés» avec critères plus ou moins stricts o Eventuellement représentation graphique (ex : GenePlot au NCBI pour les procaryotes : best hit réciproque au niveau protéique et localisation des orthologues sur une matrice de points) c) Alignements de séquences génomiques Alignement 2 à 2 (pairwise alignments) : - Blastz Z (et LastZ): Adapté à la comparaison de chromosomes (élimination des éléments répétés, génération des alignements en 2 étapes pour augmenter la longueur, parsing des résultats) - Blat : Blat nucléique : adapté pour recherche rapide de très forte similarité (ex : primates). Translated Blat : recherche rapide de similarité après traduction, utilisable pour espèces plus éloignées 6

Chainage et filtrage des alignements 2 à 2 : - Chainage (chained alignments) : Construction d ensembles ordonnés d alignements compatibles réunis par des gaps - Filtrage (net alignments) : Sélection du meilleur alignement chainé pour chaque région génomique Alignement multiple : - MultiZ : Se base sur les alignements BlastZ - PECAN :Construit un alignement global à partir de blocs synténiques. Accepte des séquences de longueur très différentes. Nécessite un arbre phylogénétique - EPO (Enredo, Pecan, Ortheus) Enredo : Recherche de segments colinéaires Pecan : Alignement multiple Ortheus : Reconstruction de la séquence ancestrale Analyse des conversations à partir d alignements : - GERP (Genomic Evolutionary Rate Profiling) : Calcul d un score de conservation à chaque colonne. Identification des éléments conservés (recherche de suite de bases conservées) - PHAST (Phylogenetic analysis with space/time models) o phylop : Estime conservation au niveau de chaque nucléotidique (+ rapide ou + lente qu attendue si évolution neutre) o phastcons : Tient compte de la conservation des nucléotides adjacents (probabilité qu un nucléotide appartienne à un élément conservé) III) Évolution des génomes : a) Plasticité chromosomique Réarrangements fréquents chez les procaryotes : - Ordre des gènes (synténie) moins conservé que gènes eux-mêmes. - Synténie (entre espèces éloignées) ne concerne que de petits clusters de gènes 7

Réarrangements fréquents chez les eucaryotes : - Réarrangements fréquents mais plus difficiles à estimés, cf qualité des génomes, variations en taille - Hotspots de réarrangements / courts blocs synténiques : répartition des réarrangements n est pas uniforme. Les éléments répétés (éléments répétés simples, transposons, rétrotransposons, gènes dupliqués ) favorisent les recombinaisons - Le nombre de génération/an influence la fréquence des réarrangements Duplications chez les eucaryotes - Expansion différentielle d éléments répétés suivant les lignées ex : à l intérieur des plantes, vertébrés - Multiplication de certaines familles de gènes : très grandes familles multigéniques chez plantes et vertébrés - Polyploïdisations : très fréquentes chez les plantes : événements ancestraux + nombreux événements indépendants à l événements indépendants à l intérieur des Angiospermes. Plusieurs événements chez les «champignons» (Fungi). 1 duplication à la base des Vertébrés (env 500 millions d années) puis peu au cours de l évolution récente des Vertébrés à l exception des : poissons, certains amphibiens. Plasticité chromosomique : on voit tous les chromosomes d'une espèce (exemple : rat) et on retrouve les chromosomes, et l'ensemble du rat a été aligné avec ceux humain et de la souris. Ce que sa représente : des couleurs qui représentent un chromosome chez l'humain et la souris. Donc on peut voir facilement les réarrangements. Large scale analysis of imparalogy : On cherche les relations de coorthologie entre gènes inparalogue. Plus on est vers le rouge plus il y a de relation 1 à plusieurs entre les génomes. (Donc si c'est rouge on a donc de nombreux gènes pour un gène d'une autre espèce) On a plusieurs gènes de vertébrés pour un gène d'invertébré : expliqué par les duplications de gènes. 8

Duplication et perte différentielles : nombreux événements de pertes et duplications spécifiques à chaque lignée. Par exemple la duplication est plus importantes chez la sourie. Mais il y plus de duplication spécifique. Transfert horizontale : détection des événements - Signature génomique différente (composition en nucléotides, fréquence des oligonucléotides, usage des codons) - «cicatrice» du transfert - arbre phylogénétique atypique exemple : Hydrogénase Ne pas confondre avec héritage vertical + duplication et perte différentielles (difficile à quantifier) Gènes souvent «échangés» : - diffusion de résistance aux antibiotiques, de déterminants de pathogénicité, de détoxification - clusters de gènes photosynthétiques et liés à la symbiose (symbiosis islands) mosaïque de gènes assemblés par de multiples événements de transferts et véhiculés par des cyanophages - capacité à exploiter de nouvelles ressources (transporteurs, enzymes de dégradation ) - Mais peu de transferts pour les gènes «informationnels Acquisitions par HGT chez les Procaryotes - très fréquentes entre organismes proches - nombreux exemples entre organismes très éloignés (entre Bactéries et Archées (cf P. abyssi), acquisitions de gènes eucaryotes dans cas de symbiose ou de parasitisme intracellulaire. Acquisitions par HGT chez les Eucaryotes - Acquisition de gènes procaryotes suite à une acquisition de gènes procaryotes suite à une endosymbiose endosymbiose (ex: gènes mitochondriaux devenus nucléaires) - Beaucoup moins nombreux que chez Procaryotes, en particulier chez les pluricellulaires Evolution réticulée (résultant de l'hybridation interspécifique) : remet en cause la notion d arbre => réseau 9

b) Conséquence de cette plasticité Pertes et duplication différentielles, innovations, acquisitions par transfert horizontal => disparité des histoires évolutives Philomes : arbres phylogénétiques de l ensemble des protéines (ou des gènes) d un organisme On peut aussi le voir à l intérieur d une famille, et d un genre. Diversité génétique intraspécifique : Pan-génome : le répertoire global de gènes d une espèce (somme de tous les gènes présents dans ou plusieurs souches d une espèce) - gènes communs essentiels à l espèce (core genes) - gènes accessoires (dispensable genes) - Pan-génome fermé : niche isolé avec des limites accès à l ensemble global des gènes de microorganismes. Pan-génome ouvert : Environnement multiple, multiple voies, et échange de matériel génétique. 10

c) Niches écologiques et dynamique des génomes procaryotes Réduction extrême : Candidatus Tremplaya princeps, hôte : cochenille - 2 Symbiotes bactériens (fournissent des acides aminés essentiels) à l hôte. o Candidatus Tremblaya princeps (140 gènes) o Candidatus Moranella endobia (452 gènes) - Moranella vit à l intérieur de Tremblaya! Catégories fonctionnelles : - Nombre de gènes quasi-indépendant de la taille du génome (à l exception des intracellulaires les plus dégradés) : traduction, division cellulaire, métabolisme et transport des nucléotides - Nombre de gènes proportionnel à la taille du génome : enzymes du métaboliques, transporteurs, réplication et réparation de l ADN - Fraction augmente avec la taille du génome : régulateurs de la transcription transduction du signal d) Vitesse d évolution Variation spécifique Variation fonctionnelle 11

Variation fonctionnelles et spécifique e) Phylogénomique du vivant Différente représentation : Complexité ancestrale : 12

IV) Génomique comparative appliqué a) Prédictions de fonctions et liens fonctionnels Prédictions de liens fonctionnels par profils phylogénétiques : Hypothèse : les gènes impliqués dans même processus cellulaire sont soumis à la même pression (perte ou acquisition de l ensemble des gènes) Méthode : étude de la présence/absence de gènes dans les génomes complets Gènes susceptibles d intervenir dans une même voie métabolique ou un même complexe structural Détermination de la «fonction» de gènes inconnus Inférences fonctionnelles : métabolisme du PI5P Prédictions de 4 complexes : 2 confirmations expérimentales Méthode des profils phylogénétiques, Prédictions d interactions protéine-protéine Complexe phosphatase kinase régulateur : régulation spatiale fine du turn-over des phosphoinositides Méthode du contexte génomique Constat : la synténie est très faible entre génomes éloignés. Observée pour des opérons ou des clusters de gènes reliés fonctionnellement (même voie métabolique, même complexe macromoléculaire...) Méthode : recherche des gènes co-localisés dans les génomes procaryotes pour prédire la fonction de gènes inconnus 13

Méthode de la pierre de Rosette Principe: les gènes impliqués dans le même complexe ou dans la même voie peuvent fusionner au cours de l évolution (Détection de liens fonctionnels impliquant un partenaire inconnu) Avantage : applicable aux eucaryotes Inconvénient : les domaines ubiquitaires doivent être éliminés Dans certain organismes 2 gènes fusionnent : donc lien fort (Attention au domaine Ubiquitaire) String Base de données et web ressource d interaction protéine-protéine connu ou prédit. Les intéractions inclus direct (physique) et indirect (fonction) association. Sont dérivé de quatre sources : - Contexte génomique - Expérimentation à haut débit - Coexpression - Connaissance précédentes. b) Localisation d éléments fonctionnels Régions codantes (et UTR) 6% à 15% du génome humain a été estimée être contraint parmi les mammifères placentaires. Beaucoup plus que les 1,2% occupée par les séquences codantes pour la protéine => Importance des éléments non-codantes conservées (CNE) - Gènes des ARN non codants (ncrna) (Gènes qui ne codent pas pour des protéines (trna, rrna, mirna )Meilleure conservation au niveau des structures secondaires - Régions régulatrices Régulation : la vision classique 14

Cis-contexte : la séquence Promoteur proximal - 76% des core promoteurs humains manque des éléments TATA-like - 54% mange le consensus INR - 46% des promoteurs humains n ont pas de TATA-like et élément INR - Ilôts CpG (régions génomiques présentant un enrichissement en dinucléotides CpG) - Abondants au sein des promoteurs «larges» (gènes ubiquitaires) Séquence régulatrice 15

Transcontexte L épigénétique Epigénétique : influence de l environnement sur l expression des gènes. Epigenome: L état de chromatine a été trouvé parmi le génome, défini par un point donné et type cellulaire. Pour un génome donné il peut y avoir 100 ou 1000 épigénome dépendant de la stabilité de l état de chromatine. Un nucléosome : ~147 bp d ADNet 1 octamère de protéines histones Modification des histones (méthylation, acétylation...) =>compaction/décompaction de la chromatine, répression ou activation de la transcription des gènes voisins Méthylation de l ADN => Méthylation des cytosines qui entraine généralement une répression de la transcription Localisation des régions régulatrices : nécessité d approches intégratives. Il y a les analyses in silico : - Recherche de site de fixations de facteurs de transcription. A partir d un motif consensus, ou à partir d un modèle : méthodes d apprentissage) o Construction d un modèle décrivant le set d apprentissage o Comparaison du modèle à de nouvelles séquences => scores o HMM (ex HMMsearch), profil = PSSM (ex: MatInspector, Match) Nécessité de filtre : Position par rapport aux gènes, conservation. - Recherche de régions conservés non codantes (phylogenetic footprinting et phylogenetic shadowing) Recherche d éléments communs à un grand groupe => Phylogenetic footprinting (Ex pour les mammifères : comparaison homme/souris (séparation : 70-90 millions d années)) Recherche d éléments plus récents => Phylogenetic shadowing (Ex : trait apparu chez les primates) Problème : forte conservation : - distinction impossible entre conservation fonctionnelle et conservation passive - augmenter la divergence en multipliant le nombre d espèces Localisation des régions régulatrices : les Méthodes expérimentales - Identification des sites de fixation d une protéine sur l ADN par Immunoprecipitation de la chromatine (ChIP) => ChIP on chip, ChIP-seq 16

- Identification des sites accessibles de l ADN : Accessibilité à la DNAse (DNAse-seq), Faire-seq. Encyclopédie d éléments ADN (ENCODE) : Consortium international But : catalogue complet des éléments fonctionnels sur le génome humain 1ère phase : 1% du génome humain Sept 2007 : début de la phase production - Echelle du génome complet - Développement de protocoles expérimentaux standardisés - Unification des formats de données - Utilisation de séquençage de nouvelle génération c) Recherche de cibles par corrélation génotype/phénotype Identification de gènes impliqués dans la pathogénicité ou la résistance 17

Analyse soustractive Exemple : recherche de cibles thérapeutiques Comparaison d espèces pathogènes proches : Gènes impliqués dans la spécificité de l adaptation à l hôte, Facteurs de virulence. Cils/flagelles impliqués dans de nombreux aspects du développement chez les Vertébrés (migration cellulaire, polarisation ) Anomalie : maladie des reins, dégénérescence de la rétine, syndrome de Bardet-Biedl associant obésité, retard mental, hexadactylie, rétinite pigmentaire, malformation rénale et génitale Génomique comparative : Identification des protéines eucaryotiques impliquées dans la biogénèse et la fonction des cils/flagelles. Présence de cil/flagelle et de corpuscule basal chez : animaux, algues 18

Limites de l approche : - seuil de détection par BlastP - gènes à rôle multiple (tubulin, kinesin ) conservation chez tous les Eucaryotes - gènes apparus plus tardivement (ex : spécifiques des mammifères) - V) Génomique personnelle Génomique personnelle : analyse du génome d un individu Objectifs : Connaître le terrain génétique d un individu - Probabilité d apparition d un trait phénotypique (risque de développer une maladie) - réponse aux médicaments => adaptation des traitements - identifier les facteurs génétiques responsables ou impliqués dans les maladies Génomique des populations : - Spécificité des populations - Evolution, spéciation - Histoire des populations (ex: migrations des populations humaines) - Le génome humain de référence 2001 : 1er draft «du» génome humain 2004 : assemblage de haute qualité (99% de la séquence euchromatique) Génome humain de référence : séquence consensus dérivée d une mosaïque d individus et haploïde Les génomes individuels : Accès aux variations génétiques à l échelle du génome complet Génomes diploïdes => connaissance des paires d allèles Exome : ensemble des exons Les exons codants représentent ~1,2% du génome humain (environ 30 millions de bases) - Gain de temps, d argent - Gestion et analyse des données facilitées - Focalisation sur les régions les plus riches en mutations délétères. o exome=> 85% des mutations référencées dans desmaladies Séquençage : - l ensemble des exons (régions codantes et UTR) / uniquement régions codantes 19

- Peut inclure les sites d épissage (bordure d introns) => nécessite une phase d enrichissement d exons Ex : enrichissement par capture d hybrides en solution ou sur support solide (puces) Capture des exons par hybridation en solution Puces à ADN ciblées pour détecter des SNP Fragmentation de l ADN, dénaturation, marquage Hybridation sur une puce, détection de la fluorescence : soit SNP connus soit détection de nouveaux SNP (4 bases testées) Les grands projets d étude des variations génétiques humaines - Human Genome Project - SNP consortium - International HapMap Project (Phases I, II, III) (=> haplotype map) o The International HapMap 3 Consortium. Nature 2010 Méthodes : puces => SNP, CNV (Copy Number variation) séquençage de régions génomiques Données : 1184 individus provenant de 11 populations - Le projet 1000 génomes Le projet 1000 génomes : Le but est de trouver le plus possible de variant génétique qui ont des fréquences supérieur à 1% de la population étudié. Caractérisation du spectre humain de variation génétique géographique et fonctionnel Une fondation pour examiner la relation entre génotype et phénotype Une ressource pour aider la compréhension de la contribution génétique des maladies Pilote phase, Objectif : Développer et comparer différentes approches et plateformes 20

Polymorphisme : Fréquence de l allèle minoritaire >1% Mutations - Allèle commun : >5% - Allèle peu fréquent : entre 0,5 et 5% - Allèle rare : <0,5% - Allèle privé : présent dans quelques individus Maladies - Rares : affectent moins de 500 personnes sur 1 million - Ultra-rares : affectent moins de 20 personnes sur 1 million Phase 1 : Stratégie - Combinaison de : o séquençage de génomes complets (low-coverage 2-6X), => Accès au non-codant et à l haplotype - Séquençage d exomes (50-100X sur plus de 15 000 gènes) => fournit des variants rares et privés - puces de SNP - 1092 individus de 14 populations Résultats : => une carte d haplotypes avec - 38 million de SNPs, 21

- 1,4 million d indels - 4 000 grandes délétions => détection estimée de : o 99,7% des SNP avec fréquence 5% o 98 % des SNP avec fréquence 1% - 50% des SNP avec fréquence 0.1% Données incomplètes pour : - régions de faibles complexités, satellites, grands repeats - Beaucoup de variants structuraux (CNV, grandes duplications, et inversions) dbsnp Une archive des variations génétiques au sein et entre les différentes espéces developpé et hévergé par NCBI. Contient une plage de variation moléculaire : SNP, pholymorphismes de courte délétions et insertions, microsatélite ou STRs, MNPs, séquences hétérozygotes et variants. Recherche de variant associés à une maladie Rare disease : complete Congenital Stationary Night Blindness (ccsnb) Whole-Exome Sequencing à partir: Séquençage exome à partir de: - Une famille de ccsnb autosomique récessive consanguins - Un patient ccsnb mâle sporadiques 22

Filtrage des variantes: - Comparaison de dbsnp => élimination du polymorphisme "neutre" - Conserver uniquement variantes présentes dans un état homozygote chez les enfants atteints et dans unétat hétérozygote chez les parents de la famille consanguine => Réduire le nombre de variantes de 5,901 indels à 1 et à partir de 66 621 SNPs à 7 - Elimination des variantes dans les régions non conservées Identification d'un nouveau gène impliqué dans ccnsb - Un gène affecté dans les deux familles (confirmé par un écran de 40 patients): GPR179 (orphelin G récepteurs couplés aux protéines 179) - Validation expérimentale (expression et études immunhistological) => Gpr179 fortement concentrée dans les cellules de la rétine Genome-wide association studies (GWAS) Génotypage par des puces de SNP - Des centaines de milliers de sites sont testés - Imputation des sites à proximité - Capture d environ 90% des variants communs - Comparaison groupe d individus sains/individus affectés par une maladie - Détection des allèles surreprésentés dans un groupe par rapport à l autre - Une association significative signifie qu un variant à risque est à proximité du SNP testé - Adaptée à l étude des variants communs, à faible pénétrance impliqués dans des maladies communes complexes - Ne permet pas de détecter les variants rares - Met en évidence des loci et non des gènes (tests expérimentaux sur gène àproximité) Conclusion NGS => révolution sans précédent en biologie Essor de la génomique comparative à tous les niveaux - Bouleversement de notre vision du Vivant o plasticité des génomes o arbre du Vivant profondément remodelé o modification de «notre position» - Nouvelles possibilités immenses avec la génomique personnelle o Identification de variants impliqués dans les maladies génétiques o Progrès dans la compréhension des cancers o Et beaucoup de questions éthiques 23