Biologie moléculaire. Les gènes et leurs fonctions

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Big data et sciences du Vivant L'exemple du séquençage haut débit

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Identification de nouveaux membres dans des familles d'interleukines

MABioVis. Bio-informatique et la

Bases moléculaires des mutations Marc Jeanpierre

Perl Orienté Objet BioPerl There is more than one way to do it

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Cours 3 : Python, les conditions

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

TD de Biochimie 4 : Coloration.

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Ebauche Rapport finale

Extraction d information des bases de séquences biologiques avec R

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

3: Clonage d un gène dans un plasmide

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

L exclusion mutuelle distribuée

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

LES DECIMALES DE π BERNARD EGGER

Séquence 2. L expression du patrimoine génétique. Sommaire

Hépatite chronique B Moyens thérapeutiques

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

VI- Expression du génome

Initiation à la programmation en Python

Génétique et génomique Pierre Martin

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Contrôle de l'expression génétique :

PARTIE I Compte pour 75 %

Univers Vivant Révision. Notions STE

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

Algorithmes de recherche

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Base de données bibliographiques Pubmed-Medline

Examen Médian - 1 heure 30

Partie 7 : Gestion de la mémoire

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Pourquoi l apprentissage?

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Que faire lorsqu on considère plusieurs variables en même temps?

UE6 - Cycle de vie du médicament : Conception rationnelle

Chaînes de Markov au lycée

MYRIAD. l ADN isolé n est à présent plus brevetable!

Gènes Diffusion - EPIC 2010

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

: seul le dossier dossier sera cherché, tous les sousdomaines

Les OGM. 5 décembre Nicole Mounier

Séquence 1. Reproduction conforme de la cellule et réplication de l ADN Variabilité génétique et mutation de l ADN

1 Recherche en table par balayage

Google fait alors son travail et vous propose une liste de plusieurs milliers de sites susceptibles de faire votre bonheur de consommateur.

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Analyse des données de séquençage massif par des méthodes phylogénétiques

Structure quantique cohérente et incohérente de l eau liquide

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Spécialisation 3A AgroSup Dijon IAA Microbiologie Industrielle et Biotechnologie (MIB)

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

grande simple microscope microscope inventé années biologie = cellule) et (logos de plus en Anglais. Utilise un La microscopie, 1665,

Bibliographie Introduction à la bioinformatique

Détection et prise en charge de la résistance aux antirétroviraux

Cellules procaryotes Service histologie Pr.k.mebarek

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Soutien technique en informatique

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Les débuts de la génétique

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Séquence 4. La nature du vivant. Sommaire. 1. L unité structurale et chimique du vivant. 2. L ADN, support de l information génétique

Génomique Comparative et intégrative

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

PRIVOR Plus prévoyance optimisée. Sécurité élevée et chances attractives de rendement

Résistance du virus de l hépatite C aux nouveaux traitements anti-viraux

CATALOGUE DES PRESTATIONS DE LA

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Excel. Identification. Informations sur vos besoins et objectifs. Notions fondamentales. Fiche de validation des besoins en formation Bureautique

Conférence technique internationale de la FAO

TP Bases de données réparties

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

a) b)

Progression secrétariat

Un Vrai Changement dans la Gestion des Espèces

L import : Mise à jour rapide de votre catalogue

Le taux d'actualisation en assurance

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

University of Tokyo Graduate School of Agricultural and Life Sciences et. Kanagawa Academy of Science and Technology

Statistique : Résumé de cours et méthodes

Traitement de l hépatite C: données récentes

Rapport d évaluation de l école doctorale

Les tests génétiques à des fins médicales

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Transcription:

Liste d exercices 3i019 Biologie moléculaire 1. Définissez ce qu est un génome. 2. Expliquer les différences entre les molécules d ADN et d'arn. 3. Expliquer le processus de réplication de l ADN. 4. Expliquer le processus de transcription de l ADN. 5. Expliquer le mécanisme de production des protéines. 6. Quels sont les différents types d ARN, expliquer leurs rôles. 7. Sur un brin d une molécule d ADN, la séquence des nucléotides est CCGTAC. Quelle est la séquence des nucléotides qui s associent à ce brin lors de la réplication? Lors de la transcription? Les gènes et leurs fonctions 1. Qu est-ce que l annotation de gènes? 2. Quelles sont les différences entre les gènes procaryotes et eucaryotes? 3. Quels sont les problèmes rencontrés par les outils d annotation de gènes dans les génomes procaryotes? Dans les génomes eucaryotes? 4. Voici un fragment d'adn contenant le début de la séquence codante d un gène AATGAAACGCATTAGCACC TTACTTTGCGTAAGCGTGG a. Identifiez le début de la phase codante du gène. b. Ecrivez la séquence nucléotidique du fragment d'arnm codant pour le début de la protéine.

c. Déduisez-en la séquence de la protéine correspondante. Utilisez le code génétique en annexe. d. On a isolé une protéine mutante dans laquelle la première sérine est remplacée par une arginine. Quelles mutations nucléotidiques pourraient expliquer ce changement d'acide aminé? e. Dans une pathologie, on trouve une forme écourtée de la protéine : seuls les trois premiers acides aminés sont présents. Quelle mutation nucléotidique a eu lieu? 5. Calculer le modèle de "background" (composition en nucléotides) pour la séquence d ADN acctgcactg. 6. Etant donné un dictionnaire contenant la probabilité d'apparition de chaque codon, par exemple : codons = { TTT : 0.001, TTC :0.002, } et une séquence de codons sous forme de liste S=( TTT, TCA, TGA, ), donnez le code python qui calcule la probabilité p de S étant donné le modèle de codons (p= P(S = c0 c1...cn codons) ) 7. Les promoteurs sont des séquences d ADN, généralement en amont du début du gène et responsable de sa régulation. Il y a habituellement des variations dans la composition de la séquence du site promoteur (en général des substitutions). Des expériences biologiques ont permis de déterminer les séquences de promoteurs suivantes: acgact acgtga agcccc acgtca tcgtct acgtca acgtca accgca tggtca acctct a. Calculez la matrice des fréquences de nucléotides par position Fij (i: indice de nucléotide, j: indice de position). Rajoutez des pseudo-comptages. b. Calculez la matrice de score par position, wij = log2(fij/pi), où pi est la probabilité du nucléotide i avec le modèle de background

8. Supposons qu'une bactérie est atteinte par un virus qui affecte la machinerie de la réplication aléatoirement en changeant la manière dont chaque nucléotide est recopié: chaque A peut être répliqué comme 3 A, chaque C peut être répliqué comme 4 C, chaque G peut être répliqué comme 4 G, et chaque T peut être répliqué comme 3 T. a. Donnez un algorithme (python ou pseudo-code) qui, pour deux séquences u et v détermine si u peut être une version infectée de v. b. Donnez un algorithme (python ou pseudo-code) qui étant donné une séquence S de la bactérie et un dictionnaire donnant la probabilité de réplication de chaque nucléotides, produira aléatoirement une séquence infectée. Par exemple, si S=ACCTG et P={ A :0.2, C : 0.5, G : 0.3, T : 0.1}, la première lettre (un A) a 20% de chance d'être répliqué comme 3 A, la seconde (un C), 50% de chances de devenir 4 C, etc. c. Le virus a muté, et en plus de rajouter des copies multiples d'une position pendant la réplication, il est également possible que le nucléotide ne soit pas recopié, provoquant une délétion. Modifiez l'algorithme de question a pour prendre en compte ce nouveau phénomène. On dira par exemple que chaque nucléotide a 2% de chances de ne pas être recopié. Alignement par paire 1) Aligner globalement les deux séquences suivantes : U=ACGCCAT et V=GCCCTA, en appliquant le système de scores suivant : Match=2, Mismatch=-1, GAP=-3. A partir de la matrice construite, en déduire le score de l'alignement global optimal, extraire un alignement optimal, et calculer le nombre d'alignements qui ont ce score optimal. 2) On a partiellement rempli la matrice de programmation dynamique correspondant à un algorithme d'alignement de séquences d'adn; la voici :

a. Quel type d'alignement 2 à 2 est-on en train de réaliser? b. Pour remplir cette matrice, quel coût a été utilisé pour les «Gaps»? pour les «Match»? pour les «Mismatch» (le coût des «Mismatch» est indépendant du couple de nucléotides considérés)? c. Terminez le remplissage de la grille. d. Proposez un alignement optimal possible. 3) L'algorithme d'alignement global des deux séquences CACGT et AGT donne la table de programmation dynamique suivante : a) Pour remplir cette matrice, quel coût a été utilisé pour les «Gaps»? pour les «Match»? pour les «Mismatch» (le coût des «Mismatch» est indépendant du couple de nucléotides considérés)? b) Proposez un alignement optimal possible. 4) Voici l'alignement obtenu pour deux séquences: CGTTAACG---ACTGTCT CG-TATCGGCCACTATCT Calculez le score de cet alignement dans les cas suivants: a) Match= 2, Mismatch=-1, GAP=-2 b) Comme pour a), mais avec un score de gap affine (ouverture=-3, extension=-1) c) Comme pour b) mais avec la matrice de similarité suivante:

BLAST 1) La figure 1 représente les résultats d'une recherche de similarité effectuée au moyen de l'outil BLAST, pour identifier dans le génome humain les régions codant pour l'enzyme acylphosphatase. a) Quelle est la longueur de la séquence requête (précisez l'unité)? b) Quelle modalité de BLAST a été utilisée et pourquoi? c) Comment interpréter les E-valeurs respectives des deux hits de la figure 1b? Quel est le meilleur hit? d) Dans quelle phase les hits sont-t-ils trouvés? e) Expliquer pourquoi dans le deuxième hit la valeur de positivité est supérieure à la valeur d'identité. 2) On considère les deux séquences d ADN : ATTCATTCATTCATTCATTCATTCATTCATTC et ATTGATTGATTGATTGATTGATTGATTGATTG. Quel est, à première vue, leur pourcentage d identité? Quand on fait un alignement avec l algorithme de BLAST (avec une taille de mot de 4), aucune similarité n est trouvée. Pourquoi? 3) Donner le code en python ou pseudo code pour générer la base de données de BLAST. Votre fonction aura la signature db(sequences, w), où sequences est un dictionnaire de séquences et w est la taille de mot. Exemple: sequence = { s1 : acgta, s2 : aacgta, s3 : acggta } et w=3, votre fonction doit renvoyer. {acg : [(s1,1), (s2,2), (s3,1)], cgt : [(s1,2), (s2,3)], gta : [(s1,3), (s2,4), (s3,4)], aac:[(s2,1)], cgg:[(s3,2)], ggt:[(s3,3)]} 4) Montrez comment la séquence cgtca sera alignée par BLAST en utilisant les séquences et la base de donnée indexée de la question précédente.

Figure 1a: en-tête du résultat de BLAST Figure 1b: sélection d'alignements retournés par BLAST Alignements Multiples 1) Score d un alignement multiple. a) Donnez le score de l alignement multiple global ci dessous selon la méthode de la somme des paires en considérant le système de scores suivant : score(x,x) = +1, score(x,y) = -1, score(x,-) = score(-,x) = -2, score(-,-) = 0 ACTATGTG A-T--GTG A-TT-GTG b) Est-ce le meilleur alignement global que l on pouvait obtenir? Justifiez votre réponse.

2) Donnez le score de l alignement multiple global ci dessous calculé selon la méthode de la somme des paires en utilisant la matrice de substitution BLOSUM 62 (donnée en annexe). NNNIV NNNIV NNN V NNCIV NCCIV 3) Soit les alignements par paires VEDLIRY VEDLRRY PNELRRY VEDLIRY BNKAALIRF VED--LIRY AEDL-RF VEDLIRY Nous voudrions utiliser l algorithme star pour obtenir l alignement multiple : a) Quelle est la séquence guide à utiliser? b) Donner l alignement multiple obtenu par star 4) Soit un alignement multiple de séquences protéiques représenté en Python par une liste de chaines de caractères. Par exemple: almult = ["AHS--LKATL", "L-SW-AA--L", "AHI--LKATL", "LHS--FT--L"]. Dans un alignement multiple, une sous-partie de l'alignement ou "bloc", est considérée comme conservée si plus de 70% des séquences présentent le même acide aminé à chacune des positions du bloc (un bloc peut être une colonne unique). Dans l'exemple précédent, la leucine (L) en dernière position est conservée dans toutes les séquences, tandis que l'histidine (H) et la sérine (S), respectivement en 2de et 3ème positions sont conservées à 75%. Il y a donc 2 blocs conservés, dont les positions dans l'alignement sont : 2-3 et 10-10 (les gaps sont donc considérés comme un caractère). a) Si on représente un alignement multiple par une liste nommée lseq de n chaînes de caractères, donner l'algorithme (en Python ou en pseudo-code) qui permet d'imprimer les positions de début et de fin des blocs conservés dans l'alignement.

b) Quelle(s) modification(s) faut-il apporter à l'algorithme si il ne faut imprimer que les positions des blocs ayant une taille minimale de k colonnes contiguës? c) Comment modifier l'algorithme pour imprimer les positions des blocs non pas conservés, mais dont les colonnes présentent au moins m acides aminés différents (y compris gaps, 1<m<=20) 5) A partir du schéma suivant expliquer les étapes des algorithmes dit d'alignement progressif.

Phylogénies. 1) Remplissez la Table ci-dessous en indiquant, pour chaque paire de séquences, le type d homologie (O=Orthologie ; P=Paralogie ; I=Identité) Homme ACYP1 Homme ACYP2 Chimpanzé ACYP1 Chimpanzé ACYP2 Cochon ACYP1 Cochon ACYP2 Ornithorynque ACYP2 Homme ACYP1 Homme ACYP2 Chimpanzé ACYP1 Chimpanzé ACYP2 Cochon ACYP1 Cochon ACYP2 Ornithorynque ACYP2 2) Déroulez l algorithme UPGMA sur la matrice de distances suivante : A B C D ---+------------ A 1 5 8 B 2 4 C 6 3) Lequel de ces deux arbres provient d une méthode UPGMA? Expliquez. A B 4) Quel est le nombre possible d'arbres enracinés avec 3 espèces? avec 4 espèces? a. Montrer que, si Cn est le nombre d'arbres enracinés possible avec n espèces, on a C1 = 1 et Cn = (2n-3) Cn-1. b. Déduisez en la formule générale pour Cn = (2n-3)! / 2 n-2 (n-2)!

c. Supposons que l'on puisse calculer le score d'un millions d'arbres en une seconde. Combien de temps cela prendrait-il d'évaluer le score de tous les arbres avec 10 espèces? avec 15 espèces? 5) Reconstruction des caractères ancestraux. Soit l'arbre suivant: a. Reconstruisez les séquences ancestrales par parcimonie en utilisant l'algorithme de Sankoff, avec un coût de 1 pour toutes les substitutions. b. Refaites maintenant l'algorithme en prenant cette fois un coût de 1 pour les transitions et un coût de 2 pour les transversions (voir ci dessous).

Annexes.