Introduction à l annotation de séquences

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Big data et sciences du Vivant L'exemple du séquençage haut débit

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Perl Orienté Objet BioPerl There is more than one way to do it

CATALOGUE DES PRESTATIONS DE LA

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

MABioVis. Bio-informatique et la

Contrôle de l'expression génétique :

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Hépatite chronique B Moyens thérapeutiques

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Introduction à la Génomique Fonctionnelle

Université de La Rochelle. Réseaux TD n 6

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Représentation des Nombres

Plus courts chemins, programmation dynamique

Cours n 12. Technologies WAN 2nd partie

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Codage d information. Codage d information : -Définition-

Génomique Comparative et intégrative

Chaine de transmission

1 Introduction au codage

Bases moléculaires des mutations Marc Jeanpierre

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

Architecture des ordinateurs TD1 - Portes logiques et premiers circuits

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

23. Interprétation clinique des mesures de l effet traitement

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Les Réseaux sans fils : IEEE F. Nolot

Statistiques Descriptives à une dimension

Unity Real Time 2.0 Service Pack 2 update

NOTIONS DE RESEAUX INFORMATIQUES

Base de données bibliographiques Pubmed-Medline

Limitations of the Playstation 3 for High Performance Cluster Computing

Gènes Diffusion - EPIC 2010

VI- Expression du génome

Master Data Management en Open Source C est le Bon Moment

Capacité étendue d utilisation en réseau

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

ÉPREUVE COMMUNE DE TIPE Partie D

INF6304 Interfaces Intelligentes

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Objectifs du TP : Initiation à Access

Identification de nouveaux membres dans des familles d'interleukines

Table des matières. Introduction

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

TD de Biochimie 4 : Coloration.

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

Conservation des documents numériques

Représentation d un entier en base b

Bases de données et outils bioinformatiques utiles en génétique

Logiciel de Base. I. Représentation des nombres

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

La classification automatique de données quantitatives

La nouvelle planification de l échantillonnage

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Machines virtuelles Cours 1 : Introduction

Transmission d informations sur le réseau électrique

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Apprentissage Automatique

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Spécialisation 3A AgroSup Dijon IAA Microbiologie Industrielle et Biotechnologie (MIB)

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Introduction au Data-Mining

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Analyse des données de séquençage massif par des méthodes phylogénétiques

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

ISO/CEI NORME INTERNATIONALE

Systèmes de transmission

TD 1 - Transmission en bande de passe

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

2. Activités et Modèles de développement en Génie Logiciel

Séquence 2. L expression du patrimoine génétique. Sommaire

IFT3913 Qualité du logiciel et métriques. Chapitre 2 Modèles de processus du développement du logiciel. Plan du cours

Transcription:

Introduction à l annotation de séquences - Université de Lille 1-2 eme Semestre

But de l annotation de séquences Les séquences nucléiques : Détecter la présence de gènes Trouver la structure des gènes (exons/introns) Détecter d autres objets biologiques (gènes ARN, signaux de régulation,...) Les séquences protéiques : Déterminer leur fonction Prédire la localisation cellulaire Étudier les structures 2D et 3D

Prédiction de gènes Localisation des gènes et de leurs exons

Trois types de méthodes Recherche des ORF (Open Reading Frame) localisation des régions de plus de 100 nucléotides entre un codon start (ATG) et un codon stop (TAA,TAG,TGA). Comparaison aux banques Recherche des séquences d ARNm et de protéines qui ressemblent à la séquence étudiée Etude statistique Localisation des séquences codantes et non codantes à partir d exemples

Recherche des ORF Traduction de la séquence nucléique dans les 6 phases de lecture Identification des codons Cinit et Cterm de la transcritption On se restreint aux régions d au moins 100 nucléotides Sélection du Cinit le plus éloigné du Cterm On obtient plusieurs possibilités...

Recherche des ORF N * F T S C N E A E R T P A I N L L H V T K P K E H R L K L I Y F M * R S R K N T G TTTAATTAAATGAAGTACATTGCTTCGGCTTTCTTTGTGGCCGAA

Recherche des ORF N * F T S C N E A E R T P A I N L L H V T K P K E H R L K L I Y F M * R S R K N T G TTTAATTAAATGAAGTACATTGCTTCGGCTTTCTTTGTGGCCGAA AAATTAATTTACTTCATGTAACGAAGCCGAAAGAAACACCGGCTT F * N V E H L S A S L V G A I L K S * T V F G F S C R S N I * K M Y R L R F F V P K

Recherche des ORF (ORF finder)

Les limites Toutes les ORF ne sont pas des gènes Elle contiennent peut-être un gène On utilise alors la comparaison de séquences avec des gènes connus On ne connaît pas la position du vrai Cinit Ce n est pas toujours le plus éloignée Existence de Cinit alternatifs Impossible de détecter les petits gènes Pas d information sur les exons

Comparaison aux banques Recherche de séquences similaires avec Blast ou Fasta Les banques utilisées EST CDS Vecteurs (éliminer les fragments parasites lors du séquençage d un gène) Sélection de séquences d intérêt Alignement des séquences d intérêt Alignement avec SIM4 : 1 adn génomique / 1 ARNm mature Alignement avec Wise2 : 1 adn génomique ou ARNm mature / 1 protéine

Les limites La séquence étudiée doit posséder des homologues dans les banques Les homologues distants sont mal identifiés

Prédiction statistique Principe : discriminer les séquences codantes des non codantes à l aide de critères statistiques. Mise en œuvre : apprentissage à partir d un jeu de données fiable (annoté expérimentalement) Recherche de biais Usage irrégulier des codons synonymes Asymétrie des trois positions dans les codons Enchaînement des mots de 6 nucléotides Utilisation de connaissances biologiques (promoteur, RBS, signal,...)

Principe Mise au point d un score (probabilité qu une fenêtre soit codante) Calcul du score pour une fenêtre glissante Extraction des fenêtres avec score significatif Reconstruction des gènes d après le score et l enchaînement des fenêtres et utilisation des signaux.

Les limites Apprentissage sur des données connues Limité aux séquences similaires au jeu d apprentissage GeneMark (procaryotes) : biais caractéristique pour des séquences dans un certain pourcentage de GC Apprentissage à partir de plusieurs génomes Pas de détection des petits gènes ou petits exons.

Prédiction chez les procaryotes Des génomes simples 80% du génome est codant séquences intergéniques courtes environ 1 gène tous les 1 kb région transcrite et pas traduite (3 et 5 UTR) courte pas d intron Détection simple test des 6 phases comparaison aux banques méthodes statistiques

Les limites Plusieurs codons Start Mais présence de RBS Comparaison aux banques proteiques. Prédiction statistique Gènes incomplets Gènes chevauchants

Prédiction chez les eucaryotes Environ 5% du génome humain est codant Longues régions 5 et 3 UTR (Untranslated) pour chaque cdna. Des introns (qui changent la phase) Epissage alternatif Variation de la densité des gènes et de leur structure (cf GC).

Cas particulier : les gènes ARN Signaux de régulation spécifiques Pas de contrainte de phase de lecture, d usage du code. Contrainte liée à la structure secondaire similarité faible (structure primaire/structure secondaire)

Partie II - comparaison aux banques (suite du cours sur la comparaison de séquences)

Comparaison aux banques on se donne : une séquence requête q une banque de séquences T = {t1,..., t n} on veut : trouver des alignements significatifs entre q et les t i les algorithmes classiques ne fonctionnent pas : prennent trop de temps, il faut trouver des parades

FASTA Pearson et Lipman, 1988 alignement global avec gaps traite les séquences de la banque les unes après les autres fonctionnement : 1. trouve tous les mots exacts de longueur > l communs à q et t i 2. sélectionne ceux de score suffisamment élevé (score PAM par exemple) 3. sélectionne une diagonale d (du dotplot) contenant le maximum de mots exacts de longueur > l 4. procède à un alignement global classique dans une bande de largeur 2k autour de la diagonale d deux paramètres : k et l, l généralement de longueur 6 pour l ADN et 2 pour les protéines

Schématiquement séquence q séquence t

Schématiquement séquence q séquence t

Schématiquement séquence q séquence t

Schématiquement séquence q séquence t

Schématiquement séquence q séquence t

Trouver les l mers chaque mot de longueur l est codé sur un entier code(u 1...u l ) = l c(u i )a l i avec c(u i ) la valeur associée à la lettre u i comprise entre 0 et a 1 et a la taille de l alphabet passage au codage du mot suivant (décalage de 1 dans la séquence) par opérations binaires : décalage binaire + masque binaire utilisation d une table de hachage pour par exemple avoir toutes les occurrences très efficace i=1

Blast Altschul, Gish, Miller, Myers, Lipman, 1990 naît en 1990 : trouve des matchs significatifs sans gaps évolution vers une version 2, avec gaps NCBI-Blast WU-Blast : très similaire à NCBI-Blast (mixe entre Blast1 et FASTA pour la dernière étape) évolution vers des versions avec raffinement des résultats

Blast 1 recherche de mots similaires de taille w (11 pour l ADN, 3 pour les protéines), de score supérieur à un seuil T pour chaque position de la requête q chaque couple de mots w entre q et un t i forme un hit chaque hit est étendu à gauche et à droite : l extension est stoppée lorsque le score du hit décroît de plus de X

Blast 1 - Schématiquement q étape 1 mots de taille w voisins

Blast 1 - Schématiquement q étape 1 mots de taille w voisins étape t1 t2 mots de taille w voisins 2 t4 t3

Blast 1 - Schématiquement q étape 1 mots de taille w voisins étape t1 t2 mots de taille w 2 voisins t4 q t3 étape 3 t3

Blast 1 chaque hit étendu forme un HSP : High scoring Segment Pair le HSP de meilleur score est le MSP : Maximal scoring Segment Pair

NCBI - Blast 2 idée : incorporer des gaps mise en oeuvre : se baser sur 2 hits distants au maximum de A q A étendre les hits comme dans Blast 1 (avec limitation de score) mais en autorisant les gaps t3

Exemple de résultats Query= Felis catus DRD4 gene fordopamine receptor D4 (276 letters) Database: All GenBank+EMBL+DDBJ+PDB sequences 1,174,453 sequences; 5,001,591,585 total letters Sequences producing significant alignments: Score E (bits) Value gi AB069665 Felis catus DRD4 gene f... 210 5e-52 gi AB069662 Nyctereutes procyonoide... 157 7e-36 gi AB069661 Canis lupus DRD4 gene f... 157 7e-36 gi AB069666 Bos taurus DRD4 gene fo... 143 1e-31 gi 291947 Homo sapiens Dopamine D4 recep... 135 2e-29

Exemple de résultats >gi 18143632 dbj AB069662.1 AB069662 Nyctereutes procyonoides DRD4 gene fordopamine receptor D4. Length = 393 Score = 157 bits (79), Expect = 7e-36 Identities = 94/99 (94%) Strand = Plus / Plus Query 1 ttcttcctaccctgcccgctcatgctgctgctctactgggccacgttcc 48 Sbjct 1 ttcttcctaccctgcccgctcatgctgctgctctactgggccacgttcc 48 Query 49 ggggcctgcggcgctgggaggcggctcgccaggccaagctgcactgccgg 99 Sbjct 49 ggggcctgcggcgctgggaggccgcgcgtcgggccaagctgcacggccgg 99 Score = 107 bits (54), Expect = 5e-21 Identities = 60/62 (96%) Strand = Plus / Plus Query 215 ggaggcgcgccaagatcaccggccgggagcgcaaggccatgagggtcct 252 Sbjct 332 ggagacgcgccaagatcacgggccgggagcgcaaggccatgagggtcct 379 Query 253 tgccggtggtggtc 276 Sbjct 380 tgccggtggtggtc 393

Les systèmes de score score HSP = Score de similarité utilise une matrice de substitution utilisé lors de l extension des hits bit score = score normalisé utilisé (en partie) pour analyser les résultats mesure statistique de l alignement dépendant de la banque interrogée (taille de la banque)

Significativité des MSPs deux séquences peuvent toujours être alignées il existe toujours un (au moins) alignement de meilleur score S entre deux séquences (un MSP) question : ce score est-il suffisamment élevé pour prouver une homologie? problème : peut-on trouver un MSP de meilleur score dans deux séquences aléatoires?

Mesures de significativité la p-valeur (p-value) mesure la probabilité que 2 séquences aléatoires de même longueur et de même composition possèdent un MSP de score supérieur ou égal S la e-valeur (e-value) mesure le nombre de MSPs de score supérieur ou égal S de 2 séquences aléatoires de même longueur et de même composition

Variation de la e-value si la taille de la séquence double : la e-value augmente si la taille de la banque est divisée par deux : la e-value diminue si le score augmente : la e-value diminue

Les différents programmes BLAST nucléique protéique nucléique traduit nucléique blastn blastp protéique blastp tblastn nucléique traduit blastx tblastx