Apprentissage d automates sur les protéines



Documents pareils
Identification de nouveaux membres dans des familles d'interleukines

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Relation entre deux variables : estimation de la corrélation linéaire

MABioVis. Bio-informatique et la

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Transducteurs d arbres et (peut-être un peu) apprentissage

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Intégration de la dimension sémantique dans les réseaux sociaux

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Apprentissage statistique dans les graphes et les réseaux sociaux

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Les BRMS Business Rules Management System. Groupe GENITECH

Big Data et Graphes : Quelques pistes de recherche

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Tableau de bord. Tableau de bord. Statistiques des contenus de votre site (nb de pages, articles, commentaires...)

CHAPITRE VI ALEAS. 6.1.Généralités.

Gestion d événements et modulation dynamique de choix sous Sphinx par calcul de contraintes en temps réel.

Resolution limit in community detection

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

La classification automatique de données quantitatives

Modélisation du comportement habituel de la personne en smarthome

Pourquoi l apprentissage?

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Méthodes de Simulation

Cours d Analyse. Fonctions de plusieurs variables

Validation probabiliste d un Système de Prévision d Ensemble

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

INF6304 Interfaces Intelligentes

Apprentissage Automatique

Plus courts chemins, programmation dynamique

Calculabilité Cours 3 : Problèmes non-calculables.

Les Autorisations de Mise sur le Marché (AMM) délivrées au titre du Règlement (UE) n 528/2012 (dit BPR)

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

François Émond psychologue 2003 Centre François-Michelle. Liste des 24 catégories de connaissances et compétences à développer

Chapitre 7. Récurrences

Introduction au Data-Mining

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

Manuel PRO G DIS / AHI

Perl Orienté Objet BioPerl There is more than one way to do it

Big data et sciences du Vivant L'exemple du séquençage haut débit

Cours de Master Recherche

GUIDE Excel (version débutante) Version 2013

Introduction au datamining

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Conception. Génie Logiciel. Renaud Marlet. LaBRI / INRIA (d'après A.-M. Hugues) màj 17/04/2007

Il permet d introduire une première réflexion sur le monde de l entreprise, et en particulier de la PME.

Introduction à l approche bootstrap

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

TP Bases de données réparties

Introduction au Data-Mining

4.2 Unités d enseignement du M1

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Les arbres binaires de recherche

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

ELEMENTS DE BUREAUTIQUE

Annexe 6. Notions d ordonnancement.

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

ANNÉE D INITIATION AU LEADERSHIP À L INTENTION DES AUTOCHTONES (AILA) RENSEIGNEMENTS ET QUESTIONNAIRE À L INTENTION DES POSTULANTS PARTIE I

Application 1- VBA : Test de comportements d'investissements

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Introduction aux Statistiques et à l utilisation du logiciel R

Informatique Théorique : Théorie des Langages, Analyse Lexicale, Analyse Syntaxique Jean-Pierre Jouannaud Professeur

Ordonnancement. N: nains de jardin. X: peinture extérieure. E: électricité T: toit. M: murs. F: fondations CHAPTER 1

Compléments de documentation Scilab : affichage de texte et formatage de nombres

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Spécificités, Applications et Outils

ONe Key ID Compte InfoCentre pour les entreprises Compte auprès du ministère de l Environnement (MEO)

COURS EN LIGNE DU CCHST Manuel du facilitateur/de l administrateur

PLAN DE COURS. GPA750 Ordonnancement des systèmes de production aéronautique

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Intelligence Artificielle Planification

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Évaluation d une architecture de stockage RDF distribuée

Impact d une restructuration sur l adhésion aux institutions de retraite complémentaire

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

4. Résultats et discussion

Algorithmes récursifs

MANUEL D UTILISATION LIVRET DE L ENSEIGNANT

CCI Génie Logiciel UFR - IMA. Objectifs du cours d'aujourd'hui. Génie Logiciel Validation par le test. Qu est-ce que tester un programme?

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Structures algébriques

Problèmes d ordonnancement dans les systèmes de production. Journée Automatique et Optimisation Université de Paris Mars 2003

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Mesure agnostique de la qualité des images.

LA CCMOSS VOUS INFORME Bulletin N 5

Présentation BAI -CITC

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Initiation à la programmation en Python

CORRECTION EXERCICES ALGORITHME 1

Transcription:

Apprentissage d automates sur les protéines Approche par fusion de fragments significativement similaires (Jobim 04) François Coste, Goulven Kerbellec, Boris Idmont, Daniel Fredouille Christian Delamarche ACI Genoto3D, 22 juin 2004 Caractérisation d une famille de protéines Exple : Protéines «en doigt de zinc» Z...YLGPLNCKSCWQKFDSFSKCHDHYLCRHCLNLLL... ZFH2...ILMCFICKLSFGNVKSFSLHANTEHRLNL... ZNF236...HKCEICLLSFPKESQFQRHMRDHE... C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H x x x x x x x x x x x C H x \ / x x Zn x x / \ x C H x x x x x x x x x x

Motif C2H2 pour la famille Zinc finger C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H 416 séquences Zinc finger motif C2H2 contenu dans : 372 Zinc finger 34 protéines non Zinc finger 6 protéines candidates Zinc finger Caractérisation de séquences Motifs (A. Brazma) : Classe A B C D E F G H I Exemple t-c-t-t-g-a D-R-C-C-x(2)-H-D-x-C G-G-G-T-F-D-[ILV]-[ST]-[ILV] V-x-P-x(2)-[RQ]-x(4)-G-x(2)-L-[LM] G-C-x(1,3)-C-P-x(8,10)-C-C C-x(2,4)-C-x(3)-[ILVFYC]-x(8)-H-x(3,5)-H (Prosite, Pratt) G-G-G-T-F-D-*- D-R-C-C-P G-G-G-T-F-[DE]-*- D-R-C-[PAR]-C G-G-G-x(2,5)-T-F-[DE]-*-D-x(0,1)-C-[PAR]-C - Caractères anonymes fixe ou variable x(2), x(2,4) - Regroupement de caractères [ILV] - Association de pattern P1-*-P2

Caractérisation de séquences Motifs : Classe A B C D E F G H I J K M N Exemple t-c-t-t-g-a D-R-C-C-x(2)-H-D-x-C G-G-G-T-F-D-[ILV]-[ST]-[ILV] V-x-P-x(2)-[RQ]-x(4)-G-x(2)-L-[LM] G-C-x(1,3)-C-P-x(8,10)-C-C C-x(2,4)-C-x(3)-[ILVFYC]-x(8)-H-x(3,5)-H (Prosite, Pratt) G-G-G-T-F-D-*- D-R-C-C-P G-G-G-T-F-[DE]-*- D-R-C-[PAR]-C G-G-G-x(2,5)-T-F-[DE]-*-D-x(0,1)-C-[PAR]-C Expression régulière/grammaire régulière/automate Grammaire algébrique Grammaire contextuelle Grammaire à structure de phrase Prosite ~ position : «local» x(2,5) pas M1-*-M2 Prosite vs Régulier Pas de corrélation possible [AC]-[AC] si A alors ensuite C sinon?

Découverte de motifs : méthode PROSITE Découverte de motifs : méthodes automatiques 1) Pratt (I. Jonassen 1996) http://www.ii.uib.no/~inge/pratt.html http://www2.ebi.ac.uk/pratt/ 2) Splash (A. Califano 2000), Teiresias (Rigoutsos 1998) http://www.research.ibm.com/splash http://www.research.ibm.com/bioinformatics/teiresias 3) Gibbs Motif Sampler (C. Lawrence 1993) http://bayesweb.wadsworth.org/gibbs/gibbs.html 4) Meme et MetaMeme (T. Bailey 1995) http://meme.sdsc.edu/meme/website/meme.html http://metameme.sdsc.edu/cgi-bin/submit-verify.cgi

Inférence Grammaticale Apprentissage automatique de modèles «grammaticaux» à partir de séquences Apprenabilité R CF RECS RE Languages Automaton Grammar Recognition Dependency Biology Recursively Enumerable Turing Machine Unrestricted Baa A Undecidable Arbitrary Unknown Context- Sensitive Linear-Bounded Context- Sensitive At aa NP-Complete Crossing Pseudoknots, etc. Context-Free Pushdown (stack) Context-Free S gsc Polynomial Nested Orthodox 2 o Structure Regular Finite-State Machine Regular A ca Linear Strictly Local Central Dogma

Les Automates F M A P I K Un automates est défini par : un ensemble d états un ensemble de transitions des états initiaux des états finaux un alphabet auquel appartient chaque transition «Structure d un HMM» Algorithmes par fusions d états

Algorithmes par fusions d états Heuristique EDSM Abbadingo 1998, http://abbadingo.cs.unm.edu/ Automates déterministes Fusion pour déterminisation a a a MCA(S+,S-)-> PTA(S+,S-) Heuristique choix de (p,q) : EDSM [Price, Lang] Score de fusion de (p,q) = #{état final} Fusions les plus sûres d abord Ressemblance des 2 sous-arbres (attestée par les états finaux)

EDSM sur les protéines Ça marche pas Séquences longues, taille alphabet Notion d état final? Déterminisme? Garder idées d évidence et de ressemblance Enlever état final et déterminisme Approche par fusion de fragments significativement similaires Fragments significativement similaires Conservation par sélection naturelle Zones «importantes» Paires de fragments significativement similaires DIALIGN2 Ensemble de paires de fragments similaires (Blossum) avec indice de la significativité de la similarité Fusion de paires de fragments L N P A I C N P T V T F L N P [A,T] [I,V] C T F

Approche par fusion de fragments Échantillon d apprentissage Liste de paires de fragments Liste triée MCA FUSIONS Automate Procedure fma(s,ω) S : échantillon d apprentissage ω : seuil de similarité 1. A MCA(S) 2. F fragments_significatifs(s,ω) 3. F trier(f) 4. pour tout p=<f1,f2> dans F faire 5. si fusion_fragment_acceptable(a,f1,f2) 6. alors A fusion_fragment(a,f1,f2) 7. fsi 8. fpour 9. retourne A

Ordonnancement des paires de fragments Préservation des fragments Ordre important Réordonnancement des paires de fragments : Significativité (score Dialign) S+ Support S+ (dans les autres séquences de la paire de fragments) pf = <f1,f2> est supportée par f si w(f,f1) + w(f,f2) w(f1,f2) Indice d implication I.C. Lerman S+,S- (non présence dans des contre-exemples) Entropie S1,S2 Généralisation 1. Suppression des états non caractéristiques 2. Détection des propriétés physico-chimiques et extension

Etape de généralisation 1 Fusion sur elles-mêmes des parties non caractéristiques («gaps») Etape de généralisation 2 Fragments similaires ~ localisation d une sélection / fonction Positionne en vis à vis des aa Propriétés physico-chimiques en jeu? Généralisation à groupe de Taylor (ou autres ) I,V C I,Q,W,P aliphatique non informatif I,L,V C x

1ères expérimentations sur les MIPS 36 AQP 16 Glpf (Moins de 90% de similarité) 41 séquences non MIPS (obtenue par blast) Apprentissages «leave one out» Pour plusieurs nombres de fragments fixés pour comparer heuristiques 1ères expérimentations sur les MIPS

1ères expérimentations sur les MIPS Influence tri Apprentissage AQP, automate taille 80 Similarité 35 30 25 AQP GLPF Blast non MIP 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Nombre d'erreurs nécessaires pour parser les séquences

Influence tri Apprentissage AQP, automate taille 80 Support 25 20 AQP GLPF Bl ast non MIP 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Nombre d'erreurs nécessaires pour parser les séquences Influence tri Apprentissage AQP, automate taille 80 Indice d'implication 25 20 AQP GLPF Bl ast non MIP 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Nombre d'erreurs nécessaires pour parser les séquences

Approche par fusion de fragments similaires Apprentissage d automates Sans alignement multiple Approche souple (paires de fragments) Différents scores pour caractérisation, caractérisation avec contre-exemples, discrimination Taille de l automate variable du motif discriminant «à la Prosite» au «consensus» Identification et localisation de propriétés physico-chimiques Aspects structuraux? Aspects structuraux?

Aspects structuraux? A développer Apprentissage d automates «pertinents» à systématiser à vérifier sur d autres familles de protéines Influence paramètres à étudier : nombre de fragments %séquences pour généralisation gap (sous-familles?) choix des groupes physico-chimiques pertinents Taille optimale automate : MDL? Approches discrimination (score «entropie»)? Quand généraliser à un groupe de Taylor (estimer le bon «remplissage» d un groupe)? Intégrer les covariations d acides aminés? Algorithmique Probabilités