Identification de nouveaux membres dans des familles d'interleukines

Documents pareils

Introduction au Data-Mining

Introduction au Data-Mining

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

MABioVis. Bio-informatique et la

Pourquoi l apprentissage?

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Introduction au datamining

Apprentissage statistique dans les graphes et les réseaux sociaux

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

5. Apprentissage pour le filtrage collaboratif

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Apprentissage Anticipé de la conduite (AAC) R.211-5

Thèse. Mathieu RAMONA

INF6304 Interfaces Intelligentes

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Apprentissage Automatique

Croissance et vieillissement cellulaires Docteur COSSON Pierre Nb réponses = 81 sur 87. Résultats des questions prédéfinies

Cours d Analyse. Fonctions de plusieurs variables

Laboratoire 4 Développement d un système intelligent

La classification automatique de données quantitatives

Dr Pascale Vergne-Salle Service de Rhumatologie, CHU de Limoges. Membre enseignant chercheur EA 4021

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Classification Automatique de messages : une approche hybride

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

TRAVAUX DE RECHERCHE DANS LE

Conception de Médicament

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Traitement bas-niveau

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

L apprentissage automatique

1S Modèles de rédaction Enoncés

Maîtriser l'utilisation des outils bureautiques. Maîtriser le logiciel de traitement de texte - Word. Maitriser le logiciel tableur - Excel

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Chapitre 7. Récurrences

Hépatite chronique B Moyens thérapeutiques

Prédiction de la structure d une

Évaluation et implémentation des langages

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Bibliographie Introduction à la bioinformatique

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Que fait SAS Enterprise Miner?

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Coup de Projecteur sur les Réseaux de Neurones

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Correction du baccalauréat S Liban juin 2007

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L interface Outils, palettes, règles, repères, grille Paramétrer les préférences

Correction du Baccalauréat S Amérique du Nord mai 2007

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

Programmation Par Contraintes

Les algorithmes de fouille de données

Transgene accorde une option de licence exclusive pour le développement et la commercialisation de son produit d immunothérapie TG4010

aux différences est appelé équation aux différences d ordre n en forme normale.

Agrégation des portefeuilles de contrats d assurance vie

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Présentation et portée du cours : CCNA Exploration v4.0

Initiation à LabView : Les exemples d applications :

Problèmes d ordonnancement dans les systèmes de production. Journée Automatique et Optimisation Université de Paris Mars 2003

Big Data et Graphes : Quelques pistes de recherche

Bases de données des mutations

Etat de l art de la Reconnaissance de Visage.

LES MODELES DE SCORE

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Fonctions de plusieurs variables

Faculté des Sciences d ORSAY

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Physiopathologie : de la Molécule à l'homme

GESTION DE STOCKS AVEC CIEL GESTION COMMERCIALE

Débouchés professionnels

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Sciences Humaines et Sociales. Informatique et applications. VIGNERON Vincent STIC Traitement du signal et des images

Intégration de la dimension sémantique dans les réseaux sociaux

Note de cours. Introduction à Excel 2007

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

Biologie Appliquée. Dosages Immunologiques TD9 Mai Stéphanie Sigaut INSERM U1141

Big Data et Graphes : Quelques pistes de recherche

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Biomarqueurs en Cancérologie

Le spam introduction. Sommaire

Transcription:

Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques

1ère partie : Définition de la problématique

Les familles de gènes Gène ancestral duplication(s) + évolutions indépendantes Copies mutées (fonctions, régulations...)

Les cytokines 130 «fonctions de cytokines» estimées chez l'homme. Impliquées dans la communication cellulaire, plus particulièrement dans la réaction immunitaire. Toutes n'ont pas de séquence connue.

Classification en fonction du type de récepteurs. Gènes souvent en clusters. Structure de gènes assez conservée. Similarité : Importante dans une sous-famille Faible (< 15%) entre sous-familles

Structures protéiques relativement conservées autour de 4 hélices

Enjeux et difficultés Intérets : Applications médicales (psoriasis, inflammation, arthrite, cancer...) Étude d'une des plus grandes familles de gènes du génome humain Problèmes : Les cytokines ne se ressemblent pas toutes. Pas de caractéristiques universelles identifiées Des relations d'homologie qui peuvent être très lointaines

Formulation des objectifs 130 cytokines supposées, 75 cytokines identifiées... Identifier les cytokines manquantes Mettre au point une méthode générale d'identification de membres d'une famille de gènes

2ème partie : Outils et méthodes

Données Données annotées 45 cytokines de 3 sous-familles (IL-6, IL-2 & IL-10/INFs) + Contre-exemples tirés de la base SCOP Données à analyser 5 330 000 séquences humaines provenant d'unigene

Méthodes existantes Basées sur les séquences : BLAST et PSI-BLAST HMM / SVM Recherche de profils Graphes... Basées sur les structures : Superposition de structures HMM / SVM... Hybrides : Association score structural score de séquences...

Stratégie choisie Une méthode d'apprentissage supervisé qui a fait ses preuves : les SVM Données annotées Jeu d'apprentissage Données à analyser jeu de recherche

Les SVM

Hyperplan sous la forme : w.x + b = 0 où w est un vecteur de poids, x le vecteur à classer et b représente le biais Les SVM manipulent essentiellement des produits scalaires. Calculs complexes dans un espace à grande dimension Utilisation de fonctions noyaux (ou «kernels») pour les rendre transparents Fonction noyaux classiques : Linéaire : K(x,y) = x.y Polynomiale : K(x,y) = (a.x.y+b)degré RBF : K(x,y) = e -a x-y 2 Sigmoïde : K(x,y) = tanh(a.x.y+b)

Les classifieurs en biologie Attributs biologiques codage vecteur Codages possibles : Composition en sous-séquences Présence de motifs Scores de similarité Structures protéiques...

Sur la composition en sous-séquences Séquence à vectoriser : AAAAYGLLLVITS Vecteur : AAAA AAAC... LLVI YYYY 1 0... 1 0

un arbre des suffixes permet de calculer rapidement les produits scalaires / A C... Y A C... Y A... A x y Nombre d'occurrences dans la séquence S1 Nombre d'occurrences dans la séquence S2

Sur la composition en sous-séquences avec mésappariement AAAAYGLLLVITS AAAA AAAC... AKAA LLVI YYYY 1 1... 1 1 0

0 AAA A A Séquence lue : AAAA, mismatch autorisés : 1 0 A A 0 AA 1 AC A C 1 AAC A C C C 1 AACA 0 AAAA 1 ACAA 1 AAAC A A 2 AACC 1 ACA / 2 ACC C A 2 ACAC C C 1 C 1 CA C 2 CAC 1 CAA C A A C Nb mismatch Séquence obtenue 2 CC 1 CAAA 2 CAAC...

Sur des scores de similarités 1 2 3... Cytokines connues Scores de similarité Séquence étudiée 45 Score avec Score avec Score avec cytokine cytokine cytokine 1 2 3... S1 S2 S3... Score avec cytokine 45 S45

2 méthodes possibles pour vectoriser avec les scores de similarité : Pairwise : prendre directement le SW score Efficace empiriquement mais n'est pas un kernel théoriquement valide!! LA kernel : tenir compte de tout les alignements sousoptimaux possibles kernel théoriquement valide

Sur les motifs Séquence Motifs connus Présence/absence oui non oui oui non non oui Vecteur 1 0 1 1 0 0 1

Propriété des motifs Support : Nombre de séquences vérifiant le motif Spécificité : liée à la faible probabilité de trouver le k-motif au hasard dans une séquence. Fonction de coût : c(m)=π k f(m i) Spécificité =-log(c(m)) i=1

Trouver les motifs Famille de protéines Motifs germes Motifs Classification hiérarchique ascendante

Symbole Classe Membres α Aliphatique ILV β Aromatique FHWY γ Hydrophobe ACFGHIKLMVWY δ Chargé DEHKR ε Polaire CDEHKNQRSTWY ζ Charge positive HKR η Chaîne latérale courte ACDGNPSTV θ Chaîne latérale très courte ACGST

Evaluation des classifieurs Validation croisée : Validation Vrai faux Vrai Faux efficacité croisée (en 10 lots) positifs négatifs négatifs positifs Spectrum 79,0% 21,0% 84,0% 15,6% 81,9% Mismatch 86,7% 13,3% 86,7% 13,3% 86,7% Hmotifs 100,0% 0,0% 100,0% 0,0% 100,0% Pairwise 100,0% 0,0% 97,8% 2,2% 98,9% LAkernel 97,8% 2,2% 100,0% 0,0% 98,9%

Nature des données Jeu d'apprentissage Jeu de recherche Séquences protéique de cytokine et contre-exemples Séquences d'est traduites en protéines Insertion dans les séquences = bruitage Jeu d'apprentissage = Jeu de recherche Nécessité de tester les classifieurs sur des données de même type que celles qui seront traitées.

Sur des données Unigene (cytokines + contre-exemples) : ROC ROC50 Médian RFP Spectrum 0.98 0.85 0.019 Mismatch 0.98 0.81 0.022 HMotif 0.95 0.87 0.013 Pairwise 0.94 0.69 0.032 LAkernel 0.98 0.85 0.022

3ème partie : PRHoD

Fonctionnement général Unigene Rapatriement + prétraitements Base de données locale Vectorisation classifieurs classification Agrégation + expertises Cytokines!!

Unigene Base de données locale classifieurs Cytokines!! Unigene Base de données locale rapatriement filtrage insertion CDS+ EST CDS Traduction 5 329 044 séquences 362 710 séquences 2 176 260 séquences

Unigene Base de données locale classifieurs Cytokines!! Séquences protéiques apprentissage Jeu d'apprentissage modèle X 5 vectorisation 1 1 0 1 classification classement

Unigene Base de données locale classifieurs Cytokines!! De la séquence qui ressemble le plus au jeu d'apprentissage à celle qui y ressemble le moins. Classifieur 1 Classifieur 2 Classifieur 3 Classifieur 4 Classifieur 5 1er : seq T 2éme : seq V 3éme : seq E... Nième : seq Y 1er : seq T 2éme : seq Z 3éme : seq E... Nième : seq Y 1er : seq V 2éme : seq T 3éme : seq Z... Nième : seq Y 1er : seq K 2éme : seq T 3éme : seq V... Nième : seq H 1er : seq Y 2éme : seq F 3éme : seq G... Nième : seq O

4ème partie : Post-traitements

Agréger les classements 1:T 2:D 3:G 4:M...:... n : Z 1:D 2:F 3:G 4:T...:... n : V 1:T 2:F 3:D 4:J...:... n : I 1: J 2:L 3:M 4:O...:... n : Z 1: F 2:D 3:T 4:G...:... n : V 1:T 2:D 3:F 4:G...:... n : Z Problème de décision multi-critères!!

Pour y répondre de manière optimale : Pondérer les classifieurs selon leurs efficacités relatives Evaluation sur une base de test Tenir compte de la nature des classifieurs Pondération en fonction des liens entre classifieurs Il existe des outils mathématiques tels que l'intégrale de Choquet qui permettent de résoudre ces problèmes

Unigene Base de données locale classifieurs Cytokines!! Nombreux candidats Nécessité de filtrer 1) Enlever les cytokines connues 2) Regarder les candidats les plus intéressants Position dans le classement Expertise

Experts But : Réunir une collection d'indices biologiques pour mettre en évidence les candidats les plus intéressants Exemples d'experts : Taille de la séquence BLAST contre le jeu d'apprentissage Présence de ponts disulfures Ressemblance de la structure secondaire avec une structure de cytokine Ressemblance de la structure du gène avec celle d'un gène de cytokine Position dans le génome (en cluster avec des cytokines?) Phylogénie du candidat par rapport aux cytokines...

Conclusion

Recherche de nouveaux membres d'une famille de gènes vaste et diversifiée Utilisation des SVM pour classer les séquences d'unigene Mise en place d'un outil gérant 5 classiffieurs différents Agrégation des résultats des classifieurs Collection d'experts pour compléter l'analyse des candidats