THESE. pour obtenir LE GRADE DE DOCTEUR. Spécialité INFORMATIQUE. Ecole Doctorale : Informatique et Information pour la Société. par Sylvain BLACHON



Documents pareils
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

MABioVis. Bio-informatique et la

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

TEXT MINING von 7

Big data et sciences du Vivant L'exemple du séquençage haut débit

TD de Biochimie 4 : Coloration.

données en connaissance et en actions?

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Entrepôt de données 1. Introduction

Pourquoi l apprentissage?

Pour un principe matérialiste fort. Jean-Paul Baquiast

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Biomarqueurs en Cancérologie

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

modélisation solide et dessin technique

Introduction au Data-Mining

Introduction au datamining

Apprentissage Automatique

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

L apprentissage automatique

Le scoring est-il la nouvelle révolution du microcrédit?

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché»

Introduction : présentation de la Business Intelligence

Stratégie de rémunération

Qu'est-ce que le BPM?

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

Les OGM. 5 décembre Nicole Mounier

Item 169 : Évaluation thérapeutique et niveau de preuve

SERVICE D ACCOMPAGNEMENT PEDAGOGIQUE DE L UNIVERSITE SORBONNE PARIS CITE

Synthèse «Le Plus Grand Produit»

Big Data et Graphes : Quelques pistes de recherche

Créer le schéma relationnel d une base de données ACCESS

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Big Data et Graphes : Quelques pistes de recherche

Les apports de l informatique. Aux autres disciplines

N oubliez pas de sauvegarder après avoir intégré ce fichier dans votre espace extranet!

Pour un usage plus sûr du téléphone portable

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

«L utilisation d un intranet permet-il la mise en place d un travail collaboratif et/ou coopératifs? Pour quelles compétences?»

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Chapitre 1 : Introduction aux bases de données

Baccalauréat technologique

Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

ENSEIGNEMENT DES SCIENCES ET DE LA TECHNOLOGIE A L ECOLE PRIMAIRE : QUELLE DEMARCHE?

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Relation entre deux variables : estimation de la corrélation linéaire

Introduction à la méthodologie de la recherche

Introduction au Data-Mining

1 les caractères des êtres humains.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Enquête APM sur le Gouvernement d entreprise dans les PME-PMI : quelques résultats et commentaires

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

La maladie de Huntington, une maladie du cerveau

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Ebauche Rapport finale

Guide méthodologique

Le cinquième chapitre

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

ISTEX, vers des services innovants d accès à la connaissance

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXERCICES : MECANISMES DE L IMMUNITE : pages

Université de Bangui. Modélisons en UML

BTS MANAGEMENT DES UNITES COMMERCIALES GUIDE DU TUTEUR

LA SURVEILLANCE ET LE SUIVI DE L'ENVIRONNEMENT. Pierre Guimont Conseiller en environnement Unité Environnement Division Équipement, Hydro-Québec

EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Rapport d'analyse des besoins

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

LA BATTERIE DU PORTABLE

Système immunitaire artificiel

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

L IMPACT DES N.T.I.C. DANS LA FORMATION PROFESSIONNELLE DES CADRES DE L INSTITUTION MILITAIRE

Manuel de recherche en sciences sociales

Lecture critique et pratique de la médecine

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

2. Activités et Modèles de développement en Génie Logiciel

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Types de REA produites dans le cadre de la séquence pédagogique

MYRIAD. l ADN isolé n est à présent plus brevetable!

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Transcription:

N D'ORDRE : 2007-ISAL-0034 ANNEE 2007 THESE présentée devant L'INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON pour obtenir LE GRADE DE DOCTEUR Spécialité INFORMATIQUE Ecole Doctorale : Informatique et Information pour la Société par Sylvain BLACHON EXPLORATION DES DONNEES SAGE PAR DES TECHNIQUES DE FOUILLE DE DONNEES EN VUE D'EXTRAIRE DES GROUPES DE SYNEXPRESSION IMPLIQUES DANS L'ONCOGENESE Soutenue publiquement le 15 Juin 2007 devant le jury: Jean-François BOULICAUT, Professeur, INSA de Lyon Bruno CREMILLEUX, Professeur, Université de Caen Olivier GANDRILLON, CR1 CNRS HDR Jean-Jacques KUPIEC, IR INSERM HDR, Jean-Daniel ZUCKER, Professeur, Université Paris Nord Co-directeur Examinateur Co-directeur Rapporteur Rapporteur

Remerciements Je tiens à remercier Olivier Gandrillon, qui a été un modèle pendant ces 5 années passées au CGMC. Son ouverture d esprit scientifique et philosophique m ont constamment inspiré et il m a également montré qu il était possible de mener de front vie professionnelle, familiale et militante. Je remercie Jean-François Boulicaut pour la confiance qu il m a témoignée, même dans les moments difficiles où son soutien fut sans faille. Il a su m orienter dans le monde de l informatique que je découvrais et m expliquer avec des mots simples et précis les concepts que l on manipulait et m a ainsi aidé à me réapproprier sa spécialité. Plus généralement, je les remercie pour l opportunité qu ils m ont offert de travailler dans un contexte réellement pluridisciplinaire. J ai évolué constamment dans deux milieux de spécialistes aux pratiques et à la culture différentes. Si ce ne fut pas toujours facile, c est une des expériences les plus enrichissantes qu il me fut donné de vivre. Je remercie ensuite toutes les personnes qui travaillent ou ont travaillé dans l équipe BM2A (anciennement SIC), en particulier : Corinne Bresson, Antoine Coulon, Edmond Derrington, Claudine Faure, Sandrine Gonin-Giraud, Camila Mejia et les «ex» (Francesca Damiola, Sébastien Dazy, Céline Keime, Johan Leyritz). Elles ont partagé mes joies et mes peines professionnelles, ont fait preuve de courage quand il a fallu se battre pour «Sauver la recherche» et m ont constamment soutenu. Plus important encore, j ai pris conscience de la difficulté de la recherche en biologie moléculaire et cellulaire et j ai appris à leur côté combien l abnégation est une qualité essentielle pour un chercheur. Enfin, elles se montrèrent attentives et parfois passionnées lorsque je présentais les concepts de fouille de données : sans leur enthousiasme communicatif, cette thèse n aurait jamais abouti. Je remercie également les camarades du LIRIS avec lesquels j ai principalement interagi : Jérémy Besson, Ruggero Pensa et Céline Robardet. Leur aide fut essentielle pour surmonter les verrous informatiques auxquels nous nous sommes confrontés et leurs travaux m ont largement inspiré durant cette thèse. Ils se sont également très impliqués dans les discussions sur la signification biologique des motifs. J ai aimé travailler avec eux, apprécié leurs qualités humaines et leur ambiance de travail toujours fiévreuse mais bon enfant. Je remercie l équipe Vie Artificielle (qui n existe plus, mais dont le spectre hante le campus depuis) menée par Guillaume Beslon, en particulier Carole Knibbe, Virginie Lefort et Hédi Soula, avec qui j ai eu des discussions extrêmement riches sur la Biologie des Systèmes pendant la première moitié de ma thèse. Last but not least, je remercie tous mes amis, en particulier les lyonnais qui m ont hébergé depuis début 2006 : Arnaud Ribaud, Guillaume Bosc et Elise Ghys, Thomas Ferrez et Marie Grosselli, Florence Meyssonier et Stéphane Durand, Nadège Milioni et son coloc. Sans eux, ce mémoire n aurait pas vu le jour.

Résumé Avec le développement de techniques de biologie moléculaire à haut débit, l'accumulation de grandes quantités de données permet de poser de nouvelles questions tant méthodologiques que fondamentales, en biologie comme en informatique. Ces questions ouvrent la voie à l'étude de la complexité du vivant. Ce travail de thèse s'inscrit dans ce contexte de bioinformatique. L'essentiel de notre contribution réside dans l'étude et l'interrogation des données SAGE humaines issues du Cancer Genome Anatomy Project. Nous avons ainsi étudié en profondeur les qualités particulières de ces données, ainsi que les questions biologiques que nous pouvions nous poser à partir de ces données. Répondre à ces questions a nécessité différentes méthodes d'extraction de connaissances à partir des données. Chaque question a demandé la conception d'un scénario original d'extraction de connaissances. Leur mise en oeuvre a reposé sur l'utilisation de différents algorithmes d'extraction de motifs dans les bases de données, en particulier des algorithmes de recherche de motifs ensemblistes dans des données booléennes développés par différents partenaires de l'aci Bases de Données Inductives pour la Génomique. Les questions biologiques ainsi que la forme particulière des données SAGE nous ont confronté à certains verrous technologiques désormais résolus (e.g., la transposition pour l'extraction de tous les concepts formels, l'exploitation active de contraintes au cours des phases d'extraction) ou mieux cernés (e.g., le codage booléen de propriétés d'expression). Un effort particulier a été fourni sur le post traitement des motifs ensemblistes extraits et sur leurs interprétations. Ainsi, une méthode de classification de motifs locaux similaires (avec application à des collections de concepts formels) est proposée pour faciliter l'interprétation de ce que nous appelons des GQS («Groupes de Quasi-Synexpression»). Nous avons également travaillé à l'exploitation de sources de données externes (typiquement des sources comme Gene Ontology ou encore des résumés d'articles) pour faciliter l'identification des motifs pertinents d'un point de vue biologique. L'impact de ces éléments de méthodes a été validé sur un travail d'interprétation de GQS extraits des données SAGE humaines afin de proposer de nouvelles hypothèses sur des groupes de gènes simultanément co-surexprimés dans des situations cancéreuses.

A mes parents. A Barbara, qui me guida quand il était minuit dans ma thèse.

Table des Matières Introduction...7 1. Contexte de recherche en Biologie... 9 2. Contexte de recherche en Informatique... 14 3. Notre contribution... 20 Partie 1 - Méthodes informatiques pour l'analyse de l'expression des gènes...27 1. L'analyse du transcriptome pour l'étude du cancer : espoirs, avancées et questions en suspens... 33 1.1. Qu'est ce que le cancer?... 33 1.2. Extraire des connaissances sur le cancer à partir des données d'expression... 36 1.3. Quelques limites des données d'expression... 38 2. Etat de l'art sur la fouille de données d'expression de gènes... 40 2.1. Analyse différentielle entre deux situations biologiques... 44 2.2. Méthodes non supervisées d'extraction de motifs globaux... 46 2.2.1. Méthodes de réduction des dimensions... 47 2.2.2. Méthodes de bi-partitionnement... 48 2.3. Méthodes non supervisées d'extraction de motifs locaux... 58 2.3.1 Contexte Booléen... 61 2.3.2 Formalisation du problème... 63 2.3.3. Extraction de motifs fréquents... 64 2.3.4. Limites d'apriori... 69 2.3.5. Représentations condensées des ensembles fréquents... 71 2.3.6. Fermeture de Galois, ensembles fermés et concepts formels... 71 2.3.7. Ensembles δ -libres... 74 2.4. Analyses ontologiques pour l interprétation des groupes de synexpression... 76 Partie 2 Les données SAGE humaines: description et analyse...79 1. La technique SAGE... 81 1.1. Description de la technique... 81 1.2. Avantages et inconvénients du SAGE... 84 2. Construction des jeux de données... 86 2.1. Jeu de données 74x822 et dérivés... 87 2.2. Jeu de données 90x27679 et dérivés... 88 2.3. Jeu de données 207x125985 et dérivés... 88 3. Structure des données SAGE... 90 3.1. Structure du transcriptome... 90 3.2. Fréquence d'un tag et valeurs manquantes... 91 3.3. Que représente un niveau d'expression?... 92 3.4. Distribution des niveaux d'expression... 93 3.4.1. Un point de vue global... 93 3.4.2. Une méthode pour comparer la forme des distributions des niveaux d'expression de plusieurs tags... 96 3.4.3. Influence de la fréquence des tags dans les librairies sur la distribution des niveaux d'expression... 99 1/254

4. Evolution au cours du temps des données SAGE... 106 4.1. Evolution de la composition des librairies... 106 4.2. Evolution de l identification des tags... 109 Partie 3 Méthodes pour l'extraction de motifs locaux dans les données SAGE...113 1. Scénarii de fouille de données d'expression de gènes... 115 1.1. Préparation des données... 115 1.2. Extraction des motifs locaux sur la matrice Booléenne... 116 1.3. Post-traitement des motifs extraits... 117 1.4. Description des quatre scenarii d'extraction... 117 1.4.1. Extraction de règles d'association fortes sur le jeu de données 74x822... 117 1.4.2. Extraction de GQS sur le jeu de données 90x27679... 118 1.4.3. Extraction de règles de caractérisation de classes sur le jeu 90x27679... 119 1.4.4. Extraction de concepts formels sur le jeu 207x125985... 119 2. De la préparation des données SAGE... 121 2.1. Construction de la base de données SAGE... 121 2.2. Codage de la surexpression... 124 2.2.1. Coder des propriétés d'expression... 125 2.2.2. Différentes méthodes de binarisation... 126 2.2.3. Une évaluation des méthodes de discrétisation... 127 3. De l'extraction des motifs locaux... 142 3.1. Extraction de règles d association... 142 3.2. Extraction de concepts formels... 143 3.2.1. Transposition du prédicat pour l'extraction des concepts formels... 144 3.2.2. Extraction de concepts formels sous contraintes avec D-miner... 145 3.3. Extraction sous contraintes dans des contextes enrichis... 147 3.3.1. Extraction de règles de caractérisation de classes... 148 3.3.2. Extraction de motifs dans un contexte enrichi par des données bibliographiques.. 149 4. Post-traitement des motifs extraits... 154 4.1. Post-traitement des règles d'association... 156 4.2. Sélection de concepts formels pertinents... 157 4.3. Clustering et visualisation des concepts formels... 158 4.3.1. Effet du bruit sur les données d'expression... 158 4.3.3. Sélection visuelle de clusters de concepts formels... 160 Partie 4 Expériences de l'exploration des données SAGE...163 1. Exploration par des approches globales... 165 1.1 Clustering hiérarchique... 166 1.2. SOM... 168 1.3 K-moyennes... 172 1.4 SOTA... 177 1.5 Bi-Clust... 178 1.6 Quelques enseignements... 181 2 Exploration des données SAGE par extractions de règles d'association fortes : validation de l'approche... 183 2.1. Extractions sur le jeu de données 74x822... 183 2.1.1. Approches locales : Apriori... 183 2.1.2. Faisabilité des extractions... 184 2.1.3. Post-traitement des règles extraites... 184 2.1.4. Interprétation biologique des règles extraites... 187 2/254

2.2. Extractions sur le jeu de données 90x12636... 191 3. Exploration par l'extraction de concepts formels : de nouvelles pistes pour l étude du cancer... 192 3.1. Faisabilité des extractions... 192 3.2. Comparaison des concepts formels extraits en fonction de la méthode de discrétisation194 3.3. Post-traitement des concepts formels extraits... 194 3.4. Interprétation biologique des clusters de concepts retenus... 196 3.4.1 Groupe de Quasi-Synexpression impliquant des librairies de cerveau... 198 3.4.2. Groupe de Quasi-Synexpression impliquant des librairies de Prostate... 201 4. Exploration dans des contextes enrichis... 206 4.1. Exploration par l'extraction de règles de caractérisation de classes... 206 4.1.1. Faisabilité des extractions... 206 4.1.2. Interprétation biologique de règles de caractérisation de classe... 206 4.2 Exploration par l'extraction de «quasi-groupes de synexpression»... 209 4.2.1. Faisabilité des extractions... 211 4.2.2. Deux requêtes démontrant l'intérêt de notre approche... 212 5. Quelques résultats biologiques inattendus... 216 5.1. De la difficulté d'expliquer les classes de situations biologiques en fonction de leurs profils d'expression... 216 5.2. De l'aspécificité des groupes de co-surexpression vis-à-vis des situations biologiques. 218 5.3. De la difficulté d'expliquer les groupes de co-surexpression sur la base de la fonction. 220 Conclusion et perspectives...223 1. Perspectives... 226 2. Vers une biologie des systèmes... 229 Bibliographie...233 Annexes...253 3/254

Index des Figures Figure 1.1. Description de la technique des puces à ADN....11 Figure 1.2. Le data mining, un domaine de recherche à l'interface de plusieurs disciplines...14 Figure 1.3. Schéma d'un processus type d'extraction de connaissances...16 Figure 1.4 Un exemple jouet de matrice d'expression discrétisée....23 Figure 2.1. L opéron lactose, un modèle élégant de la régulation des gènes chez les bactéries...31 Figure 2.2. Exemples de motifs dans les données du Tableau 2.1...41 Figure 2.3 Exemples de propriétés d'expression permettant de définir des bi-ensembles pertinents 43 Figure 2.4 Un exemple de motifs globaux...44 Figure 2.5. Exemple de visualisation d'une analyse d'expression différentielle...47 Figure 2.6 Un exemple de bipartition obtenue par un clustering hiérarchique sur une matrice d'expression...49 Figure 2.7 Un exemple de deux bi-ensembles...55 Figure 2.8 Un exemple de contexte Booléen générique....61 Figure 2.9 Treillis des parties...65 Figure 2.10 Un exemple d'élagage à l'aide de la contrainte antimonotone Cfreq=2 sur le jeu de données jouet de la Figure 2.8...66 Figure 2.11 Une explication ensembliste de la confiance...67 Figure 2.12 Un exemple de treillis de concepts formels obtenus sur la matrice-jouet de la Fig. 2.8 73 Figure 3.1. Description de la technique SAGE...82 Figure 3.2. Répartition des librairies en fonction de leur taille...84 Figure 3.3 Structure du transcriptome...90 Figure 3.4. Distribution des 125985 tags en fonction de leurs niveaux d'expression...95 Figure 3.5. Mise en évidence du biais de la méthode permettant d'estimer la forme des distributions des niveaux...97 Figure 3.6. Distribution moyenne des niveaux d'expression relatifs...98 Figure 3.7. Impact de la fréquence des tags sur la structure des données SAGE...100 Figure 3.8. Corrélation entre l'écart-type et la moyenne des niveaux d'expression...101 Figure 3.9. Distribution des 66427 tags de fréquence supérieure à 1 en fonction de l'écart-type de leurs niveaux d'expression...102 Figure 3.10. Répartition moyenne des niveaux d'expression relatifs en fonction du nombre de librairies dans lesquelles les tags sont séquencés...103 Figure 3.11. Evolution au cours du temps du nombre de librairies SAGE en fonction du type de cellules étudiées...106 Figure 3.12. Distribution des librairies en fonction de l'organe d'origine...107 Figure 3.13. Évolution de l'identification des tags par SAGEmap au cours du temps...110 Figure 4.1. Schéma de la base de données SAGE initiale...121 Figure 4.2. Schéma (simplifié) de la base de données SQUAT rendue disponible à l'ensemble de la communauté des biologistes par le biais d'une interface web...123 Figure 4.3. Mise en évidence de la dispersion des écart-types des tags séquencés dans un nombre faible de librairies...132 Figure 4.4. Distribution des tags de fréquence 1 en fonction de leur niveau d'expression...133 Figure 4.5. Distribution des tags de fréquence comprise entre 2 et 5 en fonction de leurs niveaux d'expression...135 Figure 4.6. Répartition des quatre classes de tags en fonction de la moyenne et de l'écart-type de leurs niveaux d'expression...136 4/254

Figure 4.7. Seuils moyens Milieu et Max-25Max en fonction de la fréquence des tags...137 Figure 4.8. Comparaison des discrétisations par les méthodes Milieu et Max-25Max avec les intervalles de distribution des tags définis par la méthode de comparaison des profils d'expression...138 Figure 4.9. La méthode Milieu et les faux positifs...139 Figure 4.10. Comparaison des discrétisations Xmax et Max-Xmax par rapport à la discrétisation Milieu et de la valeur de X...140 Figure 4.11. Exemple d'élagage d'intervalle...153 Figure 4.12. Effet du bruit sur le nombre de concepts formels...158 Figure 5.1 Traitement de la matrice 74x822 par le logiciel de Eisen et al...167 Figure 5.2 Classification obtenue par le clustering hiérarchique issu de l'outil Cluster...169 Figure 5.3 Exemple de résultat du clustering par SOM sur le jeu de données 74x822...171 Figure 5.4. Partition des situations biologiques des jeux de données 90x5327 et 74x822 calculée par l'implémentation des SOM du logiciel Cluster....173 Figure 5.5 Exemple de résultat du clustering par les K-Moyennes sur le jeu de données 74x822..175 Figure 5.6 Partition des situations biologiques des jeux de données 74x822 (A) et 90x5327 (B) calculée par l'implémentation des K-moyennes du logiciel Cluster....176 Figure 5.7 Classification obtenue à l aide de SOTA sur les situations biologiques....178 Figure 5.8 Classification élaborée par Bi-Clust...179 Figure 5.9 Partition obtenue à l aide de Bi-Clust sur la base de la discrétisation «milieu»....180 Figure 5.10 Correspondance entre les couleurs et les mots-clefs utilisés pour le couleur-codage des règles d'association...187 Figure 5.11 Homogénéité fonctionnelle dans les règles d'association...189 Figure 5.12 Effets de critères de sélection objectifs et subjectifs sur les ensembles de concepts formels à analyser...195 Figure 5.13 Agrégation et visualisation des concepts à l'aide du logiciel Treeview...197 Figure 5.14 Un Groupe de Quasi-Synexpression regroupant des cellules cancéreuses issues du cerveau...199 Figure 5.15 Un Groupe de Quasi-Synexpression regroupant des cellules cancéreuses issues de la prostate...202 Figure 5.16. Comparaison du nombre de motifs extraits sur la matrice Booléenne réelle et les matrices aléatoires...209 Figure 5.17. Corrélation entre les différentes sources de données...210 Figure 5.18. Sélectivité de la contrainte d'aire minimale...211 Figure 5.19. Effet des contraintes externes sur l'élagage...212 Figure 5.20. Exemple de requêtes démontrant la sélectivité et le recouvrement possible de différentes contraintes...213 Figure 6.1 Démarche expérimentale en biologie des systèmes proposée par Hidde de Jong et Johannes Geiselmann dans le cadre de l'étude des réseaux d'interactions moléculaires....231 5/254

Index des Tableaux Tableau 2.1. Exemple de matrice d'expression de gènes...41 Tableau 3.1 Jeux de données produits...87 Tableau 3.2. Proportion de valeurs manquantes dans les jeux de données produits...92 Tableau 3.3. Librairies dans lesquelles les tags de plus faibles niveaux d'expressions sont séquencés...94 Tableau 3.4. Exemple de deux tags virtuels T1 et T2 mettant en évidence un biais de la méthode d'estimation de la forme du profil d'expression d'un tag...96 Tableau 4.1. Comparaison des matrices discrétisées...129 Tableau 4.2. Étude de la distribution des surexpressions en fonction du jeu de données et de la méthode de discrétisation...130 Tableau 4.3 Récapitulatif des différents cas où les méthodes de discrétisation peuvent produire des faux positifs...141 Tableau 5.1 Faisabilité et temps de calcul de l'algorithme de clustering hiérarchique agglomératif sur 3 jeux de données...167 Tableau 5.2 Faisabilité et temps de calcul de l'algorithme des SOM sur 3 jeux de données...170 Tableau 5.3 Faisabilité et temps de calcul pour les algorithmes des K-moyennes et des K-médoïdes sur 3 jeux de données...174 Tableau 5.4 Faisabilité des extractions de règles d'association en utilisant l'algorithme Min Ex sur le jeu de données 74x822...185 Tableau 5.5 Effet sur le nombre de motifs à analyser de la sélection des ensembles maximaux fréquents à partir des règles d'association...185 Tableau 5.6 Faisabilité de l'algorithme Min-Ex pour l'extraction de concepts formels sur 2 jeux de données 74x822 et 90x12636...193 Tableau 5.7 Faisabilité et temps de calcul de l'algorithme D-miner sur les jeux de données 90x5327 et 207x11082...193 Tableau 5.8 Nombre de concepts communs générés par les trois méthodes de binarisation...194 Tableau 5.9 Nombre de clusters retenus après agrégation et visualisation des concepts...195 Tableau 5.10 Une piste pour découvrir l'origine du bruit dans les données: l'exemple du Groupe de Quasi-Synexpression n 1526...201 Tableau 5.11. Faisabilité et temps de calcul de l'algorithme FTC-miner sur le jeu de données 90x27679...207 6/254

Introduction 7/254

INTRODUCTION Ce travail est né de la collaboration entre deux équipes de recherche au CGMC et au LIRIS respectivement en biologie et en informatique. Il est le fruit de besoins conjoints de la part des biologistes et des informaticiens les premiers d'outils d'analyse de grandes masses de données et les seconds de contextes applicatifs à forte valeur ajoutée. Cette thèse est le fruit de cette relation symbiotique entre deux espèces de chercheurs adaptées à leur milieu, mais dont la coopération mutuelle profite aux deux partenaires. 8/254

INTRODUCTION 1. Contexte de recherche en Biologie Au début de ce travail, en 2002, s ouvrait l ère de la post-génomique. Le génome humain était totalement séquencé et avec celui-ci, les génomes d une batterie d autres organismes. Dans la vision classique, prônée par le «dogme central de la biologie moléculaire», le secret de la vie est caché dans ces séquences. Ces découvertes ont ouvert des espoirs inédits dans la communauté des biologistes, y compris parmi les chercheurs critiques de la vision «tout génétique». Ainsi, après la publication du génome de la drosophile le 12 février 2001, Stephen Jay Gould raconte que pour la seconde fois de sa carrière, il interrompit un cours en amphi pour débattre avec les étudiants des retombées scientifiques d une telle découverte (la première fois étant à l occasion de mouvements étudiants dans les années 60 contre la guerre du Viêt-Nam) [Gould 2004]. Selon le dogme central de la biologie moléculaire, les caractères du vivant sont codés dans le génome et exprimés via un processus allant du gène (une séquence génomique) à la protéine via une molécule, l ARN messager. Ce sont les protéines qui assurent les fonctions biochimiques nécessaires à la cellule. Par le biais du code génétique, découvert entre 1961 et 1966, suite aux expériences in vitro de Matthaei et Nirenberg [Morange 2003], une séquence codante de nucléotides un gène 1 peut être traduite en séquence d acides aminés, formant une protéine. Une vision cybernétique s est ainsi imposée, considérant les réactions biochimiques comme un flux d information allant du programme génétique vers les fonctions (les caractères) du vivant. Cette vision s est raffinée avec la découverte de l opéron lactose par Jacob et Monod [Morange 2003] : les bactéries en présence de lactose sont capables d adapter leur production d enzymes permettant de dégrader le lactose via un mécanisme mettant en jeu des protéines régulatrices qui, en présence de lactose, interagissent avec l ADN pour activer spécifiquement les enzymes métabolisant le lactose. Ce mécanisme fut généralisé aux cellules eucaryotes : le programme génétique est alors activable par des signaux venant de l extérieur de la cellule qui favorisent l'expression de certains gènes et répriment l'expression d autres gènes par le biais de cascades enzymatiques. Cette découverte eut des répercussions dans tous les domaines de la biologie. Dans le domaine du cancer, la découverte de gènes inductibles responsables de la transformation de cellules normales en cellules tumorales (oncogènes) permit de grandes avancées dans la compréhension de la maladie [Janin 1991; Weinberg 1999]. Il en découle une théorie du développement du cancer assez largement partagée qui considère les cellules tumorales comme «autistes», c est-à-dire ne dépendant plus des signaux émis par les cellules avoisinantes. Ainsi désinhibées, ces cellules se mettent à se multiplier de manière anarchique. Il suffirait donc de trouver les gènes perturbés spécifiquement dans une tumeur pour connaître son origine moléculaire et éventuellement trouver un traitement ciblant ces gènes spécifiquement. La lutte contre le cancer privilégie donc la recherche de ces gènes (voir 1ère Partie) Les analyses à haut débit du transcriptome peuvent aider à repérer ces gènes surexprimés. Depuis les années 1980, les techniques d analyse en biologie moléculaire se sont amplement développées. Avec l effort de séquençage du génome, de nombreuses recherches se sont consacrées à développer des outils de biologie moléculaire permettant d exploiter les informations issues des séquences. Une des pistes abordées fut la quantification systématique de la molécule intermédiaire entre l ADN et les protéines : l ARN messager (ARNm). Au milieu des années 1990, des 1 Cette définition du gène n'est pas partagée par tous les biologistes voir par exemple elle sous tend cependant tout le travail de cette thèse. 9/254

INTRODUCTION techniques d analyse à haut débit ont vu le jour, permettant d'estimer la quantité de l ensemble des ARNm d'une cellule ou d'une population de cellules, défini comme le transcriptome. Les deux techniques principales sont les puces à ADN et la technique SAGE (Serial Analysis of Gene Expression). D'autres techniques utilisées de manière plus marginales ont aussi été développées comme le MPSS (Massive Parallel Signature Sequencing) développée par la société Lynx [Brenner et al. 2000] et la DDRT PCR (Differential Display Reverse Transcription Polymerase Chain Reaction) [Liang and Pardee 1992] et son amélioration le RFFD (Restriction Fragment Differential Display) [Naouar et al. 2005]. Nous décrivons brièvement la technique des puces à ADN pour les lecteurs non avertis. La technique SAGE n'est ici décrite que succinctement (voir la 2ème Partie pour une description détaillée). La technique des puces à ADN a vu le jour grâce à l effort conjugué de plusieurs équipes [Lockhart et al. 1996; Nguyen et al. 1995; Pietu et al. 1996; Schuler et al. 1996]. Elle est basée sur une technique de biologie moléculaire bien connue, l hybridation de séquences de nucléotides complémentaires. Il existe de nombreuses variantes technologiques, mais le principe reste le même: des milliers de sondes (séquences d'adn spécifiques de chaque gène étudié et dont la taille varie de quelques dizaines de nucléotides à quelques centaines) sont greffées sur une surface de quelques centimètres carrés (en général une lame de verre ou une membrane de nylon). Ce support est ensuite mis en présence des ADNc produits à partir des ARNm extraits et contenant un marqueur (généralement par fluorescence ou radioactivité). Les ADNc s'hybrident alors sur les sondes correspondantes pour former des duplex dont on peut repérer par leurs coordonnées sur le support et quantifier à l'aide du signal émis par le fluorochrome ou l'atome radioactif (cf. Figure1.1.). On suppose alors que l'intensité du signal est proportionnelle à la quantité d'arnm présents dans l'expérience. Cette technique domine jusqu à présent les études de transcriptomique. Elle souffre néanmoins de plusieurs limites. La première est évidente : seule l expression des gènes dont la séquence est connue est mesurable. Cet inconvénient tend à disparaître pour peu que l on travaille sur des organismes «classiques» (humain, souris, A. thaliana, S. cerevisiae, E. coli,...). Une autre limite vient de la sensibilité des réactions d hybridation : elle dépend beaucoup des conditions du milieu, ainsi que des séquences des sondes. Afin de limiter les sources de ces variabilités, des logiciels optimisant la qualité des sondes sont disponibles pour la communauté [Reymond et al. 2004a; Rouillard et al. 2002]. Outre la qualité des sondes, la détection est également source d erreurs : la fixation des sondes n est souvent pas homogène et les formes qu elles prennent dans les puits peuvent modifier l intensité lumineuse. Des études ont ainsi montré une grande variabilité des réponses données par deux puces à ADN mesurant les mêmes ARNm [Kuo et al. 2002; Mah et al. 2004; Mitchell et al. 2004; Parmigiani et al. 2004]. Ces biais rendent très difficiles les comparaisons à grande échelle des résultats obtenus par les puces à ADN. De nombreux travaux ont cherché à quantifier les erreurs dues à la conception des puces et au traitement de l image obtenue, ce qui donne plus de confiance aux informations extraites à partir de ces données. Une bonne revue des avantages et limites des puces à ADN est disponible dans [Reymond et al. 2004b]. La technique SAGE, développée en 1995 par Victor Velculescu [Velculescu et al. 1995], est une alternative convaincante pour mesurer à grande échelle le transcriptome. Cette technique est basée sur le séquençage en batterie de petites séquences nucléotidiques (entre 14, 21 voire 26 paires de bases suivant la variante «short»sage [Velculescu et al. 1995], «long» SAGE [Peters et al. 10/254

INTRODUCTION 1999; Saha et al. 2002] ou «super» SAGE [Matsumura et al. 2003]. Ces séquences, appelées tags, sont en théorie spécifiques de chaque gène. Typiquement, pour un tag de 14 paires de bases, il y a 4 10 combinaisons possibles 2, soit environ un milliard. Si l on estime à 30000 le nombre de gènes chez l homme, chaque séquence de tag produite au cours d'une expérience a une probabilité importante d'être spécifique de chaque gène voire de chaque transcrit. L ensemble des tags obtenus à partir d une population de cellules est nommé «librairie SAGE». L identification des tags reste néanmoins une tâche ardue (voir la 2ème Partie). En théorie, il est possible d extraire puis de séquencer tous les tags à partir des ARNm extraits d une population de cellules. L'hypothèse forte est que la quantité de chaque séquence de tag est proportionnelle à la quantité de chaque type d ARNm. En d'autres termes, la technique SAGE permet de mesurer l expression de tous les gènes des cellules étudiées. En pratique, seule une sous-fraction de tags est extraite et séquencée. La technique SAGE effectue un échantillonnage aléatoire de la population d ARNm et il suffit de multiplier le rapport quantité d un tag sur le nombre total de tags séquencés par un facteur pour obtenir le nombre de copies de chaque messager par cellule. De cette façon, il est possible de comparer directement plusieurs libraires SAGE. Figure 1.1. Description de la technique des puces à ADN. Ce schéma est un exemple d'analyse du transcriptome par puces à ADN. Ici, c'est une analyse différentielle basée sur deux populations de cellules dont les ARNm sont marqués par deux fluorochromes différents lors de l'étape de transcription inverse qui produit les ADNc. Le support est mis en présence simultanément avec les deux populations d'arnm. L'acquisition des données se fait en mesurant les intensités de chaque sonde pour les deux fluorochromes. L'image finale obtenue permet de repérer les gènes surexprimés dans la situation biologique étudiée par rapport à la référence (en rouge) et les gènes sous exprimés dans la situation biologique étudiée par rapport à la référence (en vert). 2 Sur les 14 paires de bases, 4 sont fixes et correspondent au site de coupure de l'enzyme. Ce qui fait 4 10 séquences différentes possibles. 11/254