THESE. pour obtenir LE GRADE DE DOCTEUR. Spécialité INFORMATIQUE. Ecole Doctorale : Informatique et Information pour la Société. par Sylvain BLACHON

Dimension: px
Commencer à balayer dès la page:

Download "THESE. pour obtenir LE GRADE DE DOCTEUR. Spécialité INFORMATIQUE. Ecole Doctorale : Informatique et Information pour la Société. par Sylvain BLACHON"

Transcription

1 N D'ORDRE : 2007-ISAL-0034 ANNEE 2007 THESE présentée devant L'INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON pour obtenir LE GRADE DE DOCTEUR Spécialité INFORMATIQUE Ecole Doctorale : Informatique et Information pour la Société par Sylvain BLACHON EXPLORATION DES DONNEES SAGE PAR DES TECHNIQUES DE FOUILLE DE DONNEES EN VUE D'EXTRAIRE DES GROUPES DE SYNEXPRESSION IMPLIQUES DANS L'ONCOGENESE Soutenue publiquement le 15 Juin 2007 devant le jury: Jean-François BOULICAUT, Professeur, INSA de Lyon Bruno CREMILLEUX, Professeur, Université de Caen Olivier GANDRILLON, CR1 CNRS HDR Jean-Jacques KUPIEC, IR INSERM HDR, Jean-Daniel ZUCKER, Professeur, Université Paris Nord Co-directeur Examinateur Co-directeur Rapporteur Rapporteur

2

3

4

5 Remerciements Je tiens à remercier Olivier Gandrillon, qui a été un modèle pendant ces 5 années passées au CGMC. Son ouverture d esprit scientifique et philosophique m ont constamment inspiré et il m a également montré qu il était possible de mener de front vie professionnelle, familiale et militante. Je remercie Jean-François Boulicaut pour la confiance qu il m a témoignée, même dans les moments difficiles où son soutien fut sans faille. Il a su m orienter dans le monde de l informatique que je découvrais et m expliquer avec des mots simples et précis les concepts que l on manipulait et m a ainsi aidé à me réapproprier sa spécialité. Plus généralement, je les remercie pour l opportunité qu ils m ont offert de travailler dans un contexte réellement pluridisciplinaire. J ai évolué constamment dans deux milieux de spécialistes aux pratiques et à la culture différentes. Si ce ne fut pas toujours facile, c est une des expériences les plus enrichissantes qu il me fut donné de vivre. Je remercie ensuite toutes les personnes qui travaillent ou ont travaillé dans l équipe BM2A (anciennement SIC), en particulier : Corinne Bresson, Antoine Coulon, Edmond Derrington, Claudine Faure, Sandrine Gonin-Giraud, Camila Mejia et les «ex» (Francesca Damiola, Sébastien Dazy, Céline Keime, Johan Leyritz). Elles ont partagé mes joies et mes peines professionnelles, ont fait preuve de courage quand il a fallu se battre pour «Sauver la recherche» et m ont constamment soutenu. Plus important encore, j ai pris conscience de la difficulté de la recherche en biologie moléculaire et cellulaire et j ai appris à leur côté combien l abnégation est une qualité essentielle pour un chercheur. Enfin, elles se montrèrent attentives et parfois passionnées lorsque je présentais les concepts de fouille de données : sans leur enthousiasme communicatif, cette thèse n aurait jamais abouti. Je remercie également les camarades du LIRIS avec lesquels j ai principalement interagi : Jérémy Besson, Ruggero Pensa et Céline Robardet. Leur aide fut essentielle pour surmonter les verrous informatiques auxquels nous nous sommes confrontés et leurs travaux m ont largement inspiré durant cette thèse. Ils se sont également très impliqués dans les discussions sur la signification biologique des motifs. J ai aimé travailler avec eux, apprécié leurs qualités humaines et leur ambiance de travail toujours fiévreuse mais bon enfant. Je remercie l équipe Vie Artificielle (qui n existe plus, mais dont le spectre hante le campus depuis) menée par Guillaume Beslon, en particulier Carole Knibbe, Virginie Lefort et Hédi Soula, avec qui j ai eu des discussions extrêmement riches sur la Biologie des Systèmes pendant la première moitié de ma thèse. Last but not least, je remercie tous mes amis, en particulier les lyonnais qui m ont hébergé depuis début 2006 : Arnaud Ribaud, Guillaume Bosc et Elise Ghys, Thomas Ferrez et Marie Grosselli, Florence Meyssonier et Stéphane Durand, Nadège Milioni et son coloc. Sans eux, ce mémoire n aurait pas vu le jour.

6

7 Résumé Avec le développement de techniques de biologie moléculaire à haut débit, l'accumulation de grandes quantités de données permet de poser de nouvelles questions tant méthodologiques que fondamentales, en biologie comme en informatique. Ces questions ouvrent la voie à l'étude de la complexité du vivant. Ce travail de thèse s'inscrit dans ce contexte de bioinformatique. L'essentiel de notre contribution réside dans l'étude et l'interrogation des données SAGE humaines issues du Cancer Genome Anatomy Project. Nous avons ainsi étudié en profondeur les qualités particulières de ces données, ainsi que les questions biologiques que nous pouvions nous poser à partir de ces données. Répondre à ces questions a nécessité différentes méthodes d'extraction de connaissances à partir des données. Chaque question a demandé la conception d'un scénario original d'extraction de connaissances. Leur mise en oeuvre a reposé sur l'utilisation de différents algorithmes d'extraction de motifs dans les bases de données, en particulier des algorithmes de recherche de motifs ensemblistes dans des données booléennes développés par différents partenaires de l'aci Bases de Données Inductives pour la Génomique. Les questions biologiques ainsi que la forme particulière des données SAGE nous ont confronté à certains verrous technologiques désormais résolus (e.g., la transposition pour l'extraction de tous les concepts formels, l'exploitation active de contraintes au cours des phases d'extraction) ou mieux cernés (e.g., le codage booléen de propriétés d'expression). Un effort particulier a été fourni sur le post traitement des motifs ensemblistes extraits et sur leurs interprétations. Ainsi, une méthode de classification de motifs locaux similaires (avec application à des collections de concepts formels) est proposée pour faciliter l'interprétation de ce que nous appelons des GQS («Groupes de Quasi-Synexpression»). Nous avons également travaillé à l'exploitation de sources de données externes (typiquement des sources comme Gene Ontology ou encore des résumés d'articles) pour faciliter l'identification des motifs pertinents d'un point de vue biologique. L'impact de ces éléments de méthodes a été validé sur un travail d'interprétation de GQS extraits des données SAGE humaines afin de proposer de nouvelles hypothèses sur des groupes de gènes simultanément co-surexprimés dans des situations cancéreuses.

8

9 A mes parents. A Barbara, qui me guida quand il était minuit dans ma thèse.

10

11 Table des Matières Introduction Contexte de recherche en Biologie Contexte de recherche en Informatique Notre contribution Partie 1 - Méthodes informatiques pour l'analyse de l'expression des gènes L'analyse du transcriptome pour l'étude du cancer : espoirs, avancées et questions en suspens Qu'est ce que le cancer? Extraire des connaissances sur le cancer à partir des données d'expression Quelques limites des données d'expression Etat de l'art sur la fouille de données d'expression de gènes Analyse différentielle entre deux situations biologiques Méthodes non supervisées d'extraction de motifs globaux Méthodes de réduction des dimensions Méthodes de bi-partitionnement Méthodes non supervisées d'extraction de motifs locaux Contexte Booléen Formalisation du problème Extraction de motifs fréquents Limites d'apriori Représentations condensées des ensembles fréquents Fermeture de Galois, ensembles fermés et concepts formels Ensembles δ -libres Analyses ontologiques pour l interprétation des groupes de synexpression Partie 2 Les données SAGE humaines: description et analyse La technique SAGE Description de la technique Avantages et inconvénients du SAGE Construction des jeux de données Jeu de données 74x822 et dérivés Jeu de données 90x27679 et dérivés Jeu de données 207x et dérivés Structure des données SAGE Structure du transcriptome Fréquence d'un tag et valeurs manquantes Que représente un niveau d'expression? Distribution des niveaux d'expression Un point de vue global Une méthode pour comparer la forme des distributions des niveaux d'expression de plusieurs tags Influence de la fréquence des tags dans les librairies sur la distribution des niveaux d'expression /254

12 4. Evolution au cours du temps des données SAGE Evolution de la composition des librairies Evolution de l identification des tags Partie 3 Méthodes pour l'extraction de motifs locaux dans les données SAGE Scénarii de fouille de données d'expression de gènes Préparation des données Extraction des motifs locaux sur la matrice Booléenne Post-traitement des motifs extraits Description des quatre scenarii d'extraction Extraction de règles d'association fortes sur le jeu de données 74x Extraction de GQS sur le jeu de données 90x Extraction de règles de caractérisation de classes sur le jeu 90x Extraction de concepts formels sur le jeu 207x De la préparation des données SAGE Construction de la base de données SAGE Codage de la surexpression Coder des propriétés d'expression Différentes méthodes de binarisation Une évaluation des méthodes de discrétisation De l'extraction des motifs locaux Extraction de règles d association Extraction de concepts formels Transposition du prédicat pour l'extraction des concepts formels Extraction de concepts formels sous contraintes avec D-miner Extraction sous contraintes dans des contextes enrichis Extraction de règles de caractérisation de classes Extraction de motifs dans un contexte enrichi par des données bibliographiques Post-traitement des motifs extraits Post-traitement des règles d'association Sélection de concepts formels pertinents Clustering et visualisation des concepts formels Effet du bruit sur les données d'expression Sélection visuelle de clusters de concepts formels Partie 4 Expériences de l'exploration des données SAGE Exploration par des approches globales Clustering hiérarchique SOM K-moyennes SOTA Bi-Clust Quelques enseignements Exploration des données SAGE par extractions de règles d'association fortes : validation de l'approche Extractions sur le jeu de données 74x Approches locales : Apriori Faisabilité des extractions Post-traitement des règles extraites Interprétation biologique des règles extraites /254

13 2.2. Extractions sur le jeu de données 90x Exploration par l'extraction de concepts formels : de nouvelles pistes pour l étude du cancer Faisabilité des extractions Comparaison des concepts formels extraits en fonction de la méthode de discrétisation Post-traitement des concepts formels extraits Interprétation biologique des clusters de concepts retenus Groupe de Quasi-Synexpression impliquant des librairies de cerveau Groupe de Quasi-Synexpression impliquant des librairies de Prostate Exploration dans des contextes enrichis Exploration par l'extraction de règles de caractérisation de classes Faisabilité des extractions Interprétation biologique de règles de caractérisation de classe Exploration par l'extraction de «quasi-groupes de synexpression» Faisabilité des extractions Deux requêtes démontrant l'intérêt de notre approche Quelques résultats biologiques inattendus De la difficulté d'expliquer les classes de situations biologiques en fonction de leurs profils d'expression De l'aspécificité des groupes de co-surexpression vis-à-vis des situations biologiques De la difficulté d'expliquer les groupes de co-surexpression sur la base de la fonction. 220 Conclusion et perspectives Perspectives Vers une biologie des systèmes Bibliographie Annexes /254

14 Index des Figures Figure 1.1. Description de la technique des puces à ADN Figure 1.2. Le data mining, un domaine de recherche à l'interface de plusieurs disciplines...14 Figure 1.3. Schéma d'un processus type d'extraction de connaissances...16 Figure 1.4 Un exemple jouet de matrice d'expression discrétisée Figure 2.1. L opéron lactose, un modèle élégant de la régulation des gènes chez les bactéries...31 Figure 2.2. Exemples de motifs dans les données du Tableau Figure 2.3 Exemples de propriétés d'expression permettant de définir des bi-ensembles pertinents 43 Figure 2.4 Un exemple de motifs globaux...44 Figure 2.5. Exemple de visualisation d'une analyse d'expression différentielle...47 Figure 2.6 Un exemple de bipartition obtenue par un clustering hiérarchique sur une matrice d'expression...49 Figure 2.7 Un exemple de deux bi-ensembles...55 Figure 2.8 Un exemple de contexte Booléen générique Figure 2.9 Treillis des parties...65 Figure 2.10 Un exemple d'élagage à l'aide de la contrainte antimonotone Cfreq=2 sur le jeu de données jouet de la Figure Figure 2.11 Une explication ensembliste de la confiance...67 Figure 2.12 Un exemple de treillis de concepts formels obtenus sur la matrice-jouet de la Fig Figure 3.1. Description de la technique SAGE...82 Figure 3.2. Répartition des librairies en fonction de leur taille...84 Figure 3.3 Structure du transcriptome...90 Figure 3.4. Distribution des tags en fonction de leurs niveaux d'expression...95 Figure 3.5. Mise en évidence du biais de la méthode permettant d'estimer la forme des distributions des niveaux...97 Figure 3.6. Distribution moyenne des niveaux d'expression relatifs...98 Figure 3.7. Impact de la fréquence des tags sur la structure des données SAGE Figure 3.8. Corrélation entre l'écart-type et la moyenne des niveaux d'expression Figure 3.9. Distribution des tags de fréquence supérieure à 1 en fonction de l'écart-type de leurs niveaux d'expression Figure Répartition moyenne des niveaux d'expression relatifs en fonction du nombre de librairies dans lesquelles les tags sont séquencés Figure Evolution au cours du temps du nombre de librairies SAGE en fonction du type de cellules étudiées Figure Distribution des librairies en fonction de l'organe d'origine Figure Évolution de l'identification des tags par SAGEmap au cours du temps Figure 4.1. Schéma de la base de données SAGE initiale Figure 4.2. Schéma (simplifié) de la base de données SQUAT rendue disponible à l'ensemble de la communauté des biologistes par le biais d'une interface web Figure 4.3. Mise en évidence de la dispersion des écart-types des tags séquencés dans un nombre faible de librairies Figure 4.4. Distribution des tags de fréquence 1 en fonction de leur niveau d'expression Figure 4.5. Distribution des tags de fréquence comprise entre 2 et 5 en fonction de leurs niveaux d'expression Figure 4.6. Répartition des quatre classes de tags en fonction de la moyenne et de l'écart-type de leurs niveaux d'expression /254

15 Figure 4.7. Seuils moyens Milieu et Max-25Max en fonction de la fréquence des tags Figure 4.8. Comparaison des discrétisations par les méthodes Milieu et Max-25Max avec les intervalles de distribution des tags définis par la méthode de comparaison des profils d'expression Figure 4.9. La méthode Milieu et les faux positifs Figure Comparaison des discrétisations Xmax et Max-Xmax par rapport à la discrétisation Milieu et de la valeur de X Figure Exemple d'élagage d'intervalle Figure Effet du bruit sur le nombre de concepts formels Figure 5.1 Traitement de la matrice 74x822 par le logiciel de Eisen et al Figure 5.2 Classification obtenue par le clustering hiérarchique issu de l'outil Cluster Figure 5.3 Exemple de résultat du clustering par SOM sur le jeu de données 74x Figure 5.4. Partition des situations biologiques des jeux de données 90x5327 et 74x822 calculée par l'implémentation des SOM du logiciel Cluster Figure 5.5 Exemple de résultat du clustering par les K-Moyennes sur le jeu de données 74x Figure 5.6 Partition des situations biologiques des jeux de données 74x822 (A) et 90x5327 (B) calculée par l'implémentation des K-moyennes du logiciel Cluster Figure 5.7 Classification obtenue à l aide de SOTA sur les situations biologiques Figure 5.8 Classification élaborée par Bi-Clust Figure 5.9 Partition obtenue à l aide de Bi-Clust sur la base de la discrétisation «milieu» Figure 5.10 Correspondance entre les couleurs et les mots-clefs utilisés pour le couleur-codage des règles d'association Figure 5.11 Homogénéité fonctionnelle dans les règles d'association Figure 5.12 Effets de critères de sélection objectifs et subjectifs sur les ensembles de concepts formels à analyser Figure 5.13 Agrégation et visualisation des concepts à l'aide du logiciel Treeview Figure 5.14 Un Groupe de Quasi-Synexpression regroupant des cellules cancéreuses issues du cerveau Figure 5.15 Un Groupe de Quasi-Synexpression regroupant des cellules cancéreuses issues de la prostate Figure Comparaison du nombre de motifs extraits sur la matrice Booléenne réelle et les matrices aléatoires Figure Corrélation entre les différentes sources de données Figure Sélectivité de la contrainte d'aire minimale Figure Effet des contraintes externes sur l'élagage Figure Exemple de requêtes démontrant la sélectivité et le recouvrement possible de différentes contraintes Figure 6.1 Démarche expérimentale en biologie des systèmes proposée par Hidde de Jong et Johannes Geiselmann dans le cadre de l'étude des réseaux d'interactions moléculaires /254

16 Index des Tableaux Tableau 2.1. Exemple de matrice d'expression de gènes...41 Tableau 3.1 Jeux de données produits...87 Tableau 3.2. Proportion de valeurs manquantes dans les jeux de données produits...92 Tableau 3.3. Librairies dans lesquelles les tags de plus faibles niveaux d'expressions sont séquencés...94 Tableau 3.4. Exemple de deux tags virtuels T1 et T2 mettant en évidence un biais de la méthode d'estimation de la forme du profil d'expression d'un tag...96 Tableau 4.1. Comparaison des matrices discrétisées Tableau 4.2. Étude de la distribution des surexpressions en fonction du jeu de données et de la méthode de discrétisation Tableau 4.3 Récapitulatif des différents cas où les méthodes de discrétisation peuvent produire des faux positifs Tableau 5.1 Faisabilité et temps de calcul de l'algorithme de clustering hiérarchique agglomératif sur 3 jeux de données Tableau 5.2 Faisabilité et temps de calcul de l'algorithme des SOM sur 3 jeux de données Tableau 5.3 Faisabilité et temps de calcul pour les algorithmes des K-moyennes et des K-médoïdes sur 3 jeux de données Tableau 5.4 Faisabilité des extractions de règles d'association en utilisant l'algorithme Min Ex sur le jeu de données 74x Tableau 5.5 Effet sur le nombre de motifs à analyser de la sélection des ensembles maximaux fréquents à partir des règles d'association Tableau 5.6 Faisabilité de l'algorithme Min-Ex pour l'extraction de concepts formels sur 2 jeux de données 74x822 et 90x Tableau 5.7 Faisabilité et temps de calcul de l'algorithme D-miner sur les jeux de données 90x5327 et 207x Tableau 5.8 Nombre de concepts communs générés par les trois méthodes de binarisation Tableau 5.9 Nombre de clusters retenus après agrégation et visualisation des concepts Tableau 5.10 Une piste pour découvrir l'origine du bruit dans les données: l'exemple du Groupe de Quasi-Synexpression n Tableau Faisabilité et temps de calcul de l'algorithme FTC-miner sur le jeu de données 90x /254

17 Introduction 7/254

18 INTRODUCTION Ce travail est né de la collaboration entre deux équipes de recherche au CGMC et au LIRIS respectivement en biologie et en informatique. Il est le fruit de besoins conjoints de la part des biologistes et des informaticiens les premiers d'outils d'analyse de grandes masses de données et les seconds de contextes applicatifs à forte valeur ajoutée. Cette thèse est le fruit de cette relation symbiotique entre deux espèces de chercheurs adaptées à leur milieu, mais dont la coopération mutuelle profite aux deux partenaires. 8/254

19 INTRODUCTION 1. Contexte de recherche en Biologie Au début de ce travail, en 2002, s ouvrait l ère de la post-génomique. Le génome humain était totalement séquencé et avec celui-ci, les génomes d une batterie d autres organismes. Dans la vision classique, prônée par le «dogme central de la biologie moléculaire», le secret de la vie est caché dans ces séquences. Ces découvertes ont ouvert des espoirs inédits dans la communauté des biologistes, y compris parmi les chercheurs critiques de la vision «tout génétique». Ainsi, après la publication du génome de la drosophile le 12 février 2001, Stephen Jay Gould raconte que pour la seconde fois de sa carrière, il interrompit un cours en amphi pour débattre avec les étudiants des retombées scientifiques d une telle découverte (la première fois étant à l occasion de mouvements étudiants dans les années 60 contre la guerre du Viêt-Nam) [Gould 2004]. Selon le dogme central de la biologie moléculaire, les caractères du vivant sont codés dans le génome et exprimés via un processus allant du gène (une séquence génomique) à la protéine via une molécule, l ARN messager. Ce sont les protéines qui assurent les fonctions biochimiques nécessaires à la cellule. Par le biais du code génétique, découvert entre 1961 et 1966, suite aux expériences in vitro de Matthaei et Nirenberg [Morange 2003], une séquence codante de nucléotides un gène 1 peut être traduite en séquence d acides aminés, formant une protéine. Une vision cybernétique s est ainsi imposée, considérant les réactions biochimiques comme un flux d information allant du programme génétique vers les fonctions (les caractères) du vivant. Cette vision s est raffinée avec la découverte de l opéron lactose par Jacob et Monod [Morange 2003] : les bactéries en présence de lactose sont capables d adapter leur production d enzymes permettant de dégrader le lactose via un mécanisme mettant en jeu des protéines régulatrices qui, en présence de lactose, interagissent avec l ADN pour activer spécifiquement les enzymes métabolisant le lactose. Ce mécanisme fut généralisé aux cellules eucaryotes : le programme génétique est alors activable par des signaux venant de l extérieur de la cellule qui favorisent l'expression de certains gènes et répriment l'expression d autres gènes par le biais de cascades enzymatiques. Cette découverte eut des répercussions dans tous les domaines de la biologie. Dans le domaine du cancer, la découverte de gènes inductibles responsables de la transformation de cellules normales en cellules tumorales (oncogènes) permit de grandes avancées dans la compréhension de la maladie [Janin 1991; Weinberg 1999]. Il en découle une théorie du développement du cancer assez largement partagée qui considère les cellules tumorales comme «autistes», c est-à-dire ne dépendant plus des signaux émis par les cellules avoisinantes. Ainsi désinhibées, ces cellules se mettent à se multiplier de manière anarchique. Il suffirait donc de trouver les gènes perturbés spécifiquement dans une tumeur pour connaître son origine moléculaire et éventuellement trouver un traitement ciblant ces gènes spécifiquement. La lutte contre le cancer privilégie donc la recherche de ces gènes (voir 1ère Partie) Les analyses à haut débit du transcriptome peuvent aider à repérer ces gènes surexprimés. Depuis les années 1980, les techniques d analyse en biologie moléculaire se sont amplement développées. Avec l effort de séquençage du génome, de nombreuses recherches se sont consacrées à développer des outils de biologie moléculaire permettant d exploiter les informations issues des séquences. Une des pistes abordées fut la quantification systématique de la molécule intermédiaire entre l ADN et les protéines : l ARN messager (ARNm). Au milieu des années 1990, des 1 Cette définition du gène n'est pas partagée par tous les biologistes voir par exemple elle sous tend cependant tout le travail de cette thèse. 9/254

20 INTRODUCTION techniques d analyse à haut débit ont vu le jour, permettant d'estimer la quantité de l ensemble des ARNm d'une cellule ou d'une population de cellules, défini comme le transcriptome. Les deux techniques principales sont les puces à ADN et la technique SAGE (Serial Analysis of Gene Expression). D'autres techniques utilisées de manière plus marginales ont aussi été développées comme le MPSS (Massive Parallel Signature Sequencing) développée par la société Lynx [Brenner et al. 2000] et la DDRT PCR (Differential Display Reverse Transcription Polymerase Chain Reaction) [Liang and Pardee 1992] et son amélioration le RFFD (Restriction Fragment Differential Display) [Naouar et al. 2005]. Nous décrivons brièvement la technique des puces à ADN pour les lecteurs non avertis. La technique SAGE n'est ici décrite que succinctement (voir la 2ème Partie pour une description détaillée). La technique des puces à ADN a vu le jour grâce à l effort conjugué de plusieurs équipes [Lockhart et al. 1996; Nguyen et al. 1995; Pietu et al. 1996; Schuler et al. 1996]. Elle est basée sur une technique de biologie moléculaire bien connue, l hybridation de séquences de nucléotides complémentaires. Il existe de nombreuses variantes technologiques, mais le principe reste le même: des milliers de sondes (séquences d'adn spécifiques de chaque gène étudié et dont la taille varie de quelques dizaines de nucléotides à quelques centaines) sont greffées sur une surface de quelques centimètres carrés (en général une lame de verre ou une membrane de nylon). Ce support est ensuite mis en présence des ADNc produits à partir des ARNm extraits et contenant un marqueur (généralement par fluorescence ou radioactivité). Les ADNc s'hybrident alors sur les sondes correspondantes pour former des duplex dont on peut repérer par leurs coordonnées sur le support et quantifier à l'aide du signal émis par le fluorochrome ou l'atome radioactif (cf. Figure1.1.). On suppose alors que l'intensité du signal est proportionnelle à la quantité d'arnm présents dans l'expérience. Cette technique domine jusqu à présent les études de transcriptomique. Elle souffre néanmoins de plusieurs limites. La première est évidente : seule l expression des gènes dont la séquence est connue est mesurable. Cet inconvénient tend à disparaître pour peu que l on travaille sur des organismes «classiques» (humain, souris, A. thaliana, S. cerevisiae, E. coli,...). Une autre limite vient de la sensibilité des réactions d hybridation : elle dépend beaucoup des conditions du milieu, ainsi que des séquences des sondes. Afin de limiter les sources de ces variabilités, des logiciels optimisant la qualité des sondes sont disponibles pour la communauté [Reymond et al. 2004a; Rouillard et al. 2002]. Outre la qualité des sondes, la détection est également source d erreurs : la fixation des sondes n est souvent pas homogène et les formes qu elles prennent dans les puits peuvent modifier l intensité lumineuse. Des études ont ainsi montré une grande variabilité des réponses données par deux puces à ADN mesurant les mêmes ARNm [Kuo et al. 2002; Mah et al. 2004; Mitchell et al. 2004; Parmigiani et al. 2004]. Ces biais rendent très difficiles les comparaisons à grande échelle des résultats obtenus par les puces à ADN. De nombreux travaux ont cherché à quantifier les erreurs dues à la conception des puces et au traitement de l image obtenue, ce qui donne plus de confiance aux informations extraites à partir de ces données. Une bonne revue des avantages et limites des puces à ADN est disponible dans [Reymond et al. 2004b]. La technique SAGE, développée en 1995 par Victor Velculescu [Velculescu et al. 1995], est une alternative convaincante pour mesurer à grande échelle le transcriptome. Cette technique est basée sur le séquençage en batterie de petites séquences nucléotidiques (entre 14, 21 voire 26 paires de bases suivant la variante «short»sage [Velculescu et al. 1995], «long» SAGE [Peters et al. 10/254

21 INTRODUCTION 1999; Saha et al. 2002] ou «super» SAGE [Matsumura et al. 2003]. Ces séquences, appelées tags, sont en théorie spécifiques de chaque gène. Typiquement, pour un tag de 14 paires de bases, il y a 4 10 combinaisons possibles 2, soit environ un milliard. Si l on estime à le nombre de gènes chez l homme, chaque séquence de tag produite au cours d'une expérience a une probabilité importante d'être spécifique de chaque gène voire de chaque transcrit. L ensemble des tags obtenus à partir d une population de cellules est nommé «librairie SAGE». L identification des tags reste néanmoins une tâche ardue (voir la 2ème Partie). En théorie, il est possible d extraire puis de séquencer tous les tags à partir des ARNm extraits d une population de cellules. L'hypothèse forte est que la quantité de chaque séquence de tag est proportionnelle à la quantité de chaque type d ARNm. En d'autres termes, la technique SAGE permet de mesurer l expression de tous les gènes des cellules étudiées. En pratique, seule une sous-fraction de tags est extraite et séquencée. La technique SAGE effectue un échantillonnage aléatoire de la population d ARNm et il suffit de multiplier le rapport quantité d un tag sur le nombre total de tags séquencés par un facteur pour obtenir le nombre de copies de chaque messager par cellule. De cette façon, il est possible de comparer directement plusieurs libraires SAGE. Figure 1.1. Description de la technique des puces à ADN. Ce schéma est un exemple d'analyse du transcriptome par puces à ADN. Ici, c'est une analyse différentielle basée sur deux populations de cellules dont les ARNm sont marqués par deux fluorochromes différents lors de l'étape de transcription inverse qui produit les ADNc. Le support est mis en présence simultanément avec les deux populations d'arnm. L'acquisition des données se fait en mesurant les intensités de chaque sonde pour les deux fluorochromes. L'image finale obtenue permet de repérer les gènes surexprimés dans la situation biologique étudiée par rapport à la référence (en rouge) et les gènes sous exprimés dans la situation biologique étudiée par rapport à la référence (en vert). 2 Sur les 14 paires de bases, 4 sont fixes et correspondent au site de coupure de l'enzyme. Ce qui fait 4 10 séquences différentes possibles. 11/254

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

TD de Biochimie 4 : Coloration.

TD de Biochimie 4 : Coloration. TD de Biochimie 4 : Coloration. Synthèse de l expérience 2 Les questions posées durant l expérience 2 Exposé sur les méthodes de coloration des molécules : Générique Spécifique Autres Questions Pourquoi

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Pour un principe matérialiste fort. Jean-Paul Baquiast

Pour un principe matérialiste fort. Jean-Paul Baquiast Pour un principe matérialiste fort Jean-Paul Baquiast Plan détaillé :. Pour un matérialisme fort Le retour en force du dogmatisme religieux Nécessité d un renouvellement du matérialisme Que sont les nouvelles

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Biomarqueurs en Cancérologie

Biomarqueurs en Cancérologie Biomarqueurs en Cancérologie Définition, détermination, usage Biomarqueurs et Cancer: définition Anomalie(s) quantitative(s) ou qualitative(s) Indicative(s) ou caractéristique(s) d un cancer ou de certaines

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

modélisation solide et dessin technique

modélisation solide et dessin technique CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln. MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.fr Plan Introduction Généralités sur les systèmes de détection d intrusion

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Le scoring est-il la nouvelle révolution du microcrédit?

Le scoring est-il la nouvelle révolution du microcrédit? Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché»

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché» Mastère spécialisé «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché» I- Présentation détaillée du programme d enseignement Répartition par modules et crédits ECTS : Intitulé

Plus en détail

Introduction : présentation de la Business Intelligence

Introduction : présentation de la Business Intelligence Les exemples cités tout au long de cet ouvrage sont téléchargeables à l'adresse suivante : http://www.editions-eni.fr Saisissez la référence ENI de l'ouvrage RI3WXIBUSO dans la zone de recherche et validez.

Plus en détail

Stratégie de rémunération

Stratégie de rémunération CONSULTING Offre Conseil RH Stratégie de rémunération La stratégie de rémunération est un facteur de stabilité et de performance de l'entreprise. GFI Consulting vous accompagne en mettant en cohérence

Plus en détail

Qu'est-ce que le BPM?

Qu'est-ce que le BPM? Qu'est-ce que le BPM? Le BPM (Business Process Management) n'est pas seulement une technologie mais, dans les grandes lignes, une discipline de gestion d'entreprise qui s'occupe des procédures contribuant

Plus en détail

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive. L ANALYSE ET L INTERPRÉTATION DES RÉSULTATS Une fois les résultats d une investigation recueillis, on doit les mettre en perspective en les reliant au problème étudié et à l hypothèse formulée au départ:

Plus en détail

Les OGM. 5 décembre 2008. Nicole Mounier

Les OGM. 5 décembre 2008. Nicole Mounier Les OGM 5 décembre 2008 Nicole Mounier Université Claude Bernard Lyon 1 CGMC, bâtiment Gregor Mendel 43, boulevard du 11 Novembre 1918 69622 Villeurbanne Cedex OGM Organismes Génétiquement Modifiés Transfert

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

SERVICE D ACCOMPAGNEMENT PEDAGOGIQUE DE L UNIVERSITE SORBONNE PARIS CITE

SERVICE D ACCOMPAGNEMENT PEDAGOGIQUE DE L UNIVERSITE SORBONNE PARIS CITE SERVICE D ACCOMPAGNEMENT PEDAGOGIQUE DE L UNIVERSITE SORBONNE PARIS CITE CATALOGUE DE FORMATION POUR LES ENSEIGNANTS DE USPC 2014-2015 Le service SAPIENS créé en janvier 2014 propose durant l année 2014-2015

Plus en détail

Synthèse «Le Plus Grand Produit»

Synthèse «Le Plus Grand Produit» Introduction et Objectifs Synthèse «Le Plus Grand Produit» Le document suivant est extrait d un ensemble de ressources plus vastes construites par un groupe de recherche INRP-IREM-IUFM-LEPS. La problématique

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Les apports de l informatique. Aux autres disciplines

Les apports de l informatique. Aux autres disciplines Les apports de l informatique Aux autres disciplines Le statut de technologie ou de sous-discipline est celui de l importation l et de la vulgarisation Le statut de science à part entière est lorsqu il

Plus en détail

N oubliez pas de sauvegarder après avoir intégré ce fichier dans votre espace extranet!

N oubliez pas de sauvegarder après avoir intégré ce fichier dans votre espace extranet! FORMULAIRE PDF REMPLISSABLE POUR REPONSE PEDAGOGIQUE AAP 2014 DU Page 1 sur 14 Avant toute chose, rappelez ici : 1 - Le titre principal (anciennement titre long) de votre projet [90 caractères] Messagerie

Plus en détail

Pour un usage plus sûr du téléphone portable

Pour un usage plus sûr du téléphone portable Pour un usage plus sûr du téléphone portable On commence tout juste à en parler : l utilisation du portable comporte des risques pour la santé. Pour tenter de les réduire, le Criirem (Centre de recherche

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich L informatique comme discipline au gymnase Renato Renner Institut für Theoretische Physik ETH Zürich Comment puis-je transférer des fichiers de musique sur mon nouvel iphone? Comment puis-je archiver mes

Plus en détail

«L utilisation d un intranet permet-il la mise en place d un travail collaboratif et/ou coopératifs? Pour quelles compétences?»

«L utilisation d un intranet permet-il la mise en place d un travail collaboratif et/ou coopératifs? Pour quelles compétences?» «L utilisation d un intranet permet-il la mise en place d un travail collaboratif et/ou coopératifs? Pour quelles compétences?» Introduction Le travail que nous présentons ici repose sur une expérience

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Baccalauréat technologique

Baccalauréat technologique Baccalauréat technologique Épreuve relative aux enseignements technologiques transversaux, épreuve de projet en enseignement spécifique à la spécialité et épreuve d'enseignement technologique en langue

Plus en détail

Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2.

Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2. Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2. Le test aux limites 3. Méthode 2.1. Pré-requis 2.2. Préparation des

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

ENSEIGNEMENT DES SCIENCES ET DE LA TECHNOLOGIE A L ECOLE PRIMAIRE : QUELLE DEMARCHE?

ENSEIGNEMENT DES SCIENCES ET DE LA TECHNOLOGIE A L ECOLE PRIMAIRE : QUELLE DEMARCHE? ENSEIGNEMENT DES SCIENCES ET DE LA TECHNOLOGIE A L ECOLE PRIMAIRE : QUELLE DEMARCHE? Les nouveaux programmes 2008 confirment que l observation, le questionnement, l expérimentation et l argumentation sont

Plus en détail

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF 10 REPÈRES POUR LA MISE EN ŒUVRE DU DISPOSITIF «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 MEN-DGESCO 2013 Sommaire 1. LES OBJECTIFS DU DISPOSITIF 2. LES ACQUISITIONS PRIORITAIREMENT VISÉES 3. LES LIEUX

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Introduction à la méthodologie de la recherche

Introduction à la méthodologie de la recherche MASTER DE RECHERCHE Relations Économiques Internationales 2006-2007 Introduction à la méthodologie de la recherche geraldine.kutas@sciences-po.org Les Etapes de la Recherche Les étapes de la démarche Etape

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

1 les caractères des êtres humains.

1 les caractères des êtres humains. Quelques rappels des classes précédentes ACTIVITÉ livre pages 8 et 9 : apprendre le bilan de la page 9 Les êtres vivants sont répartis en espèces. Chaque être vivant est formé de cellules. schéma d une

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Enquête APM sur le Gouvernement d entreprise dans les PME-PMI : quelques résultats et commentaires

Enquête APM sur le Gouvernement d entreprise dans les PME-PMI : quelques résultats et commentaires Enquête APM sur le Gouvernement d entreprise dans les PME-PMI : quelques résultats et commentaires Pierre-Yves GOMEZ Professeur EMLYON Directeur de l Institut Français de Gouvernement des Entreprises (IFGE)

Plus en détail

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU CommentWatcher plateforme Web open-source pour analyser les discussions sur des forums en ligne Marian-Andrei RIZOIU 2ème octobre 2013 BLEND 2013 Lyon, France Contexte Laboratoire ERIC Université Lumière

Plus en détail

La maladie de Huntington, une maladie du cerveau

La maladie de Huntington, une maladie du cerveau Actualités à propos de la recherche sur la maladie de Huntington. Expliqué simplement. Écrit par des scientifiques. Pour la communauté mondiale HD. La greffe de moelle osseuse dans la maladie de Huntington

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

Guide méthodologique

Guide méthodologique Communauté d Agglomération de NIORT du GRAND NANCY PLAN DE DEPLACEMENTS URBAINS Plan de Déplacement Entreprise Guide méthodologique Septembre 2007 m u n i c i p a l i t é s e r v i c e 7 1, a v e n u e

Plus en détail

Le cinquième chapitre

Le cinquième chapitre Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines

Plus en détail

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 10 avril 2014 à 9 h 30 «Carrières salariales et retraites dans les secteurs et public» Document N 9 Document de travail, n engage pas le Conseil Simulation

Plus en détail

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE» MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE» Du cours Modélisation Semi -Formelle de Système d Information Du Professeur Jean-Pierre GIRAUDIN Décembre. 2002 1 Table de matière Partie 1...2 1.1

Plus en détail

ISTEX, vers des services innovants d accès à la connaissance

ISTEX, vers des services innovants d accès à la connaissance ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions

Plus en détail

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez 1. Introduction : Besoins Informations et Aide

Plus en détail

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calculer avec Sage. Revision : 417 du 1 er juillet 2010 Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

EXERCICES : MECANISMES DE L IMMUNITE : pages 406 407 408 409 410

EXERCICES : MECANISMES DE L IMMUNITE : pages 406 407 408 409 410 EXERCICES : MECANISMES DE L IMMUNITE : pages 406 407 408 409 410 EXERCICE 1 PAGE 406 : EXPERIENCES A INTERPRETER Question : rôles respectifs du thymus et de la moelle osseuse dans la production des lymphocytes.

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

BTS MANAGEMENT DES UNITES COMMERCIALES GUIDE DU TUTEUR

BTS MANAGEMENT DES UNITES COMMERCIALES GUIDE DU TUTEUR BTS MANAGEMENT DES UNITES COMMERCIALES GUIDE DU TUTEUR Vous êtes tuteur d un étudiant en BTS management des unités commerciales. Ce guide vous est destiné : il facilite votre préparation de l arrivée du

Plus en détail

LA SURVEILLANCE ET LE SUIVI DE L'ENVIRONNEMENT. Pierre Guimont Conseiller en environnement Unité Environnement Division Équipement, Hydro-Québec

LA SURVEILLANCE ET LE SUIVI DE L'ENVIRONNEMENT. Pierre Guimont Conseiller en environnement Unité Environnement Division Équipement, Hydro-Québec LA SURVEILLANCE ET LE SUIVI DE L'ENVIRONNEMENT Pierre Guimont Conseiller en environnement Unité Environnement Division Équipement, Hydro-Québec Introduction L'un des principes directeurs de la politique

Plus en détail

EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE

EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE (Préparation : 5 heures -- Exposé et Questions : 1 heure) Rapport établi par : P.J. BARRE, E. JEAY, D. MARQUIS, P. RAY, A. THIMJO 1. PRESENTATION DE L EPREUVE 1.1.

Plus en détail

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché» 1- Présentation détaillée du programme d enseignement Répartition par modules et crédits ECTS :

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale Annales du Contrôle National de Qualité des Analyses de Biologie Médicale ARN du virus de l hépatite C : ARN-VHC ARN-VHC 03VHC1 Novembre 2003 Edité : mars 2006 Annales ARN-VHC 03VHC1 1 / 8 ARN-VHC 03VHC1

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

LA BATTERIE DU PORTABLE

LA BATTERIE DU PORTABLE LA BATTERIE DU PORTABLE Table des matières Fiche professeur... 2 Fiche élève... 4 Narration de séance et productions d élèves... 5 1 Fiche professeur LA BATTERIE DU PORTABLE Niveaux et objectifs pédagogiques

Plus en détail

Système immunitaire artificiel

Système immunitaire artificiel République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieure Université des Sciences et de la Technologie D Oran Mohammed Boudiaf (USTO) Faculté des Sciences Département d Informatique

Plus en détail

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier

Plus en détail

L IMPACT DES N.T.I.C. DANS LA FORMATION PROFESSIONNELLE DES CADRES DE L INSTITUTION MILITAIRE

L IMPACT DES N.T.I.C. DANS LA FORMATION PROFESSIONNELLE DES CADRES DE L INSTITUTION MILITAIRE N 198 PETREIN Olivier L IMPACT DES N.T.I.C. DANS LA FORMATION PROFESSIONNELLE DES CADRES DE L INSTITUTION MILITAIRE Introduction L'emploi des Nouvelles Technologies de l'information et de la Communication

Plus en détail

Manuel de recherche en sciences sociales

Manuel de recherche en sciences sociales Résumé de QUIVY R; VAN CAMPENHOUDT L. 95, "Manuel de recherches en sciences sociales", Dunod Cours de TC5 du DEA GSI de l intergroupe des écoles Centrales 11/2002 Manuel de recherche en sciences sociales

Plus en détail

Lecture critique et pratique de la médecine

Lecture critique et pratique de la médecine 1-00.qxp 24/04/2006 11:23 Page 13 Lecture critique appliquée à la médecine vasculaireecture critique et pratique de la médecine Lecture critique et pratique de la médecine Introduction Si la médecine ne

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

2. Activités et Modèles de développement en Génie Logiciel

2. Activités et Modèles de développement en Génie Logiciel 2. Activités et Modèles de développement en Génie Logiciel Bernard ESPINASSE Professeur à l'université d'aix-marseille Plan Les Activités du GL Analyse des besoins Spécification globale Conceptions architecturale

Plus en détail

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M Communiqué de presse 1 er avril 2014 GÉNOMIQUE TESTS DE DIAGNOSTIC GÉNÉTIQUE R&D Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M Offre sursouscrite 4,7 fois,

Plus en détail

Types de REA produites dans le cadre de la séquence pédagogique

Types de REA produites dans le cadre de la séquence pédagogique Scénario pédagogique APPRENDRE À ENSEIGNER AUTREMENT Description générale du scénario Titre Les bases de données relationnelles Résumé Dans le cadre d'un cours à distance, la visioconférence est une REA

Plus en détail

MYRIAD. l ADN isolé n est à présent plus brevetable!

MYRIAD. l ADN isolé n est à présent plus brevetable! MYRIAD La Cour Suprême des Etats-Unis revient sur plus de 30 ans de pratique : l ADN isolé n est à présent plus brevetable! Mauvaise passe pour les inventions en biotechnologies sur le territoire américain.

Plus en détail

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ Année 2007 THÈSE Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS En vue de l'obtention du titre de Docteur de l'université de Toulouse, délivré par l Institut National des Sciences

Plus en détail