MEMOIRE DE MAGISTER THEME :

Dimension: px
Commencer à balayer dès la page:

Download "MEMOIRE DE MAGISTER THEME :"

Transcription

1 Département Informatique MEMOIRE DE MAGISTER Option : Informatique et Automatique THEME : FOUILLE DE DONNEES BIOLOGIQUES : ETUDE COMPARATIVE ET EXPERIMENTATION. Présenté par : Abdelhak MANSOUL Soutenu devant les membres du jury : Mr B. BELDJILALI Mr K. BOUAMRANE Mr A. GHOMARI Mr M. MALKI Mr B. ATMANI Professeur à l Université d Oran Président Maître de Conférences à l Université d Oran Examinateur Maître de conférences à l Université d Oran Examinateur Maître de conférences à l UDL de Sidi Belabess Examinateur Maître de conférences à l Université d Oran Rapporteur

2 Résumé Le traitement des données biologiques est indispensable en recherches médicales et sciences de la vie. En effet, les données biologiques sont de différents types, et souvent complexes, ce qui a induit une recherche soutenue de nouveaux procédés d exploitation parce que ceux existant ne suffisent plus ou ne sont plus adaptés. Une nouvelle approche : l Extraction de Connaissances à partir des Données biologiques est de plus en plus envisagée. De là, notre étude qui porte sur la fouille de données biologiques sur un terrain expérimental : une épidémie. Le présent travail de recherche se situe dans le cadre de l ECD Biologiques, à travers une étude comparatives des outils existants et la proposition d une nouvelle approche pour l extraction des règles d association à partir de données biologiques, leur gestion et l alimentation d un système d aide à la décision. D où, la problématique abordée par notre étude qui est la fouille de données biologiques assistée par une modélisation booléenne des résultats obtenus. Nous proposons un processus d extraction de motifs assez novateur pour générer des règles d association profitable et exploitable à deux niveaux : Profitable au spécialiste du domaine, en particulier à travers les règles d association qui aident à mieux interpréter les données. Le résultat de la fouille de données est optimisé par une modélisation booléenne des règles d association extraites. Cette amélioration se fait par la machine BRI (Boolean Rules Induction ). En premier lieu nous présenterons un état de l art, s ensuit une étude comparative des différents outils et méthodes existants afin d en tirer bénéfice, et on continuera par exposer notre démarche et les résultats obtenus. Mots clés: Automate cellulaire, Fouille de données biologiques, Induction de règles, Règle d association, modélisation booléenne.

3 Abstract The biological data processing is an indispensable tool in medical researches and life sciences. Indeed, the biological data are various types, and often complex, what led a search of new exploitation processes because those existing are not any more enough or are not any more adapted. A new approach : the Extraction of Knowledge from the biological data is more and more envisaged. From there, our study which concerns the Biological Data Mining on an experimental ground: an epidemic. The present research work is situated within the framework of Knowledge Discovery from Biological Data, through study comparative clauses of the existing tools and the proposition of a new approach for the extraction of the association rules from biological data, there management and the supply of a system of decision-making support. Where from, the problem approached by our study which is the Data Mining of biological data assisted by a boolean modeling for the obtained results. We propose a rather innovative process of extraction of patterns for generating a profitable and exploitable association rules at two levels: Profitable, to the specialist of the domain, in particular through the rules of association which help to interpret better the data. The result of the data mining process is optimized by a boolean modelling of the extracted association rules. This improvement is made by the machine BRI (Boolean Rules Rules Induction). First of all we shall present a state of the art, follows a comparative study of the various existing tools and the methods to benefit from it, and we shall continue to expose our approach and the obtained results. Key words: Cellular automaton, Biological data mining, Rules Induction, Association Rules, Boolean modelisation

4 Remerciements Je remercie les membres du jury qui m ont fait l honneur d avoir accepté d évaluer ce travail. Je remercie vivement Monsieur Bouziane BELDJILALI, qui m a bien accueilli et m a entretenu pour me diriger ensuite vers mon encadreur. Ainsi que, Monsieur Baghdad ATMANI mon encadreur, pour m avoir dirigé pendant tout le long de ce travail, par ses précieux conseils, ses pertinents commentaires, et ses orientations. De plus m a fait profiter de son expérience dans la direction de travaux de recherche. Mes remerciements vont aussi : À Monsieur Abdelhafid HAFFAF, le chef du département informatique de l université d Oran. À Monsieur Karim BOUAMRANE pour m avoir facilité les démarches administratives au département informatique. Et Monsieur Smain MAAZOUZI, le chef du département informatique de l université du 20 Août 55 de SKIKDA pour son grand soutien.

5 TABLE DES MATIERES Résumé Liste des figures Liste des tableaux Glossaire Introduction générale 1 Chapitre I. L Extraction de Connaissances à partir de Données Biologiques 6 I.1 Définition de l extraction de connaissances à partir de données biologiques 6 I.2 Le processus de l ECD biologiques 7 I.3 Notre contribution 13 I.4 Etat de l art de l ECD biologiques 14 I.5 Les méthodes de fouille de données 20 I.6 Etude comparative 27 I.7 Discussion sur l ECD Biologiques 30 I.8 Conclusion 31 Chapitre II. Extraction de règles d association 33 II.1 Les règles d association 34 II.2 L induction et l évaluation des règles 35 II.3 Les algorithmes d extraction des règles d association 37 II.4 Conclusion 42 Chapitre III. Modélisation booléenne des règles d association 44 III.1 Le moteur d inférence cellulaire : architecture et principe de 44 fonctionnement III.2 La modélisation booléenne 47 III.3 Exemple d illustration d induction des règles booléennes 48 III.4 La dynamique du moteur d inférence cellulaire 50 III.5 Conclusion 52 Chapitre IV. Conception et expérimentation du système BIODM 54 IV.1 Etude et choix des données biologiques pour expérimentation 54 IV.2 Architecture du système BIODM (BIOlogical Data Mining) 55 IV.3 Le processus de l ECD biologiques 57 IV.4 Le logiciel réalisé 63 IV.5 L expérimentation 66 IV.6 Conclusion 70 Conclusion générale 71 Références bibliographiques 73 Annexe B 77

6 Liste des figures Introduction générale. Figure 0.1 : Complexe Tuberculosis. 2 Figure 0.2 : Morceau de séquence génomique rapatriée de NCBI. 4 Figure 0.3 : Fichier des séquences ayant subi une transformation. 4 Chapitre I. L ECD Biologique. Figure 1.1 : Exemple du format FASTA d une séquence protéique. 9 Figure 1.2 : Exemple du format STADEN d une séquence protéique. 9 Figure 1.3 : Exemple du format PIR d une séquence protéique. 10 Figure 1.4 : Exemple de fichier à l état brut de la séquence génomique de la souche MT CDC1551 au format texte brut. 10 Figure 1.5 : Morceau de la séquence génomique nettoyée du Mt CDC Figure 1.6 : Morceau de la séquence génomique mise en forme du Mt CDC Figure 1.7 : Morceau de la séquence génomique structurée du Mt CDC Figure 1.8 : Processus d ECD Biologiques. 12 Chapitre III. Modélisation booléenne des règles d association. Figure 3.1 : Le système BRI (Boolean Rule Induction). 44 Figure 3.2 : Les partitions S, S et S. 45 Figure 3.3 : Illustration du principe d induction des règles booléennes inductives par BRI. 48 Chapitre IV. Conception et expérimentation du système BIODM. Figure 4.1 : Architecture du système BIODM. 55 Figure 4.2 : Morceaux de la séquence génomique du Mt CDC Figure 4.3 : Morceaux de séquence protéique du Mt CDC Figure 4.4 : Architecture fonctionnelle du système BIODM. 64 Figure 4.5 : Interface du système BIODM. 66 Figure 4.6 : Echantillon de gènes servant à la fouille de données. 67

7 Liste des tableaux Introduction générale. Tableau 0.1: Tableau des différentes souches du Mycobacterium Tuberculosis 77 Tableau 0.2: Tableaux informatif sur les caractéristiques des souches du Mycobacterium Tuberculosis complètement annotées. 78 Tableau 1.3 : Les souches du Mycobacterium Tuberculosis en cours d annotation. 78 Chapitre I. L ECD Biologique. Tableau 1.1: Description du fichier FASTA de l exemple de la figure Tableau 1.2: Description du fichier PIR de l exemple de la figure Tableau 1.3: Les souches du Mycobacterium Tuberculosis en cours d annotation. 77 Tableau 1.4: Les méthodes de FDD utilisées en ECD biologiques. 28 Tableau 1.5: Les tâches et méthodes utilisées en ECD. 29 Tableau 1.6: Tableau comparatif des tâches de l ECD. 29 Chapitre III. Modélisation booléenne des règles d association Tableau 3.1 : Représentation cellulaire de la Base des connaissances de la figure Tableau 3.2 : Les matrices d incidences d entrée R et de sortie R pour la figure Chapitre IV. Conception et expérimentation du système BIODM. Tableau 4.1 : Base de test servant à l expérimentation. 66 Tableau 4.2 : Exemple de règles générées par Apriori pour un support de 60% 68 et une confiance de 80%. Tableau 4.3 : Exemple de règles cellulaires générées par BRI. 68 Tableau 4.4 : Nombre de règles et temps d exécution d Apriori sur l échantillon de la figure Tableau 4.5 : Evolution de l espace de stockage. 69

8 Annexe A Glossaire A Acide désoxyribonucléique (ADN) Support biochimique de l information génétique chez tous les êtres vivants (à l exception de quelques virus qui utilisent l ARN). Principal composant des chromosomes, l ADN se présente le plus souvent sous forme de deux longs filaments (ou chaînes) torsadés l un dans l autre pour former une structure en double hélice. Chacune de ces chaînes est un polymère formé de l assemblage de quatre nucléotides différents, désignés par l initiale de la base azotée qui entre dans leur composition : A (Adénine), C (Cytosine), G (Guanine) et T (Thymine). Acide ribonucléique (ARN) Dans les cellules, on distingue plusieurs types d ARN suivant leur fonction. Les trois types principaux sont : les ARN messagers, les ARN de transfert et les ARN ribosomaux. L ARN est un acide nucléique constitué d une seule chaîne de nucléotides, de structure analogue à celle de l ADN. Il existe cependant des différences chimiques entre ces deux acides nucléiques qui donnent à l ARN certaines propriétés particulières. L ARN est produit par transcription de l ADN. ACP L'analyse en composantes principales (ACP) est une méthode mathématique d'analyse des données qui consiste à rechercher les directions de l'espace qui représentent le mieux les corrélations entre n variables aléatoires Acyclique (graphe) Un graphe acyclique est un graphe ne contenant aucun cycle. Agrégation (données) Le mot agrégation désigne l'action d'agréger, de regrouper des éléments. Alignement Global / Local L'alignement de séquences (ou alignement séquentiel) est une manière de disposer les composantes nucléotides ou acides aminés) des ADN, des ARN, ou des séquences primaires de protéines pour identifier les zones de concordance qui traduisent des similarités ou dissemblances de nature historique. Il existe l alignement global, c'est-à-dire entre les deux séquences sur toute leur longueur (FASTA) et local, entre une séquence et une partie de l'autre séquence (BLAST). Annotation L annotation d un génome consiste à traiter l information brute contenue dans la séquence dans le but : 1. de prédire, le contenu en gènes, la position des gènes à l intérieur d un génome ainsi que leur organisation, des séquences promotrices, etc. Dans ce cas, on parle d annotation structurale. 2. de prédire la fonction potentielle de ces gènes. Dans ce cas on parle d'annotation fonctionnelle. Antigènes Un antigène est une macromolécule naturelle ou synthétique, reconnue par des anticorps ou des cellules du système immunitaire et capable d'engendrer une réponse immunitaire. Arbre de décision Modèle issu des techniques d'intelligence artificielle. Son principe est de chercher à diviser une population en 2 (arbres binaires) ou plus (arbres n-aires) de sorte que ces sous-populations soient aussi différentes entre elles que possibles, et homogènes du point de vue de la répartition de la variable cible. Apprentissage (échantillon d') Partie des données servant à l'évaluation des différents paramètres d'un modèle (en anglais, "training"). Athérosclérose Le vieillissement normal des artères et artérioles se nomme artériosclérose. Auto-immunes (maladies) Les maladies auto-immunes sont dues à une hyperactivité du système immunitaire à l'encontre de substances ou de tissus qui sont normalement présents dans l'organisme. Automate cellulaire Un automate cellulaire consiste en une grille régulière de «cellules» contenant chacune un «état» choisi parmi un ensemble fini et qui peut évoluer au cours du temps. L'état d'une cellule au temps t+1 est fonction de l'état au temps t d'un nombre fini de cellules appelé son «voisinage». À chaque nouvelle unité de temps, les mêmes règles sont appliquées simultanément à toutes les cellules de la grille, produisant une nouvelle «génération» de cellules dépendant entièrement de la génération précédente.

9 Annexe A B Bio-informatique La Bio-informatique est constituée par l'ensemble des concepts et des techniques nécessaires à l'interprétation de l'information génétique (séquences) et structurale. C'est le décryptage de la «bio-information». La bio-informatique est donc une branche théorique de la biologie. Biologie moléculaire La biologie moléculaire est une discipline scientifique au croisement de la génétique, de la biochimie et de la physique, dont l'objet est la compréhension des mécanismes de fonctionnement de la cellule au niveau moléculaire. BLAST BLAST (acronyme de basic local alignment search tool) est une méthode de recherche heuristique utilisée en bio-informatique permettant de trouver les régions similaires entre deux ou plusieurs séquences de nucléotides ou d'acides aminés. C Candidat (gène) L'approche gène candidat consiste à supposer l'implication d'un gène dans un quelconque effet à priori, et l'étude vise à confirmer cette implication a posteriori. Cas-témoins (étude) Etude rétrospective entre deux groupes, l'un présentant une maladie (cas) et l'autre, indemne (témoins). Chromosome Unité physique de matériel génétique correspondant à une molécule continue d'adn. Les cellules bactériennes n'en comportent qu'un. Ils sont doués du pouvoir d'autoreproduction. Classification ascendante hiérarchique (CAH) Méthode de création de typologies qui agrège, à chaque étape, les individus ou les groupes d'individus les plus proches. Les emboîtements successifs se poursuivent ainsi jusqu'à agréger toute la population. On choisit ensuite la partition (ensemble de classes ainsi constituées) qui propose le meilleur rapport homogénéité interne des groupes / hétérogénéité des groupes entre eux. Classification automatique On appelle classification automatique la catégorisation algorithmique d'objets. Celle-ci consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se basant sur des données statistiques. Cœliaque (maladie) La maladie cœliaque est une maladie auto-immune, caractérisée par une atteinte de tout ou partie des villosités recouvrant l'intestin grêle. Co-régulé (gène) Gènes liés l un à l autre. Code génétique Système de correspondance permettant de traduire une séquence d acide nucléique en protéine. Cohorte Ensemble d individus étudiés sur une période de temps donnée. Une cohorte permet de suivre de manière longitudinale les comportements de la population observée ainsi que sa réaction à un ou plusieurs événements donnés. Continue (variable) Se dit d'une variable qui peut prendre une "infinité" de valeurs (par opposition à discrète) par exemple, un réel. Un âge, une somme d'argent, un coefficient de bonus/malus sont souvent considérés comme continus. Synonyme : quantitatif. Corrélation Mesure de la liaison entre deux variables. On parle de corrélation entre une cause et son effet, ou entre deux variables qui apportent la même information. CROHN (maladie) La maladie de Crohn est une maladie inflammatoire chronique intestinale (MICI) de l'ensemble du tube digestif.

10 Annexe A D Data Mining (outils de) Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent d extraire de la connaissance des données en découvrant des modèles, des règles dans le volume d information. Data mining Le terme anglais datamining évoque le travail de mineur de fond pour extraire les données pertinentes noyées dans de gros volumes de données. Ensemble de techniques héritées de la statistique "classique", de la statistique bayésienne et de l'intelligence artificielle, qui permet l'étude de grands volumes de données. Ces techniques sont soutenues en général par une méthode de travail qui pose les étapes de l'étude DataMining. Déduction / induction En logique, la déduction procède de la conception que les moyens ne sont pas plus importants que la fin (conclusion), par opposition à l'induction logique qui consiste à former des représentations générales à partir de faits particuliers. Dichotomique (Variable) Variable qui peut opérer une division de l échantillon en deux parties. Discrète / Continue (variable) Se dit d'une variable qui ne prend qu'un nombre limité et connu d'avance de modalités (valeurs distinctes), par opposition à continue. Une situation familiale, un sexe, ou à une catégorie socio-professionnelle sont des variables discrètes. Synonyme : qualitative. Distance En mathématiques, une distance est une application qui formalise l'idée intuitive de distance, c'est-à-dire la longueur qui sépare deux points. Données biologiques ( cohorte ) Ce sont les des dosages systématiques réalisés (la biochimie, NFS numération de formule sanguine et analyse d urine). Données cliniques ( cohorte ) Les données cliniques, se divisent en examens cliniques systématiques (taille, poids, pression artérielle,.), et en examens cliniques spécifiques (échographie,..). Données génétiques Les données relatives au génome (ADN,..). E Élaguer Consiste à supprimer d'un problème des valeurs de variables ne pouvant pas prendre part à une solution. Épi-génétique (maladie) Le terme épigénétique définit les modifications transmissibles et réversibles de l'expression des gènes ne s'accompagnant pas de changements des séquences nucléotidiques. Epidémiologie Etude des différents facteurs qui interviennent dans l apparition et l évolution des maladies. Eucaryotes / procaryotes L ensemble des organismes vivants peut être classé en trois grands groupes : les eucaryotes (L Homme, ainsi que les animaux, les plantes et les champignons), les eubactéries, les archaebactéries. Les cellules des eucaryotes possèdent un noyau. Les eubactéries et les archaebactéries ne possèdent pas de vrai noyau. F FASTA C est une méthode de recherche heuristique utilisée en bio-informatique permettant de trouver les régions similaires entre deux ou plusieurs séquences de nucléotides ou d'acides aminés. Ce programme permet de retrouver rapidement dans des bases de données, les séquences ayant des zones de similitude avec une séquence donnée (introduite par l'utilisateur).

11 Annexe A Fonctionnelle (génomique) Étude de la fonction des gènes par analyse de leur séquence et de leurs produits d expression : les ARNm (transcriptome) et les protéines (protéome). G Gène Fragment d ADN portant les informations nécessaires à la fabrication d une ou plusieurs protéine(s). Un gène comprend la séquence en nucléotide qui peut varier de quelques centaines, à plus d un million de nucléotides. Génétique (algorithme) Un algorithme génétique est un algorithme lent, représentant les modèles comme des gènes et des opérateurs génétiques et les faisant évoluer soit par mutation (un gène au hasard est remplacé), soit par cross-over (la place de deux sous-arbres est échangée). Génome Ensemble de l information génétique d un organisme (matériel génétique présent dans chacune des cellules d'un individu, patrimoine héréditaire d'un individu). Une copie du génome est présente dans chacune de ses cellules. Le génome est transmis de génération en génération. Génomique Étude des génomes. Son objectif est de séquencer l ADN d un organisme et de localiser sur celui-ci tous les gènes qu il porte, puis de caractériser leurs fonctions. Génotype Ensemble des caractères génétiques d'un individu. Son expression conduit au phénotype. H HMM Un modèle de Markov caché (MMC) -- en anglais Hidden Markov Models (HMM) (ou plus correctement, mais moins employé automate de Markov à états cachés) est un modèle statistique dans lequel le système modélisé est supposé être un processus Markovien de paramètres inconnus. Les modèles de Markov cachés sont massivement utilisés notamment en reconnaissance de formes, en intelligence artificielle ou encore en traitement automatique du langage naturel. I Induction Méthode consistant à tirer une conclusion d une série de faits. Cette conclusion ne sera jamais sûre à 100 %. L'induction en revanche génère du sens en passant des faits à la loi, du particulier au général. M Marqueur génétique En cartographie génétique, séquence d'adn particulière utilisée pour "baliser" les chromosomes. Modèle Mécanique plus ou moins "boîte noire" qui, à partir de données connues (input), calcule une réponse (target) et la probabilité de réalisation de cette réponse associée (score). Moteur d'inférence Partie d'un système expert qui effectue la sélection et l'application des règles en vue de la résolution d'un problème donné. Motifs fréquents Un caractère ou trait qui se répète fréquemment. Motifs séquentiels Les motifs séquentiels permettent de traiter de gros volumes de données et d en extraire des règles incluant la dimension temporelle Mutation Modification affectant l'adn d'un gène. Cette altération du matériel génétique d'une cellule ou d'un virus entraîne une modification durable de certains caractères du fait de la transmission héréditaire de ce matériel de génération en génération.

12 Annexe A N Nucléotide Motif structural de base des acides nucléiques, formé de l assemblage de plusieurs molécules : un sucre, un acide phosphorique et une base azotée (dans le cas de l ARN, cette base peut être l Adénine - A, la Cytosine - C, la Guanine - G ou l Uracile - U ; idem dans le cas de l ADN, excepté que l Uracile est remplacé par la Thymine - T). O OR (Odds Ratio) Un Odds ratio (OR), se définit comme le rapport des chances qu'un évènement arrivant, par exemple une maladie, à un groupe de personnes A, arrive également à un autre groupe B. Orphelines (pathologies) Les maladies rares ou maladies orphelines sont des maladies qui affectent moins de 0,05 % de la population (1 personne sur 2 000). P Pathogènes /pathogénicité Les agents infectieux sont un type d'agent pathogène, responsables des maladies infectieuses. PE / PPE Familles de protéines. Perceptron Catégorie de réseaux de neurones robustes. Ils diffèrent des autres réseaux (les RBF) par la fonction d'activation des neurones, c'est à dire leur manière de transformer les signaux d'entrée en signal de réponse. Plasmide Petite molécule circulaire d'adn extrachromosomique présente chez les bactéries, capable de se répliquer de façon autonome, dans la cellule d'origine et dans une cellule-hôte. Polymorphismes génétiques Les polymorphismes génétiques s'expriment chez les individus sous la forme de différents phénotypes. Protéine L un des quatre matériaux de base de tout organisme, avec les glucides, les lipides et les acides nucléiques. Les protéines sont formées d un enchaînement spécifique d acides aminés (de quelques dizaines à plusieurs centaines). Les protéines remplissent différentes fonctions dans la cellule, notamment des fonctions de structure et des fonctions enzymatiques. Protéome / protéomique Le protéome est l ensemble des protéines produites à partir du génome d un organisme. La protéomique est l étude du protéome, dans le but de déterminer l activité, la fonction et les interactions des protéines. Puce à ADN Technologie employée dans l étude du transcriptome et basée sur la capacité des molécules d ADN et d ARN à s hybrider entre elles. De courtes séquences d ADN connues sont fixées sur des supports d une surface de l ordre du centimètre carré : les puces. Q Qualitative / Quantitative (variable) Une variable qualitative est une variable pour laquelle la valeur mesurée sur chaque individu (parfois qualifiée de catégorie ou de modalité) ne représente pas une quantité. Une variable est dite quantitative lorsque la valeur mesurée sur chaque individu représente une quantité. R Raisonnement à partir de cas / Case Based Reasoning Un système CBR dispose d une base de cas. Chaque cas possède une description et une solution. Pour utiliser ces informations, un moteur est aussi présent. Celui-ci va retrouver les cas similaires au problème posé. Après analyse, le moteur fournit une solution adaptée qui doit être validée. Enfin le moteur ajoute le problème et sa solution dans la base de cas.

13 Annexe A Règles séquentielles C est une règle d association incluant le facteur temporel. Renforcement (apprentissage) L'apprentissage par renforcement fait référence à une classe de problèmes d'apprentissage automatique, dont le but est d'apprendre, à partir d'expériences, ce qu'il convient de faire en différentes situations, de façon à optimiser une récompense numérique au cours du temps. RR (Risque relatif), Le risque relatif (RR) est une mesure statistique souvent utilisée en épidémiologie, mesurant le risque de survenue d'un événement entre deux groupes. S Segmentation (ou Typologie) Découpage d une population en fonction d un ou plusieurs critères (géographiques, sociodémographiques, comportementaux ). Les groupes ainsi constitués aussi homogènes et différents entre eux que possibles, peuvent être choisis comme autant de cibles à atteindre à l aide d un marketing mix spécifique. Séquençage (génome) Analyse du génome, consistant à déterminer la succession de toutes les bases qui composent l'adn d'un organisme. Ce séquençage n'est réalisé ou en cours de réalisation que pour un nombre limité d'espèces : quelques bactéries, une levure, un insecte (la drosophile) et l'homme. Le séquençage ne permet pas la détermination de la fonction des protéines codées par l'adn. Séquenceurs automatiques Un séquenceur de gènes (ou «séquenceur») est un appareil capable d'automatiser l'opération de séquençage de l'adn. Séquences répétées directes Séquences identiques ou quasi identiques, présentes en plusieurs copies dans la même molécule d'adn. Séquences répétées en tandem Séquences répétées directes adjacentes. Souche (bactérie) Une population d'une espèce pouvant engendrée une population fille c'est-à-dire les ancêtres d'une population, par exemple des souches de bactéries pathogènes, Supervisé / non supervisé (méthode) L'apprentissage supervisé est une technique d'apprentissage automatique où l'on cherche à produire automatiquement des règles à partir d'une base de données d'apprentissage contenant des exemples de cas déjà traités. L'apprentissage non-supervisé est une méthode d'apprentissage automatique. Cette méthode se distingue de l'apprentissage supervisé par le fait qu'il n'y a pas de sortie a priori. Streptococcus Les Streptococcus ou streptocoques sont des bactéries. On retrouve des streptocoques un petit peu partout dans la nature. Certains vivent sur la peau et les muqueuses de l'homme : leur présence est normale. Syndrome métabolique Le syndrome métabolique (ou syndrome X) désigné par les acronymes SMet (pour syndrome métabolique) ou MetS (pour Metabolic syndrome chez les anglophones) désigne l'association d'une série de problèmes de santé ayant en commun un mauvais métabolisme corporel. T Transfert horizontal / vertical Le Transfert horizontal de gènes (ou HGT pour Horizontal Gene Tranfer en anglais), est un processus dans lequel un organisme intègre du matériel génétique provenant d'un autre organisme sans en être le descendant. Par opposition, le transfert vertical se produit lorsque l'organisme reçoit du matériel génétique à partir de son ancêtre.

14 Introduction générale Introduction générale Au cours des dernières années, la bioinformatique [Gibas et Jambeck, 2002] a connu un grand développement lié à l aboutissement de nombreux travaux de séquençage, lesquels ayant conduit à l arrivée d énormes quantités de données biologiques qu il faut exploiter pour tirer un maximum de connaissances possibles [Chervitz et al., 1999], [Tzanis et al., 2005]. Si dans un premier temps, les génomes séquencés étaient ceux des procaryotes (unicellulaires : Bactérie,.), nous arrivons maintenant au stade où des génomes d eucaryotes (pluricellulaires : animaux, humains, ) sont disponibles. De ce fait, les quantités de données brutes disponibles sont déjà trop importantes pour pouvoir être analysées manuellement [Chervitz et al., 1999]. L outil informatique et par la même les méthodes informatiques se sont imposées d elles mêmes en biologie moléculaire: C est la naissance de la bioinformatique. Son développement a été rendu possible par les énormes progrès réalisés en informatique (capacités de calcul, stockage, nouveaux algorithmes, ), qui ont permis la constitution de banques de données pour le stockage de l intégralité des données biologiques produites par les expérimentations. Dans un autre volet complémentaire, nous avons l épidémiologie, qui est basée sur l utilisation des méthodes de surveillance et d analyse des données recueillies concernant les diagnostics relatifs à des infections. Ces méthodes classiques ne sont plus satisfaisantes comme elles l étaient autrefois, surtout quand il s'agit d analyser et détecter précocement une épidémie causée par une maladie émergente. Du fait de l inefficacité de ces méthodes, de la variété des données biologiques, et de la nature même des épidémies [Labbe, 2007], une nouvelle approche, exploitant des données biologiques relatives aux épidémies, est utilisée afin de mieux comprendre les maladies qui ont un profil épidémiologique : c est la fouille de données biologiques relatives aux épidémies [Remvikos, 2004], [Maumus et al., 2005], [Etienne, 2004]. Cette fouille de données permet d extraire des connaissances qui aideront à mieux connaître ou interpréter les phénomènes biologiques liés à une épidémie particulière et ainsi permettre la mise en œuvre de mesures de prévention et de lutte, par des traitements appropriés, des vaccinations, des antibiotiques, etc. Un autre aspect, la disponibilité de vastes banques de données de santé publique relatives aux épidémies issues des récents séquençages de nouveaux agents pathogènes,

15 Introduction générale a incité à les valoriser pour mieux connaitre les épidémies et aider les spécialistes à trouver des réponses thérapeutiques efficaces. En effet, parmi ces épidémies, il existe une qui a montré un fort intérêt notamment par les récents séquençages de nouvelles souches : c est la tuberculose. A l origine l infection est provoquée par la pénétration dans l organisme d une bactérie appelée Mycobacterium Tuberculosis, et lorsque cette infection se multiplie dans un lieu et une période donnée cela abouti à une l épidémie. Dans la pratique, il existe un Complexe Tuberculosis dont le Mycobacterium Tuberculosis est l agent typique responsable de la tuberculose humaine (voir Figure 0.1). Complexe Tuberculosis M. Tuberculosis M. Africanum M. Bovis M. Bovis BCG M. Canetti M. Microti m Figure 0.1: Complexe Tuberculosis. L agent pathogène : La bactérie Les bactéries (Bacteria) sont des organismes vivants unicellulaires. Elles mesurent quelques micromètres de long et peuvent présenter différentes formes : des formes sphériques (coques), allongées ou en bâtonnets (bacilles), et des formes plus ou moins spiralées [Wikipedia]. Caractéristiques génétiques d une bactérie La plupart des bactéries possèdent un unique chromosome circulaire, d'autres possèdent un chromosome linéaire. Il existe toutefois de rares bactéries possédant deux chromosomes. La taille du génome s exprime en millier de nucléotides et peut être très variable selon les espèces de bactéries. L'analyse chimique de l'appareil nucléaire indique qu'il est composé à 80 % d'adn (le chromosome), à 10 % d'arn et à 10 % de protéines [Carbonelle et al., 2003]. L ADN (le chromosome) : Chez les bactéries tout l'adn est codant. L ADN Extrachromosomique (les plasmides) : A côté du chromosome, il peut exister des éléments génétiques (ADN) de petites tailles (0,5 à 5 % du chromosome bactérien), extra-chromosomiques, se sont les plasmides. Les plus connus sont les plasmides de résistance aux antibiotiques, ils portent des gènes

16 Introduction générale qui confèrent aux bactéries la résistance à divers antibiotiques [Carbonelle et al., 2003]. Dans le domaine des bactéries et en particulier celui du Mycobacterium Tuberculosis, les séquences complètes de génomes s accumulent depuis 1995 (voir Tableau 0.1, Tableau 0.2, Tableau 0.3). Ces données ont permis d envisager l étude du génome du Mycobacterium Tuberculosis par des techniques informatiques, pour identifier et connaître au mieux la source de l infection afin d aider les spécialistes à trouver des solutions thérapeutiques et stopper la diffusion de la bactérie et par conséquent stopper l épidémie par certains vaccins, ou antibiotiques. Plusieurs approches informatiques notamment par la fouille de données ont été alors développées en exploitant des données biologiques en générale et de la tuberculose en particulier, notamment par : l utilisation d algorithmes de recherche de mots puis de couples de mots représentés énormément dans les séquences ADN des souches et espèces phylogénétiquement proches, ces séquences de lettres particulières, permettent de repérer et d identifier des séquences anormales. la fouille de données génomiques sans à priori pour faire émerger des sousséquences d'adn qui peuvent donner des éléments d informations sur les grandes séquences d'adn ; la recherche de gènes co-régulés, etc. En 1998, la première séquence complète du génome de Mt H37RV a été réalisée et a permis de dégager des caractéristiques propres aux mycobactéries dont les plus importantes [Carbonelle et al., 2003]: 51 % des gènes sont dupliqués; 10 % du génome code pour 2 familles de gènes qui codent eux mêmes pour 2 protéines nommées PE et PPE; forte présence de séquences répétées d ADN, dont 65 copies de séquences appelées MIRUs (Mycobacterial Interspaced Repetitive Unit), et de répétitions directes appelées RDs. Ces séquences répétées sont riches en particularités sur le génome. Toutes ces caractéristiques de ce génome sont autant chacune une source qu on exploite en fouille de données [Fleiishman et al., 2002], [Ferdinand et al., 2004], [Yokoyama et al., 2007].

17 Introduction générale Problématique. La représentation des séquences biologiques. Dans un passé récent, la fouille de données dans un contexte biologique utilisait la séquence dans sa structure primaire à base de nucléotides (ex : AAGTCGTTGCTGGC) où celle-ci est considérée comme une chaine de milliers de caractères, en ce moment le gène, la protéine, et autres éléments caractérisant n étaient pas suffisamment cernés (annotation incomplète) pour être exploités efficacement et donc le prétraitement des données se basait essentiellement sur des techniques de traitement de texte plus ou moins aménagées selon le contexte. Alors, nous avons envisagé un système de fouille de données un peu plus élaboré du fait de l existence d entités sémantiques dans le fichier de la séquence en question (le gène, la protéine, sa localisation,..) (voir Figure 0.2). Nous utilisons donc des traitements spécifiques pour obtenir une structure bien appropriée à la fouille de données (voir Figure 0.3) ou les entités sémantiques (gènes, protéines, ) deviennent des descripteurs, et on attribuera la valeur «0» en l absence et «1» en la présence de ce descripteur dans la séquence. Figure 0.2. Morceau de séquence génomique rapatriée de NCBI. Figure 0.3. Fichier des séquences ayant subi une transformation. Dans le cadre de cette étude, nous avons développé des recherches sur les systèmes d extraction de règles d association à partir des données (gènes, ) [Chen et al., 2003], [Bahar et Chen, 2004], [Benabdeslem et al., 2007] et nous avons réalisé un système baptisé BIODM : BIOlogical Data Mining. En premier lieu, nous avons étudié l extraction de règles d association en utilisant des algorithmes appropriés. En deuxième lieu nous avons travaillé sur le raffinement, des résultats, par un processus d induction cellulaire BRI (Boolean Rule Induction). Ce raffinement est assuré par une modélisation booléenne. Deux motivations concurrentes nous ont amenés à adopter le principe des automates

18 Introduction générale cellulaires pour les systèmes à base de règles d association. En effet, nous avons non seulement souhaité avoir une base de règles optimale (modélisation booléenne), mais nous avons également exploité les performances du moteur d inférence cellulaire CIE de la machine cellulaire CASI, déjà opérationnel [Benamina et Atmani, 2008]. Ce mémoire s articule autour de quatre chapitres : Le chapitre I introduit l extraction de la connaissance à partir de données biologiques. Nous commencerons par expliquer comment est né le besoin en fouille de données biologiques et particulièrement en épidémiologie, ensuite nous passerons en revue les différents types de données biologiques auxquels nous seront amené à travailler pour donner par la suite une vue d ensemble du processus d ECD biologiques que nous envisageons de suivre. Une fois, toutes ces notions clarifiées nous aborderons un état de l art du domaine de l ECD biologiques que nous concluons par une étude comparative des méthodes et techniques utilisées et une explication de notre contribution par cette étude. Le chapitre II aborde le principe de l extraction des règles d association, une méthode descriptive de fouille de données qui a reçu beaucoup d intérêt en recherche. Nous présentons le principe ainsi que les différents algorithmes les plus en vue dans la littérature. Le chapitre III est consacré à la présentation du processus d ECD biologiques que nous avons adopté en particulier la modélisation booléenne des règles d association, résultat du module BRI, selon le principe de la machine cellulaire CASI [Benamina et Atmani, 2008]. Le chapitre IV présente les données expérimentales et l architecture générale du système que nous avons réalisé : BIODM. Ensuite, nous présentons les résultats obtenus sur la base des échantillons test que nous avons utilisés. Finalement, nous concluons en synthétisant les différentes étapes de notre contribution et nous proposons les perspectives envisagées pour poursuivre cette recherche.

19 Chapitre I : L extraction de connaissances à partir de données biologiques Chapitre I. L extraction de connaissances à partir de données biologiques L'avènement des biotechnologies nouvelles a permis, au cours des dernières années, d'améliorer les connaissances sur le génome des agents pathogènes épidémiologiques, de développer des moyens de lutte efficace par le développement de plusieurs médicaments appropriés. Par contre l exploitation des données génomiques n a pas suivi le rythme des découvertes et l extraction de connaissances à partir de données (ECD) biologiques, particulièrement à caractère épidémiologique, s est imposée d elle-même afin de répondre aux questions que se pose l épidémiologiste comme par exemple la recherche des facteurs de risque des maladies. Ainsi et depuis le premier séquençage d une bactérie, des dizaines de génomes ont été révélés. Les dispositifs expérimentaux tels que les séquenceurs automatiques ont permis de constituer des banques de données de séquences de génomes complets. Il fallait donc analyser ces données, identifier les gènes, les protéines produites et leurs fonctions pour comprendre les mécanismes cellulaires. Les retombées de ces travaux sont énormes et concernent aussi bien la biologie, l épidémiologie et l industrie pharmaceutique, pour une meilleure compréhension des maladies et la découverte de nouvelles réponses thérapeutiques. I.1 Définition de l extraction de connaissances à partir de données biologiques Le terme ECD (en anglais Knowledge Discovery in Databases) est communément confondu avec la fouille de données ou «Data Mining». Ceci s explique par le fait que la fouille de données est l étape principale du processus de l ECD. L ECD a été définie comme suit [Fayyad et al., 1996] : «l ECD vise à transformer des données (volumineuses, multiformes, stockées sous différents formats sur des supports pouvant être distribués) en connaissances. Ces connaissances peuvent s exprimer sous forme d un concept général qui enrichit le champ sémantique de l usager par rapport à une question qui le préoccupe. Elles peuvent prendre la forme d un rapport ou d un graphique. Elles peuvent s exprimer comme un modèle mathématique ou logique pour la prise de décision. Les modèles explicites quelle que soit leur forme, peuvent alimenter un système à base de connaissances ou un système expert».

20 Chapitre I : L extraction de connaissances à partir de données biologiques Cette définition apporte un concept nouveau, celui de modèle et sous entend un autre celui de motif qui ne seraient pas synonymes. En réalité il existe une différence entre les deux : Un modèle est une connaissance qui concerne la totalité des données. Si le Data Miner possède un modèle, il peut l appliquer à chaque nouveau cas qui se présente. Un motif est une connaissance qui concerne une partie des données. On ne peut l appliquer à chaque nouveau cas. En d autres termes, c est un modèle local, selon lequel se comporte une partie des données et non pas la totalité. I.2 Le processus de l ECD biologiques Avec le récent développement des études à l'échelle génomique et protéomique, les données biologiques se sont considérablement multipliées et diversifiées. Ces données se présentent alors sous la forme de séquences ou d informations qui proviennent de soumissions directes effectuées par les auteurs, par l intermédiaire d Internet ou d autres moyens électroniques appropriés. Nous trouvons alors des : des séquences et des données d'expression de gènes (ADN, ARN, Protéines) ; des informations d'annotations (fonctions, ) de gènes et de protéines, etc. Ces données biologiques sont stockées dans des banques de données généralistes ou spécialisées. On trouve alors des banques de données : d ADN : GenBank, DDBJ, EMBL, ; d ARN : RNAdatabases, QTL,... ; de protéines : PIR,Swiss-Prot, TrEMBL, PDB, SCOP, ; de gènes : NCBI, dbest, UniGene, Gis, ;..etc. L ECD biologiques est un peu particulière parce qu en fait les données biologiques sont souvent dans un format textuel (voir Figure 0.2) et ne se prêtent pas directement à une exploitation par des systèmes classiques. Pour cela nous présenterons ce processus dans son contexte biologique. Bien que le processus général de l ECD est particulièrement standard, il présente néanmoins des traitements spécifiques d une étape à une autre et ce par rapport à la nature des données traitées. Nous allons présenter une démarche qui comprend les cinq étapes suivantes : la sélection des données, le prétraitement, la transformation, la fouille de données, l évaluation et l interprétation des connaissances, en montrant d une étape à une autre, les particularités du processus d ECD.

21 Chapitre I : L extraction de connaissances à partir de données biologiques (1) La sélection des données L accès aux données se fait, dans notre cas, à travers Internet via des interfaces spécialisées pour le téléchargement d échantillons expérimentaux sélectionnés selon des critères fixés par l utilisateur. On utilise alors le système d accès et de récupération de données, ENTREZ de NCBI 1. Celui-ci permet d interroger une collection de séquences disponibles sous le format texte brut. Il permet aussi la recherche et l extraction de données relatives aux séquences nucléotidiques ou protéiques, aux références bibliographiques associées, et aux collections de séquences génomiques et structurales, à l aide d une simple interrogation du serveur de NCBI (National Center for Biotechnology Information). Ensuite, ces données sont récupérées sous la forme d un ensemble de fichiers textes bruts. À l intérieur de ces fichiers, chaque séquence est contenue dans une structure appelée «entrée», celle-ci comprend des informations liées à la séquence considérée : structure, rôle biologique, organisme d origine etc. Les données intéressantes sont stockées au niveau de «champs» bien définis. A l intérieur de ces fichiers, la donnée biologique peut être représentée sous différents formats. Nous présentons les formats les plus utilisés : FASTA (le format le plus simple) PIR (spécifique à la Bdd PIR) STADEN Texte Brut. Format FASTA FASTA est sans doute le plus répandu et l'un des plus pratiques. La séquence est décrite sous forme de lignes de 80 caractères maximum, et précédée d'une ligne de titre (nom, définition,...) qui doit commencer par le caractère ">". Plusieurs séquences peuvent être mises dans un même fichier (voir Figure 1.1). >entête de la séquence 1 Séquence 1 >entête de la séquence 2 Séquence

22 Chapitre I : L extraction de connaissances à partir de données biologiques >gi dbj BAC glutamate dehydrogenase [Oceanobacillus iheyensis] MVADKAADSSNVNQENMDVLNTTQTIIKSALDKLGYPEEVFELLKEPMRILTVRIPVRMDDGNV LGGSHGRESATAKGVTIVLNEAAKKKGIDIKGARVVIQGFGNAGSFLAKFLHDAGAKVVAISDA YGALYDPEGLDIDYLLDRRDSFGTVTKLFNNTISNDALFELDCDII >EM U03177 FL03177 FELINE LEUKEMIA VIRUS CLONE FELV-69TTU3-16. AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTG GCCAGCAGTCTCCAGGCTCCCCA Figure 1.1 : Exemple du format FASTA d une séquence protéique. CODE SIGNIFICATION ">" Début de séquence. gi dbj BAC BAC "glutamate dehydrogenase" [Oceanobacillus iheyensis] GenInfo Identifier Un enregistrement de séquence peut être enregistré dans plusieurs banques de données donc il y aura un identifiant dans la banque de données dans cet exemple c est DNA Database of Japan sous le n dbj BAC ". 1" la séquence a été révisée une fois nom de la protéine nom de l organisme à partir duquel elle a été déterminée. Tableau 1.1 : Description du fichier FASTA de l exemple de la Figure 1.1. Format STADEN STADEN est le plus ancien et le plus simple. C est une suite de lettres par ligne terminée par un retour à la ligne (80 caractères maximum par ligne). Ce format n'autorise qu'une séquence par fichier (voir Figure 1.2). lovelace$ more zfmtsec SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKLMPSPVKVLAEEKGL PVFQPVSLRPQENQQLVAELQADVMVVVAYGLILPKAVLEMPRLGCINVHGSLLPRWRGA APIQRSLWAGDAETGVTIMQMDVGLDTGDMLYKLSCPITAEDTSGTLYDKLAELGPQGLI TTLKQLADGTAKPEVQDETLVTYAEKLSKEEARIDWSLSAAQLERCIRAFNPWPMSWLEI EGQPVKVWKASVIDTATNAAPGTILEANKQGIQVATGDGILNLLSLQPAGKKAMSAQDLL NSRREWFVPGNRLV Figure 1.2 : Exemple du format STADEN d une séquence protéique. Format PIR La première ligne commence par ">" suivi du code de la séquence et du nom de la protéine. La deuxième ligne contient une description textuelle de la séquence suivent plusieurs lignes descriptives de la séquence elle-mêm,e et se termine par une marque de fin de séquence "*" (voir Figure 1.3).

23 Chapitre I : L extraction de connaissances à partir de données biologiques >P1;1h7wa1 structurex:1h7wa1: 2 :A: 183 :A:undefined:undefined: 1.90:99.90 APVLSKDVADIESILALNPRTQSHAALHSTLAKKLDKKHWKRNPDKNCFHCEKLENNFD DIKHTTLGERGALREACLKCADAPCQKSCPTHLDIKSFITSISNKNYYGAAKMIFSDNPLG LTCGMVCPTSDLCVGGCNLYATEEGSINIGGLQQFASEVFKAMNIPQIRNPCLPSQEKMP* Figure 1.3 : Exemple du format PIR d une séquence protéique. ">P1" 1h7wa1 CODE structurex:1h7wa1: 2 :A: 183 :A:undefined:undefined: 1.90:99.90 SIGNIFICATION Début de la ligne Code de la protéine description textuelle de la séquence "*". Fin de la séquence Tableau 1.2 : Description du fichier PIR de l exemple de la Figure 1.3. Format Texte Brut L information biologique est décrite dans un fichier au format texte brut ou chaque ligne a un sens bien précis, comme par exemple, un code, un nom, etc. (voir Figure 1.4) 1: aac aminoglycoside 2-N-acetyltransferase [Mycobacterium tuberculosis CDC1551] Other Aliases: MT0275 Annotation: NC_ ( , complement) GeneID: : trna-pro-3 trna [Mycobacterium tuberculosis CDC1551] Annotation: NC_ ( ) GeneID: This record was discontinued.... Figure 1.4 : Exemple de fichier à l état brut de de la séquence génomique de la souche MT CDC1551 au format texte brut. (2) Le prétraitement des données Le prétraitement consiste à nettoyer et mettre en forme les données dans un formalisme approprié pour une exploitation efficiente, i.e. l élimination des données sans importances particulières dans le processus d ECD, et qui sont susceptibles de réduire l exactitude des modèles à extraire. Ceci commence par un nettoyage des fichiers

24 Chapitre I : L extraction de connaissances à partir de données biologiques par enlèvement des lignes inutiles, des termes ou morceaux de texte, tels que n ligne, caractères spéciaux inutiles. La Figure 1.5 montre un morceau de séquence de gène nettoyé, et la Figure 1.6, montre le résultat final de cette étape. 1: aac aminoglycoside 2-N-acetyltransferase [Mycobaterium Tuberculosis CDC1551] GeneID: : accd acetyl-coa carboxylase, carboxyl transferase, beta subunit [Mycobaterium Tuberculosis CDC1551] GeneID: Figure 1.5 : Morceau de la séquence génomique nettoyée, de la souche Mt CDC1551. aac aminoglycoside 2-N-acetyltransferase Mycobaterium Tuberculosis CDC accd acetyl-coa carboxylase, carboxyl transferase, beta subunit Mycobaterium Tuberculosis CDC Figure 1.6 : Morceau de la séquence génomique mise en forme, de la souche Mt CDC1551. (3) La transformation des données Cette étape consiste à transformer les données et les convertir en données appropriées (voir Figure 1.6), pour exploitation. Ce sera une transformation vers un formalisme base de données (attribut, valeur), à partir des descripteurs possibles qui peuvent être dégagées à cette étape. Ces descripteurs ou attributs vont aider à «binariser» les entités dégagées et serviront ainsi à alimenter une base de données. aac aminoglycoside 2-Nacetyltransferase Mycobaterium Tuberculosis CDC accd acetyl-coa carboxylase, carboxyl transferase, beta subunit Mycobaterium Tuberculosis CDC acea-1 isocitrate lyase Mycobaterium Tuberculosis CDC Séquence génomique structurée code_gene nom_gene id_gene aac aminoglycoside Nacetyltransferase accd acetyl-coa carboxylase, carboxyl transferase, beta subunit acea-1 isocitrate lyase Figure 1.7 : Morceau de la séquence génomique structurée, de la souche Mt CDC1551.

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires

Dr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique

Plus en détail

Introduction aux bases de données: application en biologie

Introduction aux bases de données: application en biologie Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

Base de données bibliographiques Pubmed-Medline

Base de données bibliographiques Pubmed-Medline Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Système immunitaire artificiel

Système immunitaire artificiel République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieure Université des Sciences et de la Technologie D Oran Mohammed Boudiaf (USTO) Faculté des Sciences Département d Informatique

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT Remarque : Tous les cours sont en français, sauf contre-indication. Pour des traductions anglaises des titres, des descriptifs, et plus de renseignements, consultez l intégralité du Programme des enseignements

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Génétique et génomique Pierre Martin

Génétique et génomique Pierre Martin Génétique et génomique Pierre Martin Principe de la sélections Repérage des animaux intéressants X Accouplements Programmés Sélection des meilleurs mâles pour la diffusion Index diffusés Indexation simultanée

Plus en détail

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE BUSINESS INTELLIGENCE : GOALS AND RESULTS OF A PILOT EXPERIMENT INVOLVING SEVEN SMEs FROM BOURGOGNE Ludovic DENOYELLE,

Plus en détail

Les tests génétiques à des fins médicales

Les tests génétiques à des fins médicales Les tests génétiques à des fins médicales Les tests génétiques à des fins médicales Nous avons tous hérité d une combinaison unique de gènes de la part de nos parents. Cette constitution originale et l

Plus en détail

Hépatite chronique B Moyens thérapeutiques

Hépatite chronique B Moyens thérapeutiques Hépatite chronique B Moyens thérapeutiques Dr Olfa BAHRI Laboratoire de Virologie Clinique Institut Pasteur de Tunis INTRODUCTION Plus de 300. 10 6 porteurs chroniques de VHB dans le monde Hépatite chronique

Plus en détail

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs? Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs? Dr Xavier Manival, Laboratoire IMoPA, CR, CNRS Françoise Tisserand-Bedri, Documentaliste, Inist-CNRS

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

Gestion de la Relation Client (GRC)

Gestion de la Relation Client (GRC) Techniques de DM pour la GRC dans les banques Page 2 I.1 Introduction La gestion de la relation client est devenue un processus essentiel dans les institutions bancaires. Ils essaient toujours d améliorer

Plus en détail

Chapitre III Le phénotype immunitaire au cours de la vie

Chapitre III Le phénotype immunitaire au cours de la vie Chapitre III Le phénotype immunitaire au cours de la vie Le phénotype immunitaire d un individu caractérise sa capacité à répondre, grâce aux effecteurs de l immunité adaptative, aux différents agents

Plus en détail

Cellules procaryotes Service histologie Pr.k.mebarek

Cellules procaryotes Service histologie Pr.k.mebarek Cellules procaryotes Service histologie Pr.k.mebarek I) Les cellules procaryotes II) Les cellules eucaryotes o 1) Caractéristiques générales des cellules eucaryotes o 2) Organisation des cellules eucaryotes

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier

Plus en détail

2 C est quoi la chimie?

2 C est quoi la chimie? PARTIE 1 AVANT LA CHIMIE VERTE... 2 C est quoi la chimie? L inconnu étant source d angoisse, nous allons essayer de définir les grands domaines de la chimie pour mieux la connaître, l appréhender et donc

Plus en détail

- 2 - faire industriel dans la mise au point des produits biologiques. L Institut Roche de Recherche et Médecine Translationnelle (IRRMT, basé à

- 2 - faire industriel dans la mise au point des produits biologiques. L Institut Roche de Recherche et Médecine Translationnelle (IRRMT, basé à Information presse Roche, l Agence Nationale de Recherches sur le Sida et les hépatites virales (ANRS), le Baylor Research Institute (BRI) et Inserm Transfert mettent en place une coopération stratégique

Plus en détail

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution? Les Rencontres de l Inra au Salon de l agriculture Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution? Lundi 23 février 2015 Programme 14h30

Plus en détail

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES Enseignement du Deuxième Cycle des Etudes Médicales Faculté de Médecine de Toulouse Purpan et Toulouse Rangueil Module I «Apprentissage de l exercice médical» Coordonnateurs Pr Alain Grand Pr Daniel Rougé

Plus en détail

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE DES PLANTES

Plus en détail

3: Clonage d un gène dans un plasmide

3: Clonage d un gène dans un plasmide 3: Clonage d un gène dans un plasmide Le clonage moléculaire est une des bases du génie génétique. Il consiste à insérer un fragment d'adn (dénommé insert) dans un vecteur approprié comme un plasmide par

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Univers Vivant Révision. Notions STE

Univers Vivant Révision. Notions STE Univers Vivant Révision Notions STE Chap. 13) L Écologie 1) a) Qu est-ce que l empreinte écologique? L empreinte écologique correspond à la surface terrestre et aquatique totale nécessaire à un individu,

Plus en détail

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC {Sebastien.Carrere, Ludovic.Legrand,Jerome.Gouzy}@toulouse.inra.fr {Fabrice.Legeai,Anthony.Bretaudeau}@rennes.inra.fr CATI BBRIC 35 bioinformaticiens

Plus en détail

Le cinquième chapitre

Le cinquième chapitre Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines

Plus en détail

Les OGM. 5 décembre 2008. Nicole Mounier

Les OGM. 5 décembre 2008. Nicole Mounier Les OGM 5 décembre 2008 Nicole Mounier Université Claude Bernard Lyon 1 CGMC, bâtiment Gregor Mendel 43, boulevard du 11 Novembre 1918 69622 Villeurbanne Cedex OGM Organismes Génétiquement Modifiés Transfert

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

Biomarqueurs en Cancérologie

Biomarqueurs en Cancérologie Biomarqueurs en Cancérologie Définition, détermination, usage Biomarqueurs et Cancer: définition Anomalie(s) quantitative(s) ou qualitative(s) Indicative(s) ou caractéristique(s) d un cancer ou de certaines

Plus en détail

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE Biologie LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE Février 2006 I. L'INTRODUCTION Chaque cellule d'un organisme supérieur provient de la multiplication d'une cellule préexistante (cellule

Plus en détail

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

Conférence technique internationale de la FAO

Conférence technique internationale de la FAO Décembre 2009 ABDC-10/7.2 F Conférence technique internationale de la FAO Biotechnologies agricoles dans les pays en développement: choix et perspectives pour les cultures, les forêts, l élevage, les pêches

Plus en détail

La lutte contre la tuberculose est régie par l arrêté royal du 17 octobre 2002.

La lutte contre la tuberculose est régie par l arrêté royal du 17 octobre 2002. Le diagnostic de la tuberculose bovine La lutte contre la tuberculose est régie par l arrêté royal du 17 octobre 2002. 1. Tuberculination Dans la première phase d une infection de tuberculose bovine (Mycobacterium

Plus en détail

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances Département d Informatique MEMOIRE Présenté par : KADEM Habib Pour obtenir LE DIPLOME DE MAGISTER Spécialité : Informatique Option : Informatique & Automatique Intitulé : Conception d une Plateforme Open

Plus en détail

Epidémiologie appliquée aux sciences vétérinaires DES DAOA DES - DEA

Epidémiologie appliquée aux sciences vétérinaires DES DAOA DES - DEA Epidémiologie appliquée aux sciences vétérinaires DES DAOA DES - DEA Claude SAEGERMAN Département des maladies infectieuses et parasitaires, Service d épidémiologie et analyse de risques appliquées aux

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : Objectif de ce chapitre. 6.1 Introduction 86

LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : Objectif de ce chapitre. 6.1 Introduction 86 LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : ÉTABLISSEMENT DE LIENS ENTRE LES PERSONNES CHEZ QUI UN DIAGNOSTIC D INFECTION À VIH A ÉTÉ POSÉ ET LES SERVICES DE SOINS ET DE TRAITEMENT

Plus en détail

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

L axe 5 du Cancéropole Nord Ouest

L axe 5 du Cancéropole Nord Ouest L axe 5 du Cancéropole Nord Ouest Cancers, Individu id & Société L état des lieux d un pari Le Rapport Cordier 1 Biomarqueurs prédictifs 2 L axe 5 du Cancéropole Nord Ouest Cancers, Individu & Société

Plus en détail

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015 Andrew Tolonen atolonen@genoscope.cns.fr Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015 A- Généralités I- La vie sur terre telle que nous la connaissons ne

Plus en détail

Prise de position sur les biosimilaires. Résumé

Prise de position sur les biosimilaires. Résumé Prise de position sur les biosimilaires Résumé Les médicaments biotechnologiques, appelés également biomédicaments, occupent une place importante dans le traitement de maladies comme le cancer, la polyarthrite

Plus en détail

La pratique de la gestion des services. Lier les composants techniques avec les services d opérations dans la CMDB

La pratique de la gestion des services. Lier les composants techniques avec les services d opérations dans la CMDB La pratique de la gestion des services Lier les composants techniques avec les services d opérations dans la CMDB Création : octobre 2013 Mise à jour : octobre 2013 A propos A propos du document Ce document

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS 1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire

Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire Contexte Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire Fédération des spécialités de Master des 5 pôles universitaires partenaires de la région Nord-Pas-de-Calais

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Master UP 6. Mention Santé Publique et Management de la Santé. Spécialité Pharmacologie Clinique. Construire une carrière dans l industrie

Master UP 6. Mention Santé Publique et Management de la Santé. Spécialité Pharmacologie Clinique. Construire une carrière dans l industrie Master UP 6 Mention Santé Publique et Management de la Santé Spécialité Pharmacologie Clinique Construire une carrière dans l industrie pharmaceutique Alain Leclerc, CTPartners 3 mars 2009 Your Executive

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

La résistance d'agents infectieux aux médicaments antimicrobiens

La résistance d'agents infectieux aux médicaments antimicrobiens DECLARATION COMMUNE DES ACADEMIES DU G SCIENCE 2013 La résistance d'agents infectieux aux médicaments antimicrobiens Une menace globale pour l'humanité Depuis l introduction dans les années 40 du premier

Plus en détail

DIAPOSITIVE 1 Cette présentation a trait à la réglementation sur les thérapies cellulaires.

DIAPOSITIVE 1 Cette présentation a trait à la réglementation sur les thérapies cellulaires. Produits de thérapie cellulaire DIAPOSITIVE 1 Cette présentation a trait à la réglementation sur les thérapies cellulaires. DIAPOSITIVE 2 La fabrication des thérapies cellulaires est examinée par la Division

Plus en détail

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE SANTE Spécialité

Plus en détail

EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE

EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE (Préparation : 5 heures -- Exposé et Questions : 1 heure) Rapport établi par : P.J. BARRE, E. JEAY, D. MARQUIS, P. RAY, A. THIMJO 1. PRESENTATION DE L EPREUVE 1.1.

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006 La reconnaissance moléculaire: la base du design rationnel En 1890 Emil Fisher a proposé le modèle "serrure et clé" pour expliquer la façon de fonctionner des systèmes biologiques. Un substrat rentre et

Plus en détail

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez 1. Introduction : Besoins Informations et Aide

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

S8 - INFORMATIQUE COMMERCIALE

S8 - INFORMATIQUE COMMERCIALE S8 - INFORMATIQUE COMMERCIALE Les savoirs de l Informatique Commerciale doivent être abordés en relation avec les autres savoirs (S4 à S7). Les objectifs généraux sont : o de sensibiliser les étudiants

Plus en détail

Format de l avis d efficience

Format de l avis d efficience AVIS D EFFICIENCE Format de l avis d efficience Juillet 2013 Commission évaluation économique et de santé publique Ce document est téléchargeable sur www.has-sante.fr Haute Autorité de santé Service documentation

Plus en détail

University of Tokyo Graduate School of Agricultural and Life Sciences et. Kanagawa Academy of Science and Technology

University of Tokyo Graduate School of Agricultural and Life Sciences et. Kanagawa Academy of Science and Technology COMMUNIQUÉ DE PRESSE le 25 mars 2014 Une étude conjointe menée par University of Tokyo Graduate School of Agricultural and Life Sciences et Kanagawa Academy of Science and Technology suggère que le sirop

Plus en détail

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition 09-0749 1 WHO/EMP/MAR/2009.3 Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition Synthèse des résultats des études publiées entre 1990 et 2006 Organisation

Plus en détail

Le géomarketing - Page 1 sur 7

Le géomarketing - Page 1 sur 7 Le géomarketing - Page 1 sur 7 LES DOSSIERS MADWATCH.net méthodes Le Géomarketing Novembre 2003 Nb de pages : 7 Le géomarketing - Page 2 sur 7 Créé dans les années 80, la plupart des applications du géomarketing

Plus en détail

les deux premières années du Bachelor of Science en sciences pharmaceutiques

les deux premières années du Bachelor of Science en sciences pharmaceutiques UNIVERSITÉ DE FRIBOURG SUISSE FACULTÉ DES SCIENCES UNIVERSITÄT FREIBURG SCHWEIZ MATHEMATISCH-NATURWISSENSCHAFTLICHE FAKULTÄT Plan d'études pour les deux premières années du Bachelor of Science en sciences

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

La Greffe de Cellules Souches Hématopoïétiques

La Greffe de Cellules Souches Hématopoïétiques La Greffe de Cellules Souches Hématopoïétiques Professeur Ibrahim Yakoub-Agha CHRU de LILLE (Illustration de J. Cloup, extraite du CD-Rom «greffe de Moelle» réalisé par la société K Noë) La moelle osseuse

Plus en détail