MEMOIRE DE MAGISTER THEME :
|
|
- Marguerite Malo
- il y a 8 ans
- Total affichages :
Transcription
1 Département Informatique MEMOIRE DE MAGISTER Option : Informatique et Automatique THEME : FOUILLE DE DONNEES BIOLOGIQUES : ETUDE COMPARATIVE ET EXPERIMENTATION. Présenté par : Abdelhak MANSOUL Soutenu devant les membres du jury : Mr B. BELDJILALI Mr K. BOUAMRANE Mr A. GHOMARI Mr M. MALKI Mr B. ATMANI Professeur à l Université d Oran Président Maître de Conférences à l Université d Oran Examinateur Maître de conférences à l Université d Oran Examinateur Maître de conférences à l UDL de Sidi Belabess Examinateur Maître de conférences à l Université d Oran Rapporteur
2 Résumé Le traitement des données biologiques est indispensable en recherches médicales et sciences de la vie. En effet, les données biologiques sont de différents types, et souvent complexes, ce qui a induit une recherche soutenue de nouveaux procédés d exploitation parce que ceux existant ne suffisent plus ou ne sont plus adaptés. Une nouvelle approche : l Extraction de Connaissances à partir des Données biologiques est de plus en plus envisagée. De là, notre étude qui porte sur la fouille de données biologiques sur un terrain expérimental : une épidémie. Le présent travail de recherche se situe dans le cadre de l ECD Biologiques, à travers une étude comparatives des outils existants et la proposition d une nouvelle approche pour l extraction des règles d association à partir de données biologiques, leur gestion et l alimentation d un système d aide à la décision. D où, la problématique abordée par notre étude qui est la fouille de données biologiques assistée par une modélisation booléenne des résultats obtenus. Nous proposons un processus d extraction de motifs assez novateur pour générer des règles d association profitable et exploitable à deux niveaux : Profitable au spécialiste du domaine, en particulier à travers les règles d association qui aident à mieux interpréter les données. Le résultat de la fouille de données est optimisé par une modélisation booléenne des règles d association extraites. Cette amélioration se fait par la machine BRI (Boolean Rules Induction ). En premier lieu nous présenterons un état de l art, s ensuit une étude comparative des différents outils et méthodes existants afin d en tirer bénéfice, et on continuera par exposer notre démarche et les résultats obtenus. Mots clés: Automate cellulaire, Fouille de données biologiques, Induction de règles, Règle d association, modélisation booléenne.
3 Abstract The biological data processing is an indispensable tool in medical researches and life sciences. Indeed, the biological data are various types, and often complex, what led a search of new exploitation processes because those existing are not any more enough or are not any more adapted. A new approach : the Extraction of Knowledge from the biological data is more and more envisaged. From there, our study which concerns the Biological Data Mining on an experimental ground: an epidemic. The present research work is situated within the framework of Knowledge Discovery from Biological Data, through study comparative clauses of the existing tools and the proposition of a new approach for the extraction of the association rules from biological data, there management and the supply of a system of decision-making support. Where from, the problem approached by our study which is the Data Mining of biological data assisted by a boolean modeling for the obtained results. We propose a rather innovative process of extraction of patterns for generating a profitable and exploitable association rules at two levels: Profitable, to the specialist of the domain, in particular through the rules of association which help to interpret better the data. The result of the data mining process is optimized by a boolean modelling of the extracted association rules. This improvement is made by the machine BRI (Boolean Rules Rules Induction). First of all we shall present a state of the art, follows a comparative study of the various existing tools and the methods to benefit from it, and we shall continue to expose our approach and the obtained results. Key words: Cellular automaton, Biological data mining, Rules Induction, Association Rules, Boolean modelisation
4 Remerciements Je remercie les membres du jury qui m ont fait l honneur d avoir accepté d évaluer ce travail. Je remercie vivement Monsieur Bouziane BELDJILALI, qui m a bien accueilli et m a entretenu pour me diriger ensuite vers mon encadreur. Ainsi que, Monsieur Baghdad ATMANI mon encadreur, pour m avoir dirigé pendant tout le long de ce travail, par ses précieux conseils, ses pertinents commentaires, et ses orientations. De plus m a fait profiter de son expérience dans la direction de travaux de recherche. Mes remerciements vont aussi : À Monsieur Abdelhafid HAFFAF, le chef du département informatique de l université d Oran. À Monsieur Karim BOUAMRANE pour m avoir facilité les démarches administratives au département informatique. Et Monsieur Smain MAAZOUZI, le chef du département informatique de l université du 20 Août 55 de SKIKDA pour son grand soutien.
5 TABLE DES MATIERES Résumé Liste des figures Liste des tableaux Glossaire Introduction générale 1 Chapitre I. L Extraction de Connaissances à partir de Données Biologiques 6 I.1 Définition de l extraction de connaissances à partir de données biologiques 6 I.2 Le processus de l ECD biologiques 7 I.3 Notre contribution 13 I.4 Etat de l art de l ECD biologiques 14 I.5 Les méthodes de fouille de données 20 I.6 Etude comparative 27 I.7 Discussion sur l ECD Biologiques 30 I.8 Conclusion 31 Chapitre II. Extraction de règles d association 33 II.1 Les règles d association 34 II.2 L induction et l évaluation des règles 35 II.3 Les algorithmes d extraction des règles d association 37 II.4 Conclusion 42 Chapitre III. Modélisation booléenne des règles d association 44 III.1 Le moteur d inférence cellulaire : architecture et principe de 44 fonctionnement III.2 La modélisation booléenne 47 III.3 Exemple d illustration d induction des règles booléennes 48 III.4 La dynamique du moteur d inférence cellulaire 50 III.5 Conclusion 52 Chapitre IV. Conception et expérimentation du système BIODM 54 IV.1 Etude et choix des données biologiques pour expérimentation 54 IV.2 Architecture du système BIODM (BIOlogical Data Mining) 55 IV.3 Le processus de l ECD biologiques 57 IV.4 Le logiciel réalisé 63 IV.5 L expérimentation 66 IV.6 Conclusion 70 Conclusion générale 71 Références bibliographiques 73 Annexe B 77
6 Liste des figures Introduction générale. Figure 0.1 : Complexe Tuberculosis. 2 Figure 0.2 : Morceau de séquence génomique rapatriée de NCBI. 4 Figure 0.3 : Fichier des séquences ayant subi une transformation. 4 Chapitre I. L ECD Biologique. Figure 1.1 : Exemple du format FASTA d une séquence protéique. 9 Figure 1.2 : Exemple du format STADEN d une séquence protéique. 9 Figure 1.3 : Exemple du format PIR d une séquence protéique. 10 Figure 1.4 : Exemple de fichier à l état brut de la séquence génomique de la souche MT CDC1551 au format texte brut. 10 Figure 1.5 : Morceau de la séquence génomique nettoyée du Mt CDC Figure 1.6 : Morceau de la séquence génomique mise en forme du Mt CDC Figure 1.7 : Morceau de la séquence génomique structurée du Mt CDC Figure 1.8 : Processus d ECD Biologiques. 12 Chapitre III. Modélisation booléenne des règles d association. Figure 3.1 : Le système BRI (Boolean Rule Induction). 44 Figure 3.2 : Les partitions S, S et S. 45 Figure 3.3 : Illustration du principe d induction des règles booléennes inductives par BRI. 48 Chapitre IV. Conception et expérimentation du système BIODM. Figure 4.1 : Architecture du système BIODM. 55 Figure 4.2 : Morceaux de la séquence génomique du Mt CDC Figure 4.3 : Morceaux de séquence protéique du Mt CDC Figure 4.4 : Architecture fonctionnelle du système BIODM. 64 Figure 4.5 : Interface du système BIODM. 66 Figure 4.6 : Echantillon de gènes servant à la fouille de données. 67
7 Liste des tableaux Introduction générale. Tableau 0.1: Tableau des différentes souches du Mycobacterium Tuberculosis 77 Tableau 0.2: Tableaux informatif sur les caractéristiques des souches du Mycobacterium Tuberculosis complètement annotées. 78 Tableau 1.3 : Les souches du Mycobacterium Tuberculosis en cours d annotation. 78 Chapitre I. L ECD Biologique. Tableau 1.1: Description du fichier FASTA de l exemple de la figure Tableau 1.2: Description du fichier PIR de l exemple de la figure Tableau 1.3: Les souches du Mycobacterium Tuberculosis en cours d annotation. 77 Tableau 1.4: Les méthodes de FDD utilisées en ECD biologiques. 28 Tableau 1.5: Les tâches et méthodes utilisées en ECD. 29 Tableau 1.6: Tableau comparatif des tâches de l ECD. 29 Chapitre III. Modélisation booléenne des règles d association Tableau 3.1 : Représentation cellulaire de la Base des connaissances de la figure Tableau 3.2 : Les matrices d incidences d entrée R et de sortie R pour la figure Chapitre IV. Conception et expérimentation du système BIODM. Tableau 4.1 : Base de test servant à l expérimentation. 66 Tableau 4.2 : Exemple de règles générées par Apriori pour un support de 60% 68 et une confiance de 80%. Tableau 4.3 : Exemple de règles cellulaires générées par BRI. 68 Tableau 4.4 : Nombre de règles et temps d exécution d Apriori sur l échantillon de la figure Tableau 4.5 : Evolution de l espace de stockage. 69
8 Annexe A Glossaire A Acide désoxyribonucléique (ADN) Support biochimique de l information génétique chez tous les êtres vivants (à l exception de quelques virus qui utilisent l ARN). Principal composant des chromosomes, l ADN se présente le plus souvent sous forme de deux longs filaments (ou chaînes) torsadés l un dans l autre pour former une structure en double hélice. Chacune de ces chaînes est un polymère formé de l assemblage de quatre nucléotides différents, désignés par l initiale de la base azotée qui entre dans leur composition : A (Adénine), C (Cytosine), G (Guanine) et T (Thymine). Acide ribonucléique (ARN) Dans les cellules, on distingue plusieurs types d ARN suivant leur fonction. Les trois types principaux sont : les ARN messagers, les ARN de transfert et les ARN ribosomaux. L ARN est un acide nucléique constitué d une seule chaîne de nucléotides, de structure analogue à celle de l ADN. Il existe cependant des différences chimiques entre ces deux acides nucléiques qui donnent à l ARN certaines propriétés particulières. L ARN est produit par transcription de l ADN. ACP L'analyse en composantes principales (ACP) est une méthode mathématique d'analyse des données qui consiste à rechercher les directions de l'espace qui représentent le mieux les corrélations entre n variables aléatoires Acyclique (graphe) Un graphe acyclique est un graphe ne contenant aucun cycle. Agrégation (données) Le mot agrégation désigne l'action d'agréger, de regrouper des éléments. Alignement Global / Local L'alignement de séquences (ou alignement séquentiel) est une manière de disposer les composantes nucléotides ou acides aminés) des ADN, des ARN, ou des séquences primaires de protéines pour identifier les zones de concordance qui traduisent des similarités ou dissemblances de nature historique. Il existe l alignement global, c'est-à-dire entre les deux séquences sur toute leur longueur (FASTA) et local, entre une séquence et une partie de l'autre séquence (BLAST). Annotation L annotation d un génome consiste à traiter l information brute contenue dans la séquence dans le but : 1. de prédire, le contenu en gènes, la position des gènes à l intérieur d un génome ainsi que leur organisation, des séquences promotrices, etc. Dans ce cas, on parle d annotation structurale. 2. de prédire la fonction potentielle de ces gènes. Dans ce cas on parle d'annotation fonctionnelle. Antigènes Un antigène est une macromolécule naturelle ou synthétique, reconnue par des anticorps ou des cellules du système immunitaire et capable d'engendrer une réponse immunitaire. Arbre de décision Modèle issu des techniques d'intelligence artificielle. Son principe est de chercher à diviser une population en 2 (arbres binaires) ou plus (arbres n-aires) de sorte que ces sous-populations soient aussi différentes entre elles que possibles, et homogènes du point de vue de la répartition de la variable cible. Apprentissage (échantillon d') Partie des données servant à l'évaluation des différents paramètres d'un modèle (en anglais, "training"). Athérosclérose Le vieillissement normal des artères et artérioles se nomme artériosclérose. Auto-immunes (maladies) Les maladies auto-immunes sont dues à une hyperactivité du système immunitaire à l'encontre de substances ou de tissus qui sont normalement présents dans l'organisme. Automate cellulaire Un automate cellulaire consiste en une grille régulière de «cellules» contenant chacune un «état» choisi parmi un ensemble fini et qui peut évoluer au cours du temps. L'état d'une cellule au temps t+1 est fonction de l'état au temps t d'un nombre fini de cellules appelé son «voisinage». À chaque nouvelle unité de temps, les mêmes règles sont appliquées simultanément à toutes les cellules de la grille, produisant une nouvelle «génération» de cellules dépendant entièrement de la génération précédente.
9 Annexe A B Bio-informatique La Bio-informatique est constituée par l'ensemble des concepts et des techniques nécessaires à l'interprétation de l'information génétique (séquences) et structurale. C'est le décryptage de la «bio-information». La bio-informatique est donc une branche théorique de la biologie. Biologie moléculaire La biologie moléculaire est une discipline scientifique au croisement de la génétique, de la biochimie et de la physique, dont l'objet est la compréhension des mécanismes de fonctionnement de la cellule au niveau moléculaire. BLAST BLAST (acronyme de basic local alignment search tool) est une méthode de recherche heuristique utilisée en bio-informatique permettant de trouver les régions similaires entre deux ou plusieurs séquences de nucléotides ou d'acides aminés. C Candidat (gène) L'approche gène candidat consiste à supposer l'implication d'un gène dans un quelconque effet à priori, et l'étude vise à confirmer cette implication a posteriori. Cas-témoins (étude) Etude rétrospective entre deux groupes, l'un présentant une maladie (cas) et l'autre, indemne (témoins). Chromosome Unité physique de matériel génétique correspondant à une molécule continue d'adn. Les cellules bactériennes n'en comportent qu'un. Ils sont doués du pouvoir d'autoreproduction. Classification ascendante hiérarchique (CAH) Méthode de création de typologies qui agrège, à chaque étape, les individus ou les groupes d'individus les plus proches. Les emboîtements successifs se poursuivent ainsi jusqu'à agréger toute la population. On choisit ensuite la partition (ensemble de classes ainsi constituées) qui propose le meilleur rapport homogénéité interne des groupes / hétérogénéité des groupes entre eux. Classification automatique On appelle classification automatique la catégorisation algorithmique d'objets. Celle-ci consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se basant sur des données statistiques. Cœliaque (maladie) La maladie cœliaque est une maladie auto-immune, caractérisée par une atteinte de tout ou partie des villosités recouvrant l'intestin grêle. Co-régulé (gène) Gènes liés l un à l autre. Code génétique Système de correspondance permettant de traduire une séquence d acide nucléique en protéine. Cohorte Ensemble d individus étudiés sur une période de temps donnée. Une cohorte permet de suivre de manière longitudinale les comportements de la population observée ainsi que sa réaction à un ou plusieurs événements donnés. Continue (variable) Se dit d'une variable qui peut prendre une "infinité" de valeurs (par opposition à discrète) par exemple, un réel. Un âge, une somme d'argent, un coefficient de bonus/malus sont souvent considérés comme continus. Synonyme : quantitatif. Corrélation Mesure de la liaison entre deux variables. On parle de corrélation entre une cause et son effet, ou entre deux variables qui apportent la même information. CROHN (maladie) La maladie de Crohn est une maladie inflammatoire chronique intestinale (MICI) de l'ensemble du tube digestif.
10 Annexe A D Data Mining (outils de) Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent d extraire de la connaissance des données en découvrant des modèles, des règles dans le volume d information. Data mining Le terme anglais datamining évoque le travail de mineur de fond pour extraire les données pertinentes noyées dans de gros volumes de données. Ensemble de techniques héritées de la statistique "classique", de la statistique bayésienne et de l'intelligence artificielle, qui permet l'étude de grands volumes de données. Ces techniques sont soutenues en général par une méthode de travail qui pose les étapes de l'étude DataMining. Déduction / induction En logique, la déduction procède de la conception que les moyens ne sont pas plus importants que la fin (conclusion), par opposition à l'induction logique qui consiste à former des représentations générales à partir de faits particuliers. Dichotomique (Variable) Variable qui peut opérer une division de l échantillon en deux parties. Discrète / Continue (variable) Se dit d'une variable qui ne prend qu'un nombre limité et connu d'avance de modalités (valeurs distinctes), par opposition à continue. Une situation familiale, un sexe, ou à une catégorie socio-professionnelle sont des variables discrètes. Synonyme : qualitative. Distance En mathématiques, une distance est une application qui formalise l'idée intuitive de distance, c'est-à-dire la longueur qui sépare deux points. Données biologiques ( cohorte ) Ce sont les des dosages systématiques réalisés (la biochimie, NFS numération de formule sanguine et analyse d urine). Données cliniques ( cohorte ) Les données cliniques, se divisent en examens cliniques systématiques (taille, poids, pression artérielle,.), et en examens cliniques spécifiques (échographie,..). Données génétiques Les données relatives au génome (ADN,..). E Élaguer Consiste à supprimer d'un problème des valeurs de variables ne pouvant pas prendre part à une solution. Épi-génétique (maladie) Le terme épigénétique définit les modifications transmissibles et réversibles de l'expression des gènes ne s'accompagnant pas de changements des séquences nucléotidiques. Epidémiologie Etude des différents facteurs qui interviennent dans l apparition et l évolution des maladies. Eucaryotes / procaryotes L ensemble des organismes vivants peut être classé en trois grands groupes : les eucaryotes (L Homme, ainsi que les animaux, les plantes et les champignons), les eubactéries, les archaebactéries. Les cellules des eucaryotes possèdent un noyau. Les eubactéries et les archaebactéries ne possèdent pas de vrai noyau. F FASTA C est une méthode de recherche heuristique utilisée en bio-informatique permettant de trouver les régions similaires entre deux ou plusieurs séquences de nucléotides ou d'acides aminés. Ce programme permet de retrouver rapidement dans des bases de données, les séquences ayant des zones de similitude avec une séquence donnée (introduite par l'utilisateur).
11 Annexe A Fonctionnelle (génomique) Étude de la fonction des gènes par analyse de leur séquence et de leurs produits d expression : les ARNm (transcriptome) et les protéines (protéome). G Gène Fragment d ADN portant les informations nécessaires à la fabrication d une ou plusieurs protéine(s). Un gène comprend la séquence en nucléotide qui peut varier de quelques centaines, à plus d un million de nucléotides. Génétique (algorithme) Un algorithme génétique est un algorithme lent, représentant les modèles comme des gènes et des opérateurs génétiques et les faisant évoluer soit par mutation (un gène au hasard est remplacé), soit par cross-over (la place de deux sous-arbres est échangée). Génome Ensemble de l information génétique d un organisme (matériel génétique présent dans chacune des cellules d'un individu, patrimoine héréditaire d'un individu). Une copie du génome est présente dans chacune de ses cellules. Le génome est transmis de génération en génération. Génomique Étude des génomes. Son objectif est de séquencer l ADN d un organisme et de localiser sur celui-ci tous les gènes qu il porte, puis de caractériser leurs fonctions. Génotype Ensemble des caractères génétiques d'un individu. Son expression conduit au phénotype. H HMM Un modèle de Markov caché (MMC) -- en anglais Hidden Markov Models (HMM) (ou plus correctement, mais moins employé automate de Markov à états cachés) est un modèle statistique dans lequel le système modélisé est supposé être un processus Markovien de paramètres inconnus. Les modèles de Markov cachés sont massivement utilisés notamment en reconnaissance de formes, en intelligence artificielle ou encore en traitement automatique du langage naturel. I Induction Méthode consistant à tirer une conclusion d une série de faits. Cette conclusion ne sera jamais sûre à 100 %. L'induction en revanche génère du sens en passant des faits à la loi, du particulier au général. M Marqueur génétique En cartographie génétique, séquence d'adn particulière utilisée pour "baliser" les chromosomes. Modèle Mécanique plus ou moins "boîte noire" qui, à partir de données connues (input), calcule une réponse (target) et la probabilité de réalisation de cette réponse associée (score). Moteur d'inférence Partie d'un système expert qui effectue la sélection et l'application des règles en vue de la résolution d'un problème donné. Motifs fréquents Un caractère ou trait qui se répète fréquemment. Motifs séquentiels Les motifs séquentiels permettent de traiter de gros volumes de données et d en extraire des règles incluant la dimension temporelle Mutation Modification affectant l'adn d'un gène. Cette altération du matériel génétique d'une cellule ou d'un virus entraîne une modification durable de certains caractères du fait de la transmission héréditaire de ce matériel de génération en génération.
12 Annexe A N Nucléotide Motif structural de base des acides nucléiques, formé de l assemblage de plusieurs molécules : un sucre, un acide phosphorique et une base azotée (dans le cas de l ARN, cette base peut être l Adénine - A, la Cytosine - C, la Guanine - G ou l Uracile - U ; idem dans le cas de l ADN, excepté que l Uracile est remplacé par la Thymine - T). O OR (Odds Ratio) Un Odds ratio (OR), se définit comme le rapport des chances qu'un évènement arrivant, par exemple une maladie, à un groupe de personnes A, arrive également à un autre groupe B. Orphelines (pathologies) Les maladies rares ou maladies orphelines sont des maladies qui affectent moins de 0,05 % de la population (1 personne sur 2 000). P Pathogènes /pathogénicité Les agents infectieux sont un type d'agent pathogène, responsables des maladies infectieuses. PE / PPE Familles de protéines. Perceptron Catégorie de réseaux de neurones robustes. Ils diffèrent des autres réseaux (les RBF) par la fonction d'activation des neurones, c'est à dire leur manière de transformer les signaux d'entrée en signal de réponse. Plasmide Petite molécule circulaire d'adn extrachromosomique présente chez les bactéries, capable de se répliquer de façon autonome, dans la cellule d'origine et dans une cellule-hôte. Polymorphismes génétiques Les polymorphismes génétiques s'expriment chez les individus sous la forme de différents phénotypes. Protéine L un des quatre matériaux de base de tout organisme, avec les glucides, les lipides et les acides nucléiques. Les protéines sont formées d un enchaînement spécifique d acides aminés (de quelques dizaines à plusieurs centaines). Les protéines remplissent différentes fonctions dans la cellule, notamment des fonctions de structure et des fonctions enzymatiques. Protéome / protéomique Le protéome est l ensemble des protéines produites à partir du génome d un organisme. La protéomique est l étude du protéome, dans le but de déterminer l activité, la fonction et les interactions des protéines. Puce à ADN Technologie employée dans l étude du transcriptome et basée sur la capacité des molécules d ADN et d ARN à s hybrider entre elles. De courtes séquences d ADN connues sont fixées sur des supports d une surface de l ordre du centimètre carré : les puces. Q Qualitative / Quantitative (variable) Une variable qualitative est une variable pour laquelle la valeur mesurée sur chaque individu (parfois qualifiée de catégorie ou de modalité) ne représente pas une quantité. Une variable est dite quantitative lorsque la valeur mesurée sur chaque individu représente une quantité. R Raisonnement à partir de cas / Case Based Reasoning Un système CBR dispose d une base de cas. Chaque cas possède une description et une solution. Pour utiliser ces informations, un moteur est aussi présent. Celui-ci va retrouver les cas similaires au problème posé. Après analyse, le moteur fournit une solution adaptée qui doit être validée. Enfin le moteur ajoute le problème et sa solution dans la base de cas.
13 Annexe A Règles séquentielles C est une règle d association incluant le facteur temporel. Renforcement (apprentissage) L'apprentissage par renforcement fait référence à une classe de problèmes d'apprentissage automatique, dont le but est d'apprendre, à partir d'expériences, ce qu'il convient de faire en différentes situations, de façon à optimiser une récompense numérique au cours du temps. RR (Risque relatif), Le risque relatif (RR) est une mesure statistique souvent utilisée en épidémiologie, mesurant le risque de survenue d'un événement entre deux groupes. S Segmentation (ou Typologie) Découpage d une population en fonction d un ou plusieurs critères (géographiques, sociodémographiques, comportementaux ). Les groupes ainsi constitués aussi homogènes et différents entre eux que possibles, peuvent être choisis comme autant de cibles à atteindre à l aide d un marketing mix spécifique. Séquençage (génome) Analyse du génome, consistant à déterminer la succession de toutes les bases qui composent l'adn d'un organisme. Ce séquençage n'est réalisé ou en cours de réalisation que pour un nombre limité d'espèces : quelques bactéries, une levure, un insecte (la drosophile) et l'homme. Le séquençage ne permet pas la détermination de la fonction des protéines codées par l'adn. Séquenceurs automatiques Un séquenceur de gènes (ou «séquenceur») est un appareil capable d'automatiser l'opération de séquençage de l'adn. Séquences répétées directes Séquences identiques ou quasi identiques, présentes en plusieurs copies dans la même molécule d'adn. Séquences répétées en tandem Séquences répétées directes adjacentes. Souche (bactérie) Une population d'une espèce pouvant engendrée une population fille c'est-à-dire les ancêtres d'une population, par exemple des souches de bactéries pathogènes, Supervisé / non supervisé (méthode) L'apprentissage supervisé est une technique d'apprentissage automatique où l'on cherche à produire automatiquement des règles à partir d'une base de données d'apprentissage contenant des exemples de cas déjà traités. L'apprentissage non-supervisé est une méthode d'apprentissage automatique. Cette méthode se distingue de l'apprentissage supervisé par le fait qu'il n'y a pas de sortie a priori. Streptococcus Les Streptococcus ou streptocoques sont des bactéries. On retrouve des streptocoques un petit peu partout dans la nature. Certains vivent sur la peau et les muqueuses de l'homme : leur présence est normale. Syndrome métabolique Le syndrome métabolique (ou syndrome X) désigné par les acronymes SMet (pour syndrome métabolique) ou MetS (pour Metabolic syndrome chez les anglophones) désigne l'association d'une série de problèmes de santé ayant en commun un mauvais métabolisme corporel. T Transfert horizontal / vertical Le Transfert horizontal de gènes (ou HGT pour Horizontal Gene Tranfer en anglais), est un processus dans lequel un organisme intègre du matériel génétique provenant d'un autre organisme sans en être le descendant. Par opposition, le transfert vertical se produit lorsque l'organisme reçoit du matériel génétique à partir de son ancêtre.
14 Introduction générale Introduction générale Au cours des dernières années, la bioinformatique [Gibas et Jambeck, 2002] a connu un grand développement lié à l aboutissement de nombreux travaux de séquençage, lesquels ayant conduit à l arrivée d énormes quantités de données biologiques qu il faut exploiter pour tirer un maximum de connaissances possibles [Chervitz et al., 1999], [Tzanis et al., 2005]. Si dans un premier temps, les génomes séquencés étaient ceux des procaryotes (unicellulaires : Bactérie,.), nous arrivons maintenant au stade où des génomes d eucaryotes (pluricellulaires : animaux, humains, ) sont disponibles. De ce fait, les quantités de données brutes disponibles sont déjà trop importantes pour pouvoir être analysées manuellement [Chervitz et al., 1999]. L outil informatique et par la même les méthodes informatiques se sont imposées d elles mêmes en biologie moléculaire: C est la naissance de la bioinformatique. Son développement a été rendu possible par les énormes progrès réalisés en informatique (capacités de calcul, stockage, nouveaux algorithmes, ), qui ont permis la constitution de banques de données pour le stockage de l intégralité des données biologiques produites par les expérimentations. Dans un autre volet complémentaire, nous avons l épidémiologie, qui est basée sur l utilisation des méthodes de surveillance et d analyse des données recueillies concernant les diagnostics relatifs à des infections. Ces méthodes classiques ne sont plus satisfaisantes comme elles l étaient autrefois, surtout quand il s'agit d analyser et détecter précocement une épidémie causée par une maladie émergente. Du fait de l inefficacité de ces méthodes, de la variété des données biologiques, et de la nature même des épidémies [Labbe, 2007], une nouvelle approche, exploitant des données biologiques relatives aux épidémies, est utilisée afin de mieux comprendre les maladies qui ont un profil épidémiologique : c est la fouille de données biologiques relatives aux épidémies [Remvikos, 2004], [Maumus et al., 2005], [Etienne, 2004]. Cette fouille de données permet d extraire des connaissances qui aideront à mieux connaître ou interpréter les phénomènes biologiques liés à une épidémie particulière et ainsi permettre la mise en œuvre de mesures de prévention et de lutte, par des traitements appropriés, des vaccinations, des antibiotiques, etc. Un autre aspect, la disponibilité de vastes banques de données de santé publique relatives aux épidémies issues des récents séquençages de nouveaux agents pathogènes,
15 Introduction générale a incité à les valoriser pour mieux connaitre les épidémies et aider les spécialistes à trouver des réponses thérapeutiques efficaces. En effet, parmi ces épidémies, il existe une qui a montré un fort intérêt notamment par les récents séquençages de nouvelles souches : c est la tuberculose. A l origine l infection est provoquée par la pénétration dans l organisme d une bactérie appelée Mycobacterium Tuberculosis, et lorsque cette infection se multiplie dans un lieu et une période donnée cela abouti à une l épidémie. Dans la pratique, il existe un Complexe Tuberculosis dont le Mycobacterium Tuberculosis est l agent typique responsable de la tuberculose humaine (voir Figure 0.1). Complexe Tuberculosis M. Tuberculosis M. Africanum M. Bovis M. Bovis BCG M. Canetti M. Microti m Figure 0.1: Complexe Tuberculosis. L agent pathogène : La bactérie Les bactéries (Bacteria) sont des organismes vivants unicellulaires. Elles mesurent quelques micromètres de long et peuvent présenter différentes formes : des formes sphériques (coques), allongées ou en bâtonnets (bacilles), et des formes plus ou moins spiralées [Wikipedia]. Caractéristiques génétiques d une bactérie La plupart des bactéries possèdent un unique chromosome circulaire, d'autres possèdent un chromosome linéaire. Il existe toutefois de rares bactéries possédant deux chromosomes. La taille du génome s exprime en millier de nucléotides et peut être très variable selon les espèces de bactéries. L'analyse chimique de l'appareil nucléaire indique qu'il est composé à 80 % d'adn (le chromosome), à 10 % d'arn et à 10 % de protéines [Carbonelle et al., 2003]. L ADN (le chromosome) : Chez les bactéries tout l'adn est codant. L ADN Extrachromosomique (les plasmides) : A côté du chromosome, il peut exister des éléments génétiques (ADN) de petites tailles (0,5 à 5 % du chromosome bactérien), extra-chromosomiques, se sont les plasmides. Les plus connus sont les plasmides de résistance aux antibiotiques, ils portent des gènes
16 Introduction générale qui confèrent aux bactéries la résistance à divers antibiotiques [Carbonelle et al., 2003]. Dans le domaine des bactéries et en particulier celui du Mycobacterium Tuberculosis, les séquences complètes de génomes s accumulent depuis 1995 (voir Tableau 0.1, Tableau 0.2, Tableau 0.3). Ces données ont permis d envisager l étude du génome du Mycobacterium Tuberculosis par des techniques informatiques, pour identifier et connaître au mieux la source de l infection afin d aider les spécialistes à trouver des solutions thérapeutiques et stopper la diffusion de la bactérie et par conséquent stopper l épidémie par certains vaccins, ou antibiotiques. Plusieurs approches informatiques notamment par la fouille de données ont été alors développées en exploitant des données biologiques en générale et de la tuberculose en particulier, notamment par : l utilisation d algorithmes de recherche de mots puis de couples de mots représentés énormément dans les séquences ADN des souches et espèces phylogénétiquement proches, ces séquences de lettres particulières, permettent de repérer et d identifier des séquences anormales. la fouille de données génomiques sans à priori pour faire émerger des sousséquences d'adn qui peuvent donner des éléments d informations sur les grandes séquences d'adn ; la recherche de gènes co-régulés, etc. En 1998, la première séquence complète du génome de Mt H37RV a été réalisée et a permis de dégager des caractéristiques propres aux mycobactéries dont les plus importantes [Carbonelle et al., 2003]: 51 % des gènes sont dupliqués; 10 % du génome code pour 2 familles de gènes qui codent eux mêmes pour 2 protéines nommées PE et PPE; forte présence de séquences répétées d ADN, dont 65 copies de séquences appelées MIRUs (Mycobacterial Interspaced Repetitive Unit), et de répétitions directes appelées RDs. Ces séquences répétées sont riches en particularités sur le génome. Toutes ces caractéristiques de ce génome sont autant chacune une source qu on exploite en fouille de données [Fleiishman et al., 2002], [Ferdinand et al., 2004], [Yokoyama et al., 2007].
17 Introduction générale Problématique. La représentation des séquences biologiques. Dans un passé récent, la fouille de données dans un contexte biologique utilisait la séquence dans sa structure primaire à base de nucléotides (ex : AAGTCGTTGCTGGC) où celle-ci est considérée comme une chaine de milliers de caractères, en ce moment le gène, la protéine, et autres éléments caractérisant n étaient pas suffisamment cernés (annotation incomplète) pour être exploités efficacement et donc le prétraitement des données se basait essentiellement sur des techniques de traitement de texte plus ou moins aménagées selon le contexte. Alors, nous avons envisagé un système de fouille de données un peu plus élaboré du fait de l existence d entités sémantiques dans le fichier de la séquence en question (le gène, la protéine, sa localisation,..) (voir Figure 0.2). Nous utilisons donc des traitements spécifiques pour obtenir une structure bien appropriée à la fouille de données (voir Figure 0.3) ou les entités sémantiques (gènes, protéines, ) deviennent des descripteurs, et on attribuera la valeur «0» en l absence et «1» en la présence de ce descripteur dans la séquence. Figure 0.2. Morceau de séquence génomique rapatriée de NCBI. Figure 0.3. Fichier des séquences ayant subi une transformation. Dans le cadre de cette étude, nous avons développé des recherches sur les systèmes d extraction de règles d association à partir des données (gènes, ) [Chen et al., 2003], [Bahar et Chen, 2004], [Benabdeslem et al., 2007] et nous avons réalisé un système baptisé BIODM : BIOlogical Data Mining. En premier lieu, nous avons étudié l extraction de règles d association en utilisant des algorithmes appropriés. En deuxième lieu nous avons travaillé sur le raffinement, des résultats, par un processus d induction cellulaire BRI (Boolean Rule Induction). Ce raffinement est assuré par une modélisation booléenne. Deux motivations concurrentes nous ont amenés à adopter le principe des automates
18 Introduction générale cellulaires pour les systèmes à base de règles d association. En effet, nous avons non seulement souhaité avoir une base de règles optimale (modélisation booléenne), mais nous avons également exploité les performances du moteur d inférence cellulaire CIE de la machine cellulaire CASI, déjà opérationnel [Benamina et Atmani, 2008]. Ce mémoire s articule autour de quatre chapitres : Le chapitre I introduit l extraction de la connaissance à partir de données biologiques. Nous commencerons par expliquer comment est né le besoin en fouille de données biologiques et particulièrement en épidémiologie, ensuite nous passerons en revue les différents types de données biologiques auxquels nous seront amené à travailler pour donner par la suite une vue d ensemble du processus d ECD biologiques que nous envisageons de suivre. Une fois, toutes ces notions clarifiées nous aborderons un état de l art du domaine de l ECD biologiques que nous concluons par une étude comparative des méthodes et techniques utilisées et une explication de notre contribution par cette étude. Le chapitre II aborde le principe de l extraction des règles d association, une méthode descriptive de fouille de données qui a reçu beaucoup d intérêt en recherche. Nous présentons le principe ainsi que les différents algorithmes les plus en vue dans la littérature. Le chapitre III est consacré à la présentation du processus d ECD biologiques que nous avons adopté en particulier la modélisation booléenne des règles d association, résultat du module BRI, selon le principe de la machine cellulaire CASI [Benamina et Atmani, 2008]. Le chapitre IV présente les données expérimentales et l architecture générale du système que nous avons réalisé : BIODM. Ensuite, nous présentons les résultats obtenus sur la base des échantillons test que nous avons utilisés. Finalement, nous concluons en synthétisant les différentes étapes de notre contribution et nous proposons les perspectives envisagées pour poursuivre cette recherche.
19 Chapitre I : L extraction de connaissances à partir de données biologiques Chapitre I. L extraction de connaissances à partir de données biologiques L'avènement des biotechnologies nouvelles a permis, au cours des dernières années, d'améliorer les connaissances sur le génome des agents pathogènes épidémiologiques, de développer des moyens de lutte efficace par le développement de plusieurs médicaments appropriés. Par contre l exploitation des données génomiques n a pas suivi le rythme des découvertes et l extraction de connaissances à partir de données (ECD) biologiques, particulièrement à caractère épidémiologique, s est imposée d elle-même afin de répondre aux questions que se pose l épidémiologiste comme par exemple la recherche des facteurs de risque des maladies. Ainsi et depuis le premier séquençage d une bactérie, des dizaines de génomes ont été révélés. Les dispositifs expérimentaux tels que les séquenceurs automatiques ont permis de constituer des banques de données de séquences de génomes complets. Il fallait donc analyser ces données, identifier les gènes, les protéines produites et leurs fonctions pour comprendre les mécanismes cellulaires. Les retombées de ces travaux sont énormes et concernent aussi bien la biologie, l épidémiologie et l industrie pharmaceutique, pour une meilleure compréhension des maladies et la découverte de nouvelles réponses thérapeutiques. I.1 Définition de l extraction de connaissances à partir de données biologiques Le terme ECD (en anglais Knowledge Discovery in Databases) est communément confondu avec la fouille de données ou «Data Mining». Ceci s explique par le fait que la fouille de données est l étape principale du processus de l ECD. L ECD a été définie comme suit [Fayyad et al., 1996] : «l ECD vise à transformer des données (volumineuses, multiformes, stockées sous différents formats sur des supports pouvant être distribués) en connaissances. Ces connaissances peuvent s exprimer sous forme d un concept général qui enrichit le champ sémantique de l usager par rapport à une question qui le préoccupe. Elles peuvent prendre la forme d un rapport ou d un graphique. Elles peuvent s exprimer comme un modèle mathématique ou logique pour la prise de décision. Les modèles explicites quelle que soit leur forme, peuvent alimenter un système à base de connaissances ou un système expert».
20 Chapitre I : L extraction de connaissances à partir de données biologiques Cette définition apporte un concept nouveau, celui de modèle et sous entend un autre celui de motif qui ne seraient pas synonymes. En réalité il existe une différence entre les deux : Un modèle est une connaissance qui concerne la totalité des données. Si le Data Miner possède un modèle, il peut l appliquer à chaque nouveau cas qui se présente. Un motif est une connaissance qui concerne une partie des données. On ne peut l appliquer à chaque nouveau cas. En d autres termes, c est un modèle local, selon lequel se comporte une partie des données et non pas la totalité. I.2 Le processus de l ECD biologiques Avec le récent développement des études à l'échelle génomique et protéomique, les données biologiques se sont considérablement multipliées et diversifiées. Ces données se présentent alors sous la forme de séquences ou d informations qui proviennent de soumissions directes effectuées par les auteurs, par l intermédiaire d Internet ou d autres moyens électroniques appropriés. Nous trouvons alors des : des séquences et des données d'expression de gènes (ADN, ARN, Protéines) ; des informations d'annotations (fonctions, ) de gènes et de protéines, etc. Ces données biologiques sont stockées dans des banques de données généralistes ou spécialisées. On trouve alors des banques de données : d ADN : GenBank, DDBJ, EMBL, ; d ARN : RNAdatabases, QTL,... ; de protéines : PIR,Swiss-Prot, TrEMBL, PDB, SCOP, ; de gènes : NCBI, dbest, UniGene, Gis, ;..etc. L ECD biologiques est un peu particulière parce qu en fait les données biologiques sont souvent dans un format textuel (voir Figure 0.2) et ne se prêtent pas directement à une exploitation par des systèmes classiques. Pour cela nous présenterons ce processus dans son contexte biologique. Bien que le processus général de l ECD est particulièrement standard, il présente néanmoins des traitements spécifiques d une étape à une autre et ce par rapport à la nature des données traitées. Nous allons présenter une démarche qui comprend les cinq étapes suivantes : la sélection des données, le prétraitement, la transformation, la fouille de données, l évaluation et l interprétation des connaissances, en montrant d une étape à une autre, les particularités du processus d ECD.
21 Chapitre I : L extraction de connaissances à partir de données biologiques (1) La sélection des données L accès aux données se fait, dans notre cas, à travers Internet via des interfaces spécialisées pour le téléchargement d échantillons expérimentaux sélectionnés selon des critères fixés par l utilisateur. On utilise alors le système d accès et de récupération de données, ENTREZ de NCBI 1. Celui-ci permet d interroger une collection de séquences disponibles sous le format texte brut. Il permet aussi la recherche et l extraction de données relatives aux séquences nucléotidiques ou protéiques, aux références bibliographiques associées, et aux collections de séquences génomiques et structurales, à l aide d une simple interrogation du serveur de NCBI (National Center for Biotechnology Information). Ensuite, ces données sont récupérées sous la forme d un ensemble de fichiers textes bruts. À l intérieur de ces fichiers, chaque séquence est contenue dans une structure appelée «entrée», celle-ci comprend des informations liées à la séquence considérée : structure, rôle biologique, organisme d origine etc. Les données intéressantes sont stockées au niveau de «champs» bien définis. A l intérieur de ces fichiers, la donnée biologique peut être représentée sous différents formats. Nous présentons les formats les plus utilisés : FASTA (le format le plus simple) PIR (spécifique à la Bdd PIR) STADEN Texte Brut. Format FASTA FASTA est sans doute le plus répandu et l'un des plus pratiques. La séquence est décrite sous forme de lignes de 80 caractères maximum, et précédée d'une ligne de titre (nom, définition,...) qui doit commencer par le caractère ">". Plusieurs séquences peuvent être mises dans un même fichier (voir Figure 1.1). >entête de la séquence 1 Séquence 1 >entête de la séquence 2 Séquence
22 Chapitre I : L extraction de connaissances à partir de données biologiques >gi dbj BAC glutamate dehydrogenase [Oceanobacillus iheyensis] MVADKAADSSNVNQENMDVLNTTQTIIKSALDKLGYPEEVFELLKEPMRILTVRIPVRMDDGNV LGGSHGRESATAKGVTIVLNEAAKKKGIDIKGARVVIQGFGNAGSFLAKFLHDAGAKVVAISDA YGALYDPEGLDIDYLLDRRDSFGTVTKLFNNTISNDALFELDCDII >EM U03177 FL03177 FELINE LEUKEMIA VIRUS CLONE FELV-69TTU3-16. AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTG GCCAGCAGTCTCCAGGCTCCCCA Figure 1.1 : Exemple du format FASTA d une séquence protéique. CODE SIGNIFICATION ">" Début de séquence. gi dbj BAC BAC "glutamate dehydrogenase" [Oceanobacillus iheyensis] GenInfo Identifier Un enregistrement de séquence peut être enregistré dans plusieurs banques de données donc il y aura un identifiant dans la banque de données dans cet exemple c est DNA Database of Japan sous le n dbj BAC ". 1" la séquence a été révisée une fois nom de la protéine nom de l organisme à partir duquel elle a été déterminée. Tableau 1.1 : Description du fichier FASTA de l exemple de la Figure 1.1. Format STADEN STADEN est le plus ancien et le plus simple. C est une suite de lettres par ligne terminée par un retour à la ligne (80 caractères maximum par ligne). Ce format n'autorise qu'une séquence par fichier (voir Figure 1.2). lovelace$ more zfmtsec SESLRIIFAGTPDFAARHLDALLSSGHNVVGVFTQPDRPAGRGKKLMPSPVKVLAEEKGL PVFQPVSLRPQENQQLVAELQADVMVVVAYGLILPKAVLEMPRLGCINVHGSLLPRWRGA APIQRSLWAGDAETGVTIMQMDVGLDTGDMLYKLSCPITAEDTSGTLYDKLAELGPQGLI TTLKQLADGTAKPEVQDETLVTYAEKLSKEEARIDWSLSAAQLERCIRAFNPWPMSWLEI EGQPVKVWKASVIDTATNAAPGTILEANKQGIQVATGDGILNLLSLQPAGKKAMSAQDLL NSRREWFVPGNRLV Figure 1.2 : Exemple du format STADEN d une séquence protéique. Format PIR La première ligne commence par ">" suivi du code de la séquence et du nom de la protéine. La deuxième ligne contient une description textuelle de la séquence suivent plusieurs lignes descriptives de la séquence elle-mêm,e et se termine par une marque de fin de séquence "*" (voir Figure 1.3).
23 Chapitre I : L extraction de connaissances à partir de données biologiques >P1;1h7wa1 structurex:1h7wa1: 2 :A: 183 :A:undefined:undefined: 1.90:99.90 APVLSKDVADIESILALNPRTQSHAALHSTLAKKLDKKHWKRNPDKNCFHCEKLENNFD DIKHTTLGERGALREACLKCADAPCQKSCPTHLDIKSFITSISNKNYYGAAKMIFSDNPLG LTCGMVCPTSDLCVGGCNLYATEEGSINIGGLQQFASEVFKAMNIPQIRNPCLPSQEKMP* Figure 1.3 : Exemple du format PIR d une séquence protéique. ">P1" 1h7wa1 CODE structurex:1h7wa1: 2 :A: 183 :A:undefined:undefined: 1.90:99.90 SIGNIFICATION Début de la ligne Code de la protéine description textuelle de la séquence "*". Fin de la séquence Tableau 1.2 : Description du fichier PIR de l exemple de la Figure 1.3. Format Texte Brut L information biologique est décrite dans un fichier au format texte brut ou chaque ligne a un sens bien précis, comme par exemple, un code, un nom, etc. (voir Figure 1.4) 1: aac aminoglycoside 2-N-acetyltransferase [Mycobacterium tuberculosis CDC1551] Other Aliases: MT0275 Annotation: NC_ ( , complement) GeneID: : trna-pro-3 trna [Mycobacterium tuberculosis CDC1551] Annotation: NC_ ( ) GeneID: This record was discontinued.... Figure 1.4 : Exemple de fichier à l état brut de de la séquence génomique de la souche MT CDC1551 au format texte brut. (2) Le prétraitement des données Le prétraitement consiste à nettoyer et mettre en forme les données dans un formalisme approprié pour une exploitation efficiente, i.e. l élimination des données sans importances particulières dans le processus d ECD, et qui sont susceptibles de réduire l exactitude des modèles à extraire. Ceci commence par un nettoyage des fichiers
24 Chapitre I : L extraction de connaissances à partir de données biologiques par enlèvement des lignes inutiles, des termes ou morceaux de texte, tels que n ligne, caractères spéciaux inutiles. La Figure 1.5 montre un morceau de séquence de gène nettoyé, et la Figure 1.6, montre le résultat final de cette étape. 1: aac aminoglycoside 2-N-acetyltransferase [Mycobaterium Tuberculosis CDC1551] GeneID: : accd acetyl-coa carboxylase, carboxyl transferase, beta subunit [Mycobaterium Tuberculosis CDC1551] GeneID: Figure 1.5 : Morceau de la séquence génomique nettoyée, de la souche Mt CDC1551. aac aminoglycoside 2-N-acetyltransferase Mycobaterium Tuberculosis CDC accd acetyl-coa carboxylase, carboxyl transferase, beta subunit Mycobaterium Tuberculosis CDC Figure 1.6 : Morceau de la séquence génomique mise en forme, de la souche Mt CDC1551. (3) La transformation des données Cette étape consiste à transformer les données et les convertir en données appropriées (voir Figure 1.6), pour exploitation. Ce sera une transformation vers un formalisme base de données (attribut, valeur), à partir des descripteurs possibles qui peuvent être dégagées à cette étape. Ces descripteurs ou attributs vont aider à «binariser» les entités dégagées et serviront ainsi à alimenter une base de données. aac aminoglycoside 2-Nacetyltransferase Mycobaterium Tuberculosis CDC accd acetyl-coa carboxylase, carboxyl transferase, beta subunit Mycobaterium Tuberculosis CDC acea-1 isocitrate lyase Mycobaterium Tuberculosis CDC Séquence génomique structurée code_gene nom_gene id_gene aac aminoglycoside Nacetyltransferase accd acetyl-coa carboxylase, carboxyl transferase, beta subunit acea-1 isocitrate lyase Figure 1.7 : Morceau de la séquence génomique structurée, de la souche Mt CDC1551.
CHAPITRE 3 LA SYNTHESE DES PROTEINES
CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailLa gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailDr E. CHEVRET UE2.1 2013-2014. Aperçu général sur l architecture et les fonctions cellulaires
Aperçu général sur l architecture et les fonctions cellulaires I. Introduction II. Les microscopes 1. Le microscope optique 2. Le microscope à fluorescence 3. Le microscope confocal 4. Le microscope électronique
Plus en détailIntroduction aux bases de données: application en biologie
Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailGènes Diffusion - EPIC 2010
Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses
Plus en détailMABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Plus en détailSemestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»
Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,
Plus en détailBase de données bibliographiques Pubmed-Medline
Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction
Plus en détailMaster de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant
Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailIMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques
IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailAnalyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailSystème immunitaire artificiel
République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieure Université des Sciences et de la Technologie D Oran Mohammed Boudiaf (USTO) Faculté des Sciences Département d Informatique
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailGENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT
Remarque : Tous les cours sont en français, sauf contre-indication. Pour des traductions anglaises des titres, des descriptifs, et plus de renseignements, consultez l intégralité du Programme des enseignements
Plus en détailEntrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailGénétique et génomique Pierre Martin
Génétique et génomique Pierre Martin Principe de la sélections Repérage des animaux intéressants X Accouplements Programmés Sélection des meilleurs mâles pour la diffusion Index diffusés Indexation simultanée
Plus en détailINTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE
INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE BUSINESS INTELLIGENCE : GOALS AND RESULTS OF A PILOT EXPERIMENT INVOLVING SEVEN SMEs FROM BOURGOGNE Ludovic DENOYELLE,
Plus en détailLes tests génétiques à des fins médicales
Les tests génétiques à des fins médicales Les tests génétiques à des fins médicales Nous avons tous hérité d une combinaison unique de gènes de la part de nos parents. Cette constitution originale et l
Plus en détailHépatite chronique B Moyens thérapeutiques
Hépatite chronique B Moyens thérapeutiques Dr Olfa BAHRI Laboratoire de Virologie Clinique Institut Pasteur de Tunis INTRODUCTION Plus de 300. 10 6 porteurs chroniques de VHB dans le monde Hépatite chronique
Plus en détailMise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?
Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs? Dr Xavier Manival, Laboratoire IMoPA, CR, CNRS Françoise Tisserand-Bedri, Documentaliste, Inist-CNRS
Plus en détailBig data et sciences du Vivant L'exemple du séquençage haut débit
Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailGestion de la Relation Client (GRC)
Techniques de DM pour la GRC dans les banques Page 2 I.1 Introduction La gestion de la relation client est devenue un processus essentiel dans les institutions bancaires. Ils essaient toujours d améliorer
Plus en détailChapitre III Le phénotype immunitaire au cours de la vie
Chapitre III Le phénotype immunitaire au cours de la vie Le phénotype immunitaire d un individu caractérise sa capacité à répondre, grâce aux effecteurs de l immunité adaptative, aux différents agents
Plus en détailCellules procaryotes Service histologie Pr.k.mebarek
Cellules procaryotes Service histologie Pr.k.mebarek I) Les cellules procaryotes II) Les cellules eucaryotes o 1) Caractéristiques générales des cellules eucaryotes o 2) Organisation des cellules eucaryotes
Plus en détailNom de l application
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique
Plus en détailUTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY
UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier
Plus en détail2 C est quoi la chimie?
PARTIE 1 AVANT LA CHIMIE VERTE... 2 C est quoi la chimie? L inconnu étant source d angoisse, nous allons essayer de définir les grands domaines de la chimie pour mieux la connaître, l appréhender et donc
Plus en détail- 2 - faire industriel dans la mise au point des produits biologiques. L Institut Roche de Recherche et Médecine Translationnelle (IRRMT, basé à
Information presse Roche, l Agence Nationale de Recherches sur le Sida et les hépatites virales (ANRS), le Baylor Research Institute (BRI) et Inserm Transfert mettent en place une coopération stratégique
Plus en détailIntrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?
Les Rencontres de l Inra au Salon de l agriculture Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution? Lundi 23 février 2015 Programme 14h30
Plus en détailMETHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES
Enseignement du Deuxième Cycle des Etudes Médicales Faculté de Médecine de Toulouse Purpan et Toulouse Rangueil Module I «Apprentissage de l exercice médical» Coordonnateurs Pr Alain Grand Pr Daniel Rougé
Plus en détailMASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)
MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE DES PLANTES
Plus en détail3: Clonage d un gène dans un plasmide
3: Clonage d un gène dans un plasmide Le clonage moléculaire est une des bases du génie génétique. Il consiste à insérer un fragment d'adn (dénommé insert) dans un vecteur approprié comme un plasmide par
Plus en détailIntroduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.
Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis
Plus en détailUnivers Vivant Révision. Notions STE
Univers Vivant Révision Notions STE Chap. 13) L Écologie 1) a) Qu est-ce que l empreinte écologique? L empreinte écologique correspond à la surface terrestre et aquatique totale nécessaire à un individu,
Plus en détailMise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC
Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC {Sebastien.Carrere, Ludovic.Legrand,Jerome.Gouzy}@toulouse.inra.fr {Fabrice.Legeai,Anthony.Bretaudeau}@rennes.inra.fr CATI BBRIC 35 bioinformaticiens
Plus en détailLe cinquième chapitre
Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines
Plus en détailLes OGM. 5 décembre 2008. Nicole Mounier
Les OGM 5 décembre 2008 Nicole Mounier Université Claude Bernard Lyon 1 CGMC, bâtiment Gregor Mendel 43, boulevard du 11 Novembre 1918 69622 Villeurbanne Cedex OGM Organismes Génétiquement Modifiés Transfert
Plus en détailEbauche Rapport finale
Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide
Plus en détailBiomarqueurs en Cancérologie
Biomarqueurs en Cancérologie Définition, détermination, usage Biomarqueurs et Cancer: définition Anomalie(s) quantitative(s) ou qualitative(s) Indicative(s) ou caractéristique(s) d un cancer ou de certaines
Plus en détailLA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE
Biologie LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE Février 2006 I. L'INTRODUCTION Chaque cellule d'un organisme supérieur provient de la multiplication d'une cellule préexistante (cellule
Plus en détailEntreposage de données complexes pour la médecine d anticipation personnalisée
Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée
Plus en détailConférence technique internationale de la FAO
Décembre 2009 ABDC-10/7.2 F Conférence technique internationale de la FAO Biotechnologies agricoles dans les pays en développement: choix et perspectives pour les cultures, les forêts, l élevage, les pêches
Plus en détailLa lutte contre la tuberculose est régie par l arrêté royal du 17 octobre 2002.
Le diagnostic de la tuberculose bovine La lutte contre la tuberculose est régie par l arrêté royal du 17 octobre 2002. 1. Tuberculination Dans la première phase d une infection de tuberculose bovine (Mycobacterium
Plus en détailConception d une Plateforme Open Source d Extraction et de Gestion des Connaissances
Département d Informatique MEMOIRE Présenté par : KADEM Habib Pour obtenir LE DIPLOME DE MAGISTER Spécialité : Informatique Option : Informatique & Automatique Intitulé : Conception d une Plateforme Open
Plus en détailEpidémiologie appliquée aux sciences vétérinaires DES DAOA DES - DEA
Epidémiologie appliquée aux sciences vétérinaires DES DAOA DES - DEA Claude SAEGERMAN Département des maladies infectieuses et parasitaires, Service d épidémiologie et analyse de risques appliquées aux
Plus en détailLES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION
LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement
Plus en détailLIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : Objectif de ce chapitre. 6.1 Introduction 86
LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : ÉTABLISSEMENT DE LIENS ENTRE LES PERSONNES CHEZ QUI UN DIAGNOSTIC D INFECTION À VIH A ÉTÉ POSÉ ET LES SERVICES DE SOINS ET DE TRAITEMENT
Plus en détaile-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé
e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé
Plus en détailRaisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Plus en détailVers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Plus en détailL utilisation d un réseau de neurones pour optimiser la gestion d un firewall
L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailL axe 5 du Cancéropole Nord Ouest
L axe 5 du Cancéropole Nord Ouest Cancers, Individu id & Société L état des lieux d un pari Le Rapport Cordier 1 Biomarqueurs prédictifs 2 L axe 5 du Cancéropole Nord Ouest Cancers, Individu & Société
Plus en détailTravaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015
Andrew Tolonen atolonen@genoscope.cns.fr Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015 A- Généralités I- La vie sur terre telle que nous la connaissons ne
Plus en détailPrise de position sur les biosimilaires. Résumé
Prise de position sur les biosimilaires Résumé Les médicaments biotechnologiques, appelés également biomédicaments, occupent une place importante dans le traitement de maladies comme le cancer, la polyarthrite
Plus en détailLa pratique de la gestion des services. Lier les composants techniques avec les services d opérations dans la CMDB
La pratique de la gestion des services Lier les composants techniques avec les services d opérations dans la CMDB Création : octobre 2013 Mise à jour : octobre 2013 A propos A propos du document Ce document
Plus en détailet les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées
Plus en détailAlgèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS
1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5
Plus en détailChapitre 1 : Introduction aux bases de données
Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données
Plus en détailDomaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire
Contexte Domaine : Sciences, Technologies et Santé Mention : Nutrition, Sciences des aliments, Agroalimentaire Fédération des spécialités de Master des 5 pôles universitaires partenaires de la région Nord-Pas-de-Calais
Plus en détailIntroduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailItem 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
Plus en détailStructuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,
Plus en détailMaster UP 6. Mention Santé Publique et Management de la Santé. Spécialité Pharmacologie Clinique. Construire une carrière dans l industrie
Master UP 6 Mention Santé Publique et Management de la Santé Spécialité Pharmacologie Clinique Construire une carrière dans l industrie pharmaceutique Alain Leclerc, CTPartners 3 mars 2009 Your Executive
Plus en détailLes Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
Plus en détailLa résistance d'agents infectieux aux médicaments antimicrobiens
DECLARATION COMMUNE DES ACADEMIES DU G SCIENCE 2013 La résistance d'agents infectieux aux médicaments antimicrobiens Une menace globale pour l'humanité Depuis l introduction dans les années 40 du premier
Plus en détailDIAPOSITIVE 1 Cette présentation a trait à la réglementation sur les thérapies cellulaires.
Produits de thérapie cellulaire DIAPOSITIVE 1 Cette présentation a trait à la réglementation sur les thérapies cellulaires. DIAPOSITIVE 2 La fabrication des thérapies cellulaires est examinée par la Division
Plus en détailMASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE
MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE SANTE Spécialité
Plus en détailEXAMEN CRITIQUE D UN DOSSIER TECHNIQUE
EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE (Préparation : 5 heures -- Exposé et Questions : 1 heure) Rapport établi par : P.J. BARRE, E. JEAY, D. MARQUIS, P. RAY, A. THIMJO 1. PRESENTATION DE L EPREUVE 1.1.
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailClassification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
Plus en détailLa reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006
La reconnaissance moléculaire: la base du design rationnel En 1890 Emil Fisher a proposé le modèle "serrure et clé" pour expliquer la façon de fonctionner des systèmes biologiques. Un substrat rentre et
Plus en détailMasses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA
Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez 1. Introduction : Besoins Informations et Aide
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailJade. Projet Intelligence Artificielle «Devine à quoi je pense»
Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges
Plus en détailUNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU
Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris
Plus en détailTHOT - Extraction de données et de schémas d un SGBD
THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système
Plus en détailS8 - INFORMATIQUE COMMERCIALE
S8 - INFORMATIQUE COMMERCIALE Les savoirs de l Informatique Commerciale doivent être abordés en relation avec les autres savoirs (S4 à S7). Les objectifs généraux sont : o de sensibiliser les étudiants
Plus en détailFormat de l avis d efficience
AVIS D EFFICIENCE Format de l avis d efficience Juillet 2013 Commission évaluation économique et de santé publique Ce document est téléchargeable sur www.has-sante.fr Haute Autorité de santé Service documentation
Plus en détailUniversity of Tokyo Graduate School of Agricultural and Life Sciences et. Kanagawa Academy of Science and Technology
COMMUNIQUÉ DE PRESSE le 25 mars 2014 Une étude conjointe menée par University of Tokyo Graduate School of Agricultural and Life Sciences et Kanagawa Academy of Science and Technology suggère que le sirop
Plus en détailUtilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition
09-0749 1 WHO/EMP/MAR/2009.3 Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition Synthèse des résultats des études publiées entre 1990 et 2006 Organisation
Plus en détailLe géomarketing - Page 1 sur 7
Le géomarketing - Page 1 sur 7 LES DOSSIERS MADWATCH.net méthodes Le Géomarketing Novembre 2003 Nb de pages : 7 Le géomarketing - Page 2 sur 7 Créé dans les années 80, la plupart des applications du géomarketing
Plus en détailles deux premières années du Bachelor of Science en sciences pharmaceutiques
UNIVERSITÉ DE FRIBOURG SUISSE FACULTÉ DES SCIENCES UNIVERSITÄT FREIBURG SCHWEIZ MATHEMATISCH-NATURWISSENSCHAFTLICHE FAKULTÄT Plan d'études pour les deux premières années du Bachelor of Science en sciences
Plus en détailDans cette définition, il y a trois notions clés: documents, requête, pertinence.
Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents
Plus en détailLa Greffe de Cellules Souches Hématopoïétiques
La Greffe de Cellules Souches Hématopoïétiques Professeur Ibrahim Yakoub-Agha CHRU de LILLE (Illustration de J. Cloup, extraite du CD-Rom «greffe de Moelle» réalisé par la société K Noë) La moelle osseuse
Plus en détail