Data Mining. Rapport de Projet

Dimension: px
Commencer à balayer dès la page:

Download "Data Mining. Rapport de Projet"

Transcription

1 Université Bordeaux I 2011 Nicolas FONTAINE Florence MAURIER Jonathan MERCIER Data Mining Rapport de Projet M2 Bioinformatique Responsable : P. Desbarat

2 Table des matières Introduction 1 1 Choix des données 2 2 Récupération des données Téléchargement du chier "ls-lr" Génération de la liste de chiers PDB Téléchargement des chiers pdb Préparation des données Nettoyage Données manquantes Bruit Intégration Transformation Calcul d'attributs Stratégie d'analyse Critères d'analyse Stratégie Analyse des données 8 2

3 Conclusion 9

4 Introduction Le data mining, ou fouille de données en français, correspond à l'extraction de connaissances à partir de données. Il permet : de caractériser ou discriminer, d'associer, classer ou prédire, d'analyser des groupes, des exceptions, des tendances ou des évolutions. L'objectif de ce projet est de trouver les protéines les plus semblables en utilisant la méthode de data mining. La fonction d'une protéine découlant de sa structure géométrique, ces deux critères sont compris dans le terme "semblables". Dans notre cas, les données seront donc des informations sur les protéines et nous chercherons à analyser des groupes. Ces groupes seront donc des familles de protéines, à l'intérieur desquelles nous tenterons de maximiser les ressemblances, alors que nous minimiserons ces dernières entre les diérentes familles. 1

5 1. Choix des données La Protein Data Base (ou PDB) étant la principale source de données de biologie structurale, c'est à partir d'elle que nous avons extrait nos données. Cependant, cette base compte environ ches de protéines. Donc, an de garder des temps de traitement et d'analyse raisonnables pour pouvoir réaliser ce projet, nous avons eectué un échantillonnage en sélectionnant aléatoirement 2000 protéines. 2

6 2. Récupération des données La récupération des 2000 ches PDB souhaitées se fait en plusieurs étapes, toutes réalisées via un script python. 2.1 Téléchargement du chier "ls-lr" Dans un premier temps, il nous faut récupérer le chier appelé "ls-lr", contenant les adresses de tous les chiers téléchargeables depuis le site de la PDB (les entrées de la base de données sont chacune disponible sous plusieurs formats). Pour cela, il faut se connecter en FTP (File Transfer Protocol) à l'addresse "ftp.wwpdb.org". Ensuite, nous téléchargeons le chier "ls-lr" à l'adresse "pub- /pdb/data/structures/" pour l'écrire sur notre disque. 2.2 Génération de la liste de chiers PDB Dans un second temps, comme nous ne souhaitons obtenir que entrées au format PDB uniquement, il nous faut eectuer une sélection parmi les adresses du chier "ls-lr". Pour cela, sachant que les chiers PDB sont stockés dans le répertoire "pub- /pdb/data/structures/divided/pdb", nous eectuons un premier tri en ne gardant que les lignes correspondant aux adresses contenant la chaîne de caractères "/divided/pdb". Puis, dans cette liste, nous choisissons aléatoirement adresses, en 3

7 supprimant au fur et à mesure les adresses choisies de la liste après les avoir ajouté à une nouvelle liste qui sera notre liste dénitive. 2.3 Téléchargement des chiers pdb Enn, il nous faut télécharger les chiers PDB sélectionnés, toujours par le protocole FTP. Les chiers obtenus sont des archives au format "gz". 4

8 3. Préparation des données Le but de la préparation est d'obtenir des données directement exploitables pour l'analyse. Les résultats de notre analyse dépendront de la qualité de ces données. Cette étape se fait en trois parties : nettoyage, intégration, transformation. Cependant, avant, il nous a fallu déterminer les paramètres que nous prendrons pour l'analyse. Nous avons choisi les suivants : le nom de la protéine et sa séquence brute, pour pouvoir identier la protéine après son analyse. la taille (ou le poids) de la protéine, le nombre de chaînes, le nombre d'hélices alpha, de feuillets bêta, de coudes, le nombre de cystéines, car ces acides aminés sont à l'origine des ponts disulfures, liaisons très importantes pour la forme et la fonction de la protéine. le pourcentage d'acides aminés hydrophiles, neutres et hydrophobes, car l'hydrophobie d'une protéine peut déterminer sa forme (brillaire ou globulaire), son phi ou point isoélectrique. 3.1 Nettoyage Le nettoyage consiste à traiter le cas des données manquantes ou bruitées Données manquantes N'étant pas en mesure de combler les "trous" laissés par des manquantes, les instances incomplètes seront simplement ignorées. 5

9 3.1.2 Bruit Nous avons pu remarquer qu'il y avait quelques molécules d'adn parmi les protéines de notre échantillon. Nous pouvons les considérer comme du bruit, des données qui ne nous intéressent pas dans notre analyse. An d'homogénéiser les données, nous avons donc décidé de les exclure. 3.2 Intégration Lorsque les données proviennent de plusieurs sources, elles ont besoin d'être intégrées, c'est à dire que les données redondantes doivent être supprimées lors de la mise en commun, les valeurs des champs doivent être mis dans le même format etc. Étant donné que toutes nos données proviennent de la même source, cette étape consistera simplement en le choix d'un mode de stockage pour nos données. Deux options se sont oertes à nous : soit un stockage sous forme d'une base de données, soit un stockage sous forme de chier. Nous avons opté pour l'enregistrement de nos données dans un chier au format XML. 3.3 Transformation La transformation correspond à l'étape où on peut normaliser les données, lisser les données trop précises, et où sont construits les attributs à calculer Calcul d'attributs Nous calculons les pourcentages d'acides aminés hydrophobes, neutres et hydrophiles, ainsi que le nombre de ponts disulfures. 6

10 4. Stratégie d'analyse 4.1 Critères d'analyse Les critères de comparaison que nous avons choisi sont les suivants : le nom de la protéine et sa séquence brute, la taille (ou le poids) de la protéine, le nombre de chaînes, le nombre d'hélices alpha, de feuillets bêta, de coudes, le nombre de cystéines, le pourcentage d'acides aminés hydrophobes, son phi ou point isoélectrique. 4.2 Stratégie D'un point de vue strictement structural, il faudrait partir de l'échelle la plus globale vers la plus ne pour comparer nos protéines. Nous pensons, dans un premier temps, à son hydrophilie déterminant sa forme globale (brillaire ou globulaire) et sa position dans la cellule (membranaire ou cytoplasmique). Le second critère le plus discriminant serait donc la taille de la protéine. Viendrait ensuite le point isoélectrique qui est utilisé avec la taille lors des éléctrophorèses en deux dimensions. Puis, viendrait le nombre de chaînes de la protéine, suivi des structures secondaires telles que les hélices, feuillets, coudes et ponts dissulfures. En dernier viendrait le pourcentage de cystéines modiant la structure 3D de la protéine en formant des ponts dissulfures. 7

11 4.2.1 Pourcentage d'acides aminés hydrophiles Longueur en acides aminés En biochimie, les molécules de moins de 20 acides aminés sont considérées comme des peptides, celles de 20 à 100 acides aminés comme de petites protéines, celles de 100 à 300 comme des protéines de taille moyenne, et enn celle de plus de 300 acides aminés comme des protéines de grande taille. C'est donc ainsi que nous partionneront nos protéines en 4 clusters selon leur taille Point isoélectrique Nombre de chaînes Structures secondaires Pourcentage de cystéines 8

12 5. Analyse des données 9

13 Conclusion 10

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB... Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006 La reconnaissance moléculaire: la base du design rationnel En 1890 Emil Fisher a proposé le modèle "serrure et clé" pour expliquer la façon de fonctionner des systèmes biologiques. Un substrat rentre et

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Raja Bases de données distribuées A Lire - Tutoriel

Raja Bases de données distribuées A Lire - Tutoriel Université des Sciences de Montpellier Master 2 Semestre 1 Unité d'enseignement FMIN306 Raja Bases de données distribuées A Lire - Tutoriel 26 janvier 2011 Audrey Novak Romain Maneschi Jonathan Fhal Aloys

Plus en détail

Mode d'emploi du plugin Grayscale_Granulometry

Mode d'emploi du plugin Grayscale_Granulometry Mode d'emploi du plugin Grayscale_Granulometry D. Legland 27 mars 2013 Mode d'emploi rapide du plugin Grayscale Granulometry pour ImageJ. Le plugin permet de calculer des courbes de granulométrie en niveaux

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Année Universitaire 2009/2010 Session 2 de Printemps

Année Universitaire 2009/2010 Session 2 de Printemps Année Universitaire 2009/2010 Session 2 de Printemps DISVE Licence PARCOURS : CSB4 & CSB6 UE : INF 159, Bases de données Épreuve : INF 159 EX Date : Mardi 22 juin 2010 Heure : 8 heures 30 Durée : 1 heure

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Cours Langage C/C++ Programmation modulaire

Cours Langage C/C++ Programmation modulaire Cours Langage C/C++ Programmation modulaire Thierry Vaira BTS IRIS Avignon tvaira@free.fr «v0.1 Rappel Programmation modulaire (1/2) Le découpage d'un programme en sous-programmes est appelée programmation

Plus en détail

Solutions de stockage réseau

Solutions de stockage réseau Solutions de stockage réseau Adrien Waksberg Jonathan Demmerle Sofiane El Harsal Mohamed Bennoiken 28 mars 2012 Sommaire Introduction Sommaire Le projet Le Grid 5000 1 Introduction 2 3 4 5 6 Sommaire Le

Plus en détail

TP 1 : 1 Calculs en binaire, octal et hexadécimal

TP 1 : 1 Calculs en binaire, octal et hexadécimal Univ. Lille 1 - Licence Informatique 2ème année 2013-14 Objectifs du TP Ce TP a pour but Codage de l'information TP 1 : 1. de découvrir quelques opérations logiques sur les nombres 2. et quelques formats

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques 1 2 Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques 3 ETL = extracto-chargeur = datadumping La Business Intelligence, BI, (ou informatique

Plus en détail

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno 427-2010)

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno 427-2010) Méthode OIV- -MA-AS315-23 Type de méthode : critères Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage (OIV-Oeno 427-2010) 1 Définitions des

Plus en détail

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Beat Wolf 1, Pierre Kuonen 1, Thomas Dandekar 2 1 icosys, Haute École Spécialisée de Suisse occidentale,

Plus en détail

Récupération de fichiers effacés avec Recuva 1/ 5

Récupération de fichiers effacés avec Recuva 1/ 5 Récupération de fichiers effacés avec Recuva 1/ 5 Beaucoup d'entre nous un jour avons supprimé par erreur soit des documents ou des photos et malheureusement nous les avons mis à la poubelle. Nous pensons

Plus en détail

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale V E R S I O N A V R I L 2 0 1 2 C E N T R E D E R E C H E R C H E C L I N I Q U E É T I E N N E - L E B E L D U C H U S Guide de rédaction d un protocole de recherche clinique à l intention des chercheurs

Plus en détail

TP : Shell Scripts. 1 Remarque générale. 2 Mise en jambe. 3 Avec des si. Systèmes et scripts

TP : Shell Scripts. 1 Remarque générale. 2 Mise en jambe. 3 Avec des si. Systèmes et scripts E3FI ESIEE Paris Systèmes et scripts B. Perret TP : Shell Scripts 1 Remarque générale Lorsque vous cherchez des informations sur Internet, n'oubliez pas que langage de shell script que nous avons vu correspond

Plus en détail

Examen technique des technologies de mise en cache

Examen technique des technologies de mise en cache technologies de mise en cache LIVRE BLANC Au cours des 10 dernières années, l'utilisation d'applications facilitant les processus métier a considérablement évolué. Ce qui était un plus avantageux fait

Plus en détail

Introduction au protocole FTP. Guy Labasse guy.labasse@lyceedautet.fr

Introduction au protocole FTP. Guy Labasse guy.labasse@lyceedautet.fr Introduction au protocole FTP Guy Labasse guy.labasse@lyceedautet.fr Le File Transfer Protocol (protocole de transfert de fichiers), ou FTP, est un protocole de communication destiné à l échange informatique

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

GROUPE DE TRAVAIL «ARTICLE 29» SUR LA PROTECTION DES DONNÉES

GROUPE DE TRAVAIL «ARTICLE 29» SUR LA PROTECTION DES DONNÉES GROUPE DE TRAVAIL «ARTICLE 29» SUR LA PROTECTION DES DONNÉES 00727/12/FR WP 192 Avis 02/2012 sur la reconnaissance faciale dans le cadre des services en ligne et mobiles Adopté le 22 mars 2012 Le groupe

Plus en détail

INTRODUCTION À L'ENZYMOLOGIE

INTRODUCTION À L'ENZYMOLOGIE INTRODUCTION À L'ENZYMOLOGIE Les enzymes sont des macromolécules spécialisées qui - catalysent les réactions biologiques - transforment différentes formes d'énergie. Les enzymes diffèrent des catalyseurs

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

DOCUMENT DE TRAVAIL DES SERVICES DE LA COMMISSION RÉSUMÉ DE L ANALYSE D IMPACT. accompagnant la

DOCUMENT DE TRAVAIL DES SERVICES DE LA COMMISSION RÉSUMÉ DE L ANALYSE D IMPACT. accompagnant la COMMISSION EUROPÉENNE Bruxelles, le 4.10.2012 SWD(2012) 291 final DOCUMENT DE TRAVAIL DES SERVICES DE LA COMMISSION RÉSUMÉ DE L ANALYSE D IMPACT accompagnant la proposition de règlement du Parlement européen

Plus en détail

Panel MBAweb 2014-10-12. MBA Recherche

Panel MBAweb 2014-10-12. MBA Recherche 1 Présentation du panel MBAweb La ressource incontournable de l'opinion au Québec 2 34 000 consommateurs attentifs et engagés Travailler vite et bien à la fois, c'est possible lorsqu'on a l'expérience.

Plus en détail

MODULES 3D TAG CLOUD. Par GENIUS AOM

MODULES 3D TAG CLOUD. Par GENIUS AOM MODULES 3D TAG CLOUD Par GENIUS AOM 1 Sommaire I. INTRODUCTIONS :... 3 II. INSTALLATION MANUELLE D UN MODULE PRESTASHOP... 3 III. CONFIGURATION DU MODULE... 7 3.1. Préférences... 7 3.2. Options... 8 3.3.

Plus en détail

TP2 - Conguration réseau et commandes utiles. 1 Généralités. 2 Conguration de la machine. 2.1 Commande hostname

TP2 - Conguration réseau et commandes utiles. 1 Généralités. 2 Conguration de la machine. 2.1 Commande hostname Département d'informatique Architecture des réseaux TP2 - Conguration réseau et commandes utiles L'objectif de ce TP est d'une part de vous présenter la conguration réseau d'une machine dans l'environnement

Plus en détail

Perl Orienté Objet BioPerl There is more than one way to do it

Perl Orienté Objet BioPerl There is more than one way to do it Perl Orienté Objet BioPerl There is more than one way to do it Bérénice Batut, berenice.batut@udamail.fr DUT Génie Biologique Option Bioinformatique Année 2014-2015 Perl Orienté Objet - BioPerl Rappels

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

KWISATZ MODULE PRESTASHOP

KWISATZ MODULE PRESTASHOP Table des matières -1) KWISATZ - :...2-1.1) Introduction :...2-1.2) Description :...3-1.2.1) Schéma :...3-1.3) Mise en place :...4-1.3.1) PRESTASHOP :...4-1.3.1.1) Les Web Services :...4-1.3.2) KWISATZ

Plus en détail

synchroniser Vos sauvegardes SynchBack Free SE Présentation de SynckBackFree

synchroniser Vos sauvegardes SynchBack Free SE Présentation de SynckBackFree SynchBack Free SE SyncBack est un logiciel de sauvegarde et synchronisation de répertoires de votre ordinateur. Il peut être utilisé : pour effectuer des backups de fichiers (copies de sauvegarde), pour

Plus en détail

ACIDES BASES. Chap.5 SPIESS

ACIDES BASES. Chap.5 SPIESS ACIDES BASES «Je ne crois pas que l on me conteste que l acide n ait des pointes Il ne faut que le goûter pour tomber dans ce sentiment car il fait des picotements sur la langue.» Notion d activité et

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Manuel de l'utilisateur d'intego VirusBarrier Express et VirusBarrier Plus

Manuel de l'utilisateur d'intego VirusBarrier Express et VirusBarrier Plus Manuel de l'utilisateur d'intego VirusBarrier Express et VirusBarrier Plus Bienvenue dans le manuel de l'utilisateur d'intego VirusBarrier Express et VirusBarrier Plus. VirusBarrier Express est un outil

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

SCOLASYNC : Logiciel de gestion de flotte de «supports USB», synchronisation de fichiers.

SCOLASYNC : Logiciel de gestion de flotte de «supports USB», synchronisation de fichiers. SCOLASYNC : Logiciel de gestion de flotte de «supports USB», synchronisation de fichiers. Logiciel libre (licence GPL), développé pour le plateforme GNU/Linux. Permet à l'enseignant de transférer des fichiers

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

KWISATZ_TUTO_module_magento novembre 2012 KWISATZ MODULE MAGENTO

KWISATZ_TUTO_module_magento novembre 2012 KWISATZ MODULE MAGENTO _TUTO_module_magento Table des matières -1) - :...2-1.1) Introduction :...2-1.2) Description :...3-1.2.1) Schéma :...3-1.3) Mise en place :...4-1.3.1) MAGENTO :...4-1.3.1.1) Les Web Services :...4-1.3.1.2)

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Les cytokines et leurs récepteurs. Laurence Guglielmi laurence.guglielmi@univ-montp1.frli

Les cytokines et leurs récepteurs. Laurence Guglielmi laurence.guglielmi@univ-montp1.frli Les cytokines et leurs récepteurs Laurence Guglielmi laurence.guglielmi@univ-montp1.frli l i@ i 1 Les cytokines et leurs récepteurs 2 mécanismes principaux d interactions cellulaires : - contact membranaire

Plus en détail

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE

Plus en détail

FOIRE AUX QUESTIONS - WebDEPOT

FOIRE AUX QUESTIONS - WebDEPOT FOIRE AUX QUESTIONS - WebDEPOT Département de Biochimie Université de Montréal 2005-2006 WebDépôt TABLE DES MATIÈRES Table des Matières 1 Banques de données 3 2 Bouton Dossier WEB 3 2.1 Fureteur..............................................

Plus en détail

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6 Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6 1 1.But et théorie: Le but de cette expérience est de comprendre l'intérêt de la spectrophotométrie d'absorption moléculaire

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

SSIS Implémenter un flux

SSIS Implémenter un flux SSIS Implémenter un flux Version 1.0 Z Thibault Denizet 2 SSIS Implémenter un flux Sommaire 1 Introduction 4 2 Contraintes de précédence 5 3 Implémenter un flux de contrôle 8 3.1 Conteneurs du flux de

Plus en détail

Data Mining. Master 1 Informatique - Mathématiques UAG

Data Mining. Master 1 Informatique - Mathématiques UAG Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data

Plus en détail

SweetyPix, mode d'emploi

SweetyPix, mode d'emploi Université de Nice Sophia-Antipolis Master 1 STIC Informatique SweetyPix, mode d'emploi Edouard Jan Mendher Merzoug Anne-Laure Radigois Amaury Tinard 2005-2006 Université de Nice Sophia-Antipolis Master

Plus en détail

Client Kiwi Backup : procédures d'installation et de mise à jour. Gilles Arnoult, Clément Varaldi

Client Kiwi Backup : procédures d'installation et de mise à jour. Gilles Arnoult, Clément Varaldi Client Kiwi Backup : procédures d'installation et de mise à jour Gilles Arnoult, Clément Varaldi 10 juin 2005 Première partie Installation du client Kiwi Backup 1 Chapitre 1 Sous Windows 1.1 Avant toutes

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

FORMATS DE FICHIERS. Quels sont les différents types d informations numériques dans un document multimédia?

FORMATS DE FICHIERS. Quels sont les différents types d informations numériques dans un document multimédia? FORMATS DE FICHIERS Choisir et justifier un format de fichier pour réaliser un document multimédia 1 ) Le problème d Amélie Amélie et Léa ont publié leur premier article sur leur propre blog. Amélie constate

Plus en détail

Le test s'est déroulé en trois étapes successives

Le test s'est déroulé en trois étapes successives TEST SUR LES BASES BIBLIOGRAPHIQUES Rapport* du bureau Marcel van Dijk L'étude qui suit présente les résultats du test quantitatif et qualitatif de 5 bases bibliographiques disponibles en France : BNOPALE

Plus en détail

Backup Exec 2014 Management Pack for Microsoft SCOM. - Guide de l'utilisateur

Backup Exec 2014 Management Pack for Microsoft SCOM. - Guide de l'utilisateur Backup Exec 2014 Management Pack for Microsoft SCOM Management Pack for Microsoft SCOM - Guide de l'utilisateur Management Pack for Microsoft Operations Ce document traite des sujets suivants: Backup Exec

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Conception d'applications de base de données ios plus rapides Guide Pratique FileMaker

Conception d'applications de base de données ios plus rapides Guide Pratique FileMaker Conception d'applications de base de données ios plus rapides Guide Pratique FileMaker Table des Matières Introduction... 3 Conception de modèles... 3 Conception de bases de données... 5 Conception pour

Plus en détail

Présentations personnelles. filière IL

Présentations personnelles. filière IL Présentations personnelles filière IL Résumé Liste de sujets de présentations personnelles. Chaque présentation aborde un sujet particulier, l'objectif étant que la lecture du rapport ainsi que l'écoute

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

Mathématiques et petites voitures

Mathématiques et petites voitures Mathématiques et petites voitures Thomas Lefebvre 10 avril 2015 Résumé Ce document présente diérentes applications des mathématiques dans le domaine du slot-racing. Table des matières 1 Périmètre et circuit

Plus en détail

Guide pour l'installation ou la mise à jour de Foxmail 7.1 en Français

Guide pour l'installation ou la mise à jour de Foxmail 7.1 en Français Guide pour l'installation ou la mise à jour de Foxmail 7.1 en Français Table des matières Préparation... 2 Préparation pour une nouvelle installation... 2 Préparation pour une mise à jour de Foxmail...

Plus en détail

Procédure de Migration de G.U.N.T.3 KoXo Administrator

Procédure de Migration de G.U.N.T.3 KoXo Administrator Procédure de Migration de G.U.N.T.3 KoXo Administrator 1 - Introduction L application G.U.N.T.3 (CRDP de Bretagne) utilise une structuration dans Active Directory qui est similaire à celle de KoXo Administrator.

Plus en détail

TD de Biochimie 4 : Coloration.

TD de Biochimie 4 : Coloration. TD de Biochimie 4 : Coloration. Synthèse de l expérience 2 Les questions posées durant l expérience 2 Exposé sur les méthodes de coloration des molécules : Générique Spécifique Autres Questions Pourquoi

Plus en détail

Manuel d'installation de Joomla 1.7

Manuel d'installation de Joomla 1.7 Manuel d'installation de Joomla 1.7 Ce document vous est proposé par l'afuj Son utilisation est libre, sa commercialisation strictement interdite! AFUJ Association Francophone des Utilisateurs de Joomla!

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

Serveur de travail collaboratif Michaël Hoste -

Serveur de travail collaboratif Michaël Hoste - Serveur de travail collaboratif Michaël Hoste - Table des matières 1. Qu'est ce qu'un serveur de travail collaboratif?...2 2. Pourquoi ce projet?...2 3. Possibilités d'utilisation dans le cadre de l'université...3

Plus en détail

Téléchargement du micrologiciel de téléviseur ACL AQUOS

Téléchargement du micrologiciel de téléviseur ACL AQUOS Téléchargement du micrologiciel de téléviseur ACL AQUOS Directives de téléchargement : 1. Insérez une clé USB dans le port USB de votre ordinateur. (La clé USB doit être formatée en «FAT».) 2. Cliquez

Plus en détail

Prédiction de la structure d une

Prédiction de la structure d une Prédiction de la structure d une protéine Soluscience Guillaume Chakroun guillaume chakroun@hotmail.com Copyright c 2004 Guillaume Chakroun TABLE DES MATIÈRES Table des matières 1 Les structures protéiques

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

MARCHE PUBLIC DE FOURNITURES CAHIER DES CLAUSES TECHNIQUES PARTICULIERES (CCTP)

MARCHE PUBLIC DE FOURNITURES CAHIER DES CLAUSES TECHNIQUES PARTICULIERES (CCTP) MARCHE PUBLIC DE FOURNITURES CAHIER DES CLAUSES TECHNIQUES PARTICULIERES (CCTP) ENTITE ADJUDICATRICE BORDEAUX SCIENCES AGRO Objet du marché FOURNITURE D UNE SOLUTION D HEBERGEMENT DE SERVEURS PAR LE BIAIS

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Forex VPS Mode d emploi

Forex VPS Mode d emploi Forex VPS Mode d emploi Bienvenue sur le serveur de trading qui vous est proposé par Nicolas Tuffier et merci d avoir accordé votre confiance à ce service. AVERTISSEMENT IMPORTANT Les investissements dans

Plus en détail

MS PROJECT 2000. Prise en main. Date: Mars 2003. Anère MSI. 12, rue Chabanais 75 002 PARIS E mail : jcrussier@anere.com Site : www.anere.

MS PROJECT 2000. Prise en main. Date: Mars 2003. Anère MSI. 12, rue Chabanais 75 002 PARIS E mail : jcrussier@anere.com Site : www.anere. DOCUMENTATION MS PROJECT 2000 Prise en main Date: Mars 2003 Anère MSI 12, rue Chabanais 75 002 PARIS E mail : jcrussier@anere.com Site : www.anere.com Le présent document est la propriété exclusive d'anère

Plus en détail

évaluation des risques professionnels

évaluation des risques professionnels évaluation des professionnels Inventaire des Etablissement : Faculté de Médecine Unité de travail : Laboratoire de Biochimie Médicale Année : 2013 Locaux Bureaux Salle de Microscopie Culture cellulaire

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

TP 1. Prise en main du langage Python

TP 1. Prise en main du langage Python TP. Prise en main du langage Python Cette année nous travaillerons avec le langage Python version 3. ; nous utiliserons l environnement de développement IDLE. Étape 0. Dans votre espace personnel, créer

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Insulinothérapie et diabète de type 1

Insulinothérapie et diabète de type 1 Insulinothérapie et diabète de type 1 Introduction: la molécule d insuline L instauration de l insulinothérapie Dispositif d administration de l insuline Les propriétés de l insuline Insuline et schémas

Plus en détail

CINEMATIQUE DE FICHIERS

CINEMATIQUE DE FICHIERS ANDRE ANTHONY BRUNEAU Vincent JOUANNIN ROMAIN MAZEAUD MARINE RIOCHET Tony Groupe 609 CINEMATIQUE DE FICHIERS Mini-projet: Gestion de Ventes d'articles Enseignant: MONCEAUX Laura Année 2011 / 2012 TABLE

Plus en détail

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln. MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.fr Plan Introduction Généralités sur les systèmes de détection d intrusion

Plus en détail

ORIENTATIONS POUR LA CLASSE DE TROISIÈME

ORIENTATIONS POUR LA CLASSE DE TROISIÈME 51 Le B.O. N 1 du 13 Février 1997 - Hors Série - page 173 PROGRAMMES DU CYCLE CENTRAL 5 e ET 4 e TECHNOLOGIE En continuité avec le programme de la classe de sixième, celui du cycle central du collège est

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO Manuel d Utilisateur - Logiciel ModAFi Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO Grenoble, 12 juin 2012 Table des matières 1 Introduction 3 2 Modèles supportés 3 2.1 Les diérents modèles supportés pour

Plus en détail

Compte-rendu de projet de Système de gestion de base de données

Compte-rendu de projet de Système de gestion de base de données Compte-rendu de projet de Système de gestion de base de données Création et utilisation d'un index de jointure LAMBERT VELLER Sylvain M1 STIC Université de Bourgogne 2010-2011 Reponsable : Mr Thierry Grison

Plus en détail

Consignes pour la remise des données RESEAU

Consignes pour la remise des données RESEAU Consignes pour la remise des données RESEAU Le système RESEAU permet principalement de transférer et de regrouper des géodonnées provenant de différentes bases de données des services des eaux (= fichier

Plus en détail

Documentation utilisateur, manuel utilisateur MagicSafe Linux. Vous pouvez télécharger la dernière version de ce document à l adresse suivante :

Documentation utilisateur, manuel utilisateur MagicSafe Linux. Vous pouvez télécharger la dernière version de ce document à l adresse suivante : Documentation utilisateur, manuel utilisateur MagicSafe Linux. Vous pouvez télécharger la dernière version de ce document à l adresse suivante : http://www.hegerys.com/documentation/magicsafe-windows-doc.pdf

Plus en détail

Le fichier Merchant Reconciliation XML

Le fichier Merchant Reconciliation XML Le fichier Merchant Reconciliation XML Les avis de bonification de SIX Payment Services proposent un aperçu simple et rapide de toutes les bonifications de cartes de crédit et de débit, ainsi que de toutes

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail