Bioinformatique. Ressources et banques de données internationales

Dimension: px
Commencer à balayer dès la page:

Download "Bioinformatique. Ressources et banques de données internationales"

Transcription

1 Bioinformatique Ressources et banques de données internationales Frédéric Lecerf UMR PEGASE Equipe Génétique & Génomique Bioinformatique Plan du module 1. Présentation des banques et les différents BLAST 2. Ressources du NCBI 3. Autres ressources (Ensembl, Biomart, UCSC) 2 1

2 Bioinformatique 1. Présentation des banques et les différents BLAST Source : S. Lagarrigue (UMRGA) 3 Bioinformatique Les différentes Banques 4 2

3 Bioinformatique Banques (rappel) Les banques de séquences (et logiciels) d accès public 1. Banques de séquences Nucléotidiques 2. Banques de séquences Protéiques Banques généralistes (séquences soumises par les chercheurs) Banques spécialisées (données issues d un traitement) - nucléotidiques (transfac, ) - protéiques (Prosite, ) 5 Bioinformatique Banques (rappel) Banques généralistes de séquences nucléotidiques EMBL : (banque européenne) GENBANK : (banque américaine) DDBJ : (banque japonnaise) Echanges d informations entre ces 3 banques (depuis 1987) Maintenant il existe des vérifications sont faites à la soumission (curation) Il existe désormais un recueil de séquences référencées, annotées et «contrôlées» : The Reference Sequence (RefSeq) collection 6 3

4 Bioinformatique Banques (rappel) Banques généralistes de séquences protéiques Swissprot & TrEMBL : PIR : Uniprot : consortium EBI-PIR-SIB 7 Bioinformatique Banques (rappel) avril 2007 Banque nucléotidiques - genbank - EMBL seq in 160 milliard de nt partie codante (cds) connue ou prédite Banque protéiques TrEMBL seq PR séquencées NNNNatgNNNNNNtagNNNN Swiss-Prot seq 8 4

5 Bioinformatique Banques (rappel) avril 2007 Banque nucléotidiques - genbank - EMBL seq in 160 milliard de nt Séquences annotées par des chercheurs ("nr") Séquences «séquençage complet des génomes» (HTG-WGS-STS) Séquences «séquençage partiel à haut débit des cdna» (EST-HTC) 9 Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) Quelle banque choisir? 10 5

6 Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) Banque : EST 11 Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) Banque : HTG 12 6

7 Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) banque : nr 13 Bioinformatique Banques (rappel) Séquences traduites avec une annotation provenant du gène (nom, espèce, ) Banque protéiques TrEMBL seq avril 2007 PR séquencées Séquences annotées par différentes informations fiables (annotations manuelles) : domaines, motifs, Swiss-Prot seq Séquençage direct de protéines ou de peptides 14 7

8 Bioinformatique Les différentes banques Depuis 2006, fusion swissprot / uniprot Toutes les fiches sont disponibles sur le même site (TrEMBL et swissprot). L unique différence est la présence ou non d une étoile Bioinformatique Les différentes banques Protein existence (PE): entries % 1: Evidence at protein level % 2: Evidence at transcript level % 3: Inferred from homology % 4: Predicted % 5: Uncertain % Source : 8

9 Bioinformatique Les différentes banques Protein existence (PE): entries % 1: Evidence at protein level % 2: Evidence at transcript level % 3: Inferred from homology % 4: Predicted % 5: Uncertain % Source : Bioinformatique Les différents BLAST 18 9

10 Bioinformatique Accès à ces programmes pour la recherche des homologues à une séq 19 Bioinformatique séquence banque blastn nt vs. nt blastp aa vs. aa blastx translated nt vs. aa tblastn aa vs. translated nt tblastx translated nt vs. translated nt 20 10

11 Bioinformatique séquence banque blastn blastp blastx tblastn tblastx requête «classique» d une séquence nt requête «classique» d une séquence nt «lissage» de la variabilité ex : EST inconnue, identité avec une PR? Obtention de plus d informations (inclusion des infos de séquence de nt) Combinaison des deux derniers cas 21 Conclusion - Banques Banques nt : 3 grandes classes Gènes (nr, refseq ) A priori, de la séquence complète codante Annotation (nom, fonction) disponible Génomique (HTG, WGS) séquence (contig) de fragment génomique Pas d annotation (ou uniquement localisation) EST : Fragment de séquences codantes Beaucoup de redondance, surreprésentation de la partie 3 Pas d annotation (nom espèce et tissus, au mieux) 11

12 Conclusion - Banques Banques protéiques Majorité des séquences protéiques Traduction in silico «copier-coller» de l annotation de la fiche GenBank Annotation plus poussée dans les fiches swissprot / UniprotKB Intervention annotateur ATTENTION : de plus en plus «d inferred from homology» Peu ou pas de séquençage direct de protéines Conclusion - BLAST Les différents BLAST 3 catégories : «classiques» : blastn et blastp «avancés» : blastx, tblastn, tblastx «spécifiques» : PHI-Blast (et d autres encore) Hors «spécifiques», le choix du programme dépend du contexte et des objectifs Garder à l esprit que certaines choses ne sont pas possible avec tblastx, par exemple 12

13 Bioinformatique 2. Ressources du NCBI

14 @ 28 14

15 Bioinformatique - NCBI 29 Bioinformatique - NCBI Symbol? Aliases? MIM? GeneID? 30 15

16 Bioinformatique - NCBI 31 Bioinformatique - NCBI

17 Bioinformatique - NCBI - CCDS : Conserved CDS - Conserved Domains - EST : liste d EST associées - Full text in PMC : PUBMED - GEO Profiles : Expression de ce gène dans différentes XP - HomoloGene : orthologue - Nucleotide : Nt séquences, STS, WGS (pas EST) - OMIM : Online Medelian Inheritance in Man - UniSTS: liste de STS - UniGene : ensemble transcript regroupés selon le même site de transcription - HGNC : HUGO Gene Nomenclature Comittee - UCSC : - KEGG : Kyoto Encyclopedia of Genes and Genomes Variable selon les gènes 33 Bioinformatique - NCBI NP_ GI: NM_ AL GeneID:2672? 34 17

18 Bioinformatique - NCBI Différentes nomenclatures d identifiants Accession Number ET GI number : AL : accession number et numéro de version GI: : GI number (pas de notion de version) Ces ID peuvent désigner la même séquence GI maintenu pour des raisons de compatibilité (1 ère version) RefSeq ID : Liens vers des données RefSeq (curated or not) Structure : XX_ (ou XX_ ) avec XX: type de données 6 chiffres d identifiant.0 : numéro de version Note : un ID XX_ désigne la dernière version 35 Bioinformatique - NCBI Type de données RefSeq «revues» Préfixe NC_ AC_ NG_ NM_ NP_ AP_ NR_ Type Complete genomic molecules (genomes, chr, organelles, plasmids) Alternate complete genomic molecules Incomplete genomic region Transcript products Protein products Alternate protein products Non-coding transcripts Type de données «mixed» : automated AND curated (expert review) 36 18

19 Bioinformatique - NCBI Type de données RefSeq «automated» Préfixe NT_ ou NW_ NZ_XXXX XM_ XP_ XR_ YP_ ZP_ NS_ Type Intermediate genomic assemblies of BAC / WGS Collection of WGS (acc. not tracked between released and XXXX identifies a genome project) Transcript products Protein products Non-coding transcripts Protein products: no corresponding transcripts record provided Protein products: annotated on NZ_accessions Genomic records that does not reflect the real structure of molecules (e.g. unordered assembly) Type de données «automated» : processus d annotation automatique (pas de vérification individuelle) 37 Bioinformatique - NCBI A bit confused? Let s have a look

20 Bioinformatique - NCBI 39 Bioinformatique - NCBI Intérêt des données brutes? FTP? WDSL? SOAP? API? Dump SQL? Fichiers XML? 40 20

21 Bioinformatique - NCBI Bioinfo «haut-débit», the «promise heaven» files Format TSV : Tabular Separated Values Format XML (notion de structure, champs, hiérarchie) Format SQL : intégration directe dans votre base de données (peut être d une structure complexe ) Schéma de la base de données de Gene Ontology 41 Bioinformatique - NCBI Bioinfo «haut-débit», the «promise heaven» files formats Format TSV : Tabular Separated Values Format XML (notion de structure, champs, hiérarchie) Format SQL : intégration directe dans votre base de données (peut être d une structure complexe ) Format «RECORD» : le pire cas? 42 21

22 Bioinformatique - NCBI Fichier DISEASE de KEGG 43 Bioinformatique - NCBI Bioinfo «haut-débit», the «promise heaven» files formats Format TSV : Tabular Separated Values Format XML (notion de structure, champs, hiérarchie) Format SQL : intégration directe dans votre base de données (peut être d une structure complexe ) Format «RECORD» : le pire cas? Structure sous forme de fiches Cas : Uniprot, KEGG disease, OMIM, etc 44 22

23 Bioinformatique - NCBI RTFM! 45 Bioinformatique - NCBI Les autres bases de données disponibles? EnooooOOOOOOOooooormément de bases sur le site du NCBI Néanmoins, il faut : Distinguer les bases ultra-spécialisées (ex : GENSAT, Gene Expression Nervous System Atlas) ou «juste» hébergées par le NCBI (ex : OMIM) Appréhender la «redondance» et les sous-ensembles, ex : GenBank et RefSeq donne accès des séquences qui sont elles-mêmes contenues dans la base Nucleotide (pour les nt) ou Protein Gérer les «connexions cachées» : une recherche sur Entrez vous rebasculera vers la base «Gene» Now, /mode catalogue ON 46 23

24 Bioinformatique - NCBI Base : Nucléotide séquences de nt : WGS, STS (no EST ou GSS, similaire EST mais sequences génomiques) différentes sources : GENBANK, RefSeq, etc 47 Bioinformatique - NCBI Base Protein Source : GenBank, EMBL, DDBJ, PIR, SWISS-PROT, PRF & PDB 48 24

25 Bioinformatique - NCBI Base : Genome Lien vers MAPVIEW Lien vers Liste PR Lien vers Liste mrna Lien vers page Entrez pour une recherche uniquement dans ce contig NC_ Let s have a look : 49 Bioinformatique - NCBI MapViewer

26 Bioinformatique - NCBI Genome Projects Ensemble des «large scale sequencing» projects, complete or not 51 Bioinformatique - NCBI Bases «structurales» Structure experimentally designed 3D Domains Automatically identified Recherche selon séquence, nom, domaines 52 26

27 Bioinformatique - NCBI 53 Bioinformatique - NCBI Bases «structurales» Structure experimentally designed 3D Domains Automatically identified Recherche selon séquence, nom, domaines Conserved Domains : source : Pfam, Smart & COG

28 Bioinformatique - NCBI UniSTS Listes non redondantes et unifiées de STS (i.e. marqueurs) Application pour de la cartographie génétique 55 Bioinformatique - NCBI UniSTS 56 28

29 Bioinformatique - NCBI dbsnp Les SNP disponibles chez différentes espèces Possibilités de chercher les SNP disponibles selon un gène, une région, etc, etc 57 Bioinformatique - NCBI dbgap Relation phénotype génotype Données issues de projet de GWAS, re-séquençage, etc Accès très «pointue» : localisation SNP, p-value, etc 58 29

30 Bioinformatique - NCBI dbgap 59 Bioinformatique - NCBI dbgap 60 30

31 Bioinformatique - NCBI UniGene Système de paritionnement des séquences GenBank pour obtenir un ensemble non redondant de gènes en clusters (ouf!) En clair Un cluster UniGene est sensé regrouper un ensemble de séquences provenant d un gène unique 61 Bioinformatique - NCBI HomoloGene Détection automatique des homologues parmi des ensembles de gènes eucaryotes 62 31

32 Bioinformatique - NCBI 63 Bioinformatique - NCBI

33 Bioinformatique - NCBI Existence de «mini-sites» d espèces références Information générale : 65 Bioinformatique - NCBI Base Taxonomy Présence d un numéro de taxon dans de nombreuses bases NCBI Permet de connaître cet ID et d obtenir d autres informations (SNP disponibles, séquences, etc ) Toujours utile pour vérifier

34 Bioinformatique - NCBI Base Taxonomy Présence d un numéro de taxon dans de nombreuses bases NCBI Permet de connaître cet ID et d obtenir d autres informations (SNP disponibles, séquences, etc ) Toujours utile pour vérifier 67 Bioinformatique - NCBI GEO : Gene Expression Omnibus A chaque publication scientifique, les données d expression (puce) sont mis à disposition de la communauté Accès aux données normalisées de plan d expérience Applications : Quel est le niveau d expression d un gène selon un contexte? GEO profiles Réalisation de méta-analyse (analyse de tous les plans d expérience à partir d un tissu pour plusieurs espèces, par exemple) : GEO datasets 68 34

35 Bioinformatique - NCBI GEO 69 Bioinformatique - NCBI GEO profile Recherche par un nom de gène (e.g. BMPR) 70 35

36 Bioinformatique - NCBI GEO profile 71 Bioinformatique - NCBI GEO datasets Recherche d ensemble de données de transcriptomique selon : Le tissu Le nb d échantillon Le type d expérience

37 Bioinformatique - NCBI GEO datasets 73 Bioinformatique - NCBI GEO datasets 74 37

38 Bioinformatique - NCBI Cancer Chromosomes Aberrations chromosomiques de lignées cancéreuses Données de SKY-FISH et de CGH 75 Bioinformatique - NCBI Biosystems Obtention de groupes de molécules interagissant dans un système biologique Différents types de «biosystems» : Pathway (interactions gènes, protéines ou petites molécules) Disease (interactions gènes, marqueurs biologiques) Connexions base KEGG

39 Bioinformatique - NCBI Biosystems 77 Bioinformatique - NCBI Biosystems 78 39

40 Bioinformatique - NCBI Biosystems 79 Bioinformatique - NCBI OMIM & OMIA Online Mendelian Inherintance in Man or Animals Liste de gènes et de maladies / caractères héritables Connexion entre gènes et maladies Pour une maladie / caractère : apport du maximum de connaissances (gènes, cartographie, bibliographie, etc ) 80 40

41 Bioinformatique - NCBI 81 Bioinformatique - NCBI Autres bases? PubChem : action biologique, bioassays PubMed MeSH (Medical Subject Headings) : controlled vocabulary to retrieve informations 82 41

42 Bioinformatique - NCBI Still alive? Que retenir de cette présentation? 83 Bioinformatique - NCBI Conclusion Trop d information tue l information? Exemple du NCBI : site extrêmement vaste Richesse des bases de données Richesse des outils Accès à l arrière-cours (données brutes FTP) Accès aux méthodes (protocole SOAP) Et les autres UCSC, EBI, UNIPROT, MGI, KEGG, Ensembl, GO, etc, etc 84 42

43 Bioinformatique - NCBI Conclusion VOUS ne pouvez pas tout connaître (and nobody does) Il faut avoir une vue d ensemble d une base Comprendre les relations Appréhender leurs obtentions (expérimental? in silico?) Est-ce une réplication (i.e. suis-je à la source?)? pour en retirer l information qui vous sera utile, par ex: la structure 3D d une protéine pourra m être utile si j identifie une mutation dans un gène Les niveaux d expressions d un gène dans d autres espèces peuvent m aider à comprendre mon expérience (et à formuler des hypothèses) L implication de mon gène dans telle maladie me permettra d étayer (ou non) les niveaux d expressions dans mon expérience 85 Bioinformatique - NCBI Conclusion Au final : 1. c est vaste 2. Je ne peux pas tout connaître On fait comment? 86 43

44 Bioinformatique 3. Sites web et outils spécifiques 87 Bioinformatique Sites web : ENSEMBL & USCS 2 sites «généralistes» : Ensembl et UCSC Synthèse d information sur les génomes séquencés Synthèse de l annotation de ces génomes Outils disponibles : BLAST et BLAT 88 44

45 Bioinformatique Sites web : ENSEMBL ENSEMBL : Réconciliation de données de génomique fonctionnelle De nombreuses API disponibles Bioinformatique Sites web : ENSEMBL 45

46 Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 46

47 Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 47

48 Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 48

49 Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 49

50 Bioinformatique Sites web : UCSC Genome Browser USCS ou «Golden Path» : Orientation génomique structurale Options différentes (comparaison de génomes, ) Bioinformatique Sites web : UCSC Genome Browser 50

51 Bioinformatique Sites web : UCSC Genome Browser Bioinformatique Sites web : UCSC Genome Browser 51

52 Bioinformatique Sites web : UCSC Genome Browser Bioinformatique Sites web : UCSC Genome Browser 52

53 Sites web Ensembl et UCSC Ces 2 sites utilisent les données de sites «institutionnels» et d autres sites (notion de réconciliation de données) : HGNC, EBI, UniProt, etc 2 philosophies différentes (fonctionnelles vs. structurales), même si des chevauchements existent Très vaste et très complet Accès plus ou moins facilité aux données brutes : API PERL / Biomart pour Ensembl Table browser et Galaxy pour UCSC Bioinformatique Sites web : BIOMART La fin des bioinformaticiens? Serveur internet :

54 Bioinformatique Sites web : BIOMART La fin des bioinformaticiens? Serveur internet : Système d interrogation de bases de données (Ensembl, EBI, Uniprot, VEGA, ) et de récupération de données spécifiques selon des filtres personnalisés. Utilisation «classique» : Mon ensemble de gènes à moi Uniprot ID? GOA? Chromosome? Nom? Homologues? Domaines? InterPro ID? NCBI? Entrez? 107 Bioinformatique Sites web : BIOMART

55 Bioinformatique Sites web : BIOMART 109 Bioinformatique Sites web : BIOMART

56 Bioinformatique Sites web : BIOMART 111 Bioinformatique Sites web : BIOMART Domaine GST C-term

57 Bioinformatique Sites web : BIOMART 113 Bioinformatique Sites web : BIOMART

58 Bioinformatique Sites web : BIOMART 115 Bioinformatique Sites web : BIOMART

59 Bioinformatique Sites web : BIOMART 117 Bioinformatique Sites web : BIOMART Liens PERL : récupération du script permettant d obtenir la requête en cours

60 Bioinformatique Sites web : BIOMART BIOMART : possibilité d interrogation de multiples bases de données de façon très souple et pointue sans programmation! Interconnexion entre différents bases de données Réelle alternative à la programmation pour obtenir de façon rapide des ensembles d annotations spécifiques d une fonction, d un chromosome, d une classe de gène, Liens PERL pour relancer le script ultérieurement 119 Bioinformatique Sites web : GALAXY Galaxy : Plateforme de manipulation et d analyse de données Alternative à R, Programmation, UNIX, etc Framework de logiciels

61 Bioinformatique Sites web : GALAXY 121 Bioinformatique Sites web : GALAXY

62 Bioinformatique Sites web : GALAXY Etc, etc, etc 123 Bioinformatique Sites web : GALAXY Beaucoup plus ouvert : envoi de vos propes données, utilisation de données publiques (Biomart ou UCSC) Possibilité de réaliser des workflow sur les données Possibilité d ajouter vos propres programmes De plus en plus utilisé comme framework pour l intégration de programme d analyse

63 Bioinformatique Sites web More? Suite EMBOSS : BioPERL : N oubliez pas les «classiques» : NCBI, EBI, Progression de l interconnexion Possibilité de requête

Les bases de données biologiques. Sigrid Le Clerc Conservatoire Nationale des Arts et Métiers Chaire de Bioinformatique

Les bases de données biologiques. Sigrid Le Clerc Conservatoire Nationale des Arts et Métiers Chaire de Bioinformatique Les bases de données biologiques Sigrid Le Clerc Conservatoire Nationale des Arts et Métiers Chaire de Bioinformatique Sommaire 1. Introduction 2. Le système Entrez 2.1. Description du système Entrez 2.2.

Plus en détail

Introduction à la bioinformatique

Introduction à la bioinformatique Faculté des Sciences - Rabat Laboratoire de Microbiologie et Biologie Moléculaire -------------------------------------- Université Mohamed V - Agdal Faculté des Sciences B.P. 1014 - Rabat - MAROC TD Biologie

Plus en détail

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire Plan 1 Banques de données 2 Comparaison de 2 séquences Dotplot, alignement optimal Recherche de similarité 3 Alignement multiple l 4 Phylogénie moléculaire Recherche de similarité 1 séquence (Query) comparée

Plus en détail

Bases de données et ressources pour la protéomique

Bases de données et ressources pour la protéomique Bases de données et ressources pour la protéomique Lydie LANE, Swiss Institute of Bioinformatics (SIB), CALIPHO Group 25 septembre 2012, Workshop «Protéomique et Maladies Rares» Bases de données et protéomique

Plus en détail

Notions de bioinformatique

Notions de bioinformatique Notions de bioinformatique Souvent les avancées des biotechnologies ont été possibles du fait d avancées technologiques relevant d autres domaines que la biologie. - En juillet 1995 le séquençage d Haemophilus

Plus en détail

Introduction aux bases de données: application en biologie

Introduction aux bases de données: application en biologie Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,

Plus en détail

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC {Sebastien.Carrere, Ludovic.Legrand,Jerome.Gouzy}@toulouse.inra.fr {Fabrice.Legeai,Anthony.Bretaudeau}@rennes.inra.fr CATI BBRIC 35 bioinformaticiens

Plus en détail

Bioinformatique appliquée. Cours 4 BLAST. idée. lire un résultat de Blast. la famille Blast

Bioinformatique appliquée. Cours 4 BLAST. idée. lire un résultat de Blast. la famille Blast Bioinformatique appliquée Cours 4 BLAST idée lire un résultat de Blast la famille Blast -1- "quelle est la similarité entre ces 2 séquences? et donc: est-ce que ces deux séquences sont homologues?" "existe-t-il

Plus en détail

ALIGNEMENT PLUS RAPIDE

ALIGNEMENT PLUS RAPIDE ALIGNEMENT PLUS RAPIDE 1. méthodes heuristiques : hachage, arbres de suffixe, PD limitée (taille totale de trous bornée) 2. PD éparse (pour sous-séquence commune ou chaînage en alignement global heuristique)

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire Vous aurez besoin des programmes suivant : d un éditeur de séquence d un visualiseur de structure 3D (PyMOL) Avant-propos

Plus en détail

Fida KHATER & Abdoulaziz MOUSSA 03 mars 2012 - Journée Portes Ouvertes à l'um2

Fida KHATER & Abdoulaziz MOUSSA 03 mars 2012 - Journée Portes Ouvertes à l'um2 DEVELOPPEMENT D UNE INTERFACE GRAPHIQUE : LOCAL WEB GUI FOR BLAST (LWBG), POUR LES TRAITEMENTS DE DONNEES BIOLOGIQUES Fida KHATER & Abdoulaziz MOUSSA 03 mars 2012 - Journée Portes Ouvertes à l'um2 Plan

Plus en détail

Analyses bioinformatiques pour le PCIM

Analyses bioinformatiques pour le PCIM Analyses bioinformatiques pour le PCIM Journée de rencontre des utilisateurs du Pôle de calcul intensif pour la mer 17 janvier 2014 La bioinfo, késaco? Approche in silico de la biologie L'organisation,

Plus en détail

Bioinformatique dans l IUP

Bioinformatique dans l IUP Bioinformatique dans l IUP Intervenants Equipe Bioinfo (Laboratoire d Informatique Fondamentale de Lille) Cours : Jean-Stéphane Varré (jean-stephane.varre@lifl.fr) TD sur machine : Jean-Stéphane Varré,

Plus en détail

Introduction à l Analyse des séquences biologiques.

Introduction à l Analyse des séquences biologiques. Introduction à l Analyse des séquences biologiques Christian.Fondrat@dsi.univ-paris5.fr Les outils d analyse de séquences C est QUOI? DES BASES DE DONNEES DES PROGRAMMES Utilitaires (consultation, acquisition

Plus en détail

Algorithmes pour la comparaison de séquences II

Algorithmes pour la comparaison de séquences II Algorithmes pour la comparaison de séquences II Hélène TOUZET touzet@lifl.fr Equipe Bioinfo Master recherche informatique www.lifl.fr/~touzet/masterrecherche.html Pourquoi comparer des séquences? Puisque

Plus en détail

Informatique et biologie moléculaire

Informatique et biologie moléculaire UE09s Méthodes d étude et analyse du génome Techniques d analyse des gènes à grande échelle Bio-informatique PACES 2013-2014 Dr Nicolas SEVENET Informatique et biologie moléculaire Avertissement Utilisation

Plus en détail

Homéoallèles. Analyse différentielle. Normalisation. NGS Transcriptomique Python R. Blé RNA-seq

Homéoallèles. Analyse différentielle. Normalisation. NGS Transcriptomique Python R. Blé RNA-seq Présenté par Xi LIU ATCGCGCTAGCTGGTGTATCGCATCGCGCTAGCTGGTGTATCGCGCTAGCTGGTGTATCGCGCTAGCCTGGTGTATCGCCATCGCGCTAGCTGGCGCTAGCTGAATCGCGCATATG 17 Septembre 2013 Homéoallèles Génome Normalisation Analyse différentielle

Plus en détail

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Introduc)on à Ensembl/ Biomart : Par)e pra)que Introduc)on à Ensembl/ Biomart : Par)e pra)que Stéphanie Le Gras Jean Muller NAVIGUER DANS ENSEMBL : PARTIE PRATIQUE 2 Naviga)on dans Ensembl : Pra)que Exercice 1 1.a. Quelle est la version de l assemblage

Plus en détail

LIPM-BIOINFO / BBRIC. Projet INRA Archive. Pérennité et partage des données

LIPM-BIOINFO / BBRIC. Projet INRA Archive. Pérennité et partage des données Projet INRA Archive Pérennité et partage des données Constat Progression exponentielle de la production des données de séquences (et autres) Fluctuation des politiques du SRA@NCBI ou ENA@EBI En outre,

Plus en détail

Les principales bases de données en bioinformatique

Les principales bases de données en bioinformatique Bases de données en bioinformatique Les principales bases de données en bioinformatique Nombreuses bases de données en bioinformatique Données issues d'expériences, de publications, d'analyses faites à

Plus en détail

L étude des gènes et des protéines facilitée par l utilisation du web service ProteINSIDE

L étude des gènes et des protéines facilitée par l utilisation du web service ProteINSIDE L étude des gènes et des protéines facilitée par l utilisation du web service ProteINSIDE KASPRIC Nicolas Thèse débutée en février 2013 Equipe Amuvi Encadrants : Muriel BONNET Brigitte PICARD Avec l appui

Plus en détail

BIN 1002: INTÉGRATION BIOSCIENCES/INFORMATIQUE

BIN 1002: INTÉGRATION BIOSCIENCES/INFORMATIQUE BIN 1002: INTÉGRATION BIOSCIENCES/INFORMATIQUE Plan de Cours Automne 2015 Professeurs: Sylvie Hamel, Département d Informatique et de Recherche Opérationnelle Guillaume Lettre, Institut de Cardiologie

Plus en détail

INTRODUCTION À LA BIO-INFORMATIQUE

INTRODUCTION À LA BIO-INFORMATIQUE Biologie moléculaire-2016 1 INTRODUCTION À LA BIO-INFORMATIQUE Dans cette section, on désire vous donner une introduction sur l utilisation du site web du National Center for Biotechnology Information

Plus en détail

Annotation de séquences génomiques Exemple d une région du chromosome 1 de riz autour du gène qsh1 (Os_1:36429001..36558000)

Annotation de séquences génomiques Exemple d une région du chromosome 1 de riz autour du gène qsh1 (Os_1:36429001..36558000) Annotation de séquences génomiques Exemple d une région du chromosome 1 de riz autour du gène qsh1 (Os_1:36429001..36558000) II) Annotation de gènes codant des protéines 1) Objectif du TD L objectif du

Plus en détail

Annotation in silico de séquences biologiques

Annotation in silico de séquences biologiques Annotation in silico de séquences biologiques Carl Herrmann TAGC Inserm U928 Université de la Méditerranée carl.herrmann@univmed.fr Pourquoi Diana est-elle ce qu'elle est...? génotype = l'information génétique

Plus en détail

Annotation de protéines

Annotation de protéines JS Varré Université Lille 1 jean-stephane.varre@lifl.fr http://www.lifl.fr/~varre jean-stephane.varre@lifl.fr 1 / Pourquoi faire de l annotation automatique de protéines? Il est difficile de trouver expérimentalement

Plus en détail

Soumission de données brutes de séquences à SRA. Novembre 2013

Soumission de données brutes de séquences à SRA. Novembre 2013 Soumission de données brutes de séquences à SRA Novembre 2013 1 Objectif Soumettre les données brutes issues du séquençage haut débit aux banques publiques d archivage Données : séquences brutes (reads)

Plus en détail

Analyse de Séquences M1 BIBS. 2 e partie. http://rna.igmors.u-psud.fr/gautheret/cours/ V. 2012.1

Analyse de Séquences M1 BIBS. 2 e partie. http://rna.igmors.u-psud.fr/gautheret/cours/ V. 2012.1 Analyse de Séquences M1 BIBS 2 e partie http://rna.igmors.u-psud.fr/gautheret/cours/ V. 2012.1 1 Les programmes Génome 2 Les programmes Génome Préhistoire Séquençage de Sanger Avant le séquençage d organismes:

Plus en détail

http://galaxy-workbench.toulouse.inra.fr

http://galaxy-workbench.toulouse.inra.fr -- 1 -- Vos traitements bioinformatiques avec GALAXY Maria Bernard Laurent Cauquil - Sarah Maman Ibouniyamine Nabihoudine 5 Février 2014 DOKEOS http://galaxy-workbench.toulouse.inra.fr -- 2 -- Galaxy pour

Plus en détail

Prédiction de gènes. Cours de présentation des outils bio-informatiques pour la localisation puis l'étude des gènes. Equipe Bonsai (2014)

Prédiction de gènes. Cours de présentation des outils bio-informatiques pour la localisation puis l'étude des gènes. Equipe Bonsai (2014) Prédiction de gènes Cours de présentation des outils bio-informatiques pour la localisation puis l'étude des gènes Equipe Bonsai (2014) La localisation des gènes C'est la première étape pour interpréter

Plus en détail

Base de données bibliographiques Pubmed-Medline

Base de données bibliographiques Pubmed-Medline Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction

Plus en détail

Informatique et biologie moléculaire

Informatique et biologie moléculaire UE 1B-biomolécules, génome, bioénergétique, métabolisme, méthodes d étude et analyse du génome II-le génome : sa structure, son expression Organisation, évolution et fonction du génome humain Approches

Plus en détail

BIOINFORMATIQUE APPLIQUÉE - CHMI 3206 F. Professeur : Eric R. Gauthier. Test de mi-session. 31 octobre Votre nom :

BIOINFORMATIQUE APPLIQUÉE - CHMI 3206 F. Professeur : Eric R. Gauthier. Test de mi-session. 31 octobre Votre nom : BIOINFORMATIQUE APPLIQUÉE - CHMI 3206 F Professeur : Eric R. Gauthier Test de mi-session 31 octobre 2006 Votre nom : Consignes : 1) Durée : 85 min 2) 5 questions sur 5 pages, pour 80 points. Compte pour

Plus en détail

Obtention de données génétiques à grande échelle

Obtention de données génétiques à grande échelle Obtention de données génétiques à grande échelle Stéphanie FERREIRA Ph.D. Campus de l Institut Pasteur de Lille 1, rue du Professeur Calmette 59000 LILLE Tel : 03 20 87 71 53 Fax : 03 20 87 72 64 contact@genoscreen.fr

Plus en détail

Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000. Nadia El-Mabrouk DIRO, Université de Montréal

Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000. Nadia El-Mabrouk DIRO, Université de Montréal Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000 Nadia El-Mabrouk DIRO, Université de Montréal Qu est-ce que la Bioinformatique? Qu est-ce que la Bio-informatique? Champs multi-disciplinaire

Plus en détail

INTRODUCTION A LA BIOINFORMATIQUE. Silvina GONZALEZ- RIZZO sgonzale@univ- ag.fr

INTRODUCTION A LA BIOINFORMATIQUE. Silvina GONZALEZ- RIZZO sgonzale@univ- ag.fr INTRODUCTION A LA BIOINFORMATIQUE Silvina GONZALEZ- RIZZO sgonzale@univ- ag.fr BioinformaEque pour des biologistes Objec&f du cours: Vous montrer les taches courantes de la bioinforma&que qu'un biologiste/biochimiste

Plus en détail

Vos traitements bioinformatiques avec GALAXY. Sarah Maman Maria Bernard École Bioinformatique AVIESAN 2015

Vos traitements bioinformatiques avec GALAXY. Sarah Maman Maria Bernard École Bioinformatique AVIESAN 2015 Vos traitements bioinformatiques avec GALAXY Sarah Maman Maria Bernard École Bioinformatique AVIESAN 2015 Galaxy Project Equipe Galaxy project : Le Center for Comparative Genomics and Bioinformatics -

Plus en détail

Comparaison et alignement. de séquences 2 LV348 -BI. sophie.pasek@upmc.fr. Sophie Pasek

Comparaison et alignement. de séquences 2 LV348 -BI. sophie.pasek@upmc.fr. Sophie Pasek Comparaison et alignement de séquences 2 LV348 -BI Sophie Pasek sophie.pasek@upmc.fr Comment comparer une séquence contre une banque? Comparaison séquence/banque Pourquoi? : Réunir un échantillon taxonomique

Plus en détail

Bioinformatique et données biologiques

Bioinformatique et données biologiques Bioinformatique et données biologiques Cours d introduction à la bioinformatique et de présentation des banques de données biologiques. 2 ème partie Equipe Bonsai (2014) COMMENT INTERROGER UNE BANQUE?

Plus en détail

Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits. O. Lecompte Bioinformatique

Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits. O. Lecompte Bioinformatique Banques Séquences nucléiques protéiques mixtes Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits PROSITE banque de motifs et de profils caractéristiques de domaines ou de

Plus en détail

Galaxy Training days. Liste des sessions disponibles : http://bioinfo.genotoul.fr. Les formateurs :

Galaxy Training days. Liste des sessions disponibles : http://bioinfo.genotoul.fr. Les formateurs : -- 1 -- Galaxy Training days Durée / Programme : 3 journées. Galaxy : First step. Galaxy : Reads alignment and SNP calling. Galaxy : RNAseq alignment and transcripts assemblies. Public : Personnes souhaitant

Plus en détail

Analyse des génomes. Module de Bioinformatique Appliquée. A. Les projets Génome : a) Qu est-ce qu un projet génome? Cours Analyse des génomes

Analyse des génomes. Module de Bioinformatique Appliquée. A. Les projets Génome : a) Qu est-ce qu un projet génome? Cours Analyse des génomes Module de Bioinformatique Appliquée GB3-2012 Cours Analyse des génomes 0 Analyse des génomes 1 Les objectifs des projets génomes sont : Assemblagedes cartes physiques et génétiques sur le génome de l organisme

Plus en détail

FORMULAIRE de soumission de PROJET de SEQUENÇAGE A HAUT DEBIT

FORMULAIRE de soumission de PROJET de SEQUENÇAGE A HAUT DEBIT Plate-forme Transcriptome et Epigénome (PF2) FORMULAIRE de soumission de PROJET de SEQUENÇAGE A HAUT DEBIT Séquençage des ARNs (RNA-seq, TSS mapping, mirna-seq) et de produits d immuno-précipitation de

Plus en détail

Séquençage massif en parallèle Défis technologiques et informatiques

Séquençage massif en parallèle Défis technologiques et informatiques Séquençage massif en parallèle Défis technologiques et informatiques Jean-Baptiste Rivière, PhD jean-baptiste.riviere@u-bourgogne.fr 10/09/2014 Séquençage massif en parallèle Défis technologiques de Sanger

Plus en détail

GMIN206 TD Banques de données biologiques Interrogation des banques via GQuerry et Formats de fichiers de séquences

GMIN206 TD Banques de données biologiques Interrogation des banques via GQuerry et Formats de fichiers de séquences GMIN206 TD Banques de données biologiques Interrogation des banques via GQuerry et Formats de fichiers de séquences 1. Interrogation des banques via GQuerry 1.1 Rappel De manière concrère, l interrogation

Plus en détail

Biologie Intégrative Projet Fédérateur Biogenouest

Biologie Intégrative Projet Fédérateur Biogenouest Biologie Intégrative Projet Fédérateur Biogenouest Coordinateurs: C. Pineau (INSERM U625 & PF protéomique BGO) D. Eveillard (LINA Université de Nantes UMR CNRS 6241) Animateur: Y. Le Bras (Biogenouest)

Plus en détail

Modalités d exécution des prestations NGS réalisées via l UMR 8199-2013

Modalités d exécution des prestations NGS réalisées via l UMR 8199-2013 Modalités d exécution des prestations NGS réalisées via l UMR 8199-2013 I. Préparation des librairies en vue du séquençage Haut débit via HiSeq et MiSeq 1.1 Points communs à toutes préparations de librairies

Plus en détail

L ANALYSE DE DONNÉES AU SERVICE DES UTILISATEURS. Lorène Allano 16 Avril 2013

L ANALYSE DE DONNÉES AU SERVICE DES UTILISATEURS. Lorène Allano 16 Avril 2013 L ANALYSE DE DONNÉES AU SERVICE DES UTILISATEURS Lorène Allano 16 Avril 2013 Question? Expert Aide à la décision Expériences Digitalisation Analyse automatique Visualisation Outils adapté Données numériques

Plus en détail

AutoGRAPH Un serveur pour automatiser et visualiser la comparaison de génomes: Application à l identification de nouveaux gènes chez le chien.

AutoGRAPH Un serveur pour automatiser et visualiser la comparaison de génomes: Application à l identification de nouveaux gènes chez le chien. AutoGRAPH Un serveur pour automatiser et visualiser la comparaison de génomes: Application à l identification de nouveaux gènes chez le chien. Thomas DERRIEN CNRS-UMR6061 Génétique et Développement Université

Plus en détail

Extraction d information des bases de séquences biologiques avec R

Extraction d information des bases de séquences biologiques avec R Extraction d information des bases de séquences biologiques avec R 21 novembre 2006 Résumé Le module seqinr fournit des fonctions pour extraire et manipuler des séquences d intérêt (nucléotidiques et protéiques)

Plus en détail

Plate-forme Bio-informatique. Laboratoire de Bio-informatique et de Génomique intégratives. Utilisateurs (public, privé )

Plate-forme Bio-informatique. Laboratoire de Bio-informatique et de Génomique intégratives. Utilisateurs (public, privé ) Plate-forme Bio-informatique Valorisation et soutien Laboratoire de Bio-informatique et de Génomique intégratives Recherche et développement collaboration Utilisateurs (public, privé ) Proposer des solutions

Plus en détail

La génomique. Etude des génomes et de l ensemble de leurs gènes. Nécessite des outils bioinformatiques. Plusieurs étapes :

La génomique. Etude des génomes et de l ensemble de leurs gènes. Nécessite des outils bioinformatiques. Plusieurs étapes : La génomique Etude des génomes et de l ensemble de leurs gènes La structure Le fonctionnement L évolution Le polymorphisme, Plusieurs étapes : Nécessite des outils bioinformatiques 1 Chronologie sur le

Plus en détail

Le séquençage haut-débit

Le séquençage haut-débit Nouveaux outils en biologie Le séquençage haut-débit DES d hématologie 16 janvier 2015 Paris Alice Marceau-Renaut Laboratoire d hématologie CHRU Lille NGS = Next-Generation Sequencing Whole-genome Whole-exome

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

http://galaxy-workbench.toulouse.inra.fr

http://galaxy-workbench.toulouse.inra.fr -- 1 -- Vos traitements bioinformatiques avec GALAXY Maria Bernard Sarah Maman Ibouniyamine Nabihoudine 5 Février 2014 DOKEOS http://galaxy-workbench.toulouse.inra.fr -- 2 -- Galaxy pour vos traitements

Plus en détail

Bases de données biologiques

Bases de données biologiques Bases de données biologiques Marie-Dominique Devignes CR CNRS LORIA (ORPAILLEUR) M1 UE Génétique Humaine M.SVS - 2.035 - mars 2009 Introduction (1/5) : Quelles données? Génomique et Post-Génomique Biologie

Plus en détail

Recherche et analyse de polymorphismes SNP

Recherche et analyse de polymorphismes SNP Recherche et analyse de polymorphismes SNP 1- Tablet : Détection visuelle de SNP avec Tablet Tablet est un outil graphique de visualisation d assemblage et d alignement de séquences issues de NGS (Next

Plus en détail

SQL Server Integration Services 2012 Mise en oeuvre d'un projet ETL avec SSIS

SQL Server Integration Services 2012 Mise en oeuvre d'un projet ETL avec SSIS Introduction à SSIS 1. Présentation de SSIS 13 1.1 Concepts de l ETL 13 1.2 Management Studio et SQL Server Data Tools 14 1.3 Architecture 14 2. SSIS 2012 17 2.1 Les nouveautés de la version 2012 17 2.2

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

RefSeq (NCBI Reference Sequences)

RefSeq (NCBI Reference Sequences) Banques RefSeq (NCBI Reference Sequences) But : - produire une banque de référence pour les séquences génomiques, les ARN, les protéines - éviter la redondance => choix d une séquence représentative -

Plus en détail

Les grandes bases de données en biologie et les. Guy Perrière. Pôle Rhône-Alpes de Bioinformatique. Forum «Big Data» 16 mai 2014

Les grandes bases de données en biologie et les. Guy Perrière. Pôle Rhône-Alpes de Bioinformatique. Forum «Big Data» 16 mai 2014 Les grandes bases de données en biologie et les problèmes associés Forum «Big Data» Guy Perrière Pôle Rhône-Alpes de Bioinformatique 16 mai 2014 Guy Perrière (PRABI) Forum «Big Data» 16 mai 2014 1 / 17

Plus en détail

Résumé de thèse de David Kieffer. Titre : Études Bio-informatiques et statistiques des mécanismes de l infidélité de la transcription.

Résumé de thèse de David Kieffer. Titre : Études Bio-informatiques et statistiques des mécanismes de l infidélité de la transcription. Résumé de thèse de David Kieffer Titre : Études Bio-informatiques et statistiques des mécanismes de l infidélité de la transcription. Dans le cadre de la lutte contre le cancer, l'entreprise Genclis (Genomic

Plus en détail

Analyse informatique des données moléculaires

Analyse informatique des données moléculaires 6 - Bioinformatique F. CORPET, C. CHEVALET INRA, Laboratoire de Génétique Cellulaire, BP 27, 31326 Castanet-Tolosan cedex e-mail : chevalet@toulouse.inra.fr Analyse informatique des données moléculaires

Plus en détail

http://sigenae-workbench.toulouse.inra.fr

http://sigenae-workbench.toulouse.inra.fr -- 1 -- Vos traitements bioinformatiques avec GALAXY DOKEOS http://sigenae-workbench.toulouse.inra.fr -- 2 -- Galaxy pour vos traitements (bio)informatiques Vidéo disponible sur «sig-learning» Présentation

Plus en détail

La Bioinformatique fonctionnelle Retrouver les Gènes

La Bioinformatique fonctionnelle Retrouver les Gènes Biologie moléculaire-2016 1 La Bioinformatique fonctionnelle Retrouver les Gènes Le séquençage est devenu chose tellement courante, que dans les dernières années nous avons obtenu les séquences complètes

Plus en détail

Analyse in silico de génomes, protéomes et transcriptomes. «Génomique comparative» V.2012.1. Protocole TD

Analyse in silico de génomes, protéomes et transcriptomes. «Génomique comparative» V.2012.1. Protocole TD Magistère Biotechnologies Analyse in silico de génomes, protéomes et transcriptomes «Génomique comparative» V.2012.1 Protocole TD Notes : Scripts et données sur : http://rna.igmors.u-psud.fr/gautheret/cours/analinsilico

Plus en détail

Modélisation de la structure 3D des protéines

Modélisation de la structure 3D des protéines Modélisation de la structure 3D des protéines We are drowning in data and starving for knowledge -R.D. Roger Unité Mathématique Informatique et Génome Séminaire AGENAE, Seignosse-le-Pénon, 20-21 mai 2003

Plus en détail

Cahier de texte de la classe 1 ère 3 - SVT

Cahier de texte de la classe 1 ère 3 - SVT Cahier de texte de la classe 1 ère 3 - SVT DATE SEQUENCE jeudi 8 : revoir la fiche méthodologique «utiliser le microscope optique» (disponible sur le site du lycée) Jeudi 8 1 er contact avec les élèves.

Plus en détail

PUBMED niveau 1. Alexandre Boutet (alexandre.boutet@biusante.parisdescartes.fr) Benjamin Macé (benjamin.mace@biusante.parisdescartes.

PUBMED niveau 1. Alexandre Boutet (alexandre.boutet@biusante.parisdescartes.fr) Benjamin Macé (benjamin.mace@biusante.parisdescartes. PUBMED niveau 1 Présentation... 2 1. Les étapes de fabrication... 3 2. Le MeSH : un thésaurus hiérarchisé... 3 3. La notion de mots clés majeurs et les qualificatifs... 7 4. Les opérateurs booléens : AND,

Plus en détail

Plateforme de Recherche de Mutations

Plateforme de Recherche de Mutations Plateforme de Recherche de Mutations Jean-Marc Aury contact: pfm@genoscope.cns.fr 29 janvier 2009 Introduction Présentation des données produites par le GSFLX : type, qualité, Méthodes de détection de

Plus en détail

PERCIMAP. Oreochromis niloticus. Construction d une carte RH à haute densité du génome de Tilapia CNRS UMR 6061

PERCIMAP. Oreochromis niloticus. Construction d une carte RH à haute densité du génome de Tilapia CNRS UMR 6061 PERCIMAP Construction d une carte RH à haute densité du génome de Tilapia Oreochromis niloticus CIRAD UPR20 Aquaculture et gestion des ressources aquatiques, Montpellier H. D Cotta E. Pepey J.F. Baroiller

Plus en détail

Pipeline d'annotation des variants

Pipeline d'annotation des variants Pipeline d'annotation des variants École Bioinformatique AVIESAN 2015 Maria Bernard Rachel Legendre Sabrina Rodriguez 30/09/2015 Pourquoi et comment analyser les variants? Quelques définitions. Variation

Plus en détail

Les bases de données biomoléculaires

Les bases de données biomoléculaires Introduction à la Bioinformatique Les bases de données biomoléculaires Jacques van Helden Jacques.van-Helden@univ-amu.fr Aix-Marseille Université (AMU), France Lab. Technological Advances for Genomics

Plus en détail

Bioinformatique fonctionnelle des protéines et analyse structurale de réseaux d'interactions

Bioinformatique fonctionnelle des protéines et analyse structurale de réseaux d'interactions Bioinformatique fonctionnelle des protéines et analyse structurale de réseaux d'interactions intégration Populations Organismes Tissus, organes Relations inter-espèces, Équilibres écologiques Développement,

Plus en détail

Sommaire. A) Méthode de contrôle manuel des résultats produits par GLADX

Sommaire. A) Méthode de contrôle manuel des résultats produits par GLADX Sommaire Définitions et abréviations Résumé Introduction I. Matériel II. Méthode A) Méthode de contrôle manuel des résultats produits par GLADX B) Comparaison des résultats de l outil GLADX avec les résultats

Plus en détail

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

Influence du nombre de réplicats dans une analyse différentielle de données RNAseq

Influence du nombre de réplicats dans une analyse différentielle de données RNAseq Influence du nombre de réplicats dans une analyse différentielle de données RNAseq Statisticiens: Sophie Lamarre Steve Van Ginkel Sébastien Déjean - Magali San Cristobal Matthieu Vignes Biologistes: Stéphane

Plus en détail

L intérêt du génome individuel

L intérêt du génome individuel L intérêt du génome individuel 28/11/2012 Nom: Vincent Bours Historique et grands projets 1953: structure de l ADN 1977: Fred Sanger, séquençage de l ADN Fin 1980s: Human Genome Project Projet Génome Humain

Plus en détail

Etude du transcriptome et du protéome en Neurooncologie

Etude du transcriptome et du protéome en Neurooncologie Etude du transcriptome et du protéome en Neurooncologie Principes, aspects pratiques, applications cliniques François Ducray Neurologie Mazarin, Unité Inserm U711 Groupe hospitalier Pitié-Salpêtrière Etude

Plus en détail

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier

Plus en détail

Atelier 5/11/2013. Structure de la chromatine et marques épigénétiques

Atelier 5/11/2013. Structure de la chromatine et marques épigénétiques Atelier 5/11/2013 Structure de la chromatine et marques épigénétiques La chromatine ADN ADN + Histones = Nucleosome ADN + Protéines + ARNs = Chromatine Niveau extrême de condensation = Chromosome métaphasique

Plus en détail

Barcoding environnemental par séquençage haut débit

Barcoding environnemental par séquençage haut débit Barcoding environnemental par séquençage haut débit Potentiel et limites Jean-François Martin Échantillonnage Spécificités du barcoding environnemental Amplification (PCR) de marqueurs choisis Séquençage

Plus en détail

Introduction à la bioinformatique

Introduction à la bioinformatique Introduction à la bioinformatique Céline Brochier-Armanet Université Claude Bernard, Lyon 1 Laboratoire de Biométrie et Biologie Evolutive (UMR 5558) celine.brochier-armanet@univ-lyon1.fr Lectures recommandées

Plus en détail

Chapitre 10 L isolement et la manipulation de gènes. Injection d ADN étranger dans une cellule animale

Chapitre 10 L isolement et la manipulation de gènes. Injection d ADN étranger dans une cellule animale Chapitre 10 L isolement et la manipulation de gènes Injection d ADN étranger dans une cellule animale Comment amplifier un gène d intérêt? Amplification in vivo à l aide du clonage d ADN L ensemble formé

Plus en détail

Cet exercice, très court, doit permettre de maîtriser l installation de Taverna 1.5.2 sur un ordinateur personnel.

Cet exercice, très court, doit permettre de maîtriser l installation de Taverna 1.5.2 sur un ordinateur personnel. Débuter avec Taverna : Exécuter des traitements préexistants Taverna est un logiciel permettant la réalisation de traitements in silico sous la forme de workflows (chaînes de traitements), tout particulièrement

Plus en détail

PHP CLÉS EN MAIN. 76 scripts efficaces pour enrichir vos sites web. par William Steinmetz et Brian Ward

PHP CLÉS EN MAIN. 76 scripts efficaces pour enrichir vos sites web. par William Steinmetz et Brian Ward PHP CLÉS EN MAIN 76 scripts efficaces pour enrichir vos sites web par William Steinmetz et Brian Ward TABLE DES MATIÈRES INTRODUCTION 1 1 TOUT CE QUE VOUS AVEZ TOUJOURS VOULU SAVOIR SUR LES SCRIPTS PHP

Plus en détail

Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype.

Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype. Chapitre 2. La synthèse protéique : la relation entre le génotype et le phénotype. Les maladies génétiques comme la drépanocytose ou l'albinisme sont liées à des modifications du génotype des individus

Plus en détail

TD 1 Biais de codons

TD 1 Biais de codons Module LV348 Version enseignant TD 1 page 1/7 TD 1 Biais de codons Revu dernièrement par Mathilde Carpentier, Cyril Gallut et Joël Pothier Version du 15 janvier 2014 L objectif de ce TP est de prendre

Plus en détail

MODULE 4 Introduction à IGV

MODULE 4 Introduction à IGV MODULE 4 Introduction à IGV Jean-Baptiste Rivière jean-baptiste.riviere@u-bourgogne.fr 22/01/2014 Integrative Genomics Viewer (IGV) Logiciel de visualisation de données génomiques (NGS, microarray, annotations

Plus en détail

Cumulo Numbio 2015. La révolution next-generation sequencing et les enjeux de l'expansion de la bioinformatique pour les biologistes.

Cumulo Numbio 2015. La révolution next-generation sequencing et les enjeux de l'expansion de la bioinformatique pour les biologistes. Cumulo Numbio 2015 La révolution next-generation sequencing et les enjeux de l'expansion de la bioinformatique pour les biologistes. Human genome sequence June 26th 2000: official announcement of the completion

Plus en détail

Bionformatique. D. Puthier Inserm U1090 Polytech Biotech III, 2014

Bionformatique. D. Puthier Inserm U1090 Polytech Biotech III, 2014 Bionformatique D. Puthier Inserm U1090 Polytech Biotech III, 2014 L informatique est omniprésente dans notre sociéte. La biologie ne fait pas exception Bioinformatique? Utiliser l information numérisée

Plus en détail

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»). Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»). http://galaxy-workbench.toulouse.inra.fr/ Quelque soit

Plus en détail

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool)

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) A A C T G G T A A C C G A G C T A C G G T C C G Algorithme de Blast (version 1) (Altschul et

Plus en détail

Quelques définitions

Quelques définitions Quelques définitions Sandrine Lagarrigue et Pascale Le Roy 1 Journée Technique SYSAAF La mise en œuvre des outils de la génomique : enjeux pour le SYSAAF et ses adhérents. 03 juin 2015. Rennes Le génome

Plus en détail

Les principes du sequençage haut-débit

Les principes du sequençage haut-débit Les principes du sequençage haut-débit Mardi 23 avril 2013 Dr H. EL HOUSNI Organisation Génomique Podhala'et'al.'Trends'in'genetics'2012' Costa V et al. J BioMed BioTech 2010 32 ans Costa V et al. J BioMed

Plus en détail

génomes Présentation La biologie à l'heure du séquençage des génomes Séquençage de génomes: Pourquoi? Comment? Annotation des génomes

génomes Présentation La biologie à l'heure du séquençage des génomes Séquençage de génomes: Pourquoi? Comment? Annotation des génomes Présentation Bioinformatique: analyse des génomes Céline Brochier-Armanet (Laurent Duret) Université Claude Bernard, Lyon 1 Laboratoire de Biométrie et Biologie évolutive (UMR 5558) Celine.brochier-armanet@univ-lyon1.fr

Plus en détail

Étude de la biodiversité fongique à l aide de techniques de pyroséquençage

Étude de la biodiversité fongique à l aide de techniques de pyroséquençage Étude de la biodiversité fongique à l aide de techniques de pyroséquençage Biodiversité fongique Biodiversité: diversité spécifique d une communauté écologique, correspondant au nombre d espèces et à leur

Plus en détail

Génétique et génomique Pierre Martin

Génétique et génomique Pierre Martin Génétique et génomique Pierre Martin Principe de la sélections Repérage des animaux intéressants X Accouplements Programmés Sélection des meilleurs mâles pour la diffusion Index diffusés Indexation simultanée

Plus en détail