Big data et sciences du Vivant L'exemple du séquençage haut débit



Documents pareils
SysFera. Benjamin Depardon

Big Data et la santé

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Jean-François Boulicaut & Mohand-Saïd Hacid

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Identification de nouveaux membres dans des familles d'interleukines

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Analyse des données de séquençage massif par des méthodes phylogénétiques

MABioVis. Bio-informatique et la

Calcul intensif pour la biologie

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Gènes Diffusion - EPIC 2010

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

IN2P3 et PLUME Valorisation de la production de logiciels

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Masses de données et calcul : à l IRIT. 8 octobre 2013

Génétique et génomique Pierre Martin

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

BIG DATA et EDISCOVERY

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

ISTEX, vers des services innovants d accès à la connaissance

Base de données bibliographiques Pubmed-Medline

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Big Data et Graphes : Quelques pistes de recherche

Emergence du Big Data Exemple : Linked Open Data

SERVICES DE SEQUENÇAGE

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

OBJECTIFS. Une démarche E-science

Charte d adhésion d un laboratoire au Mésocentre CIMENT

Internet et Big Brother : Réalité ou Fantasme? Dr. Pascal Francq

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Eco-système calcul et données

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Introduction à MapReduce/Hadoop et Spark

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

ARCHEOVISION. Centre de Ressources Numériques 3D. UMR 5607 du CNRS. R. Vergnieux IR-CNRS

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Big Data et Graphes : Quelques pistes de recherche

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Fotolia / Sergej Khackimullin. conseil scientifique. Rapport du groupe de travail sur la gestion et le partage des données

Emergence du Big Data Exemple : Linked Open Data

Biomarqueurs en Cancérologie

: l IDRIS a vingt ans!

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

tech days AMBIENT INTELLIGENCE

Soutien pour la formation à la recherche translationnelle en cancérologie

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Réorganisation du processus de transfusion sanguine au Liban

Offres de stages 2011/2012

Big data : vers une nouvelle science des risques?

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Réunion des DU de Biogenouest 19 mars 2014

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

RESSOURCES HUMAINES. Yourcegid Ressources Humaines, des solutions pour les entreprises qui s investissent dans leur capital humain.

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Bases de données des mutations

Backup , l intégration du backup sur disque

IBM Software Big Data. Plateforme IBM Big Data

e-infrastructures pour la Génomique et la Biologie à Grande Echelle

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

PEPI GPI (Gestion de Projet Informatique) - Note de Cadrage décembre

BIG Data et R: opportunités et perspectives

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

MENER UNE RECHERCHE D INFORMATION

Conduite de projets informatiques Développement, analyse et pilotage (2ième édition)

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Ingénieur R&D en bio-informatique

Business Intelligence avec SQL Server 2012

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Perl Orienté Objet BioPerl There is more than one way to do it

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Une solution stockage sécurisée et distribuée au Synchrotron Soleil

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?

Business Intelligence avec SQL Server 2012

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

Les plateformes de génétique

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Pourquoi archiver les s

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

PLATE-FORME DE MICROSCOPIE ÉLECTRONIQUE À TRANSMISSION

Les audits de l infrastructure des SI

Intelligence Economique - Business Intelligence

LIVRE BLANC Pratiques recommandées pour l utilisation de Diskeeper sur les réseaux SAN (Storage Area Networks)

Caches sémantiques coopératifs pour la gestion de données sur grilles

CHAPITRE 3 LA SYNTHESE DES PROTEINES


Concepts et définitions

Environmental Research and Innovation ( ERIN )

TRAVAUX DE RECHERCHE DANS LE

TIC. Panorama. L'industrie de l'information et de la communication la première industrie japonaise

Transcription:

Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme Bioinformatique GenoToul Chemin de Borde Rouge, BP52 627, 31326 Castanet Tolosan cedex http://bioinfo.genotoul.fr/

Plan Un peu d'histoire Séquençage et Big Data Accompagnement bio-informatique Exemple de question de recherche renouvelée

Un peu d'histoire...

Les séquences biologiques Trois alphabets ADN = {A, C, G, T} ARN = {A, C, G, U} Protéines = {A,R,N,D,C,E,Q,G,H,I,L,K,M,F,P,S,T,W,Y,V}

Les séquences biologiques Trois alphabets ADN = {A, C, G, T} ARN = {A, C, G, U} Protéines = {A,R,N,D,C,E,Q,G,H,I,L,K,M,F,P,S,T,W,Y,V}

Les séquences biologiques 1955 : séquençage de la première protéine (F. Sanger)

Les séquences biologiques 1955 : Séquençage de la première protéine (F. Sanger) 1965 : M. Dayhoff publie un atlas de séquences protéiques

Les séquences biologiques 1955 : Séquençage de la première protéine (F. Sanger) 1965 : M. Dayhoff publie un atlas de séquences protéiques 1970 : Needleman & Wunsch proposent une méthode générale de recherche de similarité entre deux protéines : le premier algorithme d'alignement de séquences RBP: 26 glycodelin: 23 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVA 59 + K++ + ++ GTW++MA + L + A QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKA 55

Les séquences biologiques 1955 : Séquençage de la première protéine (F. Sanger) 1965 : M. Dayhoff publie un atlas de séquences protéiques 1970 : Needleman & Wunsch proposent une méthode géné générale de recherche de similarité entre deu protéines : le premier algorithme d'alignement de séquences 1974 : Sanger met au point le séquençage de l'adn

Les séquences biologiques 1955 : Séquençage de la première protéine (F. Sanger) 1965 : M. Dayhoff publie un atlas de séquences protéiques 1970 : Needleman & Wunsch proposent une méthode géné générale de recherche de similarité entre deu protéines : le premier algorithme d'alignement de séquences 1974 : Sanger met au point le séquençage de l'adn 1988 : Création du réseau EMBnet et début de l'utilisation d'internet par la recherche au niveau mondial

Les séquences biologiques 1955 : Séquençage de la première protéine (F. Sanger) 1965 : M. Dayhoff publie un atlas de séquences protéiques 1970 : Needleman & Wunsch proposent une méthode générale de recherche de similarité entre deux protéines : le premier algorithme d'alignement de séquences 1974 : Sanger met au point le séquençage de l'adn 1988 : Création du réseau EMBnet et début de l'utilisation d'internet par la recherche au niveau mondial 1990 : Lancement du Projet «Génome humain» et naissance du logiciel BLAST (Altschul et al., 1990)

Les séquences biologiques Dès les années 90, des entrepôts internationaux Organisation en miroir - Collaboration internationale - Mise à jour quotidienne Pour chaque entrepôt - Format de soumission propre - Outils de recherche Condition pour publication dans les revues du domaine - Dépôt des séquences dans l'une des bases de données avant publication - Attribution d'un identifiant référencé dans la publication

Les séquences biologiques En résumé Dès les années 90 Production collective et partage des données biologiques en vue de l'exploitation dans le cadre de consortiums internationaux Séquences biologiques stockées et référencées dans des entrepôts internationaux En accès libre pour ré-utilisation pour l'exploitation dans un objectif de valorisation de ses propres données

Séquençage et Big Data

Séquençage & «Big data» Réseau national des Génopoles : Genotoul en Midi-Pyérénées

Séquençage & «Big data» Roche 454 600 Mb 10 h 400 pb/ read 1982-1996 Illumina 1,3 Gb 4j 75 pb / read 1982-1997 Solid 3 Gb 5j 35 pb / read 1982-1999 1 Run (2009) 606 seq 680,338 bp 1,021,211 seq 651,972,984 bp 98,868,465seq 99,116,431,942 bp

Séquençage & «Big data» Coût de séquençage de plus en plus bas Production massive de données Coût de séquençage d'un génome de taille équivalente au génome humain, 2001-2012. From the National Human Genome Research Institute

Séquençage & «Big data» Coût de séquençage de plus en plus bas Production massive de données Coût de séquençage d'un génome de taille équivalente au génome humain, 2001-2012. From the National Human Genome Research Institute Croissance des volumes From EMBL-EBI site

Séquençage & «Big data» Coût de séquençage de plus en plus bas Production massive de données Coût de séquençage d'un génome de taille équivalente au génome humain, 2001-2012. From the National Human Genome Research Institute Croissance des volumes From EMBL-EBI site

Séquençage & «Big data» Coût de séquençage de plus en plus bas Production massive de données X1000 en 5 ans Coût de séquençage d'un génome de taille équivalente au génome humain, 2001-2012. From the National Human Genome Research Institute Grande diversité dans les applications possibles Croissance des volumes From EMBL-EBI site

Séquençage & «Big data» A l'échelle régionale 43,8 To 52,3 Tb 25,1 To 29,0 Tb 13,6 To 15,1 Tb 6,4 To 6,6 Tb

Séquençage & «Big data»

Séquençage & «Big data» Exemples de projets pilotes Cancer Genome Atlas: Cartographier le génome pour plus de 25 types de cancers a généré 1 petabyte de données (à ce jour), représentant 7 000 cas de cancer. Les scientifiques attendent pas moins de 2,5 petabytes Encyclopedia of DNA Elements (ENCODE): Le catalogue des éléments fonctionnels du génome humain : 15 terabytes de données brutes. Human Microbiome Project: l'un des projets visant à caracatériser le microbiome à différents endroits du corps : 18 terabytes environ 5 000 fois plus de données que le premier projet «génome humain» Earth Microbiome Project: Caractérisation des communautés microbienne sur la terre : 340 gigabytes (1,7 109 séquences, ~ 20,000 échantillons, 42 biomes). 15 terabytes attendus Genome 10K: Volume de données brutes pour le projet de séquençage de 10,000 espèces de vertébrés devrait atteindre 1 petabyte.

Séquençage & «Big data» http://omicsmaps.com/ 300 * 50 = ~15 Po/an

Séquençage & «Big data» Volume : Des masse de données considérables et dispersées Vitesse : Accélération sans précédent dans l'évolution des technologies d'acquisition de données Variété : Des technologies d'investigation diversifiées et complémentaires permettant des approches globales et intégratives pour appréhender la complexité des mécanismes du vivant et la diversité des questions posées

Séquençage & «Big data» Défis Stockage/Archivage - Augmentation exponentielle des volumes de données Exploitation (valorisation) - Volumes : espace mémoire, temps de calcul, transfert des données - Vitesse d'évolution des technologies : évolution rapide des méthodes et des outils - Diversité des questions posées : évolution rapide des méthodes et des outils Acquisition/diffusion des données et des résultats d'analyses - Volumes : transfert réseau

Accompagnement bioinformatique

Séquençage & «Big data» EQUIPE DE 7 PERMANENTS (1DR, 2IR, 4IE) COEUR DE METIER COMPETENCES - Bioinformatique - Informatique C. Gaspin DR Inra (30%) LA SEQUENCE C. Klopp IR Inra (30%) 13 ANS DE VIE J. Mariette IE Inra 100 % I. Nabihoudine IE CDD PIA FG C. Noirot C. Hoede IE Inra 100 % IR Inra 100 % I. Gonzalez IR CDD Région BioStat A. Painset IE CDD PIA BACNET O. Rué IE CDD PIA FG MS. Trotard D. Laborie IE Inra 100 % IE Inra 100 % F. Escudié IE CDD PIA FG A. Djari IE CDD PIA BioDataCloud

COMPETENCES - Bioinformatique - Informatique EQUIPE DE 7 PERMANENTS (1DR, 2IR, 4IE) COEUR DE METIER LA SEQUENCE 13 ANS DE VIE LOGICIELS & BANQUES 267 utilisateurs en région Utilisateurs en région INRA INRIA CHU ENVT INSA Université INSERM CNRS INP Autre E QUIPEMENTS E QUIPEMENTS - Cluster de calcul - Clusters de calcul : 2000 cœurs ~4000 coeurs - Stockage - Espace stockage 320x2 To ~500 To x 2 - Esace serveurs - Espace serveurs 60 To To - Espace partagé - Espace partagé ~150 To 157 To >500 comptes utilisateurs 270 Utilisateurs hors région Utilisateurs hors région INRA INRIA CHU CIRAD Autres Université INSERM CNRS IFREMER

COMPETENCES EQUIPE DE 7 PERMANENTS - Bioinformatique - Informatique (1DR, 2IR, 4IE) COEUR DE METIER LA SEQUENCE 13 ANS DE VIE LOGICIELS & BANQUES EQUIPEMENTS QUIPEMENTS E - Cluster de calcul - Clusters de calcul : 2000 cœurs ~4000 coeurs - Stockage - Espace stockage 320x2 To ~500 To x 2 - Esace serveurs - Espace serveurs 60 To To - Espace partagé - Espace partagé ~150 To 157 To >500 comptes utilisateurs Réseaux

COMPETENCES EQUIPE DE 7 PERMANENTS - Bioinformatique - Informatique (1DR, 2IR, 4IE) COEUR DE METIER LA SEQUENCE 13 ANS DE VIE LOGICIELS & BANQUES EQUIPEMENTS QUIPEMENTS E - Cluster de calcul - Clusters de calcul : 2000 cœurs ~4000 coeurs - Stockage - Espace stockage 320x2 To ~500 To x 2 - Esace serveurs - Espace serveurs 60 To To - Espace partagé - Espace partagé ~150 To 157 To >500 comptes utilisateurs Réseaux

(1DR, 2IR, 4IE) COEUR DE METIER LA SEQUENCE 13 ANS DE VIE LOGICIELS & BANQUES EQUIPEMENTS QUIPEMENTS E - Cluster de calcul - Clusters de calcul : 2000 cœurs ~4000 coeurs - Stockage - Espace stockage 320x2 To ~500 To x 2 - Esace serveurs - Espace serveurs 60 To To - Espace partagé - Espace partagé ~150 To 157 To >500 comptes utilisateurs Accompagnement EQUIPE DE 7 PERMANENTS - Bioinformatique - Informatique Animation Développement COMPETENCES

(1DR, 2IR, 4IE) COEUR DE METIER LA SEQUENCE 13 ANS DE VIE LOGICIELS & BANQUES EQUIPEMENTS QUIPEMENTS E - Cluster de calcul - Clusters de calcul : 2000 cœurs ~4000 coeurs - Stockage - Espace stockage 320x2 To ~500 To x 2 - Esace serveurs - Espace serveurs 60 To To - Espace partagé - Espace partagé ~150 To 157 To >500 comptes utilisateurs Réseaux Accompagnement EQUIPE DE 7 PERMANENTS - Bioinformatique - Informatique Animation Développement COMPETENCES FORMATIONS ~20 Jours/an CNRS CIRAD INSERM INRA Université Privé...

(1DR, 2IR, 4IE) COEUR DE METIER LA SEQUENCE 13 ANS DE VIE LOGICIELS & BANQUES EQUIPEMENTS QUIPEMENTS E - Cluster de calcul - Clusters de calcul : 2000 cœurs ~4000 coeurs - Stockage - Espace stockage 320x2 To ~500 To x 2 - Esace serveurs - Espace serveurs 60 To To - Espace partagé - Espace partagé ~150 To 157 To >500 comptes utilisateurs Réseaux Accompagnement EQUIPE DE 7 PERMANENTS - Bioinformatique - Informatique Animation Développement COMPETENCES FORMATIONS HEBERGEMENT 8 Sites web > 30 Machines virtuelles

(1DR, 2IR, 4IE) COEUR DE METIER LA SEQUENCE 13 ANS DE VIE LOGICIELS & BANQUES EQUIPEMENTS QUIPEMENTS E - Cluster de calcul - Clusters de calcul : 2000 cœurs ~4000 coeurs - Stockage - Espace stockage 320x2 To ~500 To x 2 - Esace serveurs - Espace serveurs 60 To To - Espace partagé - Espace partagé ~150 To 157 To >500 comptes utilisateurs Réseaux Accompagnement EQUIPE DE 7 PERMANENTS - Bioinformatique - Informatique Animation Développement COMPETENCES FORMATIONS HEBERGEMENT ACCOMPAGNEMENT PROJETS Environ 30 projets / an 4 PIA 3 ANR 1 INCA ~20 projets sous contrat propre

(1DR, 2IR, 4IE) COEUR DE METIER LA SEQUENCE 13 ANS DE VIE LOGICIELS & BANQUES EQUIPEMENTS QUIPEMENTS E - Cluster de calcul - Clusters de calcul : 2000 cœurs ~4000 coeurs - Stockage - Espace stockage 320x2 To ~500 To x 2 - Esace serveurs - Espace serveurs 60 To To - Espace partagé - Espace partagé ~150 To 157 To >500 comptes utilisateurs Réseaux Accompagnement EQUIPE DE 7 PERMANENTS - Bioinformatique - Informatique HEBERGEMENT ACCOMPAGNEMENT PROJETS Environ 30 projets / an DEVELOPPEMENT Animation Développement COMPETENCES FORMATIONS D'APPLICATIFS - Gestion et traitement des séquences issues du haut débit - ARNnc & réseaux de régulation PIA Infrastructure France Génomique PIA Bioinformatique BACNET PIA Infrastructure ReNaBi PIA BioDataCloud

(1DR, 2IR, 4IE) COEUR DE METIER LOGICIELS & BANQUES LA SEQUENCE EQUIPEMENTS 13 ANS DE VIE - Cluster de calcul 2000 cœurs - Stockage 320x2 To - Espace serveurs 60 To To - Espace partagé 157 To >500 comptes utilisateurs Réseaux Accompagnement EQUIPE DE 7 PERMANENTS - Bioinformatique - Informatique HEBERGEMENT ACCOMPAGNEMENT PROJETS Environ 30 projets / an DEVELOPPEMENT Animation Développement COMPETENCES FORMATIONS D'APPLICATIFS - Gestion et traitement des séquences issues du haut débit - ARNnc & réseaux de régulation PIA Infrastructure France Génomique PIA Bioinformatique BACNET PIA Infrastructure ReNaBi PIA BioDataCloud

Des questions de recherche renouvelées

Question centrale en bioinformatique Alignement de séquences 1st sequencing generation 3rd sequencing 2nd sequencing generation generation 2015 2010 ~ 1010 bases / day 2005 20008 ~ 10 bases / day 1990 1970 Advanced data structures ~100 software ~ 102 bases / day Heuristic alignment, Hashing Blast Fasta - Dot plot - Dynamic programming Needleman & Wunsch Smith & Waterman Advanced data structures Suffix array, BWT Maq Bowtie BWA SSAHA2, Soap, RMAP, SHRiMP,... 39

Question centrale en bioinformatique Alignement de séquences Recherche de similarités entre séquences Evaluation de la qualité de l'alignement THESTORYOFGENESIS THISBOOKONGENETICS Deux chaînes de caractères THESTORYOFGENESI-S THISBOOKONGENETICS Comparaison des caractères 40

Question centrale en bioinformatique Alignement de séquences Recherche de similarités entre séquences Evaluation de la qualité de l'alignement THESTORYOFGENESIS THISBOOKONGENETICS Deux chaînes de caractères THESTORYOFGENESI-S THISBOOKONGENETICS Comparaison des caractères THE STORY OF GENESIS THIS BOOK ON GENETICS Comparaison des contextes 41

Question centrale en bioinformatique Alignement de séquences Recherche de similarités entre séquences Evaluation de la qualité de l'alignement THESTORYOFGENESIS THISBOOKONGENETICS Deux chaînes de caractères THESTORYOFGENESI-S THISBOOKONGENETICS Comparaison des caractères THE STORY OF GENESIS THIS BOOK ON GENETICS Comparaison des contextes 42

Question centrale en bioinformatique Alignement de séquences Recherche de similarités entre séquences Evaluation de la qualité de l'alignement THESTORYOFGENESIS THISBOOKONGENETICS Deux chaînes de caractères THESTORYOFGENESI-S THISBOOKONGENETICS Comparaison des caractères Match 43

Question centrale en bioinformatique Alignement de séquences Recherche de similarités entre séquences Evaluation de la qualité de l'alignement THESTORYOFGENESIS THISBOOKONGENETICS Deux chaînes de caractères THESTORYOFGENESI-S THISBOOKONGENETICS Comparaison des caractères Mismatch 44

Question centrale en bioinformatique Alignement de séquences Recherche de similarités entre séquences Evaluation de la qualité de l'alignement THESTORYOFGENESIS THISBOOKONGENETICS Deux chaînes de caractères THESTORYOFGENESI-S THISBOOKONGENETICS Comparaison des caractères Deletion 45

Question centrale en bioinformatique Alignement de séquences Recherche de similarités entre séquences Evaluation de la qualité de l'alignement THESTORYOFGENESIS THISBOOKONGENETICS Deux chaînes de caractères THESTORYOFGENESI-S THISBOOKONGENETICS Comparaison des caractères Insertion 46

Question centrale en bioinformatique Alignement de séquences Un alignement peut informer le biologiste sur : La fonction ou l'activité d'un nouveau gène ou d'une nouvelle protéine La structure d'une protéine L'origine d'un gène ou d'une protéine La découverte de variants La conservation de motifs... 47

Question centrale en bioinformatique Alignement de séquences Alignment global Alignment local Alignement multiple 48

Alignement de séquences Ce qui a changé Des millions de très courtes séquences (reads), au lieu de quelques longues Qualité de l'information est une information plus importante Alignement contre un génome de référence (presque exact) Cause principale des mismatches : erreurs de séquençage Peu de gaps (insertion/deletion) attendus 49

Alignement de séquences Ce qui a changé 50

Alignement de séquences Ce qui a changé Les nouveaux aligneurs de séquences utilisent : Index de graines espacées Table de hashage représentant le génome de référence Tri lexicographique des mots du génome de référence et des «reads» Arbres et tableaux de suffixes Transformée de Burrows-Wheeler (BWT) 51

Alignement de séquences Différences en besoin mémoire pour une séquence de taille équivalente à celle d'un génome humain BWT < 2Gb de mémoire Très rapide, mais plus complexe à programmer Très utilisé par les outils les plus récents (Bowtie, BWA...) 52

Des questions?