Durée : 3 heures Coefficient : 2 REMARQUES IMPORTANTES



Documents pareils
DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Introduction aux bases de données: application en biologie

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

Nouveautés Ignition v7.7

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Anticiper et prédire les sinistres avec une approche Big Data

Programmation Web. Madalina Croitoru IUT Montpellier

Perl Orienté Objet BioPerl There is more than one way to do it

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

CREATION WEB DYNAMIQUE

Hébergement MMI SEMESTRE 4

Gènes Diffusion - EPIC 2010

PHP 5. La base de données MySql. A. Belaïd 1

INGÉNIEUR LOGICIEL JAVAEE / GROOVY 8 ANS D EXPÉRIENCE

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

TABLE DES MATIERES. C Exercices complémentaires 42

1. Qu'est-ce que SQL? La maintenance des bases de données Les manipulations des bases de données... 5

SysFera. Benjamin Depardon

I4 : Bases de Données

Architectures informatiques dans les nuages

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Java à Murex: un retour d'expérience. Jean-Pierre DACHER & Craig MORRISON

Big data et sciences du Vivant L'exemple du séquençage haut débit

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Installation d'un serveur FTP géré par une base de données MySQL

PHP et le Cloud. All rights reserved. Zend Technologies, Inc.

ARCHITECTURE ET SYSTÈMES D'EXPLOITATIONS

ArcGIS 10 Christophe Tourret Gaëtan Lavenu

Présentation du langage et premières fonctions

Représentation d un entier en base b

Les mésocentres HPC àportée de clic des utilisateurs industriels

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

L informatique en BCPST

Pratique et administration des systèmes

«Clustering» et «Load balancing» avec Zope et ZEO

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

BAP E Gestionnaire de parc informatique et télécommunications MI2 / MI3 Ouverts au titre de 2010 Arrêté du 7/04/10 - J.

WEB & DÉVELOPPEMENT LES BASES DU WEB LE LANGAGE HTML FEUILLES DE STYLES CSS HISTORIQUE D INTERNET ET DU WEB LES DIFFÉRENTS LANGAGES

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Le stockage local de données en HTML5

Java et les bases de données: JDBC: Java DataBase Connectivity SQLJ: Embedded SQL in Java. Michel Bonjour

Ingénieur R&D en bio-informatique

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

DESCRIPTIF DES PROJETS 3EME ANNEE QUI SERONT PRESENTES LORS DE LA JOURNEE DE PROJET DE FIN D ETUDE LE 26/01/2012

Stockage du fichier dans une table mysql:

L art d ordonnancer. avec JobScheduler. François BAYART

Introduction à MapReduce/Hadoop et Spark

Notre Catalogue des Formations IT / 2015

Cartographie des solutions BigData

A.E.C. GESTION DES APPLICATIONS TECHNOLOGIE DE L'INFORMATION LEA.BW

TP3 : Creation de tables 1 seance

Chapitre 2 : Abstraction et Virtualisation

Bases de données cours 4 Construction de requêtes en SQL. Catalin Dima

EMC Enterprise Hybrid Cloud. Emmanuel Bernard Advisory vspecialist

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Partie I : Créer la base de données. Année universitaire 2008/2009 Master 1 SIIO Projet Introduction au Décisionnel, Oracle

Catalogue des formations

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

Cours 3. Développement d une application BD. DBA - Maîtrise ASR - Université Evry

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Offre formation Big Data Analytics

Le Langage De Description De Données(LDD)

1 Position du problème

Stéphane DERACO, DSI CNRS l Argos Devops : de l hyperviseur aux conteneurs l 11/12/2014 DOCKER

Olivier Mondet

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

SUJET EPREUVE ECRITE. JURY ASI Bap E Gestionnaire de parc informatique et Télécom.

Cloud computing Architectures, services et risques

Mise en œuvre d une infrastructure de virtualisation au CNRGV

Introduc)on à Ensembl/ Biomart : Par)e pra)que

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Les tablettes numériques en EPS. Repères. Les différents types de tablettes et leurs caractéristiques.

CATALOGUE DES FORMATIONS LANGUES

Informatique & Systèmes de Communication. Stages de 12 à 16 semaines aux Etats-Unis

Langage SQL : créer et interroger une base

DES SAUVEGARDES ET DES RESTAURATIONS DE DONNEES SANS CONTRAINTES DE LIEU NI DE TEMPS

Demande d'assistance : ecentral.graphics.kodak.com

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Importation et exportation de données dans HDFS

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

CATALOGUE DES PRESTATIONS DE LA

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Assemblée générale Aristote

Panorama des solutions analytiques existantes

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

DEVAKI NEXTOBJET PRESENTATION. Devaki Nextobjects est un projet sous license GNU/Public.

L accès aux Clouds (Académiques)

Bases de données Oracle Virtual Private Database (VPD) pour la gestion des utilisateurs d applications

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Contrat d accompagnement de projet

Transcription:

CONCOURS EXTERNES IT 2014 EPREUVE TECHNIQUE D ADMISSION Durée : 3 heures Coefficient : 2 CONCOURS N 26 Corps : Ingénieur d études BAP : A : Science du vivant Emploi-type : Ingénieur en traitement de données biologiques Délégation organisatrice : Ile de France Ouest et Nord, Meudon REMARQUES IMPORTANTES Afin de préserver l anonymat, aucun signe (nom, prénom, signature) ne devra être porté sur les copies. L utilisation d une calculatrice n est pas autorisée. L utilisation de téléphone et de smartphone n est pas autorisée L utilisation d un dictionnaire anglais/français n est pas autorisée Composition de l épreuve : L épreuve, notée sur 40, comprend 4 parties indépendantes. Partie I Questions choix multiples Temps conseillé pour traiter la question : 30 minutes Partie 2 Lecture de code Temps conseillé pour traiter la question : 20 minutes Partie 2 Etude de cas Temps conseillé pour traiter la question : 1 heure et 20 minutes Partie 3 - Compréhension de l anglais technique Temps conseillé pour traiter la question : 50 minutes Total 8 points 4 points 20 points 8 points 40 points Il sera tenu compte de la clarté et de la qualité rédactionnelle. Page 1 sur 13

Partie I : 40 questions à choix multiples 8 points (Durée estimée 30 min.) Mode de notation des réponses par question Réponse correcte Pas de réponse Réponse incorrecte ou incomplète + 0,20 point 0 point - 0,20 point La note globale de la partie 1 ne pourra être inférieure à 0. Certaines questions peuvent nécessiter plusieurs réponses Section 1 (10 questions) : Biologie 1 - Quelle(s) technologie(s) permet(tent) d analyser le transcriptome? Les puces à ADN Le RNA-seq Le smallrna-seq Les puces CGH 2 - Les lncrna sont : Des ARN polyadénylés Des ARN non-polyadénylés Des ARN non-codants Des petits ARNs 3 - Les acides aminés situés dans la queue des histones H3 et H4 peuvent recevoir des modifications post traductionnelles. Elles peuvent être le signe de: Régions activatrices de la transcription Promoteurs actifs Site de fixation de l ARN polymerase III Régions régulatrices de la traduction 4 - Les enhancers sont : Des régions activatrices de la transcription Des régions activatrices de la traduction Des régions qui peuvent être situées à plus d 1Mb des gènes Des régions qui peuvent être liées par des facteurs de transcription 5 - Quelle(s) application(s) de séquençage haut débit permet(tent) d étudier la méthylation de l ADN? 4C ChIP-seq MedIP-seq Bisulfite-seq Page 2 sur 13

6 - Quelles sont les banques de données regroupées au sein du consortium INSDC (International Nucleotide Sequence Database Collaboration)? ENA-EMBL DDBJ Uniprot GenBank 7 Sélectionnez la(les) réponse(s) correcte(s) sur l UCSC. L UCSC est l Université du Canada, Santa Cruz a développé et maintient un outil de navigation de génomes (Genome Browser) a participé au premier assemblage (brouillon) du génome humain possède le plus grand centre de séquençage nord américain 8 Quel(s) organisme(s) est(sont) en charge de l assemblage du génome humain? UCSC EMBL-EBI GRC NCBI 9 - Quel est la taille approximative du génome humain? 4 Mb 3 Gb 10 Gb 100 Gb 10 Quel est le pourcentage de similarité entre le génome humain (Homo Sapiens) et celui du chimpanzé (Pan Troglodytes)? < 85% entre 85 et 90% entre 91 et 95 % >= 96% Section 2 (10 questions) : Informatique 11 - Sélectionner dans la liste le(s) logiciel(s) de gestion de version : Samtools Mercurial Jquery Git 12 - Sélectionner le(s) plateforme(s) de gestion de protocoles informatique (workflow) : GATK BEDtools Galaxy Page 3 sur 13

Taverna 13 - Par quel(s) moyen(s) peut-on représenter informatiquement un motif de liaison de facteurs de transcription à l ADN : Un fichier pédigrée Une matrice PSSM (position-specific scoring matrix) Une expression régulière Code IUPAC (International Union of Pure and Applied Chemistry) 14 - Sélectionner le(s) outil(s) de gestion de projet : Redmine Trello Galaxy MACS 15 - Un IDE (integrated development environment) : Ne permet de travailler qu avec Java Est un éditeur de texte Contient un ou plusieurs outils de gestion de version Permet d exécuter du code 16 Quel type de structure influence le déroulement d un algorithme dans le temps? Une structure binaire Un tableau Une structure de contrôle 17 - Qu'est-ce qu'un site Web dynamique? Un site Web pour les jeunes Un site Web avec beaucoup d'animations Flash Un site connecté a une base de données et constamment mis à jour Un site en tête des réponses données par plusieurs moteurs de recherche 18 - En java, une variable local est déclarée dans : Un tableau Une méthode Un constructeur Un objet 19 - En programmation orientée objet, lorsque un objet peut appartenir à plusieurs types et donc être utilisé là où est attendu une valeur d'un type plus général, on parle de : Héritage Interface Ancêtre Polymorphisme Page 4 sur 13

20 - La table SNPS est définie de la façon suivante : create table snps (id varchar(10) primary key, chromosome varchar(10), position integer, annotation text); Que doit-t-on modifier dans l'instruction suivante en SQL pour afficher les chromosomes portants plus de 10.000 SNPs? SELECT chromosome, COUNT(*) FROM snps GROUP BY chromosome; Ajouter la clause HAVING COUNT(*)>=10.000 après GROUP BY chromosome Ajouter la clause WHERE COUNT(*) BETWEEN 10000 and INF après GROUP BY chromosome Ajouter la clause WHERE COUNT(*)>10.000 après FROM snps Il n est pas possible de faire cette requête en SQL Section 3 (10 questions) : Statistiques 21 - Sélectionner la (ou les) méthode(s) de correction pour les tests multiples : ANOVA Benjamini et Hochberg Bonferroni Chi deux 22 - Avec quelle(s) loi(s) statistiques a-t-on l habitude de décrire les données de comptage telles que les données de séquençage haut débit? La loi de poisson La loi Binomial négative La loi hypergéométrique La loi du Chi-deux 23 - Quel(s) méthodes(s) permet(tent) d étudier la corrélation linéaire entre deux jeux de données? L écart type La corrélation de Spearman La corrélation de Pearson La loi normale 24 - Laquelle de ces propositions est fausse : Le premier quartile Q1 est la plus petite valeur de la série telle qu'au moins 25% des données soient inférieures ou égales à Q1. Le troisième quartile Q3 est la plus petite valeur de la série telle qu'au moins 75% des données soient inférieures ou égales à Q3. L'écart interquartile est Q1 - Q3. Les déciles partagent la série en 10 parties de même effectif. Page 5 sur 13

25 - La fréquence est : L'aspect que l'on observe sur les individus. Le quotient de l'effectif de la valeur par l'effectif total. Le produit de l'effectif de la valeur par l'effectif total. Le quotient de la médiane de la valeur par l'effectif total. 26 - Laquelle de ces propositions est vraie : La loi normale ou loi de Gauss est un cas de variables aléatoires discrètes. Une loi normale est dite «centrée» si sa variance V = 1 et «réduite» si son espérance E=0. Pour une même espérance, plus l'écart-type diminue plus la masse des individus se rapproche de la valeur de l'espérance. Dans une loi normale N (m, s) 95% de la population sont toujours compris entre [-2 ; +2]. 27 - Lors d'un contrôle de maths, le meilleur élève de la classe était absent. La moyenne obtenue par les 18 élèves présents a été 9,5. Si le bon élève avait été présent, quelle note minimum aurait-il dû avoir pour que cette moyenne fût au moins 10? 18 18,5 19 19,5 20 28 - Dans une classe, 50% des élèves ont un frère, 30% en ont deux, 15% en ont trois et 5% en ont quatre. Quel est le nombre moyen de frères des élèves de cette classe : 0,4375. 3,55. 2. 1,75. 29 - Un test statistique : prouve qu'une hypothèse est vraie ou fausse permet d'étudier la compatibilité de l'hypothèse nulle avec les observations permet de tirer des conclusions fiables à 100% sur la population étudiée. 30 - Soit X une variable aléatoire suivant une loi normale N(1,1) et Y une loi normale N(0,4). On pose Z=X+Y, Z ~ N(1,5) Z ~ N(1,3) Z peut ne pas être Gaussienne Section 4 (10 questions) : Nouvelles technologies Page 6 sur 13

31 - Quelle(s) technologie(s) de séquençage permet(tent) de séquencer des lectures de taille supérieure à 300 nucléotides? Illumina (HiSeq 2500) Roche (454) Life Technologies (SOLiD) Pacific biosciences (PacBio RSII) 32 - Que permet le Cloud Computing? un stockage externalisé des données un accès à des une puissance de calcul sans limite un accès à des ressources de calcul un accès à un environnement ergonomique 33 - Précisez quel est/sont le(s) fournisseur(s) de solutions Cloud privé Amazon Orange CLCBIO FASTERIS 34 - Quelle(s) est (sont) le(s) environnement(s) de virtualisation? Alfresco VMWARE ESXi Oracle Grid Engine Nuxeo 35 - L environnement Docker est : Un firewall sous Linux Une solution logicielle de conteneur léger Un équipement permettant la connexion universelle de téléphones portables Un standard pour l échange de données 36 Quel est le nom de l entreprise proposant en pré-commercialisation un séquenceur de la taille d une clef USB? Oxford Nanopore Technologies Cambridge Sequencing Ilumina ABI 37 - Que signifie l acronyme HDFS? Human Distributed File System Hadoop Distributed File System Hard Disk Firmware Security Haribo Data For Security 38 Indiquer lequel de ces cadriciels est orienté Javascript: Jquery Page 7 sur 13

Cake Play! Dancer 39 IPython est : Une version alternative de l interpréteur Python écrite en Perl Une version de Python pour iphone et ipad Un shell Python interactif apportant de nombreuses fonctionnalités supplémentaires L implémentation de référence du langage Python 40 - Que signifie l acronyme GPU? Global Printing Users Graphical Processing Updates Graphics Processing Unit Global Printing Usage Page 8 sur 13

Partie 2: Explication d un code 4 points (Durée estimée 20 min.) Vous trouverez ci-dessous deux exemples de codes équivalents en PERL et Python. Choisissez un des deux exemples pour répondre aux questions posées. Script 1 : 1 2 3 4 5 6 7 8 9 10 11 12 13 Script 2 : #!env perl -w use strict; my $dna= shift die "Please enter a string as first argument"; my $k = shift "3"; my %kmers; while (length($dna) >= $k){ $dna =~ m/(^.{$k})/; $kmers{$1}++; $dna = substr($dna, 1, length($dna)-1); } foreach my $str (sort keys %kmers){ print "$str, $kmers{$str}\n"; } 1 2 3 4 5 6 7 #!env python import sys dna = sys.argv[1] k = int(sys.argv[2] if len(sys.argv)>2 else 3) kmers=[dna[i:i+k] for i in range(len(dna)-(k-1))] for x in sorted(set(kmers)): print '%s, %d' % (x, kmers.count(x)) 2.1 Indiquez le script choisi et expliquez en moins de 15 lignes ce que fait ce programme (2 points) 2.2 Donnez le retour du programme lorsqu on le lance avec les arguments suivants (0,5 point) ATATATATAGA 2.3.1 Donnez le retour du programme lorsqu'on le lance avec les arguments suivants (0,5 point) ATATATATAGA 4 puis AtATATATAGA 4 2.3.2 Comment modifieriez-vous le programme pour que les résultats obtenus en 2.3.1 soient identiques? (1 point) Page 9 sur 13

Partie 3: Etude de cas 20 points (Durée estimée 1h20) Il est conseillé de lire l ensemble de l énoncé avant de répondre. Contexte : Vous êtes recruté(e) dans un laboratoire dont la thématique principale est la recherche sur les maladies neuro-dégénératives. Le laboratoire est constitué de 120 permanents et de 60 personnels sous contrat pour 9 équipes de recherche et collabore avec de nombreuses équipes internes et externes. Le laboratoire est situé au sein d un site disposant d une plateforme de séquençage haut débit. Le site comporte un service informatique gérant le réseau ainsi que l administration et la maintenance des clusters de calcul et des nœuds de stockage. Des clusters de calcul appartenant aux équipes sont également gérés par le service informatique. Ils sont utilisés par les bio-informaticiens répartis dans les équipes de recherche. Après votre recrutement, votre première mission est de mettre en place un environnement de type plateforme de bio-informatique dont l activité sera dédiée au laboratoire mais également à ses équipes partenaires. La plateforme sera constituée de 2 permanents rattachés à la direction du laboratoire, de 3 ingénieurs sous contrat et de 4 postdocs travaillant sur des projets en lien direct avec les équipes. Les membres de la plateforme travailleront autour des technologies de séquençage, notamment sur les données générées par la plateforme de séquençage du site. La plateforme de bio-informatique sera financée par les différentes équipes de recherche, les tutelles du laboratoire et des fonds européens. Elle aura pour mission de : - concevoir et développer des protocoles d analyses et les proposer aux biologistes, - développer de nouveaux outils d analyses innovants, - maintenir/mettre à disposition les développements réalisés par les bioinformaticiens répartis dans les équipes de recherche, - mettre à disposition un environnement bio-informatique (calcul, stockage, outils, données), - Former les utilisateurs à l utilisation d outils d analyse bioinformatique. Avant votre arrivée, un cluster de calcul et des nœuds de stockage ont déjà été achetés pour la plateforme. Le cluster de calcul est constitué d un nœud maître et de 8 nœuds de calcul (chaque nœud dispose de 24 cœurs avec 64 Go de mémoire). Il a accès à un stockage unifié de 50 To pour les utilisateurs sur le serveur de fichiers du laboratoire avec 5 To par équipe. 5To sont également dédiés aux collaborateurs extérieurs. Enfin, le service informatique met à disposition de l ensemble du personnel de la plateforme 10 To d espace de stockage sur le même serveur. Chacun des personnels de la plateforme possède un répertoire de travail personnel et a accès à une zone commune pour les membres de la plateforme. Les données de la plateforme sont actuellement sauvegardées de manière ponctuelle et à la demande. Les utilisateurs peuvent s adresser à tous les membres de la plateforme pour toutes les demandes d installation de logiciels mais aussi pour les demandes de projets et d analyse. Ils peuvent aussi installer eux-mêmes des outils dans leurs espaces. Question 1 (5 points) Page 10 sur 13

En argumentant vos réponses, proposez une nouvelle organisation technique sur la plateforme, qui devra s adosser notamment sur une utilisation optimale et mutualisée des ressources (calcul, stockage, outils, données). Vous pourrez notamment aborder - la gestion des installations et mises à jour des logiciels - l utilisation concurrente du cluster de calcul par les différents utilisateurs - la gestion des données? Question 2 (5 points) Vous devez réaliser le développement d un outil pour un type d analyse complètement nouveau dont l implémentation est réalisée par plusieurs membres de la plateforme et dont vous êtes le chef de projet. Quelle(s) méthodologie(s) mettez-vous en place pour suivre le projet avec les membres de l équipe? Argumentez vos réponses. Question 3 (4 points) La plateforme de bioinformatique dans laquelle vous travaillez est composée majoritairement d ingénieurs sous contrat. Quelles solutions proposeriez-vous pour assurer la continuité des savoir-faire et la traçabilité des analyses réalisées par votre équipe? Argumentez vos réponses. Question 4 (6 points) Un chef d équipe vient vous voir pour vous parler de son projet de séquençage qui inclura du chip-exo sur le facteur de transcription IB1 chez le rat. 4.1 : Comment procédez-vous pour développer un nouveau protocole d analyse pour ce projet sachant que le chef d équipe vous a informé que des outils sont déjà disponibles pour réaliser des analyses sur ce type de données? 4.2 : Une fois, votre protocole d analyse développé, le chef d équipe vous informe qu il aimerait pouvoir réaliser les analyses seul. Comment procéderiez-vous? Quels outils proposez-vous? Page 11 sur 13

Partie 4 : Compréhension de l anglais technique 10 points (Durée estimée 50 minutes) Résumez en français le texte «Reproducible Research in Computational Science» joint cidessous en 20 lignes maximum Page 12 sur 13

Page 13 sur 13