Durée : 3 heures Coefficient : 2 REMARQUES IMPORTANTES

CONCOURS EXTERNES IT 2014 EPREUVE TECHNIQUE D ADMISSION Durée : 3 heures Coefficient : 2 CONCOURS N 26 Corps : Ingénieur d études BAP : A : Science du vivant Emploi-type : Ingénieur en traitement de données biologiques Délégation organisatrice : Ile de France Ouest et Nord, Meudon REMARQUES IMPORTANTES Afin de préserver l anonymat, aucun signe (nom, prénom, signature) ne devra être porté sur les copies. L utilisation d une calculatrice n est pas autorisée. L utilisation de téléphone et de smartphone n est pas autorisée L utilisation d un dictionnaire anglais/français n est pas autorisée Composition de l épreuve : L épreuve, notée sur 40, comprend 4 parties indépendantes. Partie I Questions choix multiples Temps conseillé pour traiter la question : 30 minutes Partie 2 Lecture de code Temps conseillé pour traiter la question : 20 minutes Partie 2 Etude de cas Temps conseillé pour traiter la question : 1 heure et 20 minutes Partie 3 - Compréhension de l anglais technique Temps conseillé pour traiter la question : 50 minutes Total 8 points 4 points 20 points 8 points 40 points Il sera tenu compte de la clarté et de la qualité rédactionnelle. Page 1 sur 13

Partie I : 40 questions à choix multiples 8 points (Durée estimée 30 min.) Mode de notation des réponses par question Réponse correcte Pas de réponse Réponse incorrecte ou incomplète + 0,20 point 0 point - 0,20 point La note globale de la partie 1 ne pourra être inférieure à 0. Certaines questions peuvent nécessiter plusieurs réponses Section 1 (10 questions) : Biologie 1 - Quelle(s) technologie(s) permet(tent) d analyser le transcriptome? Les puces à ADN Le RNA-seq Le smallrna-seq Les puces CGH 2 - Les lncrna sont : Des ARN polyadénylés Des ARN non-polyadénylés Des ARN non-codants Des petits ARNs 3 - Les acides aminés situés dans la queue des histones H3 et H4 peuvent recevoir des modifications post traductionnelles. Elles peuvent être le signe de: Régions activatrices de la transcription Promoteurs actifs Site de fixation de l ARN polymerase III Régions régulatrices de la traduction 4 - Les enhancers sont : Des régions activatrices de la transcription Des régions activatrices de la traduction Des régions qui peuvent être situées à plus d 1Mb des gènes Des régions qui peuvent être liées par des facteurs de transcription 5 - Quelle(s) application(s) de séquençage haut débit permet(tent) d étudier la méthylation de l ADN? 4C ChIP-seq MedIP-seq Bisulfite-seq Page 2 sur 13

6 - Quelles sont les banques de données regroupées au sein du consortium INSDC (International Nucleotide Sequence Database Collaboration)? ENA-EMBL DDBJ Uniprot GenBank 7 Sélectionnez la(les) réponse(s) correcte(s) sur l UCSC. L UCSC est l Université du Canada, Santa Cruz a développé et maintient un outil de navigation de génomes (Genome Browser) a participé au premier assemblage (brouillon) du génome humain possède le plus grand centre de séquençage nord américain 8 Quel(s) organisme(s) est(sont) en charge de l assemblage du génome humain? UCSC EMBL-EBI GRC NCBI 9 - Quel est la taille approximative du génome humain? 4 Mb 3 Gb 10 Gb 100 Gb 10 Quel est le pourcentage de similarité entre le génome humain (Homo Sapiens) et celui du chimpanzé (Pan Troglodytes)? < 85% entre 85 et 90% entre 91 et 95 % >= 96% Section 2 (10 questions) : Informatique 11 - Sélectionner dans la liste le(s) logiciel(s) de gestion de version : Samtools Mercurial Jquery Git 12 - Sélectionner le(s) plateforme(s) de gestion de protocoles informatique (workflow) : GATK BEDtools Galaxy Page 3 sur 13

Taverna 13 - Par quel(s) moyen(s) peut-on représenter informatiquement un motif de liaison de facteurs de transcription à l ADN : Un fichier pédigrée Une matrice PSSM (position-specific scoring matrix) Une expression régulière Code IUPAC (International Union of Pure and Applied Chemistry) 14 - Sélectionner le(s) outil(s) de gestion de projet : Redmine Trello Galaxy MACS 15 - Un IDE (integrated development environment) : Ne permet de travailler qu avec Java Est un éditeur de texte Contient un ou plusieurs outils de gestion de version Permet d exécuter du code 16 Quel type de structure influence le déroulement d un algorithme dans le temps? Une structure binaire Un tableau Une structure de contrôle 17 - Qu'est-ce qu'un site Web dynamique? Un site Web pour les jeunes Un site Web avec beaucoup d'animations Flash Un site connecté a une base de données et constamment mis à jour Un site en tête des réponses données par plusieurs moteurs de recherche 18 - En java, une variable local est déclarée dans : Un tableau Une méthode Un constructeur Un objet 19 - En programmation orientée objet, lorsque un objet peut appartenir à plusieurs types et donc être utilisé là où est attendu une valeur d'un type plus général, on parle de : Héritage Interface Ancêtre Polymorphisme Page 4 sur 13

20 - La table SNPS est définie de la façon suivante : create table snps (id varchar(10) primary key, chromosome varchar(10), position integer, annotation text); Que doit-t-on modifier dans l'instruction suivante en SQL pour afficher les chromosomes portants plus de 10.000 SNPs? SELECT chromosome, COUNT(*) FROM snps GROUP BY chromosome; Ajouter la clause HAVING COUNT(*)>=10.000 après GROUP BY chromosome Ajouter la clause WHERE COUNT(*) BETWEEN 10000 and INF après GROUP BY chromosome Ajouter la clause WHERE COUNT(*)>10.000 après FROM snps Il n est pas possible de faire cette requête en SQL Section 3 (10 questions) : Statistiques 21 - Sélectionner la (ou les) méthode(s) de correction pour les tests multiples : ANOVA Benjamini et Hochberg Bonferroni Chi deux 22 - Avec quelle(s) loi(s) statistiques a-t-on l habitude de décrire les données de comptage telles que les données de séquençage haut débit? La loi de poisson La loi Binomial négative La loi hypergéométrique La loi du Chi-deux 23 - Quel(s) méthodes(s) permet(tent) d étudier la corrélation linéaire entre deux jeux de données? L écart type La corrélation de Spearman La corrélation de Pearson La loi normale 24 - Laquelle de ces propositions est fausse : Le premier quartile Q1 est la plus petite valeur de la série telle qu'au moins 25% des données soient inférieures ou égales à Q1. Le troisième quartile Q3 est la plus petite valeur de la série telle qu'au moins 75% des données soient inférieures ou égales à Q3. L'écart interquartile est Q1 - Q3. Les déciles partagent la série en 10 parties de même effectif. Page 5 sur 13

25 - La fréquence est : L'aspect que l'on observe sur les individus. Le quotient de l'effectif de la valeur par l'effectif total. Le produit de l'effectif de la valeur par l'effectif total. Le quotient de la médiane de la valeur par l'effectif total. 26 - Laquelle de ces propositions est vraie : La loi normale ou loi de Gauss est un cas de variables aléatoires discrètes. Une loi normale est dite «centrée» si sa variance V = 1 et «réduite» si son espérance E=0. Pour une même espérance, plus l'écart-type diminue plus la masse des individus se rapproche de la valeur de l'espérance. Dans une loi normale N (m, s) 95% de la population sont toujours compris entre [-2 ; +2]. 27 - Lors d'un contrôle de maths, le meilleur élève de la classe était absent. La moyenne obtenue par les 18 élèves présents a été 9,5. Si le bon élève avait été présent, quelle note minimum aurait-il dû avoir pour que cette moyenne fût au moins 10? 18 18,5 19 19,5 20 28 - Dans une classe, 50% des élèves ont un frère, 30% en ont deux, 15% en ont trois et 5% en ont quatre. Quel est le nombre moyen de frères des élèves de cette classe : 0,4375. 3,55. 2. 1,75. 29 - Un test statistique : prouve qu'une hypothèse est vraie ou fausse permet d'étudier la compatibilité de l'hypothèse nulle avec les observations permet de tirer des conclusions fiables à 100% sur la population étudiée. 30 - Soit X une variable aléatoire suivant une loi normale N(1,1) et Y une loi normale N(0,4). On pose Z=X+Y, Z ~ N(1,5) Z ~ N(1,3) Z peut ne pas être Gaussienne Section 4 (10 questions) : Nouvelles technologies Page 6 sur 13

31 - Quelle(s) technologie(s) de séquençage permet(tent) de séquencer des lectures de taille supérieure à 300 nucléotides? Illumina (HiSeq 2500) Roche (454) Life Technologies (SOLiD) Pacific biosciences (PacBio RSII) 32 - Que permet le Cloud Computing? un stockage externalisé des données un accès à des une puissance de calcul sans limite un accès à des ressources de calcul un accès à un environnement ergonomique 33 - Précisez quel est/sont le(s) fournisseur(s) de solutions Cloud privé Amazon Orange CLCBIO FASTERIS 34 - Quelle(s) est (sont) le(s) environnement(s) de virtualisation? Alfresco VMWARE ESXi Oracle Grid Engine Nuxeo 35 - L environnement Docker est : Un firewall sous Linux Une solution logicielle de conteneur léger Un équipement permettant la connexion universelle de téléphones portables Un standard pour l échange de données 36 Quel est le nom de l entreprise proposant en pré-commercialisation un séquenceur de la taille d une clef USB? Oxford Nanopore Technologies Cambridge Sequencing Ilumina ABI 37 - Que signifie l acronyme HDFS? Human Distributed File System Hadoop Distributed File System Hard Disk Firmware Security Haribo Data For Security 38 Indiquer lequel de ces cadriciels est orienté Javascript: Jquery Page 7 sur 13

Cake Play! Dancer 39 IPython est : Une version alternative de l interpréteur Python écrite en Perl Une version de Python pour iphone et ipad Un shell Python interactif apportant de nombreuses fonctionnalités supplémentaires L implémentation de référence du langage Python 40 - Que signifie l acronyme GPU? Global Printing Users Graphical Processing Updates Graphics Processing Unit Global Printing Usage Page 8 sur 13

Partie 2: Explication d un code 4 points (Durée estimée 20 min.) Vous trouverez ci-dessous deux exemples de codes équivalents en PERL et Python. Choisissez un des deux exemples pour répondre aux questions posées. Script 1 : 1 2 3 4 5 6 7 8 9 10 11 12 13 Script 2 : #!env perl -w use strict; my $dna= shift die "Please enter a string as first argument"; my $k = shift "3"; my %kmers; while (length($dna) >= $k){ $dna =~ m/(^.{$k})/; $kmers{$1}++; $dna = substr($dna, 1, length($dna)-1); } foreach my $str (sort keys %kmers){ print "$str, $kmers{$str}\n"; } 1 2 3 4 5 6 7 #!env python import sys dna = sys.argv[1] k = int(sys.argv[2] if len(sys.argv)>2 else 3) kmers=[dna[i:i+k] for i in range(len(dna)-(k-1))] for x in sorted(set(kmers)): print '%s, %d' % (x, kmers.count(x)) 2.1 Indiquez le script choisi et expliquez en moins de 15 lignes ce que fait ce programme (2 points) 2.2 Donnez le retour du programme lorsqu on le lance avec les arguments suivants (0,5 point) ATATATATAGA 2.3.1 Donnez le retour du programme lorsqu'on le lance avec les arguments suivants (0,5 point) ATATATATAGA 4 puis AtATATATAGA 4 2.3.2 Comment modifieriez-vous le programme pour que les résultats obtenus en 2.3.1 soient identiques? (1 point) Page 9 sur 13

Partie 3: Etude de cas 20 points (Durée estimée 1h20) Il est conseillé de lire l ensemble de l énoncé avant de répondre. Contexte : Vous êtes recruté(e) dans un laboratoire dont la thématique principale est la recherche sur les maladies neuro-dégénératives. Le laboratoire est constitué de 120 permanents et de 60 personnels sous contrat pour 9 équipes de recherche et collabore avec de nombreuses équipes internes et externes. Le laboratoire est situé au sein d un site disposant d une plateforme de séquençage haut débit. Le site comporte un service informatique gérant le réseau ainsi que l administration et la maintenance des clusters de calcul et des nœuds de stockage. Des clusters de calcul appartenant aux équipes sont également gérés par le service informatique. Ils sont utilisés par les bio-informaticiens répartis dans les équipes de recherche. Après votre recrutement, votre première mission est de mettre en place un environnement de type plateforme de bio-informatique dont l activité sera dédiée au laboratoire mais également à ses équipes partenaires. La plateforme sera constituée de 2 permanents rattachés à la direction du laboratoire, de 3 ingénieurs sous contrat et de 4 postdocs travaillant sur des projets en lien direct avec les équipes. Les membres de la plateforme travailleront autour des technologies de séquençage, notamment sur les données générées par la plateforme de séquençage du site. La plateforme de bio-informatique sera financée par les différentes équipes de recherche, les tutelles du laboratoire et des fonds européens. Elle aura pour mission de : - concevoir et développer des protocoles d analyses et les proposer aux biologistes, - développer de nouveaux outils d analyses innovants, - maintenir/mettre à disposition les développements réalisés par les bioinformaticiens répartis dans les équipes de recherche, - mettre à disposition un environnement bio-informatique (calcul, stockage, outils, données), - Former les utilisateurs à l utilisation d outils d analyse bioinformatique. Avant votre arrivée, un cluster de calcul et des nœuds de stockage ont déjà été achetés pour la plateforme. Le cluster de calcul est constitué d un nœud maître et de 8 nœuds de calcul (chaque nœud dispose de 24 cœurs avec 64 Go de mémoire). Il a accès à un stockage unifié de 50 To pour les utilisateurs sur le serveur de fichiers du laboratoire avec 5 To par équipe. 5To sont également dédiés aux collaborateurs extérieurs. Enfin, le service informatique met à disposition de l ensemble du personnel de la plateforme 10 To d espace de stockage sur le même serveur. Chacun des personnels de la plateforme possède un répertoire de travail personnel et a accès à une zone commune pour les membres de la plateforme. Les données de la plateforme sont actuellement sauvegardées de manière ponctuelle et à la demande. Les utilisateurs peuvent s adresser à tous les membres de la plateforme pour toutes les demandes d installation de logiciels mais aussi pour les demandes de projets et d analyse. Ils peuvent aussi installer eux-mêmes des outils dans leurs espaces. Question 1 (5 points) Page 10 sur 13

En argumentant vos réponses, proposez une nouvelle organisation technique sur la plateforme, qui devra s adosser notamment sur une utilisation optimale et mutualisée des ressources (calcul, stockage, outils, données). Vous pourrez notamment aborder - la gestion des installations et mises à jour des logiciels - l utilisation concurrente du cluster de calcul par les différents utilisateurs - la gestion des données? Question 2 (5 points) Vous devez réaliser le développement d un outil pour un type d analyse complètement nouveau dont l implémentation est réalisée par plusieurs membres de la plateforme et dont vous êtes le chef de projet. Quelle(s) méthodologie(s) mettez-vous en place pour suivre le projet avec les membres de l équipe? Argumentez vos réponses. Question 3 (4 points) La plateforme de bioinformatique dans laquelle vous travaillez est composée majoritairement d ingénieurs sous contrat. Quelles solutions proposeriez-vous pour assurer la continuité des savoir-faire et la traçabilité des analyses réalisées par votre équipe? Argumentez vos réponses. Question 4 (6 points) Un chef d équipe vient vous voir pour vous parler de son projet de séquençage qui inclura du chip-exo sur le facteur de transcription IB1 chez le rat. 4.1 : Comment procédez-vous pour développer un nouveau protocole d analyse pour ce projet sachant que le chef d équipe vous a informé que des outils sont déjà disponibles pour réaliser des analyses sur ce type de données? 4.2 : Une fois, votre protocole d analyse développé, le chef d équipe vous informe qu il aimerait pouvoir réaliser les analyses seul. Comment procéderiez-vous? Quels outils proposez-vous? Page 11 sur 13

Partie 4 : Compréhension de l anglais technique 10 points (Durée estimée 50 minutes) Résumez en français le texte «Reproducible Research in Computational Science» joint cidessous en 20 lignes maximum Page 12 sur 13

sur 13