Initiation à la bioinformatique IFT1890 DESI Plan de cours Paul Dallaire (p.dallaire@sympatico.ca) automne 2003 DESCRIPTION Activité de découverte et de survol de la bioinformatique. Outils et algorithmes principaux de la bioinformatique. La bioinformatique au laboratoire, en recherche et en industrie. Contexte historique et légal. PRÉALABLES aucun MODALITÉS (à discuter au premier cours) voir le guichet étudiant pour connaître l horaire du cours. 12 présentations de 2 heures 11 sessions de travail pratique de 2 heures 2 examens (et/ou présentations) 11 travaux pratiques (tp) à faire pendant les sessions de laboratoire 2 devoirs maison concis ÉVALUATION Intra 20 % - durée de 2 heures le 22 octobre Final 30 % - durée de 3 heures le 17 décembre 1
11 travaux pratiques hebdomadaires à faire individuellement ou en équipe de deux pendant les sessions de laboratoire (les huit meilleurs résultats pour chacun seront retenus dont au moins un tiré de chaque mois de cours) 5 % chaque travail pour un total de 40 % 2 devoirs individuels consistant en de courts rapports de vos réflexions - 200 à 300 mots - sur des sujets choisis et valant 5% chacun pour un total de 10%. Les devoirs sont remis sous la forme de documents imprimés sur papier à l encre noire et non en format électronique. La remise s effectue en main propre pendant le cours ou alternativement pour les retards en déposant le document dans la boite de courrier de l enseignant au département d informatique. Note au sujet des tp: les travaux sont effectués via l outil web fourni pendant les sessions de travail pratique et doivent obligatoirement être accompagnés d une impression papier effectuée directement à partir du navigateur ou de l application et signée de votre main à l ancre bleue. La version électronique sera évaluée automatiquement. Au cas où il y aurait conflit sur la correction, la version papier ferait autorité. Note au sujet des devoirs: Les devoirs devront être écrits dans un style clair et concis mais vous devrez faire preuve d originalité dans votre traitement. Les cas douteux de plagiat seront tous expéditivement portés à l attention de l administration et seront évalués en conséquence. Note au sujet des examens: Les examens se tiendront dans le local des travaux pratiques (ou un local équivalent) et l évaluation suivra les mêmes modalités que les travaux pratiques. Cependant, une ou des questions seront de nature similaire aux devoirs et nécessiteront la rédaction de courts textes, d expressions mathématiques ou autres. Ces textes pourront soit être introduits au clavier ou écrits à la main sur des feuillets qui seront fournis. Absences: La présence au laboratoire est obligatoire et la majorité des travaux y prendront part. Les absences prolongées seront traitées au cas par cas. Les absences sporadiques non justifiées seront traitées comme suit: les deux premières absences : travail compensatoire équivalent ou zéro. les autres absences: zéro. Les absences sporadiques justifiées (billet de médecin) seront traitées comme suit: une absence: les 8 meilleurs tp parmi les 10 accomplis deux absences: les 7 meilleurs tp parmi les 9 accomplis trois absences ou plus: la note des huit onzièmes (arrondis vers le haut) meilleurs tp accomplis et travaux compensatoires équivalents au manque à gagner. Retards des devoirs: Les devoirs remis en retard sans justification adéquate (maladie) seront pénalisés de 5 pourcent du total puis de 5 pourcent du total par jour de retard. Les étudiants gradués seront évalués séparément des étudiants non-gradués. Si la taille du groupe le permet, des présentations de travaux de session pourront se substituer aux examens. 2
LIVRES ET RESSOURCES RECOMMANDÉS The NCBI handbook. Disponible en ligne à l adresse: http://www.ncbi.nlm.nih.gov/books/. La suite logicielle EMBOSS. Disponible à l adresse: http://www.hgmp.mrc.ac.uk/software/emboss/ La suite fasta disponible à l adresse: http://fasta.bioch.virginia.edu/ Outils de repliement d acides nucléiques: http://www.bioinfo.rpi.edu/applications/ Le cours ne suivra pas d ouvrage en particulier. Les références générales suivantes peuvent s avérer utiles et des références spécifiques seront fournies au besoin au long de la session: Mount, David W. (2001) Bioinformatics: sequence and genome analysis. Cold Spring Harbor Laboratory Press (ISBN 0-87969-597-8) Attwood, T.K. et Parry-Smith, D.J. (1999) Introduction to bioinformatics. Prentice Hall (ISBN 0-582-327881) Baxevanis, A.D. et Ouellette, B.F.F. (2001) Bioinformatics: A practical guide to the analysis of genes and proteins. (2ième édition) Wiley (ISBN 0-471-38391-0) Krane, D.E. et Raymer, M.L. (2003) Fundamental concepts of bioinformatics. Benjamin Cummings (ISBN 0-8053-4633-3) CONTENU phages (combinatoire), SRAS (jungle des virus), O-157 (impact communautaire), arabette de Thalius (suite intégrée), céréales (impact commercial), levures (knock-out et complémentation), nématodes et mouche à fruit (dévelopement), souris et humains EST (problème d échantillonage biologique), Snipologie (méga-projet), OGM (problème sociaux), maladies génétiques (maladie dégénérative de Charlevoix) découvertes statistiques et découvertes mécanistique algorithme, complexité, espaces, heuristique, expression régulières et limites du langages (prédiction de gènes), hashage, programmation dynamique, apprentissage automatique (réseaux de neuronnes et HMM), graphes et réseaux (la vie comme machine) croissance exponentielle (clonage et espaces de solution), contrôle dans les univers combinatoires Connaissances publiques et connaissances privées (systèmes informatiques, édition de textes, génomes) 1. Introduction et définitions. Contexte de la bioinformatique contemporaine. ADN, protéines, génome, protéomes, lipides, glucides, métabolites, organismes, sociétés. 3
Bioinformatique et biologie computationnelle. Le laboratoire de bioinformatique et la bioinformatique au laboratoire. Tailles des génomes et croissance de l information Environnement logiciel. Ressources principales (Nucleic Acids Research janvier). NCBI et EMBL Taux d erreurs élevés. Interprétation de résultats. 2. L ordinateur biologique représentant de commerce hybridation d acides nucléiques Complexité de calcul: durée, imprécision, volume aqueux, temps de vie de l univers, calcul massivement parallèle 3. Comparaison de séquences Espaces de séquences Alignement de paires de séquences, Notion de complexité, programmation dynamique Alignement de groupes de séquences, Performance (fiabilité vs vitesse) 4. Bases de données caractéristiques générales stockage, format de fichiers, accessibilité Un certain nombre de ressources Visite guidée du NCBI génomes et virus formats de séquences, convertisseurs, modèle du ncbi 5. Fouilles par homologie blast et compagnie, fasta et compagnie, autres approches approches algorithmiques 6. Problèmes divers et suites de logiciels Suites logicielles (EMBOSS et autres) assemblage de séquences bruitées 4
cadres de lecture PCR: choisir des oligonucléotides clonage: sites de restriction, mutagénese dirigée outils d édition de séquence et de dessins de vecteurs antisenses et RNAi 7. Fouille par patron types de patron construction d expression et fouilles psi-blast HMMER Modifications post-traductionnelles BLOCKS BOSUM PFAM PRODOM et compagnie Localisation cellulaire des protéines Notions d apprentissage 8. Séquençage de génomes Stratégies de construction de génomes (a) Chromosome walking (b) Shutgun assemblage de séquences redondantes Le crack amer Puissance de calcul Le crack qui a libéré le génome (open source) Ce qui se cachait dans le génome humain (nature) Prédiction de gènes Annotation de génome La post génomique est commencée. Mais qu est-ce que c est? 9. Alignements multiples 10. Phylogénie Problème Phylip et PAUP Neighbour joining NCBI (phylogénie automatique versus phylogénie de biologistes) 5
11. Structure des acides nucléiques stabilité thermodynamique de structures prédiction de structure (mfold/pkfold, etc) intelligence artificielle 12. Grands générateurs de donnée Littérature FACS puces d ADN pour la détection pour le diagnostique et la classification pour la découverte le problème de l épissage Serial Analysis of Gene Expression Criblage robotisé Détermination de la séquence de protéines séquençage Identification des protéines par la signature de leurs spectres de masse Qu est-ce qui définit une cellule? 13. Structure de protéines Retour sur les protéines Types et rôles des protéines Acides aminés Représentation de la structure (phi,psi,omega). Les travaux de Ramachandran. Structures principales (hélices, feuillets, virages) Épissage et modifications post-traductionnelles Des protéines homologues ne partagent pas nécessairement de séquence! Détermination de la structure de protéines précipitation, chromatographie, électrophorèse, ampholytes, ultracentrifugation, etc. Crystalographie Résonnance magnétique nucléaire pulsée en 2D et 3D. pdb. Format de fichier, ressources L espace conformationnel est-il limité? Chimie computationnelle homologie de séquence. Les matrices de Dayhoff. Les matrices BLOSUM. homologie d espace conformationnel: threading 6
mécanique quantique ab initio et le concours CASP Docking protéomique 14. Ontogénies détermination du contenu en protéines des compartiments cellulaires détermination les partenaires d interaction protéique variations MDS - Celzone HUPO à Montréal cet automne GO et compagnie 15. Systématique biologique (system s biology) Introduction au graphes et aux systèmes small word, exponentiel, scale-free, loi de puissance réseaux métaboliques réseaux génétiques réseaux d interactions protéiques réseaux et simulation 16. Automatisation, pipelines et programmation Pipelines unix Perl, XML, SQL, java, c++, technologies internet: cgi, modperl (apache), jsp, CORBA super-ordinateurs, accélérateurs et grappes de calculs 17. Gestion d information au laboratoire. Architecture et environnement des systèmes. Qu est-ce qu un LIMS? Le Code of Federal Regulation GLP, GXP part 11 Role du code ouvert en biotech 18. Les entreprises de pharmaceutiques et la bioinformatique Le processus clinique QA, QC les champs applicatifs de la bioinformatique en pharma et biotech http://www.arabidopsis.org/ 7