Heuristiques pour l alignement et la recherche dans les banques de données biologiques
|
|
- Agathe Cantin
- il y a 6 ans
- Total affichages :
Transcription
1 Heuristiques pour l alignement et la recherche dans les banques de données biologiques
2 Plan I. Introduction II. Matrices de substitutions: PAM, BLOSUM III. Algorithmes de Filtrage Basés sur la recherche de graines. IV. FASTA V. BLAST VI. PatternHunter VII. BLASTZ
3 I. Recherche dans les bases de données Tache courante d un biologiste Est-ce qu une nouvelle séquence a déjà été complètement ou partiellement déposée dans les bases de données? Est-ce que cette séquence contient un gène? Est-ce que ce gène appartient à une famille connue? Quelle est la protéine encodée? Existe-t-il d autres gènes homologues? Existe-t-il des séquences non-codantes similaires. Répétitions ou séquences régulatrices Logiciels les plus connus: Smith-Waterman, FASTA et BLAST
4
5 I. Les bases de données bioinformatiques les plus utilisées NCBI, National Center for Biotechnology Information GenBank: Séquences d ADN (3 billion de paires de bases) Site officiel de BLAST PubMed: Permet la recherche de références COGs: Familles de gènes orthologues EMBL, The European Molecular Biology Laboratory ExPASy, Expert Protein Analysis System, Protéomique Swiss-Prot: Séquences de protéines PROSITE: Domaines et familles de protéines SWISS-MODEL: Outil de prédiction 3D de protéines Différents outils de recherche PDB, Protein Data Bank Base de données de structures 3D de protéines Visualisation et manipulation de structures SCOP, Structural Classification of Proteins
6 I. Problèmes algorithmiques Banques de données trop grandes nécessitant des algorithmes très rapides (sous linéaires) Alignement de génomes complets Tenir compte de la complexité biologique des séquences: un algorithme ``optimal ne donne pas nécessairement des résultats biologiques satisfaisants Développer des heuristiques qui allient rapidité et résultats biologiques satisfaisants
7 I. Recherche dans les banques de données Fonction d une nouvelle séquence? Démarche générale: Comparer la séquence requête avec les banques PROSITE ou BLOCKS, à la recherche de séquences conservées Alignement local avec chaque séquence d ADN (GenBank) ou de protéines (Swiss-Prot) Utiliser FASTA ou BLAST Essayer différentes matrices de substitution (PAM, BLOSUM) Optimiser les alignements obtenus avec Smith- Waterman
8 I. Évaluation des résultats d une heuristique pour la recherche de motifs biologiques Sélectivité (spécificité): Capacité à ne détecter que la réalité biologique et rien de plus Problème des Faux-Positifs Sensibilité: Capacité à détecter tout ce qui est intéressant sur le plan biologique Problème des Faux-Négatifs
9 II. Matrices de substitutions La structure des protéines déterminent leur fonction. Des séquences assez différentes peuvent se replier en la même structure, et donc assurer la même fonction. Des «substitutions» d acides aminés qui préservent la même structure ne devraient pas être trop nuisibles à la fonction de la protéine. Par exemple, 6 aa sont hydrophobiques. Ils préfèrent être à l intérieur de la structure pour évider d être en contact avec l eau. Et donc une substitution d un aa hydrophobique pour un autre dans la même classe est plus acceptable qu une subs. à l extérieur de cette classe. Il est important de définir des matrices de substitutions appropriées. Deux classes de matrices sont utilisées: PAM et BLOSUM.
10 II. Matrices PAM PAM: ``Point Accepted Mutation Matrices de substitution pour les AA. dont les scores sont liés au taux de mutations acceptées, observées dans les alignement de protéines. Unité de mesure du taux de divergence entre 2 seq. d AA, distance d évolution Exp.: S 1 diverge de 5 PAM de S 2 Définition: S 1, S 2 divergent d 1 unité PAM si la suite de mutations (substitutions) qui a converti S 1 en S 2 est telle qu en moyenne, une seule mutation est survenue tous les 100 AA.
11 Mutations acceptées: celles incorporées dans la protéine et transmises. Soit sans effet, soit bénéfique à l organisme. Pas de correspondance absolue entre unités PAM et divergence de séquences. Plusieurs mut. peuvent être survenues à la même pos. Divergence d AA < unités PAM Exemple: Deux seq. qui divergent de 100 PAM ne sont pas différentes à chaque pos. En fait, deux seq. qui divergent de 200 PAM sont susceptibles de contenir 25% d identité de seq.
12 II. Matrices PAM (suite) Différentes matrices PAM pour comparer des seq. d AA qui divergent d un nb spécifique d unités PAM: 120 PAM, 250 PAM Signification: La case (i,j) d une mat. n PAM contient la fréquence avec laquelle l AA Ai est remplacée par l AA Aj dans les seq. qui divergent de n unités PAM Méthode idéale de const. d une mat. n PAM: Considérer un ensemble de seq qui divergent de n unités PAM Aligner les seq. 2 à 2 Compter le nb. d alignements Ai,Aj, pour chaque Ai, Aj. Diviser par le nb total d appariements ---> f(i,j) Case (i,j) de la mat. Contient log [f(i,j)/ f(i)f(j)] où f(i) fréquence de Ai et f(j) freq. de Aj
13 Méthode précédente nécessite d aligner correctement les séquences. Alignement pour avoir la matrice, et matrice pour avoir l alignement??? Méthode de Dayhoff (1979): Pour des seq. très similaires (moins de 15% de différence), principalement la méthode idéale M: Matrice 1 PAM. Séquences plus divergentes: M n (i,j): probabilité que A i se transforme en A j en n unités PAM Case (i,j) de la matrice n PAM: log [f(i) M n (i,j) / f(i)f(j)] = log [M n (i,j) / f(j) ] Dans la pratique, on essaye plusieurs matrices PAM différentes. PAM 250 est la plus utilisée.
14
15 II. De PAM à BLOSUM Les matrices N PAM sont obtenues par extrapolation de la matrice 1PAM obtenue pour des protéines très proches. Pas appropriées pour la comparaison de séquences de protéines très divergentes BLOSUM (Heinikoff and Heinikoff 1992), Block Substitution Matrix : Basée sur des block, i.e. régions conservées d alignement de protéines.
16 II. PROSITE et BLOCKS PROSITE: Dictionnaire de sites de protéines. Lié à Swiss-Prot. Motifs représenté par une exp. reg. ou par une matrice consensus Exemple: G[GN] [SGA]GxRx[SGA]Cx(2)[IV] BLOCKS: Dérivé de PROSITE. Dictionnaire de séquences conservées. BLOCK: Petit intervalle très conservé d un alignement. Similarité de séquence, mais pas nécessairement similarité de fonction.
17 II. Matrices BLOSUM Dérivées de BLOCKS. Ensemble de blocs de n colonnes et k lignes Matrice BLOSUM: Nb de fois que Ai, Aj se trouvent appariés, divisé par le nb de fois qu ils seraient appariés dans des seq. aléatoires. Pour tous A i, A j, n(i,j) nb d appariements (Ai,Aj); f(i): freq. de Ai; f(j): freq. de Aj e(i,j) = n ( k 2) f(i) f(j) s(i,j) = log [n(i,j) / e(i,j)]
18 II. BLOSUM (suite) Caractéristique: Élimine la redondance dans les blocs. Matrice BLOSUM x (généralement entre 50 et 80): Pour tout couple de lignes contenant plus de x% de similarité, en garder une seule. La plus utilisée est BLOSUM 62
19 Matrice BLOSUM 62 Score positif pour les identités, et négatif pour les mismatchs
20 III. Algorithmes de filtrage Recherche de P de taille m dans S de taille n à k erreurs près Programmation dynamique: Temps O(mn) Différentes améliorations: Temps O(kn) Algorithmes de filtrage: Effectuer un premier passage sur S pour éliminer toutes les parties qui ne sont pas susceptibles de contenir P. Permet d obtenir des temps sous-linéaires en moyenne Partitionner P (ou T) en facteurs de taille r (seeds ou graines) Phase de recherche: Utiliser une méthode de recherche exacte pour trouver toutes les occurrences de ces facteurs dans T, en temps (sous) linéaire Phase de vérification: Utiliser une méthode de recherche approchée dans un intervalle restreint autour de chaque facteur trouvé, en temps (sous) linéaire
21 III. Méthode de Baeza-Yates-Perlberg, 1992 Partition de P en régions de taille r = ENT(m/k+1) k+1 régions de taille r, plus au plus une région de taille < r. Si le facteur T de T est une occurrence de P à k erreurs près, alors il existe au moins une région R de P et un facteur de même taille T de T tel que R et T coincident exactement. T T: T P: R
22 III. Algorithme de BYP 1. P: Ensemble des k+1 premières régions de P. 2. Construire l arbre de Aho-Corasick pour P 3. Trouver l ensemble I des pos. des occurrences de P dans T. 4. Pour tout i Є I, utiliser un algorithme de recherche approchée (prog. dynamique) pour rechercher les occurrences de P dans T[i-m-k.. i+m+k] Construction de l arbre en O(m); phase de recherche en O(n) Étapes 2 et 3 en O(m+n).
23 IV. FASTA (Lipman, Pearson 1985) Alignement local de P (taille m) dans T (taille n) 1. Pour une valeur ktup donnée (en général 6 pour nuc.2 pouraa), trouver toutes les paires de séquences de taille ktup identiques dans P et T: hot-spot Méthode: Table de hashage contenant tous les facteurs de taille ktup de P; recherche de tous les facteurs de taille ktup de T dans la table en O(m+n) 2. Déterminer des zones denses en identité: hot-spot consécutifs sur chaque diagonale. Score d une zone: 1. Score positif pour chaque hot-spot 2. Score négatif pour les espaces entre les hot-spot FASTA garde les 10 zones de score optimal. Zones contenant des matchs et mismatchs
24 3. Réaligner chaque zone, en considérant une matrice de substitution (PAM ou BLOSUM) Init1: Meilleur alignement obtenu 4. Parmi les 10 zones, garder celles dont le score dépasse un seuil ``cut-off. Combiner les zones en une seule Initn: Contient insertions/suppressions/mismatchs 5. Programmation dynamique dans une bande autour de Init1 (bande de taille 16 si ktup=2) Opt: Meilleur alignement obtenu Au cours de la recherche, statistiques calculées pour Init1, Initn, Opt: alignements significatifs ou non.
25
26 V. BLAST: Basic local alignment search tool Similarité locale entre une séquence requête et une banque de données Devenu populaire grâce à une implémentation très efficace. BLASTP: séquence de protéine dans BD de protéines BLASTN: séquence de nucléotides dans BD d ADN BLASTX: séquence de nucléotides (6 ordres de lecture) dans BD de protéines TBLASTN: séquence de protéine dans BD traduite TBLASTX: séquence traduite dans BD traduite BLASTZ: Étudié pour aligner de longues séquences d ADN, utilisé pour l alignement de l homme et de la souris PHI-BLAST: Recherche d une expression régulière (consensus) PSI-BLAST: Construit un consensus, ou matrice de score, à partir d un alignement multiple des ``hits de plus haut score obtenus par une recherche BLAST initiale
27 V. Méthode utilisée par BLAST Former la liste de tous les facteurs de taille w (seeds ou graines) de la séquence requête P P Maximum l-w+1 mots Pour chaque facteur f, former la liste de tous les mots de taille w dont le score avec f dépasse un seuil T Exemple: Pour f =PQG, {PQG, PRG, PKG, PDG, PMG }
28 Identifier les occurrences exactes des mots de la liste dans la BD Pour chaque paire de séquences trouvées, étendre l alignement dans les deux directions, jusqu à ce que le score de l alignement chute de X par rapport à sa valeur d origine. Segment accepté si score>s
29 Le HSP de score maximal sur l ensemble de la séquence est appelé Maximal Scoring segment Pair (MSP) Les alignements locaux HSP sont chaînés pour former des alignements plus longs, incluant des espaces et des trous. Si le MSP ou les HSP combinés ont un score qui dépasse un certain seuil S, il sont affichés
30 Paramètres La séquence format FASTA La banque (compressée) W (taille du mot). Protéines: w de 3 à 5, et T = 17 Donne à peu près 50 mots pour chaque facteur Nucléotides: w = 11 ou 12 S (seuil de sélection d un score) Matrices de substitution (BLOSUM 62) ou score pour les nucléotides (+5/-4)
31 Évaluation statistique Expect-value = nb de fois où un HSP est attendu par chance sur l ensemble de la banque. Plus cette valeur est faible, plus le HSP est significatif P-value: P(N): Probabilité du score observé. Plus cette valeur est faible, plus le HSP est significatif.
32 VI. PatternHunter (B. Ma et al 2002) BLAST trouve une graine de taille 11 qui match, puis étend GCNTACACGTCACCATCTGTGCCACCACNCATGTCTCTAGTGATCCCTCATAAGTTCCAACAAAGTTTGC GCCTACACACCGCCAGTTGTG-TTCCTGCTATGTCTCTAGTGATCCCTGAAAAGTTCCAGCGTATTTTGC GAGTACTCAACACCAACATTGATGGGCAATGGAAAATAGCCTTCGCCATCACACCATTAAGGGTGA---- GAATACTCAACAGCAACATCAACGGGCAGCAGAAAATAGGCTTTGCCATCACTGCCATTAAGGATGTGGG TGTTGAGGAAAGCAGACATTGACCTCACCGAGAGGGCAGGCGAGCTCAGGTA TTGACAGTACACTCATAGTGTTGAGGAAAGCTGACGTTGACCTCACCAAGTGGGCAGGAGAACTCACTGA GGATGAGGTGGAGCATATGATCACCATCATACAGAACTCAC CAAGATTCCAGACTGGTTCTTG GGATGAGATGGAACGTGTGATGACCATTATGCAGAATCCATGCCAGTACAAGATCCCAGACTGGTTCTTG
33 VI. Exemple d une occurrence manquée (Exemple de B. Ma) Pas de graine de taille 11 qui match, pourtant similarité de 80%: GAGTACTCAACACCAACATTAGTGGGCAATGGAAAAT GAATACTCAACAGCAACATCAATGGGCAGCAGAAAAT Dilemme: Sensitivité nécessite des graines courtes Capacité à détecter les homologies Rapidité nécessite des graines plus longues Mega-BLAST utilise des graines de taille 28.
34 VI. PatternHunter utilise des graines espacées (appelé modèle) 11 matchs requis (poids=11) 7 positions don t care GAGTACTCAACACCAACATTAGTGGCAATGGAAAAT GAATACTCAACAGCAACACTAATGGCAGCAGAAAAT Hit = Tous les matchs requis sont satisfaits Modèle de BLAST =
35 VI. Simulated sensitivity curves
36 VI. Pourquoi sensitivité meilleure? Les copies shiftées des graines espacées ne chevauchent pas trop: Les Hits à différentes positions sont plus indépendants Plus les copies shiftées sont indépendantes, plus on augmente la probabilité d identifier une homologie. Moins il y a de similarités entre deux copies shiftées, plus le modèle est susceptible de donner une bonne sensitivité
37 VI. Pourquoi plus rapide avec des graines espacées? TTGACCTCACC?? TTGACCTCACC? CAA?A??A?C??TA?TGG????????? CAA?A??A?C??TA?TGG? Une homologie donne lieu à plusieurs hits par BLAST (redondance) Graines espacées donnent lieu à moins de hits pour chaque homologie
38 ``Indeed, under the condition that there is one hit in a length 64, 70% similar homology, the average number of hits in that region is 2.0 for PH s weight-11 seed 3.6 for contiguous weight-11 seed.
39 VI. Observations (B. Ma) Des modèles différents peuvent détecter différentes homologies Deux conséquences: Certains modèles sont meilleurs que d autres On peut utiliser simultanément plusieurs modèles de graines Approcher les 100% de sensitivité PatternHunter II
40 VII. Alignement de génomes entiers Comparaison de génomes entiers permet de: Identifier les séquences codantes dans les 2 espèces Localiser les facteurs de transcription et les signaux de régulation Comprendre les mécanismes et l histoire de l évolution génomique Similarités et différences dans l ordre des gènes Smith-Waterman, et même FASTA ou BLAST trop lents et pas adaptés à la comparaison de génomes entiers. Améliorer sensitivité et temps de calcul, sans empirer la sélectivité
41 VII. Alignement de l homme et de la souris par BLASTZ (Schwartz et al. 2003) 1. Supprimer les répétitions propre à chaque espèce 2. Trouver tous les 12-mers espacés identiques, à une ``transition près, dans les deux génomes. 1. Étendre chaque paire de 12-mers dans les deux directions (sans gaps), jusqu à ce que le score chute en dessous d un certain seuil 2. Si l alignement (sans gaps) trouvé dépasse un seuil (disons 300) 1. Étendre l alignement en autorisant les gaps (programmation dyn.) 2. Garder l alignement si le score dépasse un seuil (disons 5000) 3. Entre chaque paire d alignements, refaire l étape 2. avec des scores moins contraignants. Par exemple, 7-mers (match exact), seuils plus faibles (par exemple 2000 avec et sans gaps) 4. Rétablir les vraies positions des alignements trouvés (étape 1.)
42 VII. Paramètres utilisés Matrice de substitution: Gap de taille k pénalisé par un poids de k A C G T A C G T Score d un alignement multiplié par une valeur entre 0 et 1 en fonction de la nature des séquences (biais des nucléotides) Les seuils doivent être très élevés pour atteindre une spécificité raisonnable (au moins 3000 pour les alignements avant gap) 12-mers espacé (19 positions): (Ma et.al 2002) Autoriser une transition: (A-G, G-A, C-T, T-C)
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche
Plus en détailBig data et sciences du Vivant L'exemple du séquençage haut débit
Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme
Plus en détailIntroduction aux bases de données: application en biologie
Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,
Plus en détailPerl Orienté Objet BioPerl There is more than one way to do it
Perl Orienté Objet BioPerl There is more than one way to do it Bérénice Batut, berenice.batut@udamail.fr DUT Génie Biologique Option Bioinformatique Année 2014-2015 Perl Orienté Objet - BioPerl Rappels
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailMABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Plus en détailBase de données bibliographiques Pubmed-Medline
Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailModule Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique
Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailExtraction d information des bases de séquences biologiques avec R
Extraction d information des bases de séquences biologiques avec R 21 novembre 2006 Résumé Le module seqinr fournit des fonctions pour extraire et manipuler des séquences d intérêt (nucléotidiques et protéiques)
Plus en détailPlus courts chemins, programmation dynamique
1 Plus courts chemins, programmation dynamique 1. Plus courts chemins à partir d un sommet 2. Plus courts chemins entre tous les sommets 3. Semi-anneau 4. Programmation dynamique 5. Applications à la bio-informatique
Plus en détailOptimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie
Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie 1 Présenté par: Yacine KESSACI Encadrement : N. MELAB E-G. TALBI 31/05/2011 Plan 2 Motivation
Plus en détailIntroduc)on à Ensembl/ Biomart : Par)e pra)que
Introduc)on à Ensembl/ Biomart : Par)e pra)que Stéphanie Le Gras Jean Muller NAVIGUER DANS ENSEMBL : PARTIE PRATIQUE 2 Naviga)on dans Ensembl : Pra)que Exercice 1 1.a. Quelle est la version de l assemblage
Plus en détailLimitations of the Playstation 3 for High Performance Cluster Computing
Introduction Plan Limitations of the Playstation 3 for High Performance Cluster Computing July 2007 Introduction Plan Introduction Intérêts de la PS3 : rapide et puissante bon marché L utiliser pour faire
Plus en détailTests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»
Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences
Plus en détailProfits et rendements maximum.
Profits et rendements maimum. Nos services d eploitation et de maintenance pour centrales solaires Tout pour le bon fonctionnement de votre installation. Un service complet pour une eploitation sans soucis
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailConception de réseaux de télécommunications : optimisation et expérimentations
Conception de réseaux de télécommunications : optimisation et expérimentations Jean-François Lalande Directeurs de thèse: Jean-Claude Bermond - Michel Syska Université de Nice-Sophia Antipolis Mascotte,
Plus en détailNe laissez pas le stockage cloud pénaliser votre retour sur investissement
Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Préparé par : George Crump, analyste senior Préparé le : 03/10/2012 L investissement qu une entreprise fait dans le domaine de
Plus en détailBibliographie Introduction à la bioinformatique
Bibliographie Introduction à la bioinformatique 5. Les bases de données biologiques, SQL et la programmation Python/C++ Zvelebil et Baum, Understanding bioinformatics Beighley, Head First SQL Chari, A
Plus en détail4 Exemples de problèmes MapReduce incrémentaux
4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank
Plus en détailTESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme
TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources
Plus en détailBases de données réparties: Fragmentation et allocation
Pourquoi une base de données distribuée? Bibliographie Patrick Valduriez, S. Ceri, Guiseppe Delagatti Bases de données réparties: Fragmentation et allocation 1 - Introduction inventés à la fin des années
Plus en détailCHAPITRE 3 LA SYNTHESE DES PROTEINES
CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés
Plus en détailPerformances. Gestion des serveurs (2/2) Clustering. Grid Computing
Présentation d Oracle 10g Chapitre VII Présentation d ORACLE 10g 7.1 Nouvelles fonctionnalités 7.2 Architecture d Oracle 10g 7.3 Outils annexes 7.4 Conclusions 7.1 Nouvelles fonctionnalités Gestion des
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailUne nouvelle approche de détection de communautés dans les réseaux sociaux
UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailDécouverte et analyse de dépendances dans des réseaux d entreprise
Découverte et analyse de dépendances dans des réseaux d entreprise Samer MERHI Sous la direction de: Olivier FESTOR LORIA - Equipe MADYNES - Université Henri Poincaré June 24, 2008 1 / 24 Plan 1 Introduction
Plus en détailExo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.
Eo7 Calculs de déterminants Fiche corrigée par Arnaud Bodin Eercice Calculer les déterminants des matrices suivantes : Correction Vidéo ( ) 0 6 7 3 4 5 8 4 5 6 0 3 4 5 5 6 7 0 3 5 4 3 0 3 0 0 3 0 0 0 3
Plus en détailLes Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16
Les Biolangages Thierry Lecroq Université de Rouen FRANCE 2008 2009 Thierry Lecroq (Univ. Rouen) MB2 2008 2009 1 / 16 BioPerl Ensemble de modules Perl Utilise la programmation objet L objectif est de mettre
Plus en détailVI. Tests non paramétriques sur un échantillon
VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes
Plus en détailGrégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.
Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans
Plus en détailLois de probabilité. Anita Burgun
Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage
Plus en détailJournée SITG, Genève 15 octobre 2013. Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique
Monitorint spatio-temporel intégré de la mobilité urbaine Monitoring spatio-temporel de l ADN urbain Une réponse aux défis, problèmes, enjeux et risques des milieux urbains Nicolas Lachance-Bernard M.ATDR
Plus en détailPrésentation du PL/SQL
I Présentation du PL/ Copyright Oracle Corporation, 1998. All rights reserved. Objectifs du Cours A la fin de ce chapitre, vous saurez : Décrire l intéret du PL/ Décrire l utilisation du PL/ pour le développeur
Plus en détailIntroduction aux SGBDR
1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux
Plus en détailPrédiction de la structure d une
Prédiction de la structure d une protéine Soluscience Guillaume Chakroun guillaume chakroun@hotmail.com Copyright c 2004 Guillaume Chakroun TABLE DES MATIÈRES Table des matières 1 Les structures protéiques
Plus en détailIntroduction à la statistique non paramétrique
Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non
Plus en détailGènes Diffusion - EPIC 2010
Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses
Plus en détailLe signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = 10.23 Mhz
Le signal GPS Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = 10.23 Mhz Deux signaux en sont dérivés: L1 (fo x 154) = 1.57542 GHz, longueur d onde = 19.0 cm
Plus en détailOptimisation Combinatoire et Colonies de Fourmis Nicolas Monmarche April 21, 1999 Sommaire Inspiration biologiques Ant Colony Optimization Applications TSP QAP Flow Shop Problemes dynamiques 1 Historique
Plus en détailIMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques
IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production
Plus en détailà moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq
e élevé Risque faible Risq à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq L e s I n d i c e s F u n d a t a é Risque Les Indices de faible risque
Plus en détailMaster IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008
Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance
Plus en détailUTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY
UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier
Plus en détailFormavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...
Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au
Plus en détailAllocation Robuste et Restrictions sur les Contributions au Risque
Allocation Robuste et Restrictions sur les Contributions au Risque QuantValley/QMI Workshop, Geneve, 26 Septembre, 2013 http://ssrn.com/abstract=2192399 1/33 Les contributions du papier: Nous définissons
Plus en détailSujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Plus en détail! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)
Introduction à la Bioinformatique Introduction! Les bases de données jouent un rôle crucial dans l organisation des connaissances biologiques.! Nous proposons ici un tour rapide des principales bases de
Plus en détailExemples de problèmes et d applications. INF6953 Exemples de problèmes 1
Exemples de problèmes et d applications INF6953 Exemples de problèmes Sommaire Quelques domaines d application Quelques problèmes réels Allocation de fréquences dans les réseaux radio-mobiles Affectation
Plus en détailProblème 1 : applications du plan affine
Problème 1 : applications du plan affine Notations On désigne par GL 2 (R) l ensemble des matrices 2 2 inversibles à coefficients réels. Soit un plan affine P muni d un repère (O, I, J). Les coordonnées
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailSystème immunitaire artificiel
République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieure Université des Sciences et de la Technologie D Oran Mohammed Boudiaf (USTO) Faculté des Sciences Département d Informatique
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailSysFera. Benjamin Depardon
SysFera Passage d applications en SaaS Benjamin Depardon CTO@SysFera SysFera Technologie 2001 Création 2010 Spin Off INRIA Direction par un consortium d investisseurs 12 personnes 75% en R&D Implantation
Plus en détailRappel sur les bases de données
Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant
Plus en détailUtilisation d informations visuelles dynamiques en asservissement visuel Armel Crétual IRISA, projet TEMIS puis VISTA L asservissement visuel géométrique Principe : Réalisation d une tâche robotique par
Plus en détailSkype (v2.5) Protocol Data Structures (French) Author : Ouanilo MEDEGAN http://www.oklabs.net
Skype (v2.5) Protocol Data Structures (French) Author : Ouanilo MEDEGAN http://www.oklabs.net : Champ Encodé SKWRITTEN() : Champ Variable défini Précédemment & définissant l état des champs à suivre ECT
Plus en détailLe conseil en investissement
Le conseil en investissement Une formule qui me permet de garder le contrôle ing.be/privatebanking Et vous? Private Banking 1 Grâce à Home'Bank, je suis chaque jour les performances de mon portefeuille.
Plus en détailDétection et prise en charge de la résistance aux antirétroviraux
Détection et prise en charge de la résistance aux antirétroviraux Jean Ruelle, PhD AIDS Reference Laboratory, UCLouvain, Bruxelles Corata 2011, Namur, 10 juin 2011 Laboratoires de référence SIDA (Belgique)
Plus en détailModélisation et étude d un système de trading directionnel diversifié sur 28 marchés à terme
Modélisation et étude d un système de trading directionnel diversifié sur 28 marchés à terme Trading system : Trend following Breakout Janvier 1996 - Janvier 2009 Etude de la performance du système Le
Plus en détailPrincipes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche
3 Principes d AdWords Les deux premiers chapitres de ce livre, plutôt généraux, ont présenté l univers d Internet et de la publicité en ligne. Vous devriez maintenant être convaincu de l intérêt d une
Plus en détailSciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information
Plus en détailLes bases de données transcriptionnelles en ligne
Les bases de données transcriptionnelles en ligne Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription
Plus en détailPrincipes d implémentation des métaheuristiques
Chapitre 2 Principes d implémentation des métaheuristiques Éric D. Taillard 1 2.1 Introduction Les métaheuristiques ont changé radicalement l élaboration d heuristiques : alors que l on commençait par
Plus en détailWonderware Mobile reporting
Mobile reporting www.wonderware.fr Introduction Aujourd hui, plus que jamais, pour les décideurs et tous les personnels mobiles dans les industries du process, de l énergie et du manufacturier notamment,
Plus en détailhttp://mondomaine.com/dossier : seul le dossier dossier sera cherché, tous les sousdomaines
Principales fonctionnalités de l outil Le coeur du service suivre les variations de position d un mot-clé associé à une URL sur un moteur de recherche (Google - Bing - Yahoo) dans une locale (association
Plus en détailPolitique scientifique, Recherche et Développement
Ambassade de France à Washington Service pour la Science et la Technologie 4101 Reservoir Road NW, Washington, DC 20007 Tél. : +1 202 944 6246 Mail : info@france-science.org URL : http://france-science.org
Plus en détailMaster de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant
Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master
Plus en détailprésentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :
N Ordre de la Thèse 3282 THÈSE présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 Mention : BIOLOGIE PAR Emilie GUÉRIN Équipe d accueil : École Doctorale
Plus en détailConventions d écriture et outils de mise au point
Logiciel de base Première année par alternance Responsable : Christophe Rippert Christophe.Rippert@Grenoble-INP.fr Introduction Conventions d écriture et outils de mise au point On va utiliser dans cette
Plus en détaile-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé
e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé
Plus en détailInitiation à l algorithmique
Informatique S1 Initiation à l algorithmique procédures et fonctions 2. Appel d une fonction Jacques TISSEAU Ecole Nationale d Ingénieurs de Brest Technopôle Brest-Iroise CS 73862-29238 Brest cedex 3 -
Plus en détailPrécision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
Plus en détailMapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15
MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailDE VOS NOMS DE DOMAINE : Cette méthode est particulièrement efficace pour un référencement optimal sur une cible bien définie.
«GEOLOCALISATION» DE VOS NOMS DE DOMAINE : BIEN REFERENCER VOS.CO Vous trouverez ci-joint la méthode pour choisir la cible géographique à associer à vos noms de domaine enregistrés dans des extensions
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailRésolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailMesures de temps de propagation de groupe sur convertisseurs de fréquence sans accès aux OL
Mesures de temps de propagation de groupe sur convertisseurs de fréquence sans accès aux Comment mesurer le temps de propagation de groupe sur des convertisseurs de fréquence dans lesquels le ou les oscillateurs
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailProjet Active Object
Projet Active Object TAO Livrable de conception et validation Romain GAIDIER Enseignant : M. Noël PLOUZEAU, ISTIC / IRISA Pierre-François LEFRANC Master 2 Informatique parcours MIAGE Méthodes Informatiques
Plus en détailKardó. Une combinaison infinie de lumiere
Kardó Une combinaison infinie de lumiere CONCEPT Design: eer architectural design, Belgique 2 - Kardó Kardó est un système d éclairage spécial qui permet de s adapter à l architecture à travers tout le
Plus en détailUn Vrai Changement dans la Gestion des Espèces
Un Vrai Changement dans la Gestion des Espèces TM Solution SMARTtill Coûts et avantages La gestion des espèces représente un processus long et coûteux dans tout environnement nécessitant la manipulation
Plus en détailPartie 7 : Gestion de la mémoire
INF3600+INF2610 Automne 2006 Partie 7 : Gestion de la mémoire Exercice 1 : Considérez un système disposant de 16 MO de mémoire physique réservée aux processus utilisateur. La mémoire est composée de cases
Plus en détailLe ranking de Augure Influencers La méthodologie AIR en détails
Le ranking de Augure Influencers La méthodologie AIR en détails V1.0 Octobre 2014 Oualid Abderrazek Product Marketing Sommaire 1. Contexte...3 2. L algorithme...3 a. Exposition...4 b. Echo...4 c. Niveau
Plus en détailwww.cmcicpaiement.fr plateforme de paiements sécurisés sur internet Groupe Crédit Mutuel-CIC La carte d identité 2009
CM-CIC PAIEMENT www.cmcicpaiement.fr plateforme de paiements sécurisés sur internet Le Groupe CM-CIC Groupe Crédit Mutuel-CIC La carte d identité 2009 PNB : 13,6 milliards Résultat net part du groupe :
Plus en détailEvaluation des performances de programmes parallèles haut niveau à base de squelettes
Evaluation des performances de programmes parallèles haut niveau à base de squelettes Enhancing the Performance Predictability of Grid Applications with Patterns and Process Algebras A. Benoit, M. Cole,
Plus en détailen juste valeur par résultat Placements détenus jusqu à échéance
Normes IAS 32 / Instruments financiers : Présentation Normes IAS 39 / Instruments financiers : Comptabilisation et Evaluation Normes IFRS 7 / Instruments financiers : Informations à fournir Introduction
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailEnglish (see page EN 1-8) Français (voir pages FR 1-4)
doro congress 150 1 11 10 2 9 3 4 5 8 7 6 English (see page EN 1-8) 1 Input socket for additional equipment 2 Recall button 3 Handset volume Control 4 Redial function 5 Mute button and LED 6 Store Button
Plus en détailALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE
ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE P. Baudet, C. Azzaro-Pantel, S. Domenech et L. Pibouleau Laboratoire de Génie Chimique - URA 192 du
Plus en détailL utilisation d un réseau de neurones pour optimiser la gestion d un firewall
L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans
Plus en détailINTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE
INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE Le schéma synoptique ci-dessous décrit les différentes étapes du traitement numérique
Plus en détailDéfinitions. Numéro à préciser. (Durée : )
Numéro à préciser (Durée : ) On étudie dans ce problème l ordre lexicographique pour les mots sur un alphabet fini et plusieurs constructions des cycles de De Bruijn. Les trois parties sont largement indépendantes.
Plus en détailIFT3030 Base de données. Chapitre 2 Architecture d une base de données
IFT3030 Base de données Chapitre 2 Architecture d une base de données Plan du cours Introduction Architecture Modèles de données Modèle relationnel Algèbre relationnelle SQL Conception Fonctions avancées
Plus en détailEchantillonnage Non uniforme
Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas
Plus en détail