Prédiction de la structure d une

Dimension: px
Commencer à balayer dès la page:

Download "Prédiction de la structure d une"

Transcription

1 Prédiction de la structure d une protéine Soluscience Guillaume Chakroun guillaume Copyright c 2004 Guillaume Chakroun

2 TABLE DES MATIÈRES Table des matières 1 Les structures protéiques La structure primaire La structure secondaire La structure tertiaire La structure quaternaire Figure récapitulative Les banques de données de structures protéiques Les méthodes expérimentales de détermination des structures protéiques La cristallographie rayon X La spectroscopie RMN Les banques de structures protéiques Les différentes classes de structures protéiques La banque de structures protéiques PDB Les autres banques de structures protéiques Prédiction de la structure secondaire à partir de la séquence Critère d efficacité des méthodes présentées Les méthodes statistiques Chou-Fasman Garnier, Osguthorbe et Robson (méthode GOR) Amélioration des méthodes Les méthodes tenant compte des propriétés physico-chimiques des acides aminés La méthode du plus proche voisin Les chaînes de Markov cachées Les réseaux de neurones Programmes de prédiction de structure secondaire Méthodologie Prédiction de la structure tertiaire à partir de la structure primaire Méthodes de prédiction par modèle d homologie Méthode de prédiction par reconnaissance de repliement Méthode de prédiction ab initio Outils de prédiction de la structure tertiaire Méthodologie Copyright c 2004 Guillaume Chakroun 2

3 TABLE DES FIGURES Table des figures 1.1 Exemple d une représentation en structure primaire d une protéine Exemple d une hélice alpha Exemple d un feuillet béta Exemple d une représentation en structure tertiaire d une protéine Exemple d une représentation en structure quaternaire d une protéine Relation entre les différentes catégories de structures Exemple d un HMM simple à 4 états et 2 symboles Exemple d un HMMprofil Modèle de structure α-plex Exemple d un réseau de neurones Propagation d un signal dans un réseau de neurones trois couches Illustration de la back propagation calibrant les paramètres du réseau Diagramme méthodologique de la prédiction de la structure tertiaire d une protéine 31 Copyright c 2004 Guillaume Chakroun 3

4 LISTE DES TABLEAUX Liste des tableaux 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman Liste des principaux programmes utilisés pour la prédiction de structures secondaires 28 Copyright c 2004 Guillaume Chakroun 4

5 Chapitre 1 Les structures protéiques La structure tertiaire de la protéine est centrale à la génomique, car plus encore que la séquence, c est elle qui détermine sa fonction. La structure va déterminer les sites actifs ou les épitopes d antigénicité (partie d un antigène reconnu par un anticorps). Prédire la structure 3D d une protéine, c est donc approcher la fonction potentielle qu elle assure dans la cellule. Outre leur importance fonctionnelle, les structures secondaires et tertiaires présentent un intérêt cognitif majeur car elles sont mieux conservées que les séquences au cours de l évolution. La structure des protéines comporte quatre niveaux différents : 1.1 La structure primaire C est la séquence proprement dite des acides aminés enchaînés les uns aux autres par des liaisons covalentes et éventuellement par des ponts disulfures. Un exemple de la représentation en structure primaire d une protéine est illustrée sur la figure 1.1. Fig. 1.1 Exemple d une représentation en structure primaire d une protéine 1.2 La structure secondaire Elle correspond aux formations périodiques qu adoptent des portions partielles d une protéine donnée. Ces repliements sont : L hélice alpha (voir figure 1.2) Le feuillet bêta (voir figure 1.3) Une boucle ou coude, structure instable enroulée aléatoirement ( random coil en anglais) Copyright c 2004 Guillaume Chakroun 5

6 Fig. 1.2 Exemple d une hélice alpha Fig. 1.3 Exemple d un feuillet béta Copyright c 2004 Guillaume Chakroun 6

7 1.3 La structure tertiaire C est la conformation tridimensionnelle thermodynamiquement stable (due à un ensemble de liaisons non covalentes, comme les liaisons hydrogènes ou les ponts salins, ainsi qu à des ponts disulfures qui sont des liaisons covalentes) qu adoptent les différents éléments de la structure secondaire entre eux pour former la protéine ou une des sous-unités d une protéine plus complexe (voir figure 1.4). La conformation native d une protéine dépend à la fois de sa séquence et du milieu dans lequel elle est solubilisée. Le repliement 3D ( fold en anglais) représente le meilleur compromis entre l enfouissement des résidus d acides aminés hydrophobes (alanine, leucine, isoleucine, proline et valine), puisque la plupart des milieux organiques sont aqueux, et les possibibités de rotation autour des liaisons chimiques. Fig. 1.4 Exemple d une représentation en structure tertiaire d une protéine Les hélices α sont représentées en rose, les feuillets β en jaune et les coudes en gris 1.4 La structure quaternaire Certaines protéines, complexes, sont constituées de plusieurs sous-unités : les monomères. La structure 4D est l arrangement spatial de ces différentes unités ; leur rassemblement est un oligomère (voir figure 1.5). Il existe bien sûr des méthodes physiques expérimentales pour déterminer la structure (voir partie 2.1) mais elles sont lourdes et coûteuses, et ne peuvent s appliquer à toutes les protéines (inutilisables pour les protéines non solubles, comme les protéines membrannaires, d où l importance, là encore, de la prédiction in silico). 1.5 Figure récapitulative Copyright c 2004 Guillaume Chakroun 7

8 Fig. 1.5 Exemple d une représentation en structure quaternaire d une protéine Deux monomères (l un en vert, l autre en bleu) forme un oligomère Fig. 1.6 Relation entre les différentes catégories de structures Copyright c 2004 Guillaume Chakroun 8

9 Chapitre 2 Les banques de données de structures protéiques Il est difficile de déterminer la structure des protéines expérimentalement. Les banques de séquences ne cessent de croître à l instar des banques de structures protéiques : actuellement, plus de dix millions de gènes sont présents dans GenBank alors que seulement vingt milles structures protéiques sont répertoriées dans PDB (Protein Data Bank). Les chercheurs estiment qu un millier de modèles de structures suffiraient à modéliser l ensemble des protéines existantes. 2.1 Les méthodes expérimentales de détermination des structures protéiques Ces méthodes expérimentales permettent d alimenter les banques de structures utilisées par les méthodes de prédiction présentées dans la partie La cristallographie rayon X Le principe de la détermination d une protéine par cristallographie au rayon X est de déterminer la position de ses atomes afin d en déduire un modèle structural. La position précise de chaque atome d une molécule peut être déterminée seulement si la molécule est cristallisée (l organisation des atomes forme des cristaux). Lorsque les rayons X frappent une molécule cristallisée, les électrons entourant chaque atome courbent ou diffractent le faisceau rayon X ; ce phénomène permet de déduire un modèle de diffraction par rayon X par analyse de la densité des électrons. Un ordinateur interprète alors mathématiquement ce modèle et reconstruit la position des atomes pour finalement donner un modèle quasi exact de la structure de la molécule La spectroscopie RMN La spectroscopie par résonnance magnétique nucléaire (RMN) repose sur l analyse des noyaux atomiques de la molécule. Chaque noyau porte une charge. Lorsque les spins des protons et des neutrons d un noyau sont impairs, le spin total du noyau crée un dipùle magnétique le long de l axe spinal ; la magnitude intrinsèque de ce dipùle est une propriété nucléaire fondamentale appellée le moment magnétique nucléaire. Depuis cette propriété est établie une corrélation entre la symétrie de la distribution de charge du noyau et sa structure interne. Par la suite, les distances entre certains atomes de la molécule sont connues. La connaissance de ces distances permet alors Copyright c 2004 Guillaume Chakroun 9

10 de déterminer un modèle de la molécule satisfaisant toutes les contraintes stéréochimiques liées à la structure. La structure de la molécule est finalement déduite. 2.2 Les banques de structures protéiques Les différentes classes de structures protéiques Quatre principales classes de structure protéique, basées sur les types et les arrangements des structures secondaires, ont été établies par Levitt et Chlothia en 1976 : 1. Classe α : regroupe les hélices α connectées en boucle à la surface des protéines. 2. Classe β : regroupe les feuillets β antiparallèles, généralement deux feuillets en contact formant un sandwich. 3. Classe α/β : regroupe principalement les feuillets β parallèles joints avec des hélices α, mais peut également regrouper des feuillets β mixtes. 4. Classe α + β : regroupe principalement les hélices α isolées joints à des feuillets β antiparallèles. Deux sous-classes s ajoutent aux classes précédentes : Classe des protéines multidomaines regroupant les domaines représentant plus d une des quatre principales classes. Classe des protéines membranaires et de surface cellulaire, protéines du système immunitaire mis à part La banque de structures protéiques PDB Protein Data Bank est la banque de référence des structures protéiques obtenues expérimentalement par cristallographie rayon X ou spectroscopie RMN. Jusqu en mai 2003, structures protéiques ont été entrées dans la banque ; de 50 à 100 nouvelles structures sont déposées chaque semaine. Les coordonnées des atomes formant la structure d une protéine, le détail de la séquence, les conditions de cristallisation sont les principales informations disponibles pour chaque structure de la banque PDB. C est à partir de cette banque que sont détectés les homologues structuraux. La majorité des séquences ont une homologie structurale inférieure à 20% ; on évalue à environ 1000 le nombre total de structures protéiques originales qui suffirait à modéliser la quasi-totalité des protéines connues Les autres banques de structures protéiques SCOP (Structural Classification of Proteins) : Banque de données regroupant les protéines de la PDB présentant une relation de similarité structurale et d évolution. Le classement dans la banque se fait selon trois principaux niveaux hiérarchiques : 1. Famille : relation d évolution commune clairement établie. Le degré de similarité de séquence entre pairs de résidus est supérieur à 30%. 2. Superfamille : origine d évolution commune probable. Le degré de similarité de séquence est faible ; néanmoins, les dispositifs structuraux et fonctionnels des protéines suggèrent une évolution d origine commune. Copyright c 2004 Guillaume Chakroun 10

11 3. Repliement : similarité structurale majeure. Les protéines partagent ici une majorité de structures secondaires dans le même arrangement et avec les mêmes connexions topologiques. Les régions en coude et périphériques aux autres structures secondaires diffèrent souvent en taille et en conformation. Les protéines ayant des repliements communs ne semblent pas avoir une origine d évolution commune ; seules les propriétés physiques et chimiques leur donnent un arrangement similaire. CATH (Class Architecture Topology and Homology) : Les protéines dont la structure a été déterminée par RMN et celles dont la résolution de détermination des structures par cristallographie rayon X est supérieure à 3 angstroms sont répertoriés dans cette banque. La hiérarchie de classification de CATH est composée de quatre principaux niveaux : 1. Niveau C (Classe) : sont répertoriées les structures protéiques appartenant aux classes α et β de la classification de Lewitt et Chothia (voir partie ). Une troisième classe α β regroupe à la fois les structures des classes α/β et α + β. Une quatrième classe contient les domaines protéiques avec peu de structures secondaires. 2. Niveau A (Architecture) : classe les protéines en fonction de l architecture de leurs structures secondaires sans tenir compte de leurs connectivités. Ce niveau regroupe principalement les protéines adoptant les architectures en baril ou en sandwich trois couches. 3. Niveau T (Topologie) : les protéines sont classées par familles de repliement, tenant compte de l architecture des structures secondaires mais également de leurs connectivités. 4. Niveau H (superfamilles homologues) : regroupe les domaines protéiques considérés comme partageant un ancêtre commun et pouvant ainsi être décrites comme homologues. Les similarités sont d abord identifiées par comparaison de séquences puis par comparaison de structure. FSSP (Fold classification based on Structure-Structure alignement of Proteins) : regroupe les structures représentatives de la PDB. La banque PDB admet un nombre de structures redondantes de protéines dont les séquences et les structures ont plus de 25% d identité. L ensemble de structures représentatives sans structures redondantes de la banque PDB a été obtenu par alignement structural à l aide du programme DALI. MMDB (Molecular Modeling DataBase) : sous-ensemble des structures tridimensionnelles de la banque PDB, modèles théoriques exclus. Cette banque, hébergée par le site Entrez de NCBI, permet d archiver les données structures conventionnelles de manière flexible afin de pouvoir y ajouter d autres structures reconnues par des technologies telles que la microscopie électronique. SARF (Spacial ARrangement of backbone Fragments) : basée sur la détection d éléments de structures secondaires compatibles pour trouver les structures 3D similaires. Le site web de SARF propose un arbre construit à partir de la similarité des structures 3D. Copyright c 2004 Guillaume Chakroun 11

12 Chapitre 3 Prédiction de la structure secondaire à partir de la séquence A partir de la séquence d acides aminés, on cherche à déterminer la structure secondaire qui est codifiée en une succession d états grâce à un alphabet de trois lettres : portions en hélice alpha (H), feuillet beta (E : brin étendu) et en coude (C). Pour cela, les programmes de prédiction ont recourt à plusieurs méthodes : Méthodes statistiques : les premières datent de A partir de la connaissance des structures tertiaires d un échantillon de protéines modèles, on établit une table d occurrences comptabilisant les proportions observées de chacun des vingt acides aminés dans un état structural donné. La prédiction est établit à partir de cette table. Méthodes tenant compte des propriétés physico-chimiques des acides aminés : telles que la charge, l hydrophobicité et l hydrophilie. Celles-ci influent en effet directement sur les relations de proximité et donc sur la position des acides aminés à l intérieur (coeur hydrophobe : les structures hélice α et feuillet β dominent) ou à la surface de la protéine (boucles). Méthode des plus proches voisins : utilise la similarité entre sous-séquences de protéines dont la structure est connue pour prédire la structure de la protéine recherchée. Chaînes de Markov : des chaînes de Markov cachées modélisent chaque type de structure secondaire par entraînement sur des séquences appartenant à la même famille structurale. Une fois les paramètres de ces modèles calibrés, un score est associé à chaque chaîne de Markov cachée pour une séquence donnée. Le modèle donnant le meilleur score pour une portion de la séquence prédit alors la structure secondaire associée à cette portion. Méthode d apprentissage par réseaux de neurones : analogue à la méthode utilisant les chaînes de Markov cachées. Des réseaux de neurones modélisent les structures secondaires existantes par entraînement sur des séquences dont les structures sont connues. L influence de la structure tertiaire sur la structure secondaire n est toutefois pas prise en compte par ces méthodes. La prédiction est plus efficace encore quand l analyse est appliquée sur un alignement multiple, c est à dire sur un jeu de séquences homologues alignées. La structure étant plus conservée (sous la pression de sélection) que la séquence, les régions conservées (régions similaires rencontrées entre plusieurs séquences) donnent plus de poids à la prédiction. 3.1 Critère d efficacité des méthodes présentées Afin de connaitre l efficacité de chaque méthode de prédiction de la structure secondaire d une protéine, le critère 3-state est introduit (noté Q 3 ). Il représente le taux de résidus correspondant Copyright c 2004 Guillaume Chakroun 12

13 à l une des trois configurations réelles (hélice α, feuillet β ou coude) dans laquelle se trouve un acide aminé donné de la protéine. Par exemple, si la structure secondaire correcte d une protéine est HHCE et que la structure prédite est HEEE, alors le critère d exactitude 3-state vaut 33%. 3.2 Les méthodes statistiques Les méthodes statistiques prédisent les structures secondaires d une protéine à l aide de tableaux de valeurs expérimentales calculées à partir de structures cristallines connues Chou-Fasman Cette méthode, connue en 1974, se base sur les propriétés physico-chimiques définissant la stabilité de la protéine, telles que l hydrophobicité. Les auteurs ont donc calculé les valeurs des paramètres de conformation d un aminoacide de se trouver dans une structure d hélice α, de feuillet β ou de coude à partir de la structure cristalline de 29 protéines déterminée par cristallographie rayon X. Le tableau 3.1 regroupent les probabilités d un aminoacide i de se trouver dans une structure d hélice α (P α (i)), de feuillet β (P β (i)) ou de coude (P t (i)) ainsi que les fréquences f i de courbures des quatre aminoacides consécutives participant à la structure de coude. Ce tableau sous classe les aminoacides suivant leur score de conformation ; on distingue six degrés d affinité pour chaque structure secondaire s : H s : strong s former forte tendance à se trouver en structure s. h s : s former bonne tendance à se trouver en structure s. I s : weak s former tendance faible à se trouver en structure s. i s : s indifferent pas de tendance particulière. b s : s breaker tendance à empêcher la structure s. B s : strong s breaker forte tendance à empêcher la structure s. Principe : La séquence pour laquelle on veux prédire les structures secondaires est parcourue par une fenêtre glissante de quatre aminoacides. Le score Sc s (i) pour la structure s de la première aminoacide i de cette fenêtre est calculé comme suit, en tenant compte des trois acides aminés suivants (i + 1, i + 2 et i + 3) : i+3 Sc s (i) = P s (j) De même, la probabilité de courbure au niveau du résidu i positionné au début de la fenêtre de quatre aminoacides est : j=i i+3 p t (i) = f(j) L ensemble des règles définissant l algorithme de Chou-Fasman permet ensuite de prédire la structure secondaire de chaque aminoacide de la séquence : Règle 1 : Un ensemble de quatre acides aminés d affinité H α ou h α (Sc α > Sc β et Sc coude ) sur six consécutifs initie une hélice. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation d hélice α, c est à dire si Sc α < Les deux conditions suivantes confirment la structure en hélice α de ce segment étendu : j=i Copyright c 2004 Guillaume Chakroun 13

14 Tab. 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman Les probabilités en rouge représente un degré d affinité strong former, un degré former en orange, un degré weak former en jaune, un degré indifferent en maginta, un degré breaker en vert foncé et un degré strong breaker en vert clair La proline ne peut être ni à l intérieure de l hélice, ni du côté C-terminal de l hélice ; elle peut cependant apparaître pour l un des trois résidus du côté N-terminal. La longueur du segment étendu est au moins de six aminoacides avec Ŝc α > 1.03 et Ŝc α > Ŝc β (Ŝc est la moyenne arithmétique des scores sur les six aminoacides) Règle 2 : Un ensemble de trois acides aminés d affinité H β ou h β (Sc α > Sc β et Sc coude )sur cinq consécutifs initie un feuillet β. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation de feuillet β, c est à dire si Sc β < Si Ŝc β > 1.05 et Ŝc β > Ŝc α pour le segment étendu, alors le segment représente une structure de feuillet β. Règle 3 : Si, pour le résidu i : p t (i) > Ŝc t > 1.00 Ŝc t > Ŝc α Ŝc t > Ŝc β (avec Ŝc : moyenne arithmétique des scores sur les quatre aminoacides de la fenêtre initiée par i), alors le segment de quatre aminoacides représente une structure de coude. Règle 4 : Tout segment recouvrant les régions α et β est une hélice α si ˆP α > Ŝc β ou un feuillet β si Ŝc β > Ŝc α. La méthode de Chou-Fasman présente une efficacité de l ordre de 50 à 60 %. Copyright c 2004 Guillaume Chakroun 14

15 3.2.2 Garnier, Osguthorbe et Robson (méthode GOR) A l instar de la méthode de Chou-Fasman qui considère qu un aminoacide influence directement la structure secondaire dans une fenêtre de quatre résidus, la méthode GOR (con ue en 1978) tient compte du fait que la probabilité d un aminoacide d appartenir à un type de structure secondaire dépend de la nature et de la position de ses voisins. Principe général Le calcul de la propension d un aminoacide à se trouver dans un type de structure secondaire se fait dans une fenêtre de 17 résidus. Un score associé à la fenêtre est calculé grâce à une matrice 20x17 prédisant un type de structure secondaire. On compte une matrice de prédiction d hélice α, une de feuillet β, une de coude β et une dernière de structure chaînes aléatoires (ces deux dernières structures sont des structures de boucle). Le type de matrice pour lequel la fenêtre a obtenu le meilleur score donne la structure prédite pour les 17 résidus de la fenêtre. Les lignes d une de ces matrices correspondent aux 20 acides aminés, les 17 colonnes aux positions des aminoacides dans la fenêtre. L élément (i, j) d une matrice prédisant la structure S donne la probabilité que l aminoacide i soit en conformation S à la position j de la fenêtre. Pour calculer cet évenement, les auteurs de la méthode utilisent la théorie de l information. Soient deux événements S et a ; P (S a) est la probabilité que S advienne sachant que a est advenu. On appelle I(S; a) l information associée à l événement S contraint par a ; définie par l équation : I(S; a) = log ( ) P (S a) P (S) En considèrant que l événement S prend les états H pour hélice α et H pour non hélice α, la méthode GOR maximise l information I(S; a) en calculant la différence d information I( S(H); a) : (3.1) I( S(H); a) = I(S = H; a) I(S = H a) = log ( ) ( ) P (S = H a) P (S = H a) log P (S = H) P (S = H) (3.2) Les différences d information associées à un feuillet β, un coude β ou une chaîne aléatoire s obtiennent de manière analogue en considérant pour chaque cas que l événement S prend l état de la structure ou non. En décomposant l événement a en n événements a 1,..., a n représentant chacun une position dans la séquence de n résidus, on montre que : I(S; a) = I(S; a 1,..., a n ) = I(S; a 1 ) + I(S; a 2 a 1 ) + I(S; a 3 a 1, a 2 ) I(S; a n a 1,..., a n 1 ) (3.3) L influence des aminoacides voisins sera limité à une fenêtre centrée de longueur 17 ; ceci mène à approximer l équation (1) comme suit : I( S j (H); a 1,..., a n ) I( S j (H); a j 8,..., a j+8 ) (3.4) où j est la position de l acide aminé centrale de la fenêtre. En développant l équation (4) à l aide de (3), on obtient : Copyright c 2004 Guillaume Chakroun 15

16 I( S j (H); a j 8,..., a j+8 ) = I( S j (H); a j )+I( S j (H); a j 1 a j )+I( S j (H); a j+1 a j, a j 1 )+...+I( S j (H); (3.5) Il y a deux manières d interpréter l information de l équation (5) ; la méthode de GOR débouche alors sur GORII et GORIII : GORII : information directionnelle L équation (5) devient : I( S j (H); a j 8,..., a j+8 ) 8 k= 8 I( S j (H); a j+k ) (3.6) Les tableaux de références donnent les valeurs I( S j (H); a j+k ), calculées à l aide de la structure cristalline de 75 protéines en déterminant les fréquences P (S a) et P (S) (voir équation (2)). GORIII,GORIV : information vectorielle Ici, on considère l équation (5) comme suit : I( S j (H); a j 8,..., a j+8 ) I( S j (H); a j ) + 8 k= 8,k 0 I( S j (H); a j+k a j ) (3.7) GOR IV calcule l information I( S j (H); a j ) depuis les fréquences P (S a) et P (S) déterminées grâce à une banque de 256 protéines cristallisée, alors que GORIII s appuie sur la banque de 75 protéines utilisée par GORII. L efficacité de GORII est de 56% et celle de GORIV est de l ordre de 71% Amélioration des méthodes L exactitude des méthodes statistiques s est considérablement améliorée pendant l année 1993 lorsque Rost et Sander ont inclu l alignement multiple de séquences dans les programmes de prédiction existant jusque là. Ces nouveaux algorithmes partent du principe que les séquences protéiques ayant subit la même évolution ont au moins en commun quelques sites conservant la structure secondaire. La gamme des aminoacides adaptés à une position donnée pour un profil donné de séquences similaires est également pris en compte. Le programme PSI-BLAST, qui peut identifier des relations d évolution lointaines entre séquences protéiques, a été employé pour élargir la recherche de séquences consensus ; le facteur d exactitude de la prédiction de la structure secondaire a ainsi augmenté. Deux programmes utilisent ce procédé : GORV va prochainement permettre d utiliser le programme PSI-BLAST pour accroître l efficacité de 71% à 74%. DSC, pour Discrimination of secondary Structure Class, utilise le principe de la méthode GOR et de l alignement multiple pour une efficacité de 70,1% ; c est un programme simple et très accessible. D autres méthode utilisent plusieurs méthodes de prédiction statistiques pour augmenter l exactitude de prédiction. Par exemple, DPM (Double Prediction Method) combine la méthode de GOR ainsi qu une méthode de prédiction de la classe de la protéine (α, β, α + β ou α/β) basée sur un tableau statistique dont les paramètres ont été déterminés depuis 135 protéines structuralement connues. L efficacité de cette méthode combinée peut atteindre 72% d exactitude. Copyright c 2004 Guillaume Chakroun 16

17 3.3 Les méthodes tenant compte des propriétés physico-chimiques des acides aminés Méthode : Lim Programmes prédiction de protéines membranaires : TMHMM, PHDhtm, DAS & TopPred2, PHDacc, ASC 3.4 La méthode du plus proche voisin Un nouveau type de prédiction de structure secondaire basé sur des méthodes du plus proche voisin ont vu le jour suite à la découverte d un grand nombre de structure tertiaire durant les années Les séquences protéiques de ces structures tertiaires sont identifiées à la séquence dont on veut prédire la structure secondaire. Procédé général : 1. Une liste de fragments de taille n (en général, n=16) est constituée depuis 100 à 400 séquences de structure connue (appelées également séquences d entraînement). 2. Une fenêtre de la même taille est extraite de la séquence en entrée pour être comparée à chacun des fragments de la liste. Les 50 fragments les plus similaires sont identifiés. 3. Les fréquences de structure secondaire de l aminoacide située au milieu des 50 fragments retenus (f α, f β et f coude ) sont utilisés afin de prédire la structure secondaire de l aminoacide située au milieu de la fenêtre de la séquence en entrée. 4. La fenêtre courante glisse d une position pour prédire la conformation d un nouvel aminoacide ; les étapes 2 et 3 sont répétées et le procédé est réitéré jusqu à ce que tous les résidus-milieu de la séquence aient leur structure secondaire prédite. Actuellement, deux principaux programmes utilisent la méthode du plus proche voisin : NNSSP : l exactitude de ce programme s élève à 73.5% PREDATOR : pour ce programme, l algorithme de l étape 3 de la méthode du plus proche voisin assigne sept des huit éléments de structure secondaire à chaque aminoacide (au lieu de trois pour les méthodes statistiques). L efficatié du programme atteint 75%. 3.5 Les chaînes de Markov cachées Le modèle de chaînes de Markov cachées (de l anglais HMM pour Hidden Markov Model) est un modèle stochastique. Les hélices α, feuillets β et les autres structures issues de séquences connues de la banque PDB sont apprises pour former différents modèles sous forme de chaînes de Markov. Chaque modèle représente une généralisation de la fa on dont les aminoacides sont distribuées dans un groupe de séquence (classe). Par la suite, les structures secondaires d une séquence sont prédites par comparaison avec ces différents modèles. Un score est associé à chaque fragment de la séquence comparé à un modèle donné ; le modèle donnant le plus haut score à un fragment prédit alors la structure secondaire de la portion de séquence. Principe : La prédiction de structures secondaires par la méthode des chaînes cachées de Markov suit le procédé suivant : 1. Alignement multiple des fragments similaires de séquences protéiques dont la structure est connue 2. Génération de modèles de familles structurales (HMM-profil) sous forme de chaînes cachées de Markov Copyright c 2004 Guillaume Chakroun 17

18 3. Prédiction de la structure secondaire de séquences à partir des modèles Présentation des HMMs : Le modèle de Markov cachés est fortement apparenté aux automates probabilistes. Un tel automate est une structure composé d états et de transitions entre états auxquelles sont jointes une probabilité (probabilté de transition). A chaque transition est associé un symbole d un alphabet fini, généré à chaque fois que la transition est empruntée. Contrairement aux automates probabilistes, un HMM génère un symbole au niveau des états et non des transitions ; à chaque état est associé une probabilité d émission d un symbole. Les HMMs définissent donc un processus stochastique : Non déterministe : une même séquence de symboles peut être générée de plusieurs manières différentes Markovien : la séquence des états (le chemin) constitue une chaîne de Markov simple puisque la probabilité de transition vers un état ne dépend que de l état actuel et non des états rencontrés précédemment Caché : on observe les lettres générées par le modèle mais pas la séquence des états qui génèrent ces lettres Voici les éléments définissant un HMM : S : ensemble de L états. S contient les états muets start et end, respectivement état d entrée dans le HMM et état de sortie. Σ : alphabet de M symboles. A = (a i,j ) : matrice des probabiltés a i,j de transitions de l état i à l état j. On note : a ij = P [q t+1 = S j q t = S i ] avec q t : état courant de l automate au temps t ; 1 i, j L. Les contraintes stochastiques sont : 1. a ij 0 2. j a i,j = 1 pour i fixé ɛ = (e j (k)) : matrice des probabilités e j (k) d émission du symbole k associés à l état j. On note : e j (k) = P [v k à t q t = S j ] avec 1 j N et 1 k M. Un exemple simple de HMM est illustré sur la figure 3.1. a1,1 a2,2 START astart,1 1 2 END a1,2 a2,end e1(a) e1(b) e2(a) e2(b) Fig. 3.1 Exemple d un HMM simple à 4 états et 2 symboles e 1 (a) et e 1 (b) : probabilités d émission des symboles a et b Copyright c 2004 Guillaume Chakroun 18

19 a i,j : probabilité de transition de l état i à l état j Ici, a ST ART,1 = 1, a 1,1 + a 1,2 = 1, a 2,2 + a 2,END = 1 (respect des contraintes stochastiques) La procédure de génération d une séquence de symboles à l aide d un HMM est la suivante : 1. Départ à l état initial start 2. Déplacement d état en état suivant les probabilités de transitions 3. Génération d un symbole sur chaque état rencontré en utilisant sa probabilté d émission associé à l état 4. Après émission d un symbole, choix d une transition sortante suivant la probabilité de transition associé à l état 5. Itération de la procédure jusqu à atteindre l état final end Le nombre de chemins possibles est fini et la probabilité de génération d une séquence O = O 1... O L par le modèle M(S, Σ, A) est : P (O M) = a start,i L i=1 e i (O i )a i,i + 1 (3.8) Les HMM-profils Ce sont les mieux adaptés pour modéliser les alignements multiples. A partir d une famille de protéines, un HMM-profil peut-être réalisé pour chercher d autres membres de cette famille. La figure 3.2 représente un HMM-profil. Fig. 3.2 Exemple d un HMMprofil 4 états match (en rouge), 3 états insert (en jaune) et 2 états delete (en vert) Avec : M j : état match j représentant l identité du résidu lors de l alignement multiple I j : état insert j illustrant une insertion de résidus (la transition-boucle signifie que plusieurs insertions peuvent subvenir) D j : état delete permettant l apparition de gaps entre deux résidus : cet état n émet pas de résidus Score d appartenance à une classe de protéine L enjeux d obtenir des modèles de structures secondaires des protéines est de pouvoir classifier les séquences en famille structurale. Un HMM doit donc permettre d évaluer si une séquence donnée appartient ou non à la famille qu il modélise ; il faut calculer la probabilité que la séquence soit créée par un HMM élaboré à partir d une famille. Copyright c 2004 Guillaume Chakroun 19

20 Soit x = x 1 x 2... x n la séquence de n résidus pour laquelle le score d appartenance à une classe modélisée par un HMM est calculé. La probabilité que x soit créée par le HMM est la somme des probabilités d émission de la séquence sur tous les chemins du HMM qui permettent de la générer : P (x) = π P (x π) (3.9) avec π : ensemble des chemins possibles du HMM générant x. Dans la pratique, il y a trop de chemins possibles et le calcul est trop lourd. L algorithme forward permet de calculer rapidement cette probabilté. Algorithme Forward Suivant le principe de la programmation dynamique, cet algorithme calcule pour chaque état du HMM et pour chaque sous-séquence x 1 x 2... x i la probabilité qu elle est été générée par le sous-hmm finissant par cet état. Les variables employées sont : M j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état M j. I j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état I j. D j (i) : probabilité d être dans l état D j alors que les i premiers symboles ont été émis. Soit L le nombre d états match du HMM, on montre que : [ ] M j (i) = e Mj (x i ) a Mj 1 M j M j 1 (i 1) + a Ij 1 M j I j 1 (i 1) + a Dj 1 M j D j 1 (i 1) [ ] I j (i) = e Ij (x i ) a Mj I j M j (i 1) + a Ij I j I j (i 1) + a Dj I j D j (i 1) D j (i) = a Mj 1 D j M j 1 (i) + a Ij 1 D j I j 1 (i) + a Dj 1 D j D j 1 (i) Avec les conditions initiales suivantes : M 0 (0) = 1 M j (0) = 0 j > 0 I j (0) = 0 j 0 M 0 (i) = 0 i > 0 D 0 (i) = 0 i 0 D où la probabilité P (x) que la séquence x soit créée par le HMM : P (x) = a ML M L+1 M L (n) + a IL M L+1 I L (n) + a DL M L+1 D L (n) Cette probabilité n est pas significative car elle dépend de la longueur de la séquence. Il faut pour cela comparer P (x) à la probabilité qu a la séquence d être engendrée selon un modèle aléatoire, dit modèle nul noté P 0. Expérimentalement, le modèle fonctionnant le mieux est la moyenne normalisée de la distribution des acides aminés de la séquence dans un état match. Le score à proprement dit de la séquence x pour le HMM est le log-odds ratio suivant : log z (P (x)/p 0 (x)) (3.10) Une fois ce score calculé, la séquence x appartient à la famille modélisée par le HMM si son score dépasse un certain seuil. Ce seuil est déterminé en examinant les scores des séquences constituant la famille. Apprentissage d un HMM depuis un alignement multiple Copyright c 2004 Guillaume Chakroun 20

VI. Domaines protéiques

VI. Domaines protéiques Chapitre 1 Structure des protéines I. Rappels Définitions II. La Protein Data Bank (PDB) III. Angles dièdres et diagramme de ramachandran IV. Structures secondaires V. Structures supersecondaires VI. Domaines

Plus en détail

Prédiction de la Structure des Protéines. touzet@lifl.fr

Prédiction de la Structure des Protéines. touzet@lifl.fr Prédiction de la Structure des Protéines Hélène TOUZET touzet@lifl.fr Structure Structure Structure Structure primaire secondaire tertiaire quaternaire Exemple : la structure secondaire de la transthyretine

Plus en détail

Annotation de protéines

Annotation de protéines JS Varré Université Lille 1 jean-stephane.varre@lifl.fr http://www.lifl.fr/~varre jean-stephane.varre@lifl.fr 1 / Pourquoi faire de l annotation automatique de protéines? Il est difficile de trouver expérimentalement

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Dr. Christophe Geourjon

Dr. Christophe Geourjon Prédiction de la structure 3D Dr. Christophe Geourjon Pôle de BioInformatique Lyonnais PBIL - Site de Lyon-Gerland IBCP - CNRS UMR 5086 Bioinformatique et RMN structurales 7, passage du Vercors 69367 Lyon

Plus en détail

Master IAD Module PS. Reconnaissance de la parole (suite) Modèles de Markov et bases de données. Gaël RICHARD Février 2008

Master IAD Module PS. Reconnaissance de la parole (suite) Modèles de Markov et bases de données. Gaël RICHARD Février 2008 Master IAD Module PS Reconnaissance de la parole (suite) Modèles de Markov et bases de données Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance vocale

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

RN s et prédiction de la structure secondaire des protéines. Rapport du projet d apprentissage automatique

RN s et prédiction de la structure secondaire des protéines. Rapport du projet d apprentissage automatique COUTURIER Olivier LETOMBE Florian RN s et prédiction de la structure secondaire des protéines Rapport du projet d apprentissage automatique Année universitaire 200/2002 SOMMAIRE I Introduction Page 2 II

Plus en détail

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL Introduction Ces quelques pages ont pour objectif de vous initier aux notions de théorie des graphes enseignées en Terminale ES. Le programme de Terminale (voir ci-après) est construit sur la résolution

Plus en détail

Algorithmique et Analyse d Algorithmes

Algorithmique et Analyse d Algorithmes Algorithmique et Analyse d Algorithmes L3 Info Cours 11 : Arbre couvrant Prétraitement Benjamin Wack 2015-2016 1 / 32 La dernière fois Rappels sur les graphes Problèmes classiques Algorithmes d optimisation

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

Computix. Dans la colonne du 10, B choisit le 7 inférieur A 10 B 7

Computix. Dans la colonne du 10, B choisit le 7 inférieur A 10 B 7 Computix Matériel : grilles carrées comportant un nombre impair de cases. Quelques-unes sont données en annexe ; mais on peut aussi les construire soi-même, ou les faire construire par les élèves. Elles

Plus en détail

Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées. 1 Chaînes de Markov cachées et applications

Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées. 1 Chaînes de Markov cachées et applications Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées 1 Chaînes de Markov cachées et applications Les modèles à données latentes (ou manquantes ou cachées) constituent

Plus en détail

Data Mining. Rapport de Projet

Data Mining. Rapport de Projet Université Bordeaux I 2011 Nicolas FONTAINE Florence MAURIER Jonathan MERCIER Data Mining Rapport de Projet M2 Bioinformatique Responsable : P. Desbarat Table des matières Introduction 1 1 Choix des données

Plus en détail

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire Plan 1 Banques de données 2 Comparaison de 2 séquences Dotplot, alignement optimal Recherche de similarité 3 Alignement multiple l 4 Phylogénie moléculaire Recherche de similarité 1 séquence (Query) comparée

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire Vous aurez besoin des programmes suivant : d un éditeur de séquence d un visualiseur de structure 3D (PyMOL) Avant-propos

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Atelier : L énergie nucléaire en Astrophysique Correction. Elisabeth Vangioni. Institut d Astrophysique de Paris Fleurance, 8 Août 2005

Atelier : L énergie nucléaire en Astrophysique Correction. Elisabeth Vangioni. Institut d Astrophysique de Paris Fleurance, 8 Août 2005 Atelier : L énergie nucléaire en Astrophysique Correction Elisabeth Vangioni Institut d Astrophysique de Paris Fleurance, 8 Août 2005 I. La source d énergie du Soleil : calcul de son temps de vie. Question

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Généralités sur les graphes

Généralités sur les graphes Généralités sur les graphes Christophe ROSSIGNOL Année scolaire 2008/2009 Table des matières 1 Notion de graphe 3 1.1 Un peu de vocabulaire.......................................... 3 1.2 Ordre d un graphe,

Plus en détail

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Plus en détail

L enseignement de l algorithmique au Lycée

L enseignement de l algorithmique au Lycée L enseignement de l algorithmique au Lycée Sisteron 12 novembre 2009 Fernand Didier didier@irem.univ-mrs.fr Approche naïve C est une méthode, une façon systématique de procéder, pour faire quelque chose

Plus en détail

Un corrigé de l épreuve de mathématiques du baccalauréat blanc

Un corrigé de l épreuve de mathématiques du baccalauréat blanc Terminale ES Un corrigé de l épreuve de mathématiques du baccalauréat blanc EXERCICE ( points). Commun à tous les candidats On considère une fonction f : définie, continue et doublement dérivable sur l

Plus en détail

Modèles neuronaux pour la modélisation statistique de la langue

Modèles neuronaux pour la modélisation statistique de la langue Modèles neuronaux pour la modélisation statistique de la langue Introduction Les modèles de langage ont pour but de caractériser et d évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale

Plus en détail

Le «data mining», une démarche pour améliorer le ciblage des contrôles

Le «data mining», une démarche pour améliorer le ciblage des contrôles MINISTERE DE L ECONOMIE ET DES FINANCES Le «data mining», une démarche pour améliorer le ciblage des contrôles La lutte contre la fraude aux finances publiques a été renforcée ces dernières années et a

Plus en détail

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire Avant de commencer le TD, installer (ou vérifier qu ils le sont) sur la partition K: du poste de travail, les

Plus en détail

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce Année 2007-2008 Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce B. Monsuez Projet informatique «Voyageur de commerce» Résolution

Plus en détail

Chapitre 6. Modélisation en P.L.I. 6.1 Lien entre PL et PLI. 6.1.1 Approximation de la PLI

Chapitre 6. Modélisation en P.L.I. 6.1 Lien entre PL et PLI. 6.1.1 Approximation de la PLI Chapitre 6 Modélisation en P.L.I. 6.1 Lien entre PL et PLI (P) problème de PL. On restreint les variables à être entières : on a un problème de PLI (ILP en anglais). On restreint certaines variables à

Plus en détail

INF-130 Travail Pratique #2

INF-130 Travail Pratique #2 École de technologie supérieure INF-30 Travail Pratique #2 Travail individuel Tracé d un métro Francis Bourdeau, Frédérick Henri et Patrick Salois Remise à la 0 e semaine. Objectifs - Amener l étudiant

Plus en détail

Enveloppes convexes dans le plan

Enveloppes convexes dans le plan ÉCOLE POLYTECHNIQUE ÉCOLES NORMALES SUPÉRIEURES ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE B (XECLR)

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

IA54 Compte-rendu «STATIONNEMENT AUTOMATIQUE DE VEHICULE»

IA54 Compte-rendu «STATIONNEMENT AUTOMATIQUE DE VEHICULE» IA54 Compte-rendu «STATIONNEMENT AUTOMATIQUE DE VEHICULE» Henri Payno - Cyril Bailly 1/12/2011 SOMMAIRE 1. Introduction... 3 2. Contraintes... 3 3. Architecture globale... 4 4. Interface... 5 A. Scène

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Déclassement d'actifs et stock brut de capital

Déclassement d'actifs et stock brut de capital Extrait de : La mesure du capital - Manuel de l'ocde 2009 Deuxième édition Accéder à cette publication : http://dx.doi.org/10.1787/9789264067752-fr Déclassement d'actifs et stock brut de capital Merci

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015 Baccalauréat ES Nouvelle-Calédonie mars 015 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats On considère la fonction f définie pour tout réel x de l intervalle [1,5 ; 6] par : f (x)=(5x 3)e x. On

Plus en détail

leur solubilité dans des solutions salines leur forme leur fonction biologique leur mobilité électrophorétique ou leur coefficient de sédimentation

leur solubilité dans des solutions salines leur forme leur fonction biologique leur mobilité électrophorétique ou leur coefficient de sédimentation Les protéines peuvent être classées sur la base de: leur solubilité dans des solutions salines leur forme leur fonction biologique leur mobilité électrophorétique ou leur coefficient de sédimentation leur

Plus en détail

Probabilités Loi binomiale Exercices corrigés

Probabilités Loi binomiale Exercices corrigés Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Un algorithme de composition musicale

Un algorithme de composition musicale Un algorithme de composition musicale Table des matières Présentation Le compositeur. Le code PMX.................................................. Structures de données utilisées........................................

Plus en détail

Figure 2.1 : fenêtre de travail d'excel v7.0

Figure 2.1 : fenêtre de travail d'excel v7.0 2.1. Excel 2.1.1. Présentation Les tableurs sont des utilitaires parfois intégrés aux éditeurs de texte (Works, Word, Kspread) ou non (Excel) et qui permettent la gestion de données numériques, le graphisme

Plus en détail

ENSEIRB-MATMECA PG-113 2014. TP6: Optimisation au sens des moindres carrés

ENSEIRB-MATMECA PG-113 2014. TP6: Optimisation au sens des moindres carrés ENSEIRB-MATMECA PG-113 014 TP6: Optimisation au sens des moindres carrés Le but de ce TP est d implémenter une technique de recalage d images qui utilise une méthode vue en cours d analyse numérique :

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

Chap.3 Lentilles minces sphériques

Chap.3 Lentilles minces sphériques Chap.3 Lentilles minces sphériques 1. Les différents types de lentilles minces sphériques 1.1. Les différentes formes de lentilles sphériques 1.2. Lentilles minces Centre optique 1.3. Lentille convergente

Plus en détail

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool)

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) A A C T G G T A A C C G A G C T A C G G T C C G Algorithme de Blast (version 1) (Altschul et

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015 Baccalauréat ES Nouvelle-Calédonie mars 015 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats Soit f la fonction définie sur l intervalle [1,5 ; 6] par : f (x)=(5x )e x On note C la courbe représentative

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Eléments de Physique Nucléaire

Eléments de Physique Nucléaire Eléments de Physique Nucléaire 1 SOMMAIRE Chapitre I : Caractéristiques générales du Noyau Chapitre II : Énergie de liaison du Noyau Chapitre III : Transformations radioactives Chapitre IV : Réactions

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Prédiction de structures 2D

Prédiction de structures 2D Prédiction de structures 2D Prédiction de structures secondaires et tertiaires «All of the information necessary for folding the peptide chain into its "native" structure is contained in the amino acid

Plus en détail

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban EXERCICE 1 : 4 Points Cet exercice est un questionnaire à choix multiples. Aucune justification n est demandée. Pour chacune des questions, une

Plus en détail

Codes correcteurs d erreurs

Codes correcteurs d erreurs Codes correcteurs d erreurs 1 Partie théorique 1.1 Définition Un code correcteur est une technique de codage de l information basée sur la redondance, qui vise à détecter et corriger des éventuelles erreurs

Plus en détail

Restauration d images

Restauration d images Restauration d images Plan Présentation du problème. Premières solutions naïves (moindre carrés, inverse généralisée). Méthodes de régularisation. Panorama des méthodes récentes. Problème général Un système

Plus en détail

Partie 2, Chapitre 1, TD1 : PROPRIETE DES PROTEINES A PARTIR D UN EXEMPLE : L HEMOGLOBINE

Partie 2, Chapitre 1, TD1 : PROPRIETE DES PROTEINES A PARTIR D UN EXEMPLE : L HEMOGLOBINE Partie 2, Chapitre 1, TD1 : PROPRIETE DES PROTEINES A PARTIR D UN EXEMPLE : L HEMOGLOBINE L analyse chimique d une cellule montre qu elle est constituée de 70% d eau et de 30% de molécules organiques (dont

Plus en détail

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité?

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité? TD Bioinformatique : Sequence lignment Pourquoi faire une recherche par similarité? - Savoir si ma séquence ressemble à d'autres déjà connues. - Trouver toutes les séquences d'une même famille. - Rechercher

Plus en détail

Généralités sur les structures de protéines

Généralités sur les structures de protéines Généralités sur les structures de protéines Le Paradoxe de Levinthal: En 1969 Cyrus Levinthal a noté qu'à cause du grand nombre de degrés de liberté dans un polypeptide déplié, une protéine a un nombre

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Modélisation de la structure 3D des protéines

Modélisation de la structure 3D des protéines Modélisation de la structure 3D des protéines We are drowning in data and starving for knowledge -R.D. Roger Unité Mathématique Informatique et Génome Séminaire AGENAE, Seignosse-le-Pénon, 20-21 mai 2003

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Louis-André Vallet (CNRS) Laboratoire de Sociologie Quantitative, CREST, UMR 2773 CNRS & INSEE

Louis-André Vallet (CNRS) Laboratoire de Sociologie Quantitative, CREST, UMR 2773 CNRS & INSEE Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d un tableau de contingence : un exemple d application à la mobilité sociale Louis-André Vallet (CNRS)

Plus en détail

UV Théorie de l Information. Codes à longueur variable

UV Théorie de l Information. Codes à longueur variable Cours n 5 : UV Théorie de l Information Compression de l information : Codage de source sans distorsion Ex 1 : Code de Shannon Fano Ex 2 : Code de Huffman Ex 3 : Codage par plage Ex 4 : Codage de Lempel

Plus en détail

ÉLÉMENTS D OPTIMISATION. Complément au cours et au livre de MTH 1101 - CALCUL I

ÉLÉMENTS D OPTIMISATION. Complément au cours et au livre de MTH 1101 - CALCUL I ÉLÉMENTS D OPTIMISATION Complément au cours et au livre de MTH 1101 - CALCUL I CHARLES AUDET DÉPARTEMENT DE MATHÉMATIQUES ET DE GÉNIE INDUSTRIEL ÉCOLE POLYTECHNIQUE DE MONTRÉAL Hiver 2011 1 Introduction

Plus en détail

Loi normale ou loi de Laplace-Gauss

Loi normale ou loi de Laplace-Gauss LivreSansTitre1.book Page 44 Mardi, 22. juin 2010 10:40 10 Loi normale ou loi de Laplace-Gauss I. Définition de la loi normale II. Tables de la loi normale centrée réduite S il y avait une seule loi de

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Contrôle des spécifications dimensionnelles et géométriques sur Machines à Mesurer Tridimensionnelles

Contrôle des spécifications dimensionnelles et géométriques sur Machines à Mesurer Tridimensionnelles Contrôle des spécifications dimensionnelles et géométriques sur Machines à Mesurer Tridimensionnelles 1 Inspection d une spécification portée sur un dessin Les étapes : Définir selon la norme (ISO) la

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7 Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques Elec 2311 : S7 1 Plan du cours Qu est-ce l optimisation? Comment l optimisation s intègre dans la conception?

Plus en détail

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modèles à Événements Discrets. Réseaux de Petri Stochastiques Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés

Plus en détail

Développement itératif, évolutif et agile

Développement itératif, évolutif et agile Document Développement itératif, évolutif et agile Auteur Nicoleta SERGI Version 1.0 Date de sortie 23/11/2007 1. Processus Unifié Développement itératif, évolutif et agile Contrairement au cycle de vie

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Mode de fixation des différents complexes. Gd-DTPA (charge : -2)

Mode de fixation des différents complexes. Gd-DTPA (charge : -2) Les sites de fixation des différents complexes La protéine X fait partie des protéines qui lient la choline (choline binding proteins - ChBP). Le motif fixant la choline (choline binding motive : cbm)

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables

Plus en détail

Vision par Ordinateur

Vision par Ordinateur Vision par Ordinateur James L. Crowley DEA IVR Premier Bimestre 2005/2006 Séance 6 23 novembre 2005 Détection et Description de Contraste Plan de la Séance : Description de Contraste...2 Le Détecteur de

Plus en détail

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé Baccalauréat ES Centres étrangers 1 juin 14 - Corrigé A. P. M. E. P. Exercice 1 5 points Commun à tous les candidats 1. On prend un candidat au hasard et on note : l évènement «le candidat a un dossier

Plus en détail

PROTOCOLE DE DESSIN DES OLIGONUCLEOTIDES LONGS POUR PUCES A ADN. Sommaire

PROTOCOLE DE DESSIN DES OLIGONUCLEOTIDES LONGS POUR PUCES A ADN. Sommaire Sommaire 1. PRINCIPE DE FONCTIONNEMENT:... 2 2. PRE-REQUIS AVANT LE DESSIN DES OLIGONUCLEOTIDES:... 3 2.1 Installation du logiciel OligoArray sur PC:... 3 2.2 Installation du logiciel OligoArray sur Mac:...

Plus en détail

Patrick Morié, Bernard-Philippe Boyer

Patrick Morié, Bernard-Philippe Boyer Patrick Morié, Bernard-Philippe Boyer Tsoft et Groupe Eyrolles, 2004, ISBN : 2-212-11418-4 5 - ANALYSE ET SIMULATION 5 MODÈLE ITÉRATIF 1 - NOTION D ITÉRATION Dans certains modèles, il arrive qu une formule

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Problème de contrôle optimal pour une chaîne de Markov

Problème de contrôle optimal pour une chaîne de Markov Problème de contrôle optimal pour une chaîne de Markov cours ENSTA MA206 Il s agit de résoudre un problème d arrêt optimal pour une chaîne de Markov à temps discret. Soit X n une chaîne de Markov à valeurs

Plus en détail

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz Master Modélisation Statistique M2 Finance - chapitre 1 Gestion optimale de portefeuille, l approche de Markowitz Clément Dombry, Laboratoire de Mathématiques de Besançon, Université de Franche-Comté.

Plus en détail

LES DECIMALES DE π BERNARD EGGER

LES DECIMALES DE π BERNARD EGGER LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,

Plus en détail

Détermination des structures moléculaires Structures et diffraction.

Détermination des structures moléculaires Structures et diffraction. Détermination des structures moléculaires Structures et diffraction. Pr. Richard Welter, Institut de Biologie Moléculaire des Plantes, welter@unitra.fr CONTENU DES ENSEIGNEMENTS 1) Discussion sur la notion

Plus en détail

Regime Switching Model : une approche «pseudo» multivarie e

Regime Switching Model : une approche «pseudo» multivarie e Regime Switching Model : une approche «pseudo» multivarie e A. Zerrad 1, R&D, Nexialog Consulting, Juin 2015 azerrad@nexialog.com Les crises financières survenues dans les trente dernières années et les

Plus en détail

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES. EXEMPLE DE SUJET n 1

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES. EXEMPLE DE SUJET n 1 Exemple de sujet n 1 Page 1/7 BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES EXEMPLE DE SUJET n 1 Ce document comprend : Pour l examinateur : - une fiche descriptive du sujet page 2/7 - une fiche

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

Chapitre 4 Les Protéines : définitions et Structures. Professeur Michel SEVE

Chapitre 4 Les Protéines : définitions et Structures. Professeur Michel SEVE UE1: Biomolécules (1) : Acides aminés et protéines Chapitre 4 Les Protéines : définitions et Structures Professeur Michel SEVE Année universitaire 2011/2012 Université Joseph Fourier de Grenoble - Tous

Plus en détail