Prédiction de la structure d une

Dimension: px
Commencer à balayer dès la page:

Download "Prédiction de la structure d une"

Transcription

1 Prédiction de la structure d une protéine Soluscience Guillaume Chakroun guillaume Copyright c 2004 Guillaume Chakroun

2 TABLE DES MATIÈRES Table des matières 1 Les structures protéiques La structure primaire La structure secondaire La structure tertiaire La structure quaternaire Figure récapitulative Les banques de données de structures protéiques Les méthodes expérimentales de détermination des structures protéiques La cristallographie rayon X La spectroscopie RMN Les banques de structures protéiques Les différentes classes de structures protéiques La banque de structures protéiques PDB Les autres banques de structures protéiques Prédiction de la structure secondaire à partir de la séquence Critère d efficacité des méthodes présentées Les méthodes statistiques Chou-Fasman Garnier, Osguthorbe et Robson (méthode GOR) Amélioration des méthodes Les méthodes tenant compte des propriétés physico-chimiques des acides aminés La méthode du plus proche voisin Les chaînes de Markov cachées Les réseaux de neurones Programmes de prédiction de structure secondaire Méthodologie Prédiction de la structure tertiaire à partir de la structure primaire Méthodes de prédiction par modèle d homologie Méthode de prédiction par reconnaissance de repliement Méthode de prédiction ab initio Outils de prédiction de la structure tertiaire Méthodologie Copyright c 2004 Guillaume Chakroun 2

3 TABLE DES FIGURES Table des figures 1.1 Exemple d une représentation en structure primaire d une protéine Exemple d une hélice alpha Exemple d un feuillet béta Exemple d une représentation en structure tertiaire d une protéine Exemple d une représentation en structure quaternaire d une protéine Relation entre les différentes catégories de structures Exemple d un HMM simple à 4 états et 2 symboles Exemple d un HMMprofil Modèle de structure α-plex Exemple d un réseau de neurones Propagation d un signal dans un réseau de neurones trois couches Illustration de la back propagation calibrant les paramètres du réseau Diagramme méthodologique de la prédiction de la structure tertiaire d une protéine 31 Copyright c 2004 Guillaume Chakroun 3

4 LISTE DES TABLEAUX Liste des tableaux 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman Liste des principaux programmes utilisés pour la prédiction de structures secondaires 28 Copyright c 2004 Guillaume Chakroun 4

5 Chapitre 1 Les structures protéiques La structure tertiaire de la protéine est centrale à la génomique, car plus encore que la séquence, c est elle qui détermine sa fonction. La structure va déterminer les sites actifs ou les épitopes d antigénicité (partie d un antigène reconnu par un anticorps). Prédire la structure 3D d une protéine, c est donc approcher la fonction potentielle qu elle assure dans la cellule. Outre leur importance fonctionnelle, les structures secondaires et tertiaires présentent un intérêt cognitif majeur car elles sont mieux conservées que les séquences au cours de l évolution. La structure des protéines comporte quatre niveaux différents : 1.1 La structure primaire C est la séquence proprement dite des acides aminés enchaînés les uns aux autres par des liaisons covalentes et éventuellement par des ponts disulfures. Un exemple de la représentation en structure primaire d une protéine est illustrée sur la figure 1.1. Fig. 1.1 Exemple d une représentation en structure primaire d une protéine 1.2 La structure secondaire Elle correspond aux formations périodiques qu adoptent des portions partielles d une protéine donnée. Ces repliements sont : L hélice alpha (voir figure 1.2) Le feuillet bêta (voir figure 1.3) Une boucle ou coude, structure instable enroulée aléatoirement ( random coil en anglais) Copyright c 2004 Guillaume Chakroun 5

6 Fig. 1.2 Exemple d une hélice alpha Fig. 1.3 Exemple d un feuillet béta Copyright c 2004 Guillaume Chakroun 6

7 1.3 La structure tertiaire C est la conformation tridimensionnelle thermodynamiquement stable (due à un ensemble de liaisons non covalentes, comme les liaisons hydrogènes ou les ponts salins, ainsi qu à des ponts disulfures qui sont des liaisons covalentes) qu adoptent les différents éléments de la structure secondaire entre eux pour former la protéine ou une des sous-unités d une protéine plus complexe (voir figure 1.4). La conformation native d une protéine dépend à la fois de sa séquence et du milieu dans lequel elle est solubilisée. Le repliement 3D ( fold en anglais) représente le meilleur compromis entre l enfouissement des résidus d acides aminés hydrophobes (alanine, leucine, isoleucine, proline et valine), puisque la plupart des milieux organiques sont aqueux, et les possibibités de rotation autour des liaisons chimiques. Fig. 1.4 Exemple d une représentation en structure tertiaire d une protéine Les hélices α sont représentées en rose, les feuillets β en jaune et les coudes en gris 1.4 La structure quaternaire Certaines protéines, complexes, sont constituées de plusieurs sous-unités : les monomères. La structure 4D est l arrangement spatial de ces différentes unités ; leur rassemblement est un oligomère (voir figure 1.5). Il existe bien sûr des méthodes physiques expérimentales pour déterminer la structure (voir partie 2.1) mais elles sont lourdes et coûteuses, et ne peuvent s appliquer à toutes les protéines (inutilisables pour les protéines non solubles, comme les protéines membrannaires, d où l importance, là encore, de la prédiction in silico). 1.5 Figure récapitulative Copyright c 2004 Guillaume Chakroun 7

8 Fig. 1.5 Exemple d une représentation en structure quaternaire d une protéine Deux monomères (l un en vert, l autre en bleu) forme un oligomère Fig. 1.6 Relation entre les différentes catégories de structures Copyright c 2004 Guillaume Chakroun 8

9 Chapitre 2 Les banques de données de structures protéiques Il est difficile de déterminer la structure des protéines expérimentalement. Les banques de séquences ne cessent de croître à l instar des banques de structures protéiques : actuellement, plus de dix millions de gènes sont présents dans GenBank alors que seulement vingt milles structures protéiques sont répertoriées dans PDB (Protein Data Bank). Les chercheurs estiment qu un millier de modèles de structures suffiraient à modéliser l ensemble des protéines existantes. 2.1 Les méthodes expérimentales de détermination des structures protéiques Ces méthodes expérimentales permettent d alimenter les banques de structures utilisées par les méthodes de prédiction présentées dans la partie La cristallographie rayon X Le principe de la détermination d une protéine par cristallographie au rayon X est de déterminer la position de ses atomes afin d en déduire un modèle structural. La position précise de chaque atome d une molécule peut être déterminée seulement si la molécule est cristallisée (l organisation des atomes forme des cristaux). Lorsque les rayons X frappent une molécule cristallisée, les électrons entourant chaque atome courbent ou diffractent le faisceau rayon X ; ce phénomène permet de déduire un modèle de diffraction par rayon X par analyse de la densité des électrons. Un ordinateur interprète alors mathématiquement ce modèle et reconstruit la position des atomes pour finalement donner un modèle quasi exact de la structure de la molécule La spectroscopie RMN La spectroscopie par résonnance magnétique nucléaire (RMN) repose sur l analyse des noyaux atomiques de la molécule. Chaque noyau porte une charge. Lorsque les spins des protons et des neutrons d un noyau sont impairs, le spin total du noyau crée un dipùle magnétique le long de l axe spinal ; la magnitude intrinsèque de ce dipùle est une propriété nucléaire fondamentale appellée le moment magnétique nucléaire. Depuis cette propriété est établie une corrélation entre la symétrie de la distribution de charge du noyau et sa structure interne. Par la suite, les distances entre certains atomes de la molécule sont connues. La connaissance de ces distances permet alors Copyright c 2004 Guillaume Chakroun 9

10 de déterminer un modèle de la molécule satisfaisant toutes les contraintes stéréochimiques liées à la structure. La structure de la molécule est finalement déduite. 2.2 Les banques de structures protéiques Les différentes classes de structures protéiques Quatre principales classes de structure protéique, basées sur les types et les arrangements des structures secondaires, ont été établies par Levitt et Chlothia en 1976 : 1. Classe α : regroupe les hélices α connectées en boucle à la surface des protéines. 2. Classe β : regroupe les feuillets β antiparallèles, généralement deux feuillets en contact formant un sandwich. 3. Classe α/β : regroupe principalement les feuillets β parallèles joints avec des hélices α, mais peut également regrouper des feuillets β mixtes. 4. Classe α + β : regroupe principalement les hélices α isolées joints à des feuillets β antiparallèles. Deux sous-classes s ajoutent aux classes précédentes : Classe des protéines multidomaines regroupant les domaines représentant plus d une des quatre principales classes. Classe des protéines membranaires et de surface cellulaire, protéines du système immunitaire mis à part La banque de structures protéiques PDB Protein Data Bank est la banque de référence des structures protéiques obtenues expérimentalement par cristallographie rayon X ou spectroscopie RMN. Jusqu en mai 2003, structures protéiques ont été entrées dans la banque ; de 50 à 100 nouvelles structures sont déposées chaque semaine. Les coordonnées des atomes formant la structure d une protéine, le détail de la séquence, les conditions de cristallisation sont les principales informations disponibles pour chaque structure de la banque PDB. C est à partir de cette banque que sont détectés les homologues structuraux. La majorité des séquences ont une homologie structurale inférieure à 20% ; on évalue à environ 1000 le nombre total de structures protéiques originales qui suffirait à modéliser la quasi-totalité des protéines connues Les autres banques de structures protéiques SCOP (Structural Classification of Proteins) : Banque de données regroupant les protéines de la PDB présentant une relation de similarité structurale et d évolution. Le classement dans la banque se fait selon trois principaux niveaux hiérarchiques : 1. Famille : relation d évolution commune clairement établie. Le degré de similarité de séquence entre pairs de résidus est supérieur à 30%. 2. Superfamille : origine d évolution commune probable. Le degré de similarité de séquence est faible ; néanmoins, les dispositifs structuraux et fonctionnels des protéines suggèrent une évolution d origine commune. Copyright c 2004 Guillaume Chakroun 10

11 3. Repliement : similarité structurale majeure. Les protéines partagent ici une majorité de structures secondaires dans le même arrangement et avec les mêmes connexions topologiques. Les régions en coude et périphériques aux autres structures secondaires diffèrent souvent en taille et en conformation. Les protéines ayant des repliements communs ne semblent pas avoir une origine d évolution commune ; seules les propriétés physiques et chimiques leur donnent un arrangement similaire. CATH (Class Architecture Topology and Homology) : Les protéines dont la structure a été déterminée par RMN et celles dont la résolution de détermination des structures par cristallographie rayon X est supérieure à 3 angstroms sont répertoriés dans cette banque. La hiérarchie de classification de CATH est composée de quatre principaux niveaux : 1. Niveau C (Classe) : sont répertoriées les structures protéiques appartenant aux classes α et β de la classification de Lewitt et Chothia (voir partie ). Une troisième classe α β regroupe à la fois les structures des classes α/β et α + β. Une quatrième classe contient les domaines protéiques avec peu de structures secondaires. 2. Niveau A (Architecture) : classe les protéines en fonction de l architecture de leurs structures secondaires sans tenir compte de leurs connectivités. Ce niveau regroupe principalement les protéines adoptant les architectures en baril ou en sandwich trois couches. 3. Niveau T (Topologie) : les protéines sont classées par familles de repliement, tenant compte de l architecture des structures secondaires mais également de leurs connectivités. 4. Niveau H (superfamilles homologues) : regroupe les domaines protéiques considérés comme partageant un ancêtre commun et pouvant ainsi être décrites comme homologues. Les similarités sont d abord identifiées par comparaison de séquences puis par comparaison de structure. FSSP (Fold classification based on Structure-Structure alignement of Proteins) : regroupe les structures représentatives de la PDB. La banque PDB admet un nombre de structures redondantes de protéines dont les séquences et les structures ont plus de 25% d identité. L ensemble de structures représentatives sans structures redondantes de la banque PDB a été obtenu par alignement structural à l aide du programme DALI. MMDB (Molecular Modeling DataBase) : sous-ensemble des structures tridimensionnelles de la banque PDB, modèles théoriques exclus. Cette banque, hébergée par le site Entrez de NCBI, permet d archiver les données structures conventionnelles de manière flexible afin de pouvoir y ajouter d autres structures reconnues par des technologies telles que la microscopie électronique. SARF (Spacial ARrangement of backbone Fragments) : basée sur la détection d éléments de structures secondaires compatibles pour trouver les structures 3D similaires. Le site web de SARF propose un arbre construit à partir de la similarité des structures 3D. Copyright c 2004 Guillaume Chakroun 11

12 Chapitre 3 Prédiction de la structure secondaire à partir de la séquence A partir de la séquence d acides aminés, on cherche à déterminer la structure secondaire qui est codifiée en une succession d états grâce à un alphabet de trois lettres : portions en hélice alpha (H), feuillet beta (E : brin étendu) et en coude (C). Pour cela, les programmes de prédiction ont recourt à plusieurs méthodes : Méthodes statistiques : les premières datent de A partir de la connaissance des structures tertiaires d un échantillon de protéines modèles, on établit une table d occurrences comptabilisant les proportions observées de chacun des vingt acides aminés dans un état structural donné. La prédiction est établit à partir de cette table. Méthodes tenant compte des propriétés physico-chimiques des acides aminés : telles que la charge, l hydrophobicité et l hydrophilie. Celles-ci influent en effet directement sur les relations de proximité et donc sur la position des acides aminés à l intérieur (coeur hydrophobe : les structures hélice α et feuillet β dominent) ou à la surface de la protéine (boucles). Méthode des plus proches voisins : utilise la similarité entre sous-séquences de protéines dont la structure est connue pour prédire la structure de la protéine recherchée. Chaînes de Markov : des chaînes de Markov cachées modélisent chaque type de structure secondaire par entraînement sur des séquences appartenant à la même famille structurale. Une fois les paramètres de ces modèles calibrés, un score est associé à chaque chaîne de Markov cachée pour une séquence donnée. Le modèle donnant le meilleur score pour une portion de la séquence prédit alors la structure secondaire associée à cette portion. Méthode d apprentissage par réseaux de neurones : analogue à la méthode utilisant les chaînes de Markov cachées. Des réseaux de neurones modélisent les structures secondaires existantes par entraînement sur des séquences dont les structures sont connues. L influence de la structure tertiaire sur la structure secondaire n est toutefois pas prise en compte par ces méthodes. La prédiction est plus efficace encore quand l analyse est appliquée sur un alignement multiple, c est à dire sur un jeu de séquences homologues alignées. La structure étant plus conservée (sous la pression de sélection) que la séquence, les régions conservées (régions similaires rencontrées entre plusieurs séquences) donnent plus de poids à la prédiction. 3.1 Critère d efficacité des méthodes présentées Afin de connaitre l efficacité de chaque méthode de prédiction de la structure secondaire d une protéine, le critère 3-state est introduit (noté Q 3 ). Il représente le taux de résidus correspondant Copyright c 2004 Guillaume Chakroun 12

13 à l une des trois configurations réelles (hélice α, feuillet β ou coude) dans laquelle se trouve un acide aminé donné de la protéine. Par exemple, si la structure secondaire correcte d une protéine est HHCE et que la structure prédite est HEEE, alors le critère d exactitude 3-state vaut 33%. 3.2 Les méthodes statistiques Les méthodes statistiques prédisent les structures secondaires d une protéine à l aide de tableaux de valeurs expérimentales calculées à partir de structures cristallines connues Chou-Fasman Cette méthode, connue en 1974, se base sur les propriétés physico-chimiques définissant la stabilité de la protéine, telles que l hydrophobicité. Les auteurs ont donc calculé les valeurs des paramètres de conformation d un aminoacide de se trouver dans une structure d hélice α, de feuillet β ou de coude à partir de la structure cristalline de 29 protéines déterminée par cristallographie rayon X. Le tableau 3.1 regroupent les probabilités d un aminoacide i de se trouver dans une structure d hélice α (P α (i)), de feuillet β (P β (i)) ou de coude (P t (i)) ainsi que les fréquences f i de courbures des quatre aminoacides consécutives participant à la structure de coude. Ce tableau sous classe les aminoacides suivant leur score de conformation ; on distingue six degrés d affinité pour chaque structure secondaire s : H s : strong s former forte tendance à se trouver en structure s. h s : s former bonne tendance à se trouver en structure s. I s : weak s former tendance faible à se trouver en structure s. i s : s indifferent pas de tendance particulière. b s : s breaker tendance à empêcher la structure s. B s : strong s breaker forte tendance à empêcher la structure s. Principe : La séquence pour laquelle on veux prédire les structures secondaires est parcourue par une fenêtre glissante de quatre aminoacides. Le score Sc s (i) pour la structure s de la première aminoacide i de cette fenêtre est calculé comme suit, en tenant compte des trois acides aminés suivants (i + 1, i + 2 et i + 3) : i+3 Sc s (i) = P s (j) De même, la probabilité de courbure au niveau du résidu i positionné au début de la fenêtre de quatre aminoacides est : j=i i+3 p t (i) = f(j) L ensemble des règles définissant l algorithme de Chou-Fasman permet ensuite de prédire la structure secondaire de chaque aminoacide de la séquence : Règle 1 : Un ensemble de quatre acides aminés d affinité H α ou h α (Sc α > Sc β et Sc coude ) sur six consécutifs initie une hélice. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation d hélice α, c est à dire si Sc α < Les deux conditions suivantes confirment la structure en hélice α de ce segment étendu : j=i Copyright c 2004 Guillaume Chakroun 13

14 Tab. 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman Les probabilités en rouge représente un degré d affinité strong former, un degré former en orange, un degré weak former en jaune, un degré indifferent en maginta, un degré breaker en vert foncé et un degré strong breaker en vert clair La proline ne peut être ni à l intérieure de l hélice, ni du côté C-terminal de l hélice ; elle peut cependant apparaître pour l un des trois résidus du côté N-terminal. La longueur du segment étendu est au moins de six aminoacides avec Ŝc α > 1.03 et Ŝc α > Ŝc β (Ŝc est la moyenne arithmétique des scores sur les six aminoacides) Règle 2 : Un ensemble de trois acides aminés d affinité H β ou h β (Sc α > Sc β et Sc coude )sur cinq consécutifs initie un feuillet β. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation de feuillet β, c est à dire si Sc β < Si Ŝc β > 1.05 et Ŝc β > Ŝc α pour le segment étendu, alors le segment représente une structure de feuillet β. Règle 3 : Si, pour le résidu i : p t (i) > Ŝc t > 1.00 Ŝc t > Ŝc α Ŝc t > Ŝc β (avec Ŝc : moyenne arithmétique des scores sur les quatre aminoacides de la fenêtre initiée par i), alors le segment de quatre aminoacides représente une structure de coude. Règle 4 : Tout segment recouvrant les régions α et β est une hélice α si ˆP α > Ŝc β ou un feuillet β si Ŝc β > Ŝc α. La méthode de Chou-Fasman présente une efficacité de l ordre de 50 à 60 %. Copyright c 2004 Guillaume Chakroun 14

15 3.2.2 Garnier, Osguthorbe et Robson (méthode GOR) A l instar de la méthode de Chou-Fasman qui considère qu un aminoacide influence directement la structure secondaire dans une fenêtre de quatre résidus, la méthode GOR (con ue en 1978) tient compte du fait que la probabilité d un aminoacide d appartenir à un type de structure secondaire dépend de la nature et de la position de ses voisins. Principe général Le calcul de la propension d un aminoacide à se trouver dans un type de structure secondaire se fait dans une fenêtre de 17 résidus. Un score associé à la fenêtre est calculé grâce à une matrice 20x17 prédisant un type de structure secondaire. On compte une matrice de prédiction d hélice α, une de feuillet β, une de coude β et une dernière de structure chaînes aléatoires (ces deux dernières structures sont des structures de boucle). Le type de matrice pour lequel la fenêtre a obtenu le meilleur score donne la structure prédite pour les 17 résidus de la fenêtre. Les lignes d une de ces matrices correspondent aux 20 acides aminés, les 17 colonnes aux positions des aminoacides dans la fenêtre. L élément (i, j) d une matrice prédisant la structure S donne la probabilité que l aminoacide i soit en conformation S à la position j de la fenêtre. Pour calculer cet évenement, les auteurs de la méthode utilisent la théorie de l information. Soient deux événements S et a ; P (S a) est la probabilité que S advienne sachant que a est advenu. On appelle I(S; a) l information associée à l événement S contraint par a ; définie par l équation : I(S; a) = log ( ) P (S a) P (S) En considèrant que l événement S prend les états H pour hélice α et H pour non hélice α, la méthode GOR maximise l information I(S; a) en calculant la différence d information I( S(H); a) : (3.1) I( S(H); a) = I(S = H; a) I(S = H a) = log ( ) ( ) P (S = H a) P (S = H a) log P (S = H) P (S = H) (3.2) Les différences d information associées à un feuillet β, un coude β ou une chaîne aléatoire s obtiennent de manière analogue en considérant pour chaque cas que l événement S prend l état de la structure ou non. En décomposant l événement a en n événements a 1,..., a n représentant chacun une position dans la séquence de n résidus, on montre que : I(S; a) = I(S; a 1,..., a n ) = I(S; a 1 ) + I(S; a 2 a 1 ) + I(S; a 3 a 1, a 2 ) I(S; a n a 1,..., a n 1 ) (3.3) L influence des aminoacides voisins sera limité à une fenêtre centrée de longueur 17 ; ceci mène à approximer l équation (1) comme suit : I( S j (H); a 1,..., a n ) I( S j (H); a j 8,..., a j+8 ) (3.4) où j est la position de l acide aminé centrale de la fenêtre. En développant l équation (4) à l aide de (3), on obtient : Copyright c 2004 Guillaume Chakroun 15

16 I( S j (H); a j 8,..., a j+8 ) = I( S j (H); a j )+I( S j (H); a j 1 a j )+I( S j (H); a j+1 a j, a j 1 )+...+I( S j (H); (3.5) Il y a deux manières d interpréter l information de l équation (5) ; la méthode de GOR débouche alors sur GORII et GORIII : GORII : information directionnelle L équation (5) devient : I( S j (H); a j 8,..., a j+8 ) 8 k= 8 I( S j (H); a j+k ) (3.6) Les tableaux de références donnent les valeurs I( S j (H); a j+k ), calculées à l aide de la structure cristalline de 75 protéines en déterminant les fréquences P (S a) et P (S) (voir équation (2)). GORIII,GORIV : information vectorielle Ici, on considère l équation (5) comme suit : I( S j (H); a j 8,..., a j+8 ) I( S j (H); a j ) + 8 k= 8,k 0 I( S j (H); a j+k a j ) (3.7) GOR IV calcule l information I( S j (H); a j ) depuis les fréquences P (S a) et P (S) déterminées grâce à une banque de 256 protéines cristallisée, alors que GORIII s appuie sur la banque de 75 protéines utilisée par GORII. L efficacité de GORII est de 56% et celle de GORIV est de l ordre de 71% Amélioration des méthodes L exactitude des méthodes statistiques s est considérablement améliorée pendant l année 1993 lorsque Rost et Sander ont inclu l alignement multiple de séquences dans les programmes de prédiction existant jusque là. Ces nouveaux algorithmes partent du principe que les séquences protéiques ayant subit la même évolution ont au moins en commun quelques sites conservant la structure secondaire. La gamme des aminoacides adaptés à une position donnée pour un profil donné de séquences similaires est également pris en compte. Le programme PSI-BLAST, qui peut identifier des relations d évolution lointaines entre séquences protéiques, a été employé pour élargir la recherche de séquences consensus ; le facteur d exactitude de la prédiction de la structure secondaire a ainsi augmenté. Deux programmes utilisent ce procédé : GORV va prochainement permettre d utiliser le programme PSI-BLAST pour accroître l efficacité de 71% à 74%. DSC, pour Discrimination of secondary Structure Class, utilise le principe de la méthode GOR et de l alignement multiple pour une efficacité de 70,1% ; c est un programme simple et très accessible. D autres méthode utilisent plusieurs méthodes de prédiction statistiques pour augmenter l exactitude de prédiction. Par exemple, DPM (Double Prediction Method) combine la méthode de GOR ainsi qu une méthode de prédiction de la classe de la protéine (α, β, α + β ou α/β) basée sur un tableau statistique dont les paramètres ont été déterminés depuis 135 protéines structuralement connues. L efficacité de cette méthode combinée peut atteindre 72% d exactitude. Copyright c 2004 Guillaume Chakroun 16

17 3.3 Les méthodes tenant compte des propriétés physico-chimiques des acides aminés Méthode : Lim Programmes prédiction de protéines membranaires : TMHMM, PHDhtm, DAS & TopPred2, PHDacc, ASC 3.4 La méthode du plus proche voisin Un nouveau type de prédiction de structure secondaire basé sur des méthodes du plus proche voisin ont vu le jour suite à la découverte d un grand nombre de structure tertiaire durant les années Les séquences protéiques de ces structures tertiaires sont identifiées à la séquence dont on veut prédire la structure secondaire. Procédé général : 1. Une liste de fragments de taille n (en général, n=16) est constituée depuis 100 à 400 séquences de structure connue (appelées également séquences d entraînement). 2. Une fenêtre de la même taille est extraite de la séquence en entrée pour être comparée à chacun des fragments de la liste. Les 50 fragments les plus similaires sont identifiés. 3. Les fréquences de structure secondaire de l aminoacide située au milieu des 50 fragments retenus (f α, f β et f coude ) sont utilisés afin de prédire la structure secondaire de l aminoacide située au milieu de la fenêtre de la séquence en entrée. 4. La fenêtre courante glisse d une position pour prédire la conformation d un nouvel aminoacide ; les étapes 2 et 3 sont répétées et le procédé est réitéré jusqu à ce que tous les résidus-milieu de la séquence aient leur structure secondaire prédite. Actuellement, deux principaux programmes utilisent la méthode du plus proche voisin : NNSSP : l exactitude de ce programme s élève à 73.5% PREDATOR : pour ce programme, l algorithme de l étape 3 de la méthode du plus proche voisin assigne sept des huit éléments de structure secondaire à chaque aminoacide (au lieu de trois pour les méthodes statistiques). L efficatié du programme atteint 75%. 3.5 Les chaînes de Markov cachées Le modèle de chaînes de Markov cachées (de l anglais HMM pour Hidden Markov Model) est un modèle stochastique. Les hélices α, feuillets β et les autres structures issues de séquences connues de la banque PDB sont apprises pour former différents modèles sous forme de chaînes de Markov. Chaque modèle représente une généralisation de la fa on dont les aminoacides sont distribuées dans un groupe de séquence (classe). Par la suite, les structures secondaires d une séquence sont prédites par comparaison avec ces différents modèles. Un score est associé à chaque fragment de la séquence comparé à un modèle donné ; le modèle donnant le plus haut score à un fragment prédit alors la structure secondaire de la portion de séquence. Principe : La prédiction de structures secondaires par la méthode des chaînes cachées de Markov suit le procédé suivant : 1. Alignement multiple des fragments similaires de séquences protéiques dont la structure est connue 2. Génération de modèles de familles structurales (HMM-profil) sous forme de chaînes cachées de Markov Copyright c 2004 Guillaume Chakroun 17

18 3. Prédiction de la structure secondaire de séquences à partir des modèles Présentation des HMMs : Le modèle de Markov cachés est fortement apparenté aux automates probabilistes. Un tel automate est une structure composé d états et de transitions entre états auxquelles sont jointes une probabilité (probabilté de transition). A chaque transition est associé un symbole d un alphabet fini, généré à chaque fois que la transition est empruntée. Contrairement aux automates probabilistes, un HMM génère un symbole au niveau des états et non des transitions ; à chaque état est associé une probabilité d émission d un symbole. Les HMMs définissent donc un processus stochastique : Non déterministe : une même séquence de symboles peut être générée de plusieurs manières différentes Markovien : la séquence des états (le chemin) constitue une chaîne de Markov simple puisque la probabilité de transition vers un état ne dépend que de l état actuel et non des états rencontrés précédemment Caché : on observe les lettres générées par le modèle mais pas la séquence des états qui génèrent ces lettres Voici les éléments définissant un HMM : S : ensemble de L états. S contient les états muets start et end, respectivement état d entrée dans le HMM et état de sortie. Σ : alphabet de M symboles. A = (a i,j ) : matrice des probabiltés a i,j de transitions de l état i à l état j. On note : a ij = P [q t+1 = S j q t = S i ] avec q t : état courant de l automate au temps t ; 1 i, j L. Les contraintes stochastiques sont : 1. a ij 0 2. j a i,j = 1 pour i fixé ɛ = (e j (k)) : matrice des probabilités e j (k) d émission du symbole k associés à l état j. On note : e j (k) = P [v k à t q t = S j ] avec 1 j N et 1 k M. Un exemple simple de HMM est illustré sur la figure 3.1. a1,1 a2,2 START astart,1 1 2 END a1,2 a2,end e1(a) e1(b) e2(a) e2(b) Fig. 3.1 Exemple d un HMM simple à 4 états et 2 symboles e 1 (a) et e 1 (b) : probabilités d émission des symboles a et b Copyright c 2004 Guillaume Chakroun 18

19 a i,j : probabilité de transition de l état i à l état j Ici, a ST ART,1 = 1, a 1,1 + a 1,2 = 1, a 2,2 + a 2,END = 1 (respect des contraintes stochastiques) La procédure de génération d une séquence de symboles à l aide d un HMM est la suivante : 1. Départ à l état initial start 2. Déplacement d état en état suivant les probabilités de transitions 3. Génération d un symbole sur chaque état rencontré en utilisant sa probabilté d émission associé à l état 4. Après émission d un symbole, choix d une transition sortante suivant la probabilité de transition associé à l état 5. Itération de la procédure jusqu à atteindre l état final end Le nombre de chemins possibles est fini et la probabilité de génération d une séquence O = O 1... O L par le modèle M(S, Σ, A) est : P (O M) = a start,i L i=1 e i (O i )a i,i + 1 (3.8) Les HMM-profils Ce sont les mieux adaptés pour modéliser les alignements multiples. A partir d une famille de protéines, un HMM-profil peut-être réalisé pour chercher d autres membres de cette famille. La figure 3.2 représente un HMM-profil. Fig. 3.2 Exemple d un HMMprofil 4 états match (en rouge), 3 états insert (en jaune) et 2 états delete (en vert) Avec : M j : état match j représentant l identité du résidu lors de l alignement multiple I j : état insert j illustrant une insertion de résidus (la transition-boucle signifie que plusieurs insertions peuvent subvenir) D j : état delete permettant l apparition de gaps entre deux résidus : cet état n émet pas de résidus Score d appartenance à une classe de protéine L enjeux d obtenir des modèles de structures secondaires des protéines est de pouvoir classifier les séquences en famille structurale. Un HMM doit donc permettre d évaluer si une séquence donnée appartient ou non à la famille qu il modélise ; il faut calculer la probabilité que la séquence soit créée par un HMM élaboré à partir d une famille. Copyright c 2004 Guillaume Chakroun 19

20 Soit x = x 1 x 2... x n la séquence de n résidus pour laquelle le score d appartenance à une classe modélisée par un HMM est calculé. La probabilité que x soit créée par le HMM est la somme des probabilités d émission de la séquence sur tous les chemins du HMM qui permettent de la générer : P (x) = π P (x π) (3.9) avec π : ensemble des chemins possibles du HMM générant x. Dans la pratique, il y a trop de chemins possibles et le calcul est trop lourd. L algorithme forward permet de calculer rapidement cette probabilté. Algorithme Forward Suivant le principe de la programmation dynamique, cet algorithme calcule pour chaque état du HMM et pour chaque sous-séquence x 1 x 2... x i la probabilité qu elle est été générée par le sous-hmm finissant par cet état. Les variables employées sont : M j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état M j. I j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état I j. D j (i) : probabilité d être dans l état D j alors que les i premiers symboles ont été émis. Soit L le nombre d états match du HMM, on montre que : [ ] M j (i) = e Mj (x i ) a Mj 1 M j M j 1 (i 1) + a Ij 1 M j I j 1 (i 1) + a Dj 1 M j D j 1 (i 1) [ ] I j (i) = e Ij (x i ) a Mj I j M j (i 1) + a Ij I j I j (i 1) + a Dj I j D j (i 1) D j (i) = a Mj 1 D j M j 1 (i) + a Ij 1 D j I j 1 (i) + a Dj 1 D j D j 1 (i) Avec les conditions initiales suivantes : M 0 (0) = 1 M j (0) = 0 j > 0 I j (0) = 0 j 0 M 0 (i) = 0 i > 0 D 0 (i) = 0 i 0 D où la probabilité P (x) que la séquence x soit créée par le HMM : P (x) = a ML M L+1 M L (n) + a IL M L+1 I L (n) + a DL M L+1 D L (n) Cette probabilité n est pas significative car elle dépend de la longueur de la séquence. Il faut pour cela comparer P (x) à la probabilité qu a la séquence d être engendrée selon un modèle aléatoire, dit modèle nul noté P 0. Expérimentalement, le modèle fonctionnant le mieux est la moyenne normalisée de la distribution des acides aminés de la séquence dans un état match. Le score à proprement dit de la séquence x pour le HMM est le log-odds ratio suivant : log z (P (x)/p 0 (x)) (3.10) Une fois ce score calculé, la séquence x appartient à la famille modélisée par le HMM si son score dépasse un certain seuil. Ce seuil est déterminé en examinant les scores des séquences constituant la famille. Apprentissage d un HMM depuis un alignement multiple Copyright c 2004 Guillaume Chakroun 20

VI. Domaines protéiques

VI. Domaines protéiques Chapitre 1 Structure des protéines I. Rappels Définitions II. La Protein Data Bank (PDB) III. Angles dièdres et diagramme de ramachandran IV. Structures secondaires V. Structures supersecondaires VI. Domaines

Plus en détail

Dr. Christophe Geourjon

Dr. Christophe Geourjon Prédiction de la structure 3D Dr. Christophe Geourjon Pôle de BioInformatique Lyonnais PBIL - Site de Lyon-Gerland IBCP - CNRS UMR 5086 Bioinformatique et RMN structurales 7, passage du Vercors 69367 Lyon

Plus en détail

Modèles neuronaux pour la modélisation statistique de la langue

Modèles neuronaux pour la modélisation statistique de la langue Modèles neuronaux pour la modélisation statistique de la langue Introduction Les modèles de langage ont pour but de caractériser et d évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées. 1 Chaînes de Markov cachées et applications

Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées. 1 Chaînes de Markov cachées et applications Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées 1 Chaînes de Markov cachées et applications Les modèles à données latentes (ou manquantes ou cachées) constituent

Plus en détail

Mode de fixation des différents complexes. Gd-DTPA (charge : -2)

Mode de fixation des différents complexes. Gd-DTPA (charge : -2) Les sites de fixation des différents complexes La protéine X fait partie des protéines qui lient la choline (choline binding proteins - ChBP). Le motif fixant la choline (choline binding motive : cbm)

Plus en détail

Master IAD Module PS. Reconnaissance de la parole (suite) Modèles de Markov et bases de données. Gaël RICHARD Février 2008

Master IAD Module PS. Reconnaissance de la parole (suite) Modèles de Markov et bases de données. Gaël RICHARD Février 2008 Master IAD Module PS Reconnaissance de la parole (suite) Modèles de Markov et bases de données Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance vocale

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire

TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire TD5 : Prédiction de la structure tridimensionnelle d une protéine Modélisation moléculaire Vous aurez besoin des programmes suivant : d un éditeur de séquence d un visualiseur de structure 3D (PyMOL) Avant-propos

Plus en détail

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB... Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au

Plus en détail

Data Mining. Rapport de Projet

Data Mining. Rapport de Projet Université Bordeaux I 2011 Nicolas FONTAINE Florence MAURIER Jonathan MERCIER Data Mining Rapport de Projet M2 Bioinformatique Responsable : P. Desbarat Table des matières Introduction 1 1 Choix des données

Plus en détail

Quelques termes-clef de biologie moléculaire et leur définition

Quelques termes-clef de biologie moléculaire et leur définition Acide aminé (AA) Quelques termes-clef de biologie moléculaire et leur définition Isabelle Quinkal INRIA Rhône-Alpes Septembre 2003 Petite molécule dont l enchaînement compose les protéines - on dit qu

Plus en détail

Classification : a) Les acides aminés à chaîne aliphatique : Glycine Alanine Valine Leucine Isoleucine

Classification : a) Les acides aminés à chaîne aliphatique : Glycine Alanine Valine Leucine Isoleucine LES PROTEINES Objectifs : - Indiquer la structure des acides aminés et leurs propriétés. - Indiquer la structure de la liaison peptidique. - Différencier structure 1, 2, 3 et 4 des protéines. - Citer les

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

Analyse informatique des données moléculaires

Analyse informatique des données moléculaires 6 - Bioinformatique F. CORPET, C. CHEVALET INRA, Laboratoire de Génétique Cellulaire, BP 27, 31326 Castanet-Tolosan cedex e-mail : chevalet@toulouse.inra.fr Analyse informatique des données moléculaires

Plus en détail

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL Introduction Ces quelques pages ont pour objectif de vous initier aux notions de théorie des graphes enseignées en Terminale ES. Le programme de Terminale (voir ci-après) est construit sur la résolution

Plus en détail

Algorithmes pour la comparaison de structures moléculaires tridimensionnelles

Algorithmes pour la comparaison de structures moléculaires tridimensionnelles U N I V E R S I T É P A R I S V I I THÈSE DE DOCTORAT Spécialité : Informatique présentée par VINCENT ESCALIER Pour l obtention du titre de Docteur d Université Algorithmes pour la comparaison de structures

Plus en détail

Chapitre 4 Les Protéines : définitions et Structures. Professeur Michel SEVE

Chapitre 4 Les Protéines : définitions et Structures. Professeur Michel SEVE UE1: Biomolécules (1) : Acides aminés et protéines Chapitre 4 Les Protéines : définitions et Structures Professeur Michel SEVE Année universitaire 2011/2012 Université Joseph Fourier de Grenoble - Tous

Plus en détail

Recherche d homologies

Recherche d homologies Recherche d homologies Soluscience Guillaume Chakroun guillaume chakroun@hotmail.com Copyright c 2004 Guillaume Chakroun TABLE DES MATIÈRES Table des matières 1 Introduction 4 2 Les systèmes de scores

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Notes de cours de spé maths en Terminale ES

Notes de cours de spé maths en Terminale ES Spé maths Terminale ES Lycée Georges Imbert 05/06 Notes de cours de spé maths en Terminale ES O. Lader Table des matières Recherche de courbes sous contraintes, matrices. Systèmes linéaires.......................................

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Molécules du Vivant 3- Protéines

Molécules du Vivant 3- Protéines Molécules du Vivant 3- Protéines Polymères d acides aminés 1 Rôles des protéines Catalyseur enzymatiques Transport et stockage o Hˇm oglobine transporte l'oxyg ne dans les ˇ rythrocytes o Myoglobine transporte

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Regime Switching Model : une approche «pseudo» multivarie e

Regime Switching Model : une approche «pseudo» multivarie e Regime Switching Model : une approche «pseudo» multivarie e A. Zerrad 1, R&D, Nexialog Consulting, Juin 2015 azerrad@nexialog.com Les crises financières survenues dans les trente dernières années et les

Plus en détail

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire Plan 1 Banques de données 2 Comparaison de 2 séquences Dotplot, alignement optimal Recherche de similarité 3 Alignement multiple l 4 Phylogénie moléculaire Recherche de similarité 1 séquence (Query) comparée

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015 Baccalauréat ES Nouvelle-Calédonie mars 015 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats Soit f la fonction définie sur l intervalle [1,5 ; 6] par : f (x)=(5x )e x On note C la courbe représentative

Plus en détail

Un corrigé de l épreuve de mathématiques du baccalauréat blanc

Un corrigé de l épreuve de mathématiques du baccalauréat blanc Terminale ES Un corrigé de l épreuve de mathématiques du baccalauréat blanc EXERCICE ( points). Commun à tous les candidats On considère une fonction f : définie, continue et doublement dérivable sur l

Plus en détail

Louis-André Vallet (CNRS) Laboratoire de Sociologie Quantitative, CREST, UMR 2773 CNRS & INSEE

Louis-André Vallet (CNRS) Laboratoire de Sociologie Quantitative, CREST, UMR 2773 CNRS & INSEE Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d un tableau de contingence : un exemple d application à la mobilité sociale Louis-André Vallet (CNRS)

Plus en détail

Atelier : L énergie nucléaire en Astrophysique Correction. Elisabeth Vangioni. Institut d Astrophysique de Paris Fleurance, 8 Août 2005

Atelier : L énergie nucléaire en Astrophysique Correction. Elisabeth Vangioni. Institut d Astrophysique de Paris Fleurance, 8 Août 2005 Atelier : L énergie nucléaire en Astrophysique Correction Elisabeth Vangioni Institut d Astrophysique de Paris Fleurance, 8 Août 2005 I. La source d énergie du Soleil : calcul de son temps de vie. Question

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Protéines. Biochimie 1. II) Les peptides et protéines a) Définitions b) Les Structures c) Structures et fonctions d) Méthodes d analyses

Protéines. Biochimie 1. II) Les peptides et protéines a) Définitions b) Les Structures c) Structures et fonctions d) Méthodes d analyses Biochimie 1 Protéines I) Les Acides aminés II) Les peptides et protéines a) Définitions b) Les Structures c) Structures et fonctions d) Méthodes d analyses 2009/10 Définitions : Peptides & Protéines =

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

- la transcription permet de copier l'adn en ARNm au niveau du noyau. Elle est réalisée grâce à l ARN polymérase.

- la transcription permet de copier l'adn en ARNm au niveau du noyau. Elle est réalisée grâce à l ARN polymérase. La synthèse des protéines comprend deux étapes: - la transcription permet de copier l'adn en ARNm au niveau du noyau. Elle est réalisée grâce à l ARN polymérase. -la traduction correspond au décodage de

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Algorithmique et Analyse d Algorithmes

Algorithmique et Analyse d Algorithmes Algorithmique et Analyse d Algorithmes L3 Info Cours 11 : Arbre couvrant Prétraitement Benjamin Wack 2015-2016 1 / 32 La dernière fois Rappels sur les graphes Problèmes classiques Algorithmes d optimisation

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

5. Essais immunologiques

5. Essais immunologiques 5. Essais immunologiques Les essais immunologiques sont basés sur la réaction spécifique entre un antigène et un anticorps, les biomolécules impliquées dans le système immunitaire, pour la détection et

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool)

Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) Recherche par similarité dans les banques/bases de données La suite Blast (Basic Local Alignment Search Tool) A A C T G G T A A C C G A G C T A C G G T C C G Algorithme de Blast (version 1) (Altschul et

Plus en détail

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015 Baccalauréat ES Nouvelle-Calédonie mars 015 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats On considère la fonction f définie pour tout réel x de l intervalle [1,5 ; 6] par : f (x)=(5x 3)e x. On

Plus en détail

Factorisation des matrices creuses

Factorisation des matrices creuses Chapitre 5 Factorisation des matrices creuses 5.1 Matrices creuses La plupart des codes de simulation numérique en mécanique des fluides ou des structures et en électromagnétisme utilisent des discrétisations

Plus en détail

Probabilités Loi binomiale Exercices corrigés

Probabilités Loi binomiale Exercices corrigés Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre

Plus en détail

Le vivant est complexe: - 30 millions de types d organismes - 100 000 protéines différentes chez l homme

Le vivant est complexe: - 30 millions de types d organismes - 100 000 protéines différentes chez l homme Introduction Le vivant est complexe: - 30 millions de types d organismes - 100 000 protéines différentes chez l homme Informatique: - stocker les données - éditer les données - analyser les données (computational

Plus en détail

Études par diffraction de fibres de l ADN double brin

Études par diffraction de fibres de l ADN double brin J. Phys. IV France 130 (2005) 63 74 C EDP Sciences, Les Ulis DOI: 10.1051/jp4:2005130004 Études par diffraction de fibres de l ADN double brin V.T. Forsyth 1,2 et I.M. Parrot 1,2 1 Institut Laue Langevin,

Plus en détail

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

L exemple de la détermination de la structure cristallographique de la nucléocapside du bluetongue virus

L exemple de la détermination de la structure cristallographique de la nucléocapside du bluetongue virus J. Phys. IV France 130 (2005) 203 207 C EDP Sciences, Les Ulis DOI: 10.1051/jp4:2005130014 L exemple de la détermination de la structure cristallographique de la nucléocapside du bluetongue virus P. Gouet

Plus en détail

Computix. Dans la colonne du 10, B choisit le 7 inférieur A 10 B 7

Computix. Dans la colonne du 10, B choisit le 7 inférieur A 10 B 7 Computix Matériel : grilles carrées comportant un nombre impair de cases. Quelques-unes sont données en annexe ; mais on peut aussi les construire soi-même, ou les faire construire par les élèves. Elles

Plus en détail

Résonance Magnétique Nucléaire : RMN

Résonance Magnétique Nucléaire : RMN 21 Résonance Magnétique Nucléaire : RMN Salle de TP de Génie Analytique Ce document résume les principaux aspects de la RMN nécessaires à la réalisation des TP de Génie Analytique de 2ème année d IUT de

Plus en détail

Eléments de Physique Nucléaire

Eléments de Physique Nucléaire Eléments de Physique Nucléaire 1 SOMMAIRE Chapitre I : Caractéristiques générales du Noyau Chapitre II : Énergie de liaison du Noyau Chapitre III : Transformations radioactives Chapitre IV : Réactions

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Programme de l enseignement obligatoire commun de mathématiques Cycle terminal de la série sciences et technologies du management et de la gestion

Programme de l enseignement obligatoire commun de mathématiques Cycle terminal de la série sciences et technologies du management et de la gestion Programme de l enseignement obligatoire commun de mathématiques Cycle terminal de la série sciences et technologies du management et de la gestion L enseignement des mathématiques au collège et au lycée

Plus en détail

Architecture des calculateurs

Architecture des calculateurs Chapitre 1 Architecture des calculateurs 1.1 Introduction Ce paragraphe n a pas la prétention de présenter un cours d informatique. D une manière générale, seuls les caractéristiques architecturales qui

Plus en détail

Comparaison et alignement de séquences 2

Comparaison et alignement de séquences 2 Comparaison et alignement de séquences 2 LV348 -BI Sophie Pasek sophie.pasek@upmc.fr Comment comparer une séquence contre une banque? Comparaison séquence/banque Pourquoi? : Réunir un échantillon taxonomique

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Conception assistée par ordinateur de molécules thérapeutiques

Conception assistée par ordinateur de molécules thérapeutiques Conception assistée par ordinateur de molécules thérapeutiques D. Gilis Bioinformatique génomique et structurale Faculté des sciences appliquées Université Libre de Bruxelles Objectif: illustrer en quoi

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Théorie des Langages

Théorie des Langages Théorie des Langages Automates Claude Moulin Université de Technologie de Compiègne Printemps 2013 Sommaire 1 Automate fini 2 Automate et langages réguliers 3 Automate à pile Automate fini déterministe

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

BAC BLANC DE MATHÉMATIQUES TERMINALES ES et L CORRECTION SUCCINCTE. Coefficients 5, 7 ou 4. Année scolaire 2013-2014

BAC BLANC DE MATHÉMATIQUES TERMINALES ES et L CORRECTION SUCCINCTE. Coefficients 5, 7 ou 4. Année scolaire 2013-2014 BA BLAN DE MATHÉMATIQUES TERMINALES ES et L ORRETION SUINTE oefficients, ou Année scolaire - Durée heures Page sur 8 pages Année EXERIE. ommun à tous les candidats sur points Un club de remise en forme

Plus en détail

Vision par Ordinateur

Vision par Ordinateur Vision par Ordinateur James L. Crowley DEA IVR Premier Bimestre 2005/2006 Séance 6 23 novembre 2005 Détection et Description de Contraste Plan de la Séance : Description de Contraste...2 Le Détecteur de

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Chapitre 1 Acides aminés Protéines Méthodes d étude

Chapitre 1 Acides aminés Protéines Méthodes d étude Chapitre 1 Acides aminés Protéines Méthodes d étude Q1 - Parmi la liste des acides aminés cités ci-dessous, précisez ceux dont la chaîne latérale peut participer dans une structure peptidique, et à ph

Plus en détail

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé Baccalauréat ES Centres étrangers 1 juin 14 - Corrigé A. P. M. E. P. Exercice 1 5 points Commun à tous les candidats 1. On prend un candidat au hasard et on note : l évènement «le candidat a un dossier

Plus en détail

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban EXERCICE 1 : 4 Points Cet exercice est un questionnaire à choix multiples. Aucune justification n est demandée. Pour chacune des questions, une

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

1ere L option mathématiques Terminale L spécialité mathématiques. Nouveaux programmes Rentrée 2005

1ere L option mathématiques Terminale L spécialité mathématiques. Nouveaux programmes Rentrée 2005 1ere L option mathématiques Terminale L spécialité mathématiques Nouveaux programmes Rentrée 2005 Les programmes applicables pour l année 2005-2006 En 1ere L: nouveau programme, BO du 9 septembre 2004

Plus en détail

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006 La reconnaissance moléculaire: la base du design rationnel En 1890 Emil Fisher a proposé le modèle "serrure et clé" pour expliquer la façon de fonctionner des systèmes biologiques. Un substrat rentre et

Plus en détail

L enseignement de l algorithmique au Lycée

L enseignement de l algorithmique au Lycée L enseignement de l algorithmique au Lycée Sisteron 12 novembre 2009 Fernand Didier didier@irem.univ-mrs.fr Approche naïve C est une méthode, une façon systématique de procéder, pour faire quelque chose

Plus en détail

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé Baccalauréat S/L Métropole La Réunion 13 septembre 2013 Corrigé A. P. M.. P. XRCIC 1 Commun à tous les candidats Partie A 1. L arbre de probabilité correspondant aux données du problème est : 0,3 0,6 H

Plus en détail

Comparaison et alignement. de séquences 2 LV348 -BI. sophie.pasek@upmc.fr. Sophie Pasek

Comparaison et alignement. de séquences 2 LV348 -BI. sophie.pasek@upmc.fr. Sophie Pasek Comparaison et alignement de séquences 2 LV348 -BI Sophie Pasek sophie.pasek@upmc.fr Comment comparer une séquence contre une banque? Comparaison séquence/banque Pourquoi? : Réunir un échantillon taxonomique

Plus en détail

Apprentissage par méthodes à noyaux en reconnaissance d images

Apprentissage par méthodes à noyaux en reconnaissance d images Apprentissage par méthodes à noyaux en reconnaissance d images Alberto Bietti Table des matières Introduction 2 1 Apprentissage par méthodes à noyaux 2 1.1 Position du problème et motivation..........................

Plus en détail

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES. EXEMPLE DE SUJET n 1

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES. EXEMPLE DE SUJET n 1 Exemple de sujet n 1 Page 1/7 BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES EXEMPLE DE SUJET n 1 Ce document comprend : Pour l examinateur : - une fiche descriptive du sujet page 2/7 - une fiche

Plus en détail

Equipe ACCES Neurosciences

Equipe ACCES Neurosciences Equipe ACCES Neurosciences Programme de 1 ère S : Référentiel : Le cortex sensoriel et la plasticité du système nerveux central (illustration grâce { des images d activation du cortex somesthésique ou

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

ARN et bioinformatique: PDF processed with CutePDF evaluation edition www.cutepdf.com

ARN et bioinformatique: PDF processed with CutePDF evaluation edition www.cutepdf.com ARN et bioinformatique: Partie 1 PDF processed with CutePDF evaluation edition www.cutepdf.com Sommaire Principes biologiques : Transcription/traduction, types d ARN, formes primaires/secondaires. Zuker

Plus en détail

Il s'agit d'une proposition de plan, tout autre plan intégrant les idées maîtresses énoncées ci-dessous étant également valable.

Il s'agit d'une proposition de plan, tout autre plan intégrant les idées maîtresses énoncées ci-dessous étant également valable. Rapport concernant le sujet d'écrit de biologie Traiter un sujet de ce type nécessite à la fois : une construction de l'exposé dégageant les idées maîtresses, avec un plan structuré apparent et comportant

Plus en détail

Cours de mathématiques

Cours de mathématiques Cours de mathématiques Thomas Rey classe de première ES ii Table des matières 1 Les pourcentages 1 1.1 Variation en pourcentage............................... 1 1.1.1 Calcul d une variation............................

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB Ce document, écrit par des animateurs de l IREM de Besançon, a pour objectif de présenter quelques unes des fonctions du logiciel Scilab, celles qui sont spécifiques

Plus en détail

Détermination des structures moléculaires Structures et diffraction.

Détermination des structures moléculaires Structures et diffraction. Détermination des structures moléculaires Structures et diffraction. Pr. Richard Welter, Institut de Biologie Moléculaire des Plantes, welter@unitra.fr CONTENU DES ENSEIGNEMENTS 1) Discussion sur la notion

Plus en détail

...# N # 2 # 1 # N M $ # p p. = C pi

...# N # 2 # 1 # N M $ # p p. = C pi Chapitre X Une application qualitative de la théorie orbitalaire La méthode de Hückel En 1933, Hückel propose une méthode quantique de description de la partie π du nuage électronique des molécules planes

Plus en détail

Correction du baccalauréat STMG Polynésie 17 juin 2014

Correction du baccalauréat STMG Polynésie 17 juin 2014 Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé

Plus en détail

CI-4 PRÉVOIR ET SUPPRIMER LES

CI-4 PRÉVOIR ET SUPPRIMER LES CI-4 LES CONTRAINTES DE MONTAGE D UN SYSTÈME. Objectifs ANALYSER - OPTIMISER A la fin de la séquence de révision, l élève doit être capable de B2 Proposer un modèle de connaissance et de comportement Déterminer

Plus en détail

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité?

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité? TD Bioinformatique : Sequence lignment Pourquoi faire une recherche par similarité? - Savoir si ma séquence ressemble à d'autres déjà connues. - Trouver toutes les séquences d'une même famille. - Rechercher

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Travaux pratiques de traitement d images

Travaux pratiques de traitement d images Travaux pratiques de traitement d images EI3 année 2009-2010 TP n 1 : Segmentation d images en régions p. 3 TP n 2 : Reconnaissance des formes p. 15 Vandenbroucke Nicolas R11 TP n 1 Segmentation d images

Plus en détail