Prédiction de la structure d une

Dimension: px
Commencer à balayer dès la page:

Download "Prédiction de la structure d une"

Transcription

1 Prédiction de la structure d une protéine Soluscience Guillaume Chakroun guillaume Copyright c 2004 Guillaume Chakroun

2 TABLE DES MATIÈRES Table des matières 1 Les structures protéiques La structure primaire La structure secondaire La structure tertiaire La structure quaternaire Figure récapitulative Les banques de données de structures protéiques Les méthodes expérimentales de détermination des structures protéiques La cristallographie rayon X La spectroscopie RMN Les banques de structures protéiques Les différentes classes de structures protéiques La banque de structures protéiques PDB Les autres banques de structures protéiques Prédiction de la structure secondaire à partir de la séquence Critère d efficacité des méthodes présentées Les méthodes statistiques Chou-Fasman Garnier, Osguthorbe et Robson (méthode GOR) Amélioration des méthodes Les méthodes tenant compte des propriétés physico-chimiques des acides aminés La méthode du plus proche voisin Les chaînes de Markov cachées Les réseaux de neurones Programmes de prédiction de structure secondaire Méthodologie Prédiction de la structure tertiaire à partir de la structure primaire Méthodes de prédiction par modèle d homologie Méthode de prédiction par reconnaissance de repliement Méthode de prédiction ab initio Outils de prédiction de la structure tertiaire Méthodologie Copyright c 2004 Guillaume Chakroun 2

3 TABLE DES FIGURES Table des figures 1.1 Exemple d une représentation en structure primaire d une protéine Exemple d une hélice alpha Exemple d un feuillet béta Exemple d une représentation en structure tertiaire d une protéine Exemple d une représentation en structure quaternaire d une protéine Relation entre les différentes catégories de structures Exemple d un HMM simple à 4 états et 2 symboles Exemple d un HMMprofil Modèle de structure α-plex Exemple d un réseau de neurones Propagation d un signal dans un réseau de neurones trois couches Illustration de la back propagation calibrant les paramètres du réseau Diagramme méthodologique de la prédiction de la structure tertiaire d une protéine 31 Copyright c 2004 Guillaume Chakroun 3

4 LISTE DES TABLEAUX Liste des tableaux 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman Liste des principaux programmes utilisés pour la prédiction de structures secondaires 28 Copyright c 2004 Guillaume Chakroun 4

5 Chapitre 1 Les structures protéiques La structure tertiaire de la protéine est centrale à la génomique, car plus encore que la séquence, c est elle qui détermine sa fonction. La structure va déterminer les sites actifs ou les épitopes d antigénicité (partie d un antigène reconnu par un anticorps). Prédire la structure 3D d une protéine, c est donc approcher la fonction potentielle qu elle assure dans la cellule. Outre leur importance fonctionnelle, les structures secondaires et tertiaires présentent un intérêt cognitif majeur car elles sont mieux conservées que les séquences au cours de l évolution. La structure des protéines comporte quatre niveaux différents : 1.1 La structure primaire C est la séquence proprement dite des acides aminés enchaînés les uns aux autres par des liaisons covalentes et éventuellement par des ponts disulfures. Un exemple de la représentation en structure primaire d une protéine est illustrée sur la figure 1.1. Fig. 1.1 Exemple d une représentation en structure primaire d une protéine 1.2 La structure secondaire Elle correspond aux formations périodiques qu adoptent des portions partielles d une protéine donnée. Ces repliements sont : L hélice alpha (voir figure 1.2) Le feuillet bêta (voir figure 1.3) Une boucle ou coude, structure instable enroulée aléatoirement ( random coil en anglais) Copyright c 2004 Guillaume Chakroun 5

6 Fig. 1.2 Exemple d une hélice alpha Fig. 1.3 Exemple d un feuillet béta Copyright c 2004 Guillaume Chakroun 6

7 1.3 La structure tertiaire C est la conformation tridimensionnelle thermodynamiquement stable (due à un ensemble de liaisons non covalentes, comme les liaisons hydrogènes ou les ponts salins, ainsi qu à des ponts disulfures qui sont des liaisons covalentes) qu adoptent les différents éléments de la structure secondaire entre eux pour former la protéine ou une des sous-unités d une protéine plus complexe (voir figure 1.4). La conformation native d une protéine dépend à la fois de sa séquence et du milieu dans lequel elle est solubilisée. Le repliement 3D ( fold en anglais) représente le meilleur compromis entre l enfouissement des résidus d acides aminés hydrophobes (alanine, leucine, isoleucine, proline et valine), puisque la plupart des milieux organiques sont aqueux, et les possibibités de rotation autour des liaisons chimiques. Fig. 1.4 Exemple d une représentation en structure tertiaire d une protéine Les hélices α sont représentées en rose, les feuillets β en jaune et les coudes en gris 1.4 La structure quaternaire Certaines protéines, complexes, sont constituées de plusieurs sous-unités : les monomères. La structure 4D est l arrangement spatial de ces différentes unités ; leur rassemblement est un oligomère (voir figure 1.5). Il existe bien sûr des méthodes physiques expérimentales pour déterminer la structure (voir partie 2.1) mais elles sont lourdes et coûteuses, et ne peuvent s appliquer à toutes les protéines (inutilisables pour les protéines non solubles, comme les protéines membrannaires, d où l importance, là encore, de la prédiction in silico). 1.5 Figure récapitulative Copyright c 2004 Guillaume Chakroun 7

8 Fig. 1.5 Exemple d une représentation en structure quaternaire d une protéine Deux monomères (l un en vert, l autre en bleu) forme un oligomère Fig. 1.6 Relation entre les différentes catégories de structures Copyright c 2004 Guillaume Chakroun 8

9 Chapitre 2 Les banques de données de structures protéiques Il est difficile de déterminer la structure des protéines expérimentalement. Les banques de séquences ne cessent de croître à l instar des banques de structures protéiques : actuellement, plus de dix millions de gènes sont présents dans GenBank alors que seulement vingt milles structures protéiques sont répertoriées dans PDB (Protein Data Bank). Les chercheurs estiment qu un millier de modèles de structures suffiraient à modéliser l ensemble des protéines existantes. 2.1 Les méthodes expérimentales de détermination des structures protéiques Ces méthodes expérimentales permettent d alimenter les banques de structures utilisées par les méthodes de prédiction présentées dans la partie La cristallographie rayon X Le principe de la détermination d une protéine par cristallographie au rayon X est de déterminer la position de ses atomes afin d en déduire un modèle structural. La position précise de chaque atome d une molécule peut être déterminée seulement si la molécule est cristallisée (l organisation des atomes forme des cristaux). Lorsque les rayons X frappent une molécule cristallisée, les électrons entourant chaque atome courbent ou diffractent le faisceau rayon X ; ce phénomène permet de déduire un modèle de diffraction par rayon X par analyse de la densité des électrons. Un ordinateur interprète alors mathématiquement ce modèle et reconstruit la position des atomes pour finalement donner un modèle quasi exact de la structure de la molécule La spectroscopie RMN La spectroscopie par résonnance magnétique nucléaire (RMN) repose sur l analyse des noyaux atomiques de la molécule. Chaque noyau porte une charge. Lorsque les spins des protons et des neutrons d un noyau sont impairs, le spin total du noyau crée un dipùle magnétique le long de l axe spinal ; la magnitude intrinsèque de ce dipùle est une propriété nucléaire fondamentale appellée le moment magnétique nucléaire. Depuis cette propriété est établie une corrélation entre la symétrie de la distribution de charge du noyau et sa structure interne. Par la suite, les distances entre certains atomes de la molécule sont connues. La connaissance de ces distances permet alors Copyright c 2004 Guillaume Chakroun 9

10 de déterminer un modèle de la molécule satisfaisant toutes les contraintes stéréochimiques liées à la structure. La structure de la molécule est finalement déduite. 2.2 Les banques de structures protéiques Les différentes classes de structures protéiques Quatre principales classes de structure protéique, basées sur les types et les arrangements des structures secondaires, ont été établies par Levitt et Chlothia en 1976 : 1. Classe α : regroupe les hélices α connectées en boucle à la surface des protéines. 2. Classe β : regroupe les feuillets β antiparallèles, généralement deux feuillets en contact formant un sandwich. 3. Classe α/β : regroupe principalement les feuillets β parallèles joints avec des hélices α, mais peut également regrouper des feuillets β mixtes. 4. Classe α + β : regroupe principalement les hélices α isolées joints à des feuillets β antiparallèles. Deux sous-classes s ajoutent aux classes précédentes : Classe des protéines multidomaines regroupant les domaines représentant plus d une des quatre principales classes. Classe des protéines membranaires et de surface cellulaire, protéines du système immunitaire mis à part La banque de structures protéiques PDB Protein Data Bank est la banque de référence des structures protéiques obtenues expérimentalement par cristallographie rayon X ou spectroscopie RMN. Jusqu en mai 2003, structures protéiques ont été entrées dans la banque ; de 50 à 100 nouvelles structures sont déposées chaque semaine. Les coordonnées des atomes formant la structure d une protéine, le détail de la séquence, les conditions de cristallisation sont les principales informations disponibles pour chaque structure de la banque PDB. C est à partir de cette banque que sont détectés les homologues structuraux. La majorité des séquences ont une homologie structurale inférieure à 20% ; on évalue à environ 1000 le nombre total de structures protéiques originales qui suffirait à modéliser la quasi-totalité des protéines connues Les autres banques de structures protéiques SCOP (Structural Classification of Proteins) : Banque de données regroupant les protéines de la PDB présentant une relation de similarité structurale et d évolution. Le classement dans la banque se fait selon trois principaux niveaux hiérarchiques : 1. Famille : relation d évolution commune clairement établie. Le degré de similarité de séquence entre pairs de résidus est supérieur à 30%. 2. Superfamille : origine d évolution commune probable. Le degré de similarité de séquence est faible ; néanmoins, les dispositifs structuraux et fonctionnels des protéines suggèrent une évolution d origine commune. Copyright c 2004 Guillaume Chakroun 10

11 3. Repliement : similarité structurale majeure. Les protéines partagent ici une majorité de structures secondaires dans le même arrangement et avec les mêmes connexions topologiques. Les régions en coude et périphériques aux autres structures secondaires diffèrent souvent en taille et en conformation. Les protéines ayant des repliements communs ne semblent pas avoir une origine d évolution commune ; seules les propriétés physiques et chimiques leur donnent un arrangement similaire. CATH (Class Architecture Topology and Homology) : Les protéines dont la structure a été déterminée par RMN et celles dont la résolution de détermination des structures par cristallographie rayon X est supérieure à 3 angstroms sont répertoriés dans cette banque. La hiérarchie de classification de CATH est composée de quatre principaux niveaux : 1. Niveau C (Classe) : sont répertoriées les structures protéiques appartenant aux classes α et β de la classification de Lewitt et Chothia (voir partie ). Une troisième classe α β regroupe à la fois les structures des classes α/β et α + β. Une quatrième classe contient les domaines protéiques avec peu de structures secondaires. 2. Niveau A (Architecture) : classe les protéines en fonction de l architecture de leurs structures secondaires sans tenir compte de leurs connectivités. Ce niveau regroupe principalement les protéines adoptant les architectures en baril ou en sandwich trois couches. 3. Niveau T (Topologie) : les protéines sont classées par familles de repliement, tenant compte de l architecture des structures secondaires mais également de leurs connectivités. 4. Niveau H (superfamilles homologues) : regroupe les domaines protéiques considérés comme partageant un ancêtre commun et pouvant ainsi être décrites comme homologues. Les similarités sont d abord identifiées par comparaison de séquences puis par comparaison de structure. FSSP (Fold classification based on Structure-Structure alignement of Proteins) : regroupe les structures représentatives de la PDB. La banque PDB admet un nombre de structures redondantes de protéines dont les séquences et les structures ont plus de 25% d identité. L ensemble de structures représentatives sans structures redondantes de la banque PDB a été obtenu par alignement structural à l aide du programme DALI. MMDB (Molecular Modeling DataBase) : sous-ensemble des structures tridimensionnelles de la banque PDB, modèles théoriques exclus. Cette banque, hébergée par le site Entrez de NCBI, permet d archiver les données structures conventionnelles de manière flexible afin de pouvoir y ajouter d autres structures reconnues par des technologies telles que la microscopie électronique. SARF (Spacial ARrangement of backbone Fragments) : basée sur la détection d éléments de structures secondaires compatibles pour trouver les structures 3D similaires. Le site web de SARF propose un arbre construit à partir de la similarité des structures 3D. Copyright c 2004 Guillaume Chakroun 11

12 Chapitre 3 Prédiction de la structure secondaire à partir de la séquence A partir de la séquence d acides aminés, on cherche à déterminer la structure secondaire qui est codifiée en une succession d états grâce à un alphabet de trois lettres : portions en hélice alpha (H), feuillet beta (E : brin étendu) et en coude (C). Pour cela, les programmes de prédiction ont recourt à plusieurs méthodes : Méthodes statistiques : les premières datent de A partir de la connaissance des structures tertiaires d un échantillon de protéines modèles, on établit une table d occurrences comptabilisant les proportions observées de chacun des vingt acides aminés dans un état structural donné. La prédiction est établit à partir de cette table. Méthodes tenant compte des propriétés physico-chimiques des acides aminés : telles que la charge, l hydrophobicité et l hydrophilie. Celles-ci influent en effet directement sur les relations de proximité et donc sur la position des acides aminés à l intérieur (coeur hydrophobe : les structures hélice α et feuillet β dominent) ou à la surface de la protéine (boucles). Méthode des plus proches voisins : utilise la similarité entre sous-séquences de protéines dont la structure est connue pour prédire la structure de la protéine recherchée. Chaînes de Markov : des chaînes de Markov cachées modélisent chaque type de structure secondaire par entraînement sur des séquences appartenant à la même famille structurale. Une fois les paramètres de ces modèles calibrés, un score est associé à chaque chaîne de Markov cachée pour une séquence donnée. Le modèle donnant le meilleur score pour une portion de la séquence prédit alors la structure secondaire associée à cette portion. Méthode d apprentissage par réseaux de neurones : analogue à la méthode utilisant les chaînes de Markov cachées. Des réseaux de neurones modélisent les structures secondaires existantes par entraînement sur des séquences dont les structures sont connues. L influence de la structure tertiaire sur la structure secondaire n est toutefois pas prise en compte par ces méthodes. La prédiction est plus efficace encore quand l analyse est appliquée sur un alignement multiple, c est à dire sur un jeu de séquences homologues alignées. La structure étant plus conservée (sous la pression de sélection) que la séquence, les régions conservées (régions similaires rencontrées entre plusieurs séquences) donnent plus de poids à la prédiction. 3.1 Critère d efficacité des méthodes présentées Afin de connaitre l efficacité de chaque méthode de prédiction de la structure secondaire d une protéine, le critère 3-state est introduit (noté Q 3 ). Il représente le taux de résidus correspondant Copyright c 2004 Guillaume Chakroun 12

13 à l une des trois configurations réelles (hélice α, feuillet β ou coude) dans laquelle se trouve un acide aminé donné de la protéine. Par exemple, si la structure secondaire correcte d une protéine est HHCE et que la structure prédite est HEEE, alors le critère d exactitude 3-state vaut 33%. 3.2 Les méthodes statistiques Les méthodes statistiques prédisent les structures secondaires d une protéine à l aide de tableaux de valeurs expérimentales calculées à partir de structures cristallines connues Chou-Fasman Cette méthode, connue en 1974, se base sur les propriétés physico-chimiques définissant la stabilité de la protéine, telles que l hydrophobicité. Les auteurs ont donc calculé les valeurs des paramètres de conformation d un aminoacide de se trouver dans une structure d hélice α, de feuillet β ou de coude à partir de la structure cristalline de 29 protéines déterminée par cristallographie rayon X. Le tableau 3.1 regroupent les probabilités d un aminoacide i de se trouver dans une structure d hélice α (P α (i)), de feuillet β (P β (i)) ou de coude (P t (i)) ainsi que les fréquences f i de courbures des quatre aminoacides consécutives participant à la structure de coude. Ce tableau sous classe les aminoacides suivant leur score de conformation ; on distingue six degrés d affinité pour chaque structure secondaire s : H s : strong s former forte tendance à se trouver en structure s. h s : s former bonne tendance à se trouver en structure s. I s : weak s former tendance faible à se trouver en structure s. i s : s indifferent pas de tendance particulière. b s : s breaker tendance à empêcher la structure s. B s : strong s breaker forte tendance à empêcher la structure s. Principe : La séquence pour laquelle on veux prédire les structures secondaires est parcourue par une fenêtre glissante de quatre aminoacides. Le score Sc s (i) pour la structure s de la première aminoacide i de cette fenêtre est calculé comme suit, en tenant compte des trois acides aminés suivants (i + 1, i + 2 et i + 3) : i+3 Sc s (i) = P s (j) De même, la probabilité de courbure au niveau du résidu i positionné au début de la fenêtre de quatre aminoacides est : j=i i+3 p t (i) = f(j) L ensemble des règles définissant l algorithme de Chou-Fasman permet ensuite de prédire la structure secondaire de chaque aminoacide de la séquence : Règle 1 : Un ensemble de quatre acides aminés d affinité H α ou h α (Sc α > Sc β et Sc coude ) sur six consécutifs initie une hélice. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation d hélice α, c est à dire si Sc α < Les deux conditions suivantes confirment la structure en hélice α de ce segment étendu : j=i Copyright c 2004 Guillaume Chakroun 13

14 Tab. 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman Les probabilités en rouge représente un degré d affinité strong former, un degré former en orange, un degré weak former en jaune, un degré indifferent en maginta, un degré breaker en vert foncé et un degré strong breaker en vert clair La proline ne peut être ni à l intérieure de l hélice, ni du côté C-terminal de l hélice ; elle peut cependant apparaître pour l un des trois résidus du côté N-terminal. La longueur du segment étendu est au moins de six aminoacides avec Ŝc α > 1.03 et Ŝc α > Ŝc β (Ŝc est la moyenne arithmétique des scores sur les six aminoacides) Règle 2 : Un ensemble de trois acides aminés d affinité H β ou h β (Sc α > Sc β et Sc coude )sur cinq consécutifs initie un feuillet β. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation de feuillet β, c est à dire si Sc β < Si Ŝc β > 1.05 et Ŝc β > Ŝc α pour le segment étendu, alors le segment représente une structure de feuillet β. Règle 3 : Si, pour le résidu i : p t (i) > Ŝc t > 1.00 Ŝc t > Ŝc α Ŝc t > Ŝc β (avec Ŝc : moyenne arithmétique des scores sur les quatre aminoacides de la fenêtre initiée par i), alors le segment de quatre aminoacides représente une structure de coude. Règle 4 : Tout segment recouvrant les régions α et β est une hélice α si ˆP α > Ŝc β ou un feuillet β si Ŝc β > Ŝc α. La méthode de Chou-Fasman présente une efficacité de l ordre de 50 à 60 %. Copyright c 2004 Guillaume Chakroun 14

15 3.2.2 Garnier, Osguthorbe et Robson (méthode GOR) A l instar de la méthode de Chou-Fasman qui considère qu un aminoacide influence directement la structure secondaire dans une fenêtre de quatre résidus, la méthode GOR (con ue en 1978) tient compte du fait que la probabilité d un aminoacide d appartenir à un type de structure secondaire dépend de la nature et de la position de ses voisins. Principe général Le calcul de la propension d un aminoacide à se trouver dans un type de structure secondaire se fait dans une fenêtre de 17 résidus. Un score associé à la fenêtre est calculé grâce à une matrice 20x17 prédisant un type de structure secondaire. On compte une matrice de prédiction d hélice α, une de feuillet β, une de coude β et une dernière de structure chaînes aléatoires (ces deux dernières structures sont des structures de boucle). Le type de matrice pour lequel la fenêtre a obtenu le meilleur score donne la structure prédite pour les 17 résidus de la fenêtre. Les lignes d une de ces matrices correspondent aux 20 acides aminés, les 17 colonnes aux positions des aminoacides dans la fenêtre. L élément (i, j) d une matrice prédisant la structure S donne la probabilité que l aminoacide i soit en conformation S à la position j de la fenêtre. Pour calculer cet évenement, les auteurs de la méthode utilisent la théorie de l information. Soient deux événements S et a ; P (S a) est la probabilité que S advienne sachant que a est advenu. On appelle I(S; a) l information associée à l événement S contraint par a ; définie par l équation : I(S; a) = log ( ) P (S a) P (S) En considèrant que l événement S prend les états H pour hélice α et H pour non hélice α, la méthode GOR maximise l information I(S; a) en calculant la différence d information I( S(H); a) : (3.1) I( S(H); a) = I(S = H; a) I(S = H a) = log ( ) ( ) P (S = H a) P (S = H a) log P (S = H) P (S = H) (3.2) Les différences d information associées à un feuillet β, un coude β ou une chaîne aléatoire s obtiennent de manière analogue en considérant pour chaque cas que l événement S prend l état de la structure ou non. En décomposant l événement a en n événements a 1,..., a n représentant chacun une position dans la séquence de n résidus, on montre que : I(S; a) = I(S; a 1,..., a n ) = I(S; a 1 ) + I(S; a 2 a 1 ) + I(S; a 3 a 1, a 2 ) I(S; a n a 1,..., a n 1 ) (3.3) L influence des aminoacides voisins sera limité à une fenêtre centrée de longueur 17 ; ceci mène à approximer l équation (1) comme suit : I( S j (H); a 1,..., a n ) I( S j (H); a j 8,..., a j+8 ) (3.4) où j est la position de l acide aminé centrale de la fenêtre. En développant l équation (4) à l aide de (3), on obtient : Copyright c 2004 Guillaume Chakroun 15

16 I( S j (H); a j 8,..., a j+8 ) = I( S j (H); a j )+I( S j (H); a j 1 a j )+I( S j (H); a j+1 a j, a j 1 )+...+I( S j (H); (3.5) Il y a deux manières d interpréter l information de l équation (5) ; la méthode de GOR débouche alors sur GORII et GORIII : GORII : information directionnelle L équation (5) devient : I( S j (H); a j 8,..., a j+8 ) 8 k= 8 I( S j (H); a j+k ) (3.6) Les tableaux de références donnent les valeurs I( S j (H); a j+k ), calculées à l aide de la structure cristalline de 75 protéines en déterminant les fréquences P (S a) et P (S) (voir équation (2)). GORIII,GORIV : information vectorielle Ici, on considère l équation (5) comme suit : I( S j (H); a j 8,..., a j+8 ) I( S j (H); a j ) + 8 k= 8,k 0 I( S j (H); a j+k a j ) (3.7) GOR IV calcule l information I( S j (H); a j ) depuis les fréquences P (S a) et P (S) déterminées grâce à une banque de 256 protéines cristallisée, alors que GORIII s appuie sur la banque de 75 protéines utilisée par GORII. L efficacité de GORII est de 56% et celle de GORIV est de l ordre de 71% Amélioration des méthodes L exactitude des méthodes statistiques s est considérablement améliorée pendant l année 1993 lorsque Rost et Sander ont inclu l alignement multiple de séquences dans les programmes de prédiction existant jusque là. Ces nouveaux algorithmes partent du principe que les séquences protéiques ayant subit la même évolution ont au moins en commun quelques sites conservant la structure secondaire. La gamme des aminoacides adaptés à une position donnée pour un profil donné de séquences similaires est également pris en compte. Le programme PSI-BLAST, qui peut identifier des relations d évolution lointaines entre séquences protéiques, a été employé pour élargir la recherche de séquences consensus ; le facteur d exactitude de la prédiction de la structure secondaire a ainsi augmenté. Deux programmes utilisent ce procédé : GORV va prochainement permettre d utiliser le programme PSI-BLAST pour accroître l efficacité de 71% à 74%. DSC, pour Discrimination of secondary Structure Class, utilise le principe de la méthode GOR et de l alignement multiple pour une efficacité de 70,1% ; c est un programme simple et très accessible. D autres méthode utilisent plusieurs méthodes de prédiction statistiques pour augmenter l exactitude de prédiction. Par exemple, DPM (Double Prediction Method) combine la méthode de GOR ainsi qu une méthode de prédiction de la classe de la protéine (α, β, α + β ou α/β) basée sur un tableau statistique dont les paramètres ont été déterminés depuis 135 protéines structuralement connues. L efficacité de cette méthode combinée peut atteindre 72% d exactitude. Copyright c 2004 Guillaume Chakroun 16

17 3.3 Les méthodes tenant compte des propriétés physico-chimiques des acides aminés Méthode : Lim Programmes prédiction de protéines membranaires : TMHMM, PHDhtm, DAS & TopPred2, PHDacc, ASC 3.4 La méthode du plus proche voisin Un nouveau type de prédiction de structure secondaire basé sur des méthodes du plus proche voisin ont vu le jour suite à la découverte d un grand nombre de structure tertiaire durant les années Les séquences protéiques de ces structures tertiaires sont identifiées à la séquence dont on veut prédire la structure secondaire. Procédé général : 1. Une liste de fragments de taille n (en général, n=16) est constituée depuis 100 à 400 séquences de structure connue (appelées également séquences d entraînement). 2. Une fenêtre de la même taille est extraite de la séquence en entrée pour être comparée à chacun des fragments de la liste. Les 50 fragments les plus similaires sont identifiés. 3. Les fréquences de structure secondaire de l aminoacide située au milieu des 50 fragments retenus (f α, f β et f coude ) sont utilisés afin de prédire la structure secondaire de l aminoacide située au milieu de la fenêtre de la séquence en entrée. 4. La fenêtre courante glisse d une position pour prédire la conformation d un nouvel aminoacide ; les étapes 2 et 3 sont répétées et le procédé est réitéré jusqu à ce que tous les résidus-milieu de la séquence aient leur structure secondaire prédite. Actuellement, deux principaux programmes utilisent la méthode du plus proche voisin : NNSSP : l exactitude de ce programme s élève à 73.5% PREDATOR : pour ce programme, l algorithme de l étape 3 de la méthode du plus proche voisin assigne sept des huit éléments de structure secondaire à chaque aminoacide (au lieu de trois pour les méthodes statistiques). L efficatié du programme atteint 75%. 3.5 Les chaînes de Markov cachées Le modèle de chaînes de Markov cachées (de l anglais HMM pour Hidden Markov Model) est un modèle stochastique. Les hélices α, feuillets β et les autres structures issues de séquences connues de la banque PDB sont apprises pour former différents modèles sous forme de chaînes de Markov. Chaque modèle représente une généralisation de la fa on dont les aminoacides sont distribuées dans un groupe de séquence (classe). Par la suite, les structures secondaires d une séquence sont prédites par comparaison avec ces différents modèles. Un score est associé à chaque fragment de la séquence comparé à un modèle donné ; le modèle donnant le plus haut score à un fragment prédit alors la structure secondaire de la portion de séquence. Principe : La prédiction de structures secondaires par la méthode des chaînes cachées de Markov suit le procédé suivant : 1. Alignement multiple des fragments similaires de séquences protéiques dont la structure est connue 2. Génération de modèles de familles structurales (HMM-profil) sous forme de chaînes cachées de Markov Copyright c 2004 Guillaume Chakroun 17

18 3. Prédiction de la structure secondaire de séquences à partir des modèles Présentation des HMMs : Le modèle de Markov cachés est fortement apparenté aux automates probabilistes. Un tel automate est une structure composé d états et de transitions entre états auxquelles sont jointes une probabilité (probabilté de transition). A chaque transition est associé un symbole d un alphabet fini, généré à chaque fois que la transition est empruntée. Contrairement aux automates probabilistes, un HMM génère un symbole au niveau des états et non des transitions ; à chaque état est associé une probabilité d émission d un symbole. Les HMMs définissent donc un processus stochastique : Non déterministe : une même séquence de symboles peut être générée de plusieurs manières différentes Markovien : la séquence des états (le chemin) constitue une chaîne de Markov simple puisque la probabilité de transition vers un état ne dépend que de l état actuel et non des états rencontrés précédemment Caché : on observe les lettres générées par le modèle mais pas la séquence des états qui génèrent ces lettres Voici les éléments définissant un HMM : S : ensemble de L états. S contient les états muets start et end, respectivement état d entrée dans le HMM et état de sortie. Σ : alphabet de M symboles. A = (a i,j ) : matrice des probabiltés a i,j de transitions de l état i à l état j. On note : a ij = P [q t+1 = S j q t = S i ] avec q t : état courant de l automate au temps t ; 1 i, j L. Les contraintes stochastiques sont : 1. a ij 0 2. j a i,j = 1 pour i fixé ɛ = (e j (k)) : matrice des probabilités e j (k) d émission du symbole k associés à l état j. On note : e j (k) = P [v k à t q t = S j ] avec 1 j N et 1 k M. Un exemple simple de HMM est illustré sur la figure 3.1. a1,1 a2,2 START astart,1 1 2 END a1,2 a2,end e1(a) e1(b) e2(a) e2(b) Fig. 3.1 Exemple d un HMM simple à 4 états et 2 symboles e 1 (a) et e 1 (b) : probabilités d émission des symboles a et b Copyright c 2004 Guillaume Chakroun 18

19 a i,j : probabilité de transition de l état i à l état j Ici, a ST ART,1 = 1, a 1,1 + a 1,2 = 1, a 2,2 + a 2,END = 1 (respect des contraintes stochastiques) La procédure de génération d une séquence de symboles à l aide d un HMM est la suivante : 1. Départ à l état initial start 2. Déplacement d état en état suivant les probabilités de transitions 3. Génération d un symbole sur chaque état rencontré en utilisant sa probabilté d émission associé à l état 4. Après émission d un symbole, choix d une transition sortante suivant la probabilité de transition associé à l état 5. Itération de la procédure jusqu à atteindre l état final end Le nombre de chemins possibles est fini et la probabilité de génération d une séquence O = O 1... O L par le modèle M(S, Σ, A) est : P (O M) = a start,i L i=1 e i (O i )a i,i + 1 (3.8) Les HMM-profils Ce sont les mieux adaptés pour modéliser les alignements multiples. A partir d une famille de protéines, un HMM-profil peut-être réalisé pour chercher d autres membres de cette famille. La figure 3.2 représente un HMM-profil. Fig. 3.2 Exemple d un HMMprofil 4 états match (en rouge), 3 états insert (en jaune) et 2 états delete (en vert) Avec : M j : état match j représentant l identité du résidu lors de l alignement multiple I j : état insert j illustrant une insertion de résidus (la transition-boucle signifie que plusieurs insertions peuvent subvenir) D j : état delete permettant l apparition de gaps entre deux résidus : cet état n émet pas de résidus Score d appartenance à une classe de protéine L enjeux d obtenir des modèles de structures secondaires des protéines est de pouvoir classifier les séquences en famille structurale. Un HMM doit donc permettre d évaluer si une séquence donnée appartient ou non à la famille qu il modélise ; il faut calculer la probabilité que la séquence soit créée par un HMM élaboré à partir d une famille. Copyright c 2004 Guillaume Chakroun 19

20 Soit x = x 1 x 2... x n la séquence de n résidus pour laquelle le score d appartenance à une classe modélisée par un HMM est calculé. La probabilité que x soit créée par le HMM est la somme des probabilités d émission de la séquence sur tous les chemins du HMM qui permettent de la générer : P (x) = π P (x π) (3.9) avec π : ensemble des chemins possibles du HMM générant x. Dans la pratique, il y a trop de chemins possibles et le calcul est trop lourd. L algorithme forward permet de calculer rapidement cette probabilté. Algorithme Forward Suivant le principe de la programmation dynamique, cet algorithme calcule pour chaque état du HMM et pour chaque sous-séquence x 1 x 2... x i la probabilité qu elle est été générée par le sous-hmm finissant par cet état. Les variables employées sont : M j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état M j. I j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état I j. D j (i) : probabilité d être dans l état D j alors que les i premiers symboles ont été émis. Soit L le nombre d états match du HMM, on montre que : [ ] M j (i) = e Mj (x i ) a Mj 1 M j M j 1 (i 1) + a Ij 1 M j I j 1 (i 1) + a Dj 1 M j D j 1 (i 1) [ ] I j (i) = e Ij (x i ) a Mj I j M j (i 1) + a Ij I j I j (i 1) + a Dj I j D j (i 1) D j (i) = a Mj 1 D j M j 1 (i) + a Ij 1 D j I j 1 (i) + a Dj 1 D j D j 1 (i) Avec les conditions initiales suivantes : M 0 (0) = 1 M j (0) = 0 j > 0 I j (0) = 0 j 0 M 0 (i) = 0 i > 0 D 0 (i) = 0 i 0 D où la probabilité P (x) que la séquence x soit créée par le HMM : P (x) = a ML M L+1 M L (n) + a IL M L+1 I L (n) + a DL M L+1 D L (n) Cette probabilité n est pas significative car elle dépend de la longueur de la séquence. Il faut pour cela comparer P (x) à la probabilité qu a la séquence d être engendrée selon un modèle aléatoire, dit modèle nul noté P 0. Expérimentalement, le modèle fonctionnant le mieux est la moyenne normalisée de la distribution des acides aminés de la séquence dans un état match. Le score à proprement dit de la séquence x pour le HMM est le log-odds ratio suivant : log z (P (x)/p 0 (x)) (3.10) Une fois ce score calculé, la séquence x appartient à la famille modélisée par le HMM si son score dépasse un certain seuil. Ce seuil est déterminé en examinant les scores des séquences constituant la famille. Apprentissage d un HMM depuis un alignement multiple Copyright c 2004 Guillaume Chakroun 20

VI. Domaines protéiques

VI. Domaines protéiques Chapitre 1 Structure des protéines I. Rappels Définitions II. La Protein Data Bank (PDB) III. Angles dièdres et diagramme de ramachandran IV. Structures secondaires V. Structures supersecondaires VI. Domaines

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Data Mining. Rapport de Projet

Data Mining. Rapport de Projet Université Bordeaux I 2011 Nicolas FONTAINE Florence MAURIER Jonathan MERCIER Data Mining Rapport de Projet M2 Bioinformatique Responsable : P. Desbarat Table des matières Introduction 1 1 Choix des données

Plus en détail

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB... Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Le vivant est complexe: - 30 millions de types d organismes - 100 000 protéines différentes chez l homme

Le vivant est complexe: - 30 millions de types d organismes - 100 000 protéines différentes chez l homme Introduction Le vivant est complexe: - 30 millions de types d organismes - 100 000 protéines différentes chez l homme Informatique: - stocker les données - éditer les données - analyser les données (computational

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006 La reconnaissance moléculaire: la base du design rationnel En 1890 Emil Fisher a proposé le modèle "serrure et clé" pour expliquer la façon de fonctionner des systèmes biologiques. Un substrat rentre et

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

ARN et bioinformatique: PDF processed with CutePDF evaluation edition www.cutepdf.com

ARN et bioinformatique: PDF processed with CutePDF evaluation edition www.cutepdf.com ARN et bioinformatique: Partie 1 PDF processed with CutePDF evaluation edition www.cutepdf.com Sommaire Principes biologiques : Transcription/traduction, types d ARN, formes primaires/secondaires. Zuker

Plus en détail

Résonance Magnétique Nucléaire : RMN

Résonance Magnétique Nucléaire : RMN 21 Résonance Magnétique Nucléaire : RMN Salle de TP de Génie Analytique Ce document résume les principaux aspects de la RMN nécessaires à la réalisation des TP de Génie Analytique de 2ème année d IUT de

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Conception assistée par ordinateur de molécules thérapeutiques

Conception assistée par ordinateur de molécules thérapeutiques Conception assistée par ordinateur de molécules thérapeutiques D. Gilis Bioinformatique génomique et structurale Faculté des sciences appliquées Université Libre de Bruxelles Objectif: illustrer en quoi

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

Structure et fonction des protéines

Structure et fonction des protéines Structure et fonction des protéines 2012-2013 Partie 1 : Repliement et structure tertiaire marie-line.garron@afmb.univ-mrs.fr L2 Structures des polypeptides Structure Primaire: séquence linéaire des acides

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Probabilités Loi binomiale Exercices corrigés

Probabilités Loi binomiale Exercices corrigés Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

UV Théorie de l Information. Codes à longueur variable

UV Théorie de l Information. Codes à longueur variable Cours n 5 : UV Théorie de l Information Compression de l information : Codage de source sans distorsion Ex 1 : Code de Shannon Fano Ex 2 : Code de Huffman Ex 3 : Codage par plage Ex 4 : Codage de Lempel

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité?

TD Bioinformatique : Sequence Alignment. Pourquoi faire une recherche par similarité? TD Bioinformatique : Sequence lignment Pourquoi faire une recherche par similarité? - Savoir si ma séquence ressemble à d'autres déjà connues. - Trouver toutes les séquences d'une même famille. - Rechercher

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Mathématiques appliquées à l informatique

Mathématiques appliquées à l informatique Mathématiques appliquées à l informatique Jean-Etienne Poirrier 15 décembre 2005 Table des matières 1 Matrices 3 1.1 Définition......................................... 3 1.2 Les différents types de matrices.............................

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Vision par Ordinateur

Vision par Ordinateur Vision par Ordinateur James L. Crowley DEA IVR Premier Bimestre 2005/2006 Séance 6 23 novembre 2005 Détection et Description de Contraste Plan de la Séance : Description de Contraste...2 Le Détecteur de

Plus en détail

1. L ADN et l information génétique. l ADN l information génétique est contenue dans l ADN. traduction. comment fait-on une protéine?

1. L ADN et l information génétique. l ADN l information génétique est contenue dans l ADN. traduction. comment fait-on une protéine? 1. L ADN et l information génétique l ADN l information génétique est contenue dans l ADN (ADN) (ARN) 1 2 A G T C U comment fait-on une protéine? traduction l information génétique est organisée par triplets

Plus en détail

Recherche de parenté entre les vertébrés

Recherche de parenté entre les vertébrés 1 CHAPITRE A Recherche de parenté entre les vertébrés 2 Chapitre A : Recherche de parentés entre les êtres vivants Tous les êtres vivants présentent des structures cellulaires et un fonctionnement commun

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

Propriétés électriques des semiconducteurs

Propriétés électriques des semiconducteurs Chapitre 1 Propriétés électriques des semiconducteurs De nombreux composants électroniques mettent à profit les propriétés de conduction électrique des semiconducteurs. Ce chapitre décrit comment un semiconducteur

Plus en détail

Atelier : L énergie nucléaire en Astrophysique

Atelier : L énergie nucléaire en Astrophysique Atelier : L énergie nucléaire en Astrophysique Elisabeth Vangioni Institut d Astrophysique de Paris Fleurance, 8 Août 2005 Une calculatrice, une règle et du papier quadrillé sont nécessaires au bon fonctionnement

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence.

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence. Règle de l octet : tendance qu on les atomes à s entourer de 8 électrons dans l édifice moléculaire. Ce n est pas une règle générale. Composés respectant la règle de l octet Composés ne respectant pas

Plus en détail

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d Laboratoire de Mécanique et Ingénieriesnieries EA 3867 - FR TIMS / CNRS 2856 ER MPS Modélisation stochastique d un d chargement d amplitude variable à partir de mesures Application à l approche fiabiliste

Plus en détail

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M belayach@fsr.ac.ma 1 1.Le réseau

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Cours de Data Mining PageRank et HITS

Cours de Data Mining PageRank et HITS Cours de Data Mining PageRank et HITS Andreea Dragut Univ. Aix-Marseille, IUT d Aix-en-Provence Andreea Dragut Cours de Data Mining PageRank et HITS 1 / 48 Plan du cours Présentation Andreea Dragut Cours

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Correction du baccalauréat STMG Polynésie 17 juin 2014

Correction du baccalauréat STMG Polynésie 17 juin 2014 Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé

Plus en détail

Chapitre 10 : Radioactivité et réactions nucléaires (chapitre 11 du livre)

Chapitre 10 : Radioactivité et réactions nucléaires (chapitre 11 du livre) Chapitre 10 : Radioactivité et réactions nucléaires (chapitre 11 du livre) 1. A la découverte de la radioactivité. Un noyau père radioactif est un noyau INSTABLE. Il se transforme en un noyau fils STABLE

Plus en détail

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé Baccalauréat S/L Métropole La Réunion 13 septembre 2013 Corrigé A. P. M.. P. XRCIC 1 Commun à tous les candidats Partie A 1. L arbre de probabilité correspondant aux données du problème est : 0,3 0,6 H

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF Territoires, Environnement, Télédétection et Information Spatiale Unité mixte de recherche Cemagref - CIRAD - ENGREF Master ère année Analyse spatiale, analyse géographique, spatialité des sociétés Master

Plus en détail

Structure secondaire d une molécule d ARNt. Groupe de travail : BATUT Bérénice, BLEIN Sophie, CHEVALIER Manuel, PARISOT Nicolas et VERNISSE Léa

Structure secondaire d une molécule d ARNt. Groupe de travail : BATUT Bérénice, BLEIN Sophie, CHEVALIER Manuel, PARISOT Nicolas et VERNISSE Léa Structure secondaire d une molécule d ARNt Groupe de travail : BATUT Bérénice, BLEIN Sophie, CHEVALIER Manuel, PARISOT Nicolas et VERNISSE Léa Plan Généralités sur l ARN Moyens de prédiction des structures

Plus en détail

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008 Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance

Plus en détail

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB Ce document, écrit par des animateurs de l IREM de Besançon, a pour objectif de présenter quelques unes des fonctions du logiciel Scilab, celles qui sont spécifiques

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

ParMat : Parallélisation pour la simulation des Matériaux.

ParMat : Parallélisation pour la simulation des Matériaux. : Parallélisation pour la simulation des Matériaux. G. Bencteux (EDF) 3 septembre 2008 Outline 1 2 Un algorithme d ordre N pour les calculs ab initio (DFT/HF) 3 Simulation du dommage d irradiation par

Plus en détail

Ce document a été mis en ligne par le Canopé de l académie de Bordeaux pour la Base Nationale des Sujets d Examens de l enseignement professionnel.

Ce document a été mis en ligne par le Canopé de l académie de Bordeaux pour la Base Nationale des Sujets d Examens de l enseignement professionnel. Ce document a été mis en ligne par le Canopé de l académie de Bordeaux pour la Base Nationale des Sujets d Examens de l enseignement professionnel. Ce fichier numérique ne peut être reproduit, représenté,

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

GUIDE Excel (version débutante) Version 2013

GUIDE Excel (version débutante) Version 2013 Table des matières GUIDE Excel (version débutante) Version 2013 1. Créer un nouveau document Excel... 3 2. Modifier un document Excel... 3 3. La fenêtre Excel... 4 4. Les rubans... 4 5. Saisir du texte

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Mathématiques financières

Mathématiques financières Mathématiques financières Arnaud Triay Table des matières 1 Introduction Position du problème.1 Pricing des options........................................... Formalisme..............................................

Plus en détail

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN Objectifs : Exploiter un spectre infrarouge pour déterminer des groupes caractéristiques Relier un spectre

Plus en détail

Chapitre 4 - Spectroscopie rotationnelle

Chapitre 4 - Spectroscopie rotationnelle Chapitre 4 - Spectroscopie rotationnelle 5.1 Classification Déterminer à quelle catégorie (sphérique, symétrique, asymétrique) appartiennent ces molécules : a) CH 4, b) CH 3 F, c) CH 3 D, d) SF 6, e) HCN,

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image IN52-IN54 A2008 Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image Etudiants : Nicolas MONNERET Alexandre HAFFNER Sébastien DE MELO Responsable : Franck GECHTER Sommaire

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Comprendre l Univers grâce aux messages de la lumière

Comprendre l Univers grâce aux messages de la lumière Seconde / P4 Comprendre l Univers grâce aux messages de la lumière 1/ EXPLORATION DE L UNIVERS Dans notre environnement quotidien, les dimensions, les distances sont à l échelle humaine : quelques mètres,

Plus en détail

A.3 Les méthodes : L applicabilité

A.3 Les méthodes : L applicabilité SOMMAIRE A. Première partie A.1 Ingénierie système : du besoin au système (produit/service) A.2 SDF, Maintenance et concepts sous-jacents A.3 Les méthodes : L applicabilité A.4 GMAO = GM + AO B. Deuxième

Plus en détail

2.1 Vocabulaire à apprendre à maîtriser après ce chapitre

2.1 Vocabulaire à apprendre à maîtriser après ce chapitre 2.1 Vocabulaire à apprendre à maîtriser après ce chapitre L atome Atome Elément Proton Neutron Nucléons Electron Nuage Particule (subatomique) Symbole (complet) Charge électrique relative Tableau périodique

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Mesures et incertitudes

Mesures et incertitudes En physique et en chimie, toute grandeur, mesurée ou calculée, est entachée d erreur, ce qui ne l empêche pas d être exploitée pour prendre des décisions. Aujourd hui, la notion d erreur a son vocabulaire

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Découverte de la calculatrice TI-nspire CX / TI-nspire CX CAS

Découverte de la calculatrice TI-nspire CX / TI-nspire CX CAS Découverte de la calculatrice TI-nspire CX / TI-nspire CX CAS Ce document a été réalisé avec la version 3.02 de la calculatrice TI-Nspire CX CAS. Il peut être traité en une ou plusieurs séances (la procédure

Plus en détail

Correction de l épreuve intermédiaire de mai 2009.

Correction de l épreuve intermédiaire de mai 2009. Licence de Gestion. 3ème Année Année universitaire 8-9 Optimisation Appliquée C. Léonard Correction de l épreuve intermédiaire de mai 9. Exercice 1 Avec les notations du cours démontrer que la solution

Plus en détail

ANALYSE SPECTRALE. monochromateur

ANALYSE SPECTRALE. monochromateur ht ANALYSE SPECTRALE Une espèce chimique est susceptible d interagir avec un rayonnement électromagnétique. L étude de l intensité du rayonnement (absorbé ou réémis) en fonction des longueurs d ode s appelle

Plus en détail

PREMIERE PARTIE CRISTALLOGRAPHIE GEOMETRIQUE

PREMIERE PARTIE CRISTALLOGRAPHIE GEOMETRIQUE 1 PREMIERE PARTIE CRISTALLOGRAPHIE GEOMETRIQUE Cette première partie se divise en cinq chapitres : Le chapitre 1 donne quelques généralités sur l'état cristallin. Le chapitre est consacré aux calculs dans

Plus en détail

Chapitre 02. La lumière des étoiles. Exercices :

Chapitre 02. La lumière des étoiles. Exercices : Chapitre 02 La lumière des étoiles. I- Lumière monochromatique et lumière polychromatique. )- Expérience de Newton (642 727). 2)- Expérience avec la lumière émise par un Laser. 3)- Radiation et longueur

Plus en détail

VALORISATION DES PRODUITS DE CHANGE :

VALORISATION DES PRODUITS DE CHANGE : VALORISATION DES PRODUITS DE CHANGE : TERMES, SWAPS & OPTIONS LIVRE BLANC I 2 Table des Matières Introduction... 3 Les produits non optionnels... 3 La méthode des flux projetés... 3 Les options de change

Plus en détail

Saisie de données. Dans ce chapitre

Saisie de données. Dans ce chapitre 3 Saisie de données Dans ce chapitre Éditer et mettre en forme les cellules........................ 32 Copier et déplacer les cellules............................ 38 Remplir les cellules avec des séries

Plus en détail

Comment réaliser physiquement un ordinateur quantique. Yves LEROYER

Comment réaliser physiquement un ordinateur quantique. Yves LEROYER Comment réaliser physiquement un ordinateur quantique Yves LEROYER Enjeu: réaliser physiquement -un système quantique à deux états 0 > ou 1 > -une porte à un qubitconduisant à l état générique α 0 > +

Plus en détail

Eléments de correction du Bac Blanc n 2 de Mathématiquesdu Lundi 8 Avril2013. Calculatrice autorisée - Aucun document n'est autorisé.

Eléments de correction du Bac Blanc n 2 de Mathématiquesdu Lundi 8 Avril2013. Calculatrice autorisée - Aucun document n'est autorisé. TES Spé Maths Eléments de correction du Bac Blanc n 2 de Mathématiquesdu Lundi 8 Avril2013 Calculatrice autorisée - Aucun document n'est autorisé. Vous apporterez un grand soin à la présentation et à la

Plus en détail

Probabilités. Chapitre 2 : Le modèle probabiliste - Indépendance d évènements. Julian Tugaut. 15 janvier 2015

Probabilités. Chapitre 2 : Le modèle probabiliste - Indépendance d évènements. Julian Tugaut. 15 janvier 2015 Indépendance de deux évènements Chapitre 2 : Le modèle probabiliste - Indépendance d évènements 15 janvier 2015 Sommaire 1 Indépendance de deux évènements 2 Indépendance de deux évènements Approche intuitive

Plus en détail

Épreuve pratique de mathématiques Printemps 2009. Descriptifs. (Page vide)

Épreuve pratique de mathématiques Printemps 2009. Descriptifs. (Page vide) Épreuve pratique de mathématiques Printemps 2009 Descriptifs (Page vide) Sujet 001 Épreuve pratique de mathématiques Descriptif Étude d une fonction dépendant d un paramètre Étant donné une fonction dépendant

Plus en détail

Module 22 : Les tableaux croisés dynamiques* contenu de 2010*

Module 22 : Les tableaux croisés dynamiques* contenu de 2010* Module 22 : Les tableaux croisés dynamiques* contenu de 2010* 22.0 Introduction On aurait pu appeler ce module Résumer rapidement les données. Excel possède un outil puissant qui permet de résumer les

Plus en détail

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Plus en détail