Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées. 1 Chaînes de Markov cachées et applications



Documents pareils
Texte Agrégation limitée par diffusion interne

Définitions. Numéro à préciser. (Durée : )

Apprentissage Automatique

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Les indices à surplus constant

IFT3245. Simulation et modèles

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Correction du Baccalauréat S Amérique du Nord mai 2007

Dualité dans les espaces de Lebesgue et mesures de Radon finies

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Plus courts chemins, programmation dynamique

Table des matières. I Mise à niveau 11. Préface

Quelques tests de primalité

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

Cours d initiation à la programmation en C++ Johann Cuenin

L équilibre Ressources Emplois de biens et services schématisé par une balance

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Coup de Projecteur sur les Réseaux de Neurones

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Machines virtuelles Cours 1 : Introduction

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

!-.!#- $'( 1&) &) (,' &*- %,!

Chapitre VI - Méthodes de factorisation

Théorie Financière 8 P. rod i u t its dé dérivés

Valorisation d es des options Novembre 2007

Introduction à l étude des Corps Finis

Principe de symétrisation pour la construction d un test adaptatif

Utilisation des tableaux sémantiques dans les logiques de description

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

Prédiction de la structure d une

Chapitre 5 : Flot maximal dans un graphe

Modélisation du comportement habituel de la personne en smarthome

Ecoles Européennes DECISION

Résolution d équations non linéaires

de calibration Master 2: Calibration de modèles: présentation et simulation d

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

Transmission d informations sur le réseau électrique

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

Corefris RAPPORT ANNUEL Annexe 3 : La hausse des prix de l immobilier est-elle associée à une «bulle» de crédit en France?

ÉPREUVE COMMUNE DE TIPE Partie D

Systèmes et algorithmes répartis

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Moments des variables aléatoires réelles

LES MÉTHODES DE POINT INTÉRIEUR 1

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

Algorithme. Table des matières

Calculabilité Cours 3 : Problèmes non-calculables.

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Rappels sur les suites - Algorithme

CarrotAge, un logiciel pour la fouille de données agricoles

Méthodes de Simulation

Resolution limit in community detection

Factorisation Factoriser en utilisant un facteur commun Fiche méthode

Calculating Greeks by Monte Carlo simulation

choisir H 1 quand H 0 est vraie - fausse alarme

CHAPITRE VI : HYBRIDATION GEOMETRIE DES MOLECULES

Précision d un résultat et calculs d incertitudes

Chaînes de Markov au lycée

Pascal Weber - Expert en organisation

Raisonnement probabiliste

Représentation des Nombres

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

MCMC et approximations en champ moyen pour les modèles de Markov

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Probabilités sur un univers fini

Mode d Emploi. Résult Arc Logiciel de Gestion de Compétitions. Droits d utilisation Informations Générales. 1/. Présentation de Résult Arc

La couche physique de l ADSL (voie descendante)

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Commun à tous les candidats

Plateforme Systempay. Correspondance entre SP PLUS et SYSTEMPAY Paiement Simple et en plusieurs fois

Soutenance de stage Laboratoire des Signaux et Systèmes

Chapitre 1: Introduction à la théorie de l équilibre à prix fixes

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Mathématiques financières

Variations du modèle de base

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

Université Paris-Dauphine DUMI2E 1ère année, Applications

Lagrange, où λ 1 est pour la contrainte sur µ p ).

«Cours Statistique et logiciel R»

Méthode : On raisonnera tjs graphiquement avec 2 biens.

SECTEUR 4 - Métiers de la santé et de l hygiène

Algorithmique et Programmation, IMA

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Probabilités sur un univers fini

Comprendre ITIL 2011

Deuxième partie es jeux non-coopératifs avec information complète 3. É quilibre de Nash (1951) 4. D ynamique et rétroduction 5.

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

L efficience énergétique...

Espérance conditionnelle

WEBINAIRE SUR LE SUIVI DE TENDANCES

4. Martingales à temps discret

Simulation : application au système bonus-malus en responsabilité civile automobile

Transcription:

Statistique pour la bio-informatique Séance 9-10 - Decembre 2003 Chaînes de Markov cachées 1 Chaînes de Markov cachées et applications Les modèles à données latentes (ou manquantes ou cachées) constituent des outils puissants pour modéliser des systèmes dont la dynamique effectue des transitions entre différents états impossible à observer directement Dans une chaîne de Markov cachée, les différents états d un système peuvent être caractérisés par un nombre fini de valeurs On passe alors de l état s i à l état s j avec la probabilité p si,s j lors d une transition Dans chaque état, le système est susceptible émettre un symbole o pris dans un alphabet O fini (O pour observable) La probabilité d émission du symbole o peut dépendre de l état s Nous la notons q s,o Les algorithmes dédiés aux chaînes de Markov cachées sont des algorithmes d estimation statistique Etant donnée une suite d observations de longueur T, o 1,, o T, ils ont pour objectif typique d estimer la suite d états s 1,, s n la plus probable Pour cela, il faudra ajuster correctement les paramètres du modèles P = (p si,s j ) et Q = (q so ) à partir d un ensemble de n séquences dont les états sont connus Le premier objectif est généralement rempli par l algorithme de Viterbi Le second objectif est rempli par l algorithme EM, dont la version spécifique aux CMC s appelle algorithme de Baum-Welch 11 Applications Les applications des CMC (ou d autres modèles à structure latente comme les réseaux de neurones) sont très nombreuses en bio-informatique Nous illustrons cette approche à l aide de l exemple classique la recherche de gènes que nous simplifierons à l extrême (cf logiciel genscan de Burge et Karlin, 1997) 12 Algorithmique des chaînes de Markov cachées Dans cette section, nous notons S l ensemble des états cachés et S t la chaîne associée s 1, s 2 S, p s1,s 2 = P(S t+1 = s 2 S t = s 1 ) 1

Nous notons π la loi initiale de la chaîne π s = P(S 1 = s) Nous notons O l ensemble des états observables Conditionnellement à S t = s, la donnée X t est donc issue de la loi o O, P(X t = o S t = s) = q s,o Ayant observé une séquence de longueur T, o 1,, o T, la vraisemblance du paramètre multidimensionnel θ = (π, P, Q) est égale à L(θ) = P(o 1,, o T ; θ) 121 Algorithme forward La vraisemblance L(θ) correspond à la vraisemblance incomplète d un modèle à données manquantes L(θ) = P(o 1,, o T s 1,, s T ; Q) P(s 1,, s T ; (π, P )) s 1,,s T Précisement, nous avons L(θ) = s 1,,s T π s1 q s1,o 1 p s1,s 2 q s2,o 2 p st 1,s T q st,o T Cette formule suggère un algorithme de calcul naïf, dont la complexité de l ordre O(T (#S) T ) rendrait le coût rapidement prohibitif La solution provient d un algorithme de programmation dynamique Il repose sur le calcul de la grandeur α t (s) = P(o 1,, o t, S t = s) Cette grandeur représente la probabilité d observer o 1,, o t avec l état au temps t, S t = s Proposition 11 Algorithme forward Soit o 1,, o T une suite d observations provenant d une CMC Posons α 1 (s) = π s q s,o1 2

α t (s t ) = s β t (s t ) = s et, pour tout t = 2,, T, s t S, α t 1 (s)p s,st q st,o t Nous avons L(θ) = s S α T (s) L algorithme de calcul associé est de complexité de l ordre de O(T (#S) 2 ) Démonstration De manière un peu moins naturelle, mais complètement équivalente, nous pouvons considérer une variable qui remonte le sens du temps Cette variable est appelée variable backward β t (s) = P(o t+1,, o T S t = s) Cette grandeur représente la probabilité d observer o T,, o t+1 conditionnellement à S t = s Proposition 12 Algorithme backward provenant d une CMC Posons Soit o 1,, o T une suite d observations β T (s) = 1 et, pour tout t = 1,, T 1, s t S, β t+1 (s)p st,sq s,ot+1 Nous avons L(θ) = s S π s β 1 (s)q s,o1 L algorithme de calcul associé est de complexité de l ordre de O(T (#S) 2 ) Démonstration 3

122 Algorithme de Viterbi L algorithme de Viterbi permet de calculer la suite d états cachés la plus probable vu les observations o 1,, o T s 1,, s T = arg max P(o 1,, o T s 1,, s T ; θ) Notons que la valeur max est appelée score de Viterbi On l obtient formellement en remplaçant la somme par le maximum dans l expression de la vraisemblance incomplète L(θ) Rechercher le maximum de manière naïvement énumérative conduit à un algorithme de complexité exponentiellement croissante en la longueur des observations (O(T (#S) T ) ) Comme dans la section précédente, nous pouvons construire un algorithme complexité quadratique O(T (#S) 2 ) Cet algorithme, dit algorithme de Viterbi s obtient simplement en remplaçant la somme par le max Proposition 13 Algorithme de Viterbi Soit o 1,, o T une suite d observations provenant d une CMC Posons v 1 (s) = π s q s,o1 et, pour tout t = 2,, n, Nous avons s t S, et, pour tout t = T 1,, 1, v t (s t ) = max{v t 1 (s)p s,st q st,ot } s s T = arg max v T (s) s s t = arg max{v t (s)p s,s s t+1 } Démonstration 123 Exercices Exercice 1 On pose γ t (s) = P(S t = s o 1,, o T ; θ) 4

Montrer que γ t (s) = α t(s)β t (s) L(θ) Exercice 2 On pose s 1, s 2 S, n t (s 1, s 2 ) = P(S t = s 1 ; S t+1 = s 2 o 1,, o T ; θ) Montrer que et s 1, s 2 S, n t (s 1, s 2 ) = α t(s 1 )p s1,s 2 q s2,o t+1 β t+1 (s), L(θ) γ t (s) = s 2 n t (s, s 2 ) 124 Algorithme de Baum-Welch L algorithme de Baum-Welch est un algorithme d estimation itératif dérivé de l algorithme EM Plutôt que de détailler les calculs (fastidieux) conduisant aux itérations, nous tentons d en expliquer les aspects intuitifs Afin d estimer le paramètre du modèle θ = (π, P, Q) nous disposons pour l estimation de n séquences de longueur T Notons O i les séquences observées, et S (i) les séquences cachées Les valeurs initiales S 1 sont choisies de manière arbitraire Etant données des valeurs initiales de π, P, et Q, nous pouvons calculer une première estimation de π une première estimation de P et une première estimation de Q π(s) = 1 n E[#{i ; Si 1 = s} {O (i) }], p s,s = E[N s,s {O(i) }] E[N s {O (i) }] q s,o = E[N s(o) {O (i) }] E[N s {O (i) }] Dans ces équations, N s,s est le nombre de fois où l état s est suivi de l état s N s,s = # {i, t ; S i t = s; S i t+1 = s }, 5

N s est le nombre de fois où l état s apparaît N s = # {i, t ; S i t = s}, et N s (o) est le nombre de fois où l état s génère l observation o N s (o) = # {i, t ; S i t = s; O i t = o} Les espérances précédentes peuvent être facilement calculées en terme des variables forward et backward lorsque l on introduit les variables indicatrices des événements que l on cherche à compter On obtient π(s) = 1 n n i=1 γ (i) 1 (s), et p s,s = n i=1 T 1 s n i=1 t=1 n(i) t (s, s ) T 1 t=1 n(i) t (s, s ) Pour calculer l espérance E[N s (o) {O (i) }], il suffit de sommer sur les observations ayant donné un symbole o n i=1 t;o q s,o = (i) t =o s n (i) t (s, s ) n T 1 s i=1 t=1 n(i) t (s, s ) 6