Module 6: Chaînes de Markov à temps discret



Documents pareils
Des familles de deux enfants

dénombrement, loi binomiale

Module : réponse d un système linéaire

Module 7: Chaînes de Markov à temps continu

Probabilités sur un univers fini

Programmation linéaire

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

L information sera transmise selon des signaux de nature et de fréquences différentes (sons, ultrasons, électromagnétiques, électriques).

S2I 1. quartz circuit de commande. Figure 1. Engrenage

3 Approximation de solutions d équations

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Texte Agrégation limitée par diffusion interne

Cours 02 : Problème général de la programmation linéaire

TP : Outils de simulation. March 13, 2015

Un modèle de composition automatique et distribuée de services web par planification

Compression scalable d'images vidéo par ondelettes 2D+t

Probabilités sur un univers fini

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Accès optiques : la nouvelle montée en débit

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

prix par consommateur identiques différents prix par identiques classique 3 unité différents 2 1

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Introduction à l étude des Corps Finis

Développement décimal d un réel

aux différences est appelé équation aux différences d ordre n en forme normale.

Exercices - Polynômes : corrigé. Opérations sur les polynômes

DOCM Solutions officielles = n 2 10.

Chaînes de Markov au lycée

Programmation linéaire

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

VOIP. Pr MOUGHIT Mohamed Cours VOIP Pr MOUGHIT Mohamed 1

Simulation de variables aléatoires

Santé et hygiène bucco-dentaire des salariés de la RATP

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Commande prédictive des systèmes non linéaires dynamiques

Image d un intervalle par une fonction continue

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Probabilités Loi binomiale Exercices corrigés

Les marchés du crédit dans les PVD

Résolution de systèmes linéaires par des méthodes directes

Programmation linéaire et Optimisation. Didier Smets

Cours d analyse numérique SMI-S4

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Chapitre 2 Le problème de l unicité des solutions

Procès - Verbal du Conseil Municipal Du lundi 15 décembre 2014

Sous le feu des questions

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Continuité en un point

Bois. P.21 Bois-béton à Paris. Carrefour du Bois. Saturateurs. Usinage fenêtres. Bardages P.25 P.34 P.31 P.37. La revue de l activité Bois en France

La mesure de Lebesgue sur la droite réelle

Intégration et probabilités TD1 Espaces mesurés Corrigé

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Cours d Analyse. Fonctions de plusieurs variables

Fonctions de plusieurs variables

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

I. Polynômes de Tchebychev

Calcul différentiel sur R n Première partie

Coefficients binomiaux

DIVERSIFICATION DES ACTIVITES ET PRIVATISATION DES ENTREPRISES DE CHEMIN DE FER : ENSEIGNEMENTS DES EXEMPLES JAPONAIS

Pour l épreuve d algèbre, les calculatrices sont interdites.

La classification automatique de données quantitatives

Qu est-ce qu une probabilité?

Théorème du point fixe - Théorème de l inversion locale

La fonction exponentielle

CHAPITRE 5. Stratégies Mixtes

Découvrez les bâtiments* modulaires démontables

NOMBRES COMPLEXES. Exercice 1 :

Chapitre 5 : Flot maximal dans un graphe

Moments des variables aléatoires réelles

Température corporelle d un castor (une petite introduction aux séries temporelles)

PROBABILITES ET STATISTIQUE I&II

Continuité et dérivabilité d une fonction

Résolution d équations non linéaires

3. Conditionnement P (B)

Limites finies en un point

Suites numériques 3. 1 Convergence et limite d une suite

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Correction de l examen de la première session

Chapitre 1 : Évolution COURS

Couples de variables aléatoires discrètes

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

Chapitre 2. Matrices

Calcul fonctionnel holomorphe dans les algèbres de Banach

Cours de Probabilités et de Statistique

Modélisation et Simulation

Les indices à surplus constant

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Équations non linéaires

NFE107 Urbanisation et architecture des systèmes d information. Juin «La virtualisation» CNAM Lille. Auditeur BAULE.L 1

Travaux dirigés d introduction aux Probabilités


Guide d utilisation (Version canadienne) Téléphone sans fil DECT 6.0/ avec répondeur et afficheur/ afficheur de l appel en attente CL83101/CL83201/

Transcription:

Module 6: Chaînes de Markov à tems discret Patrick Thiran 1 Définition Un rocessus stochastique est dit markovien (d ordre 1) si l évolution future du rocessus ne déend que de sa valeur actuelle et non de ses valeurs assées. En d autres termes, l histoire assée du rocessus est entièrement résumée dans sa valeur actuelle. Plus récisément, si X(t) est à valeurs discrètes, il est markovien et est alors aelé chaîne de Markov si et seulement si our toute suite d instants t 1 < t 2 <... < t k < t k+1 et toute suite de valeurs x 1, x 2..., x k, x k+1 P (X(t k+1 ) = x k+1 X(t 1 ) = x 1, X(t 2 ) = x 2,..., X(t k ) = x k ) = P (X(t k+1 ) = x k+1 X(t k ) = x k ). (1) L ensemble des valeurs que X(t) eut rendre est aelé esace d état. Pour une chaîne de Markov, il est donc discret (fini ou non). Selon que le tems t est lui-même discret ou continu, on arlera de chaîne de Markov à tems discret ou de chaîne de Markov à tems continu. Si l esace d état est continu, X(t) est un rocessus de Markov si et seulement si our toute suite d instants t 1 < t 2 <... < t k < t k+1 ou encore P (x k+1 X(t k+1 ) < x k+1 + x k+1 X(t 1 ) = x 1, X(t 2 ) = x 2,..., X(t k ) = x k ) = P (x k+1 X(t k+1 ) < x k+1 + x k+1 X(t k ) = x k ) f X(tk+1 ) X(t 1 )X(t 2 )...X(t k )(x k+1 X(t 1 ) = x 1, X(t 2 ) = x 2,..., X(t k ) = x k ) = f X(tk+1 ) X(t k )(x k+1 X(t k ) = x k ). (2) A nouveau, selon que le tems t est discret ou continu, on arlera de rocessus de Markov à tems discret ou de rocessus de Markov à tems continu. Nous aborderons les chaînes de Markov à tems continu dans le module suivant. Pour l instant, nous raelons seulement les concets de chaîne de Markov à tems discret. 119

2 Chaînes de Markov à tems discret L esace d état, noté S, eut être soit fini, soit infini, mais dénombrable (ar exemle N ou Z). 2.1 Probabilités d état et de transition La robabilité que X(n) soit dans l état i S est une des robabilités d état π i (n) = P (X(n) = i), dont la somme vaut évidemment l unité π i (n) = 1, (3) i S tandis que les robabilités ij (n) = P (X(n+1) = j X(n) = i) sont les robabilités de transition à une étae de l état i à l état j au tems n, satisfaisant à la relation ij (n) = 1. (4) j S Dans la suite, on suosera qu elles ne déendent as du tems n, la chaîne est dite homogène. Ces robabilités de transition sont généralement écrites sous forme d une matrice de transition (ou matrice stochastique) 00 01... oi... 10 11... 1i... P =...... (5) i0 i1... ii......... dont la somme des éléments d une même ligne valent l unité à cause de (4). Les robabilités de transition à 2 étaes de l état i à l état j sont données ar (2) ij = P (X(n + 2) = j X(n) = i) = k S P (X(n + 2) = j X(n + 1) = k, X(n) = i)p (X(n + 1) = k X(n) = i) = k S P (X(n + 2) = j X(n + 1) = k)p (X(n + 1) = k X(n) = i) = k S kj ik ce qui s écrit sous forme matricielle P (2) = P P = P 2 120

On eut étendre ce résultat our obtenir les robabilités de transition à m étaes de l état i à l état j ar les équations de Chaman-Kolmogorov (m) ij = P (X(n + m) = j X(n) = i) = k S P (X(n + m) = j X(n + m l) = k, X(n) = i)p (X(n + m l) = k X(n) = i) = k S P (X(n + m) = j X(n + m l) = k)p (X(n + m l) = k X(n) = i) = k S (l) kj (m l) ik. En articulier our l = 1, (m) ij = k S kj (m 1) ik ou encore sous forme matricielle P (m) = P (m 1) P = = P m. Notons que (0) ii = 1. Les robabilités d état sont également facilement calculables Si π j (n) = P (X(n) = j) = i S P (X(n) = j X(n 1) = i)p (X(n 1) = i) = i S ij π i (n 1) cette relation s écrit sous forme matricielle π(n) = [π 0 (n) π 1 (n) π 2 (n)...], π(n) = π(n 1)P = = π(0)p n. (6) 2.2 Classification des états 2.2.1 Classe / chaîne irréductible Un état j est accessible à artir de l état i si (m) ij > 0 our un certain m N 0, c est-à-dire s il existe une suite de transitions ayant une robabilité non nulle de asser de l état i à l état j. Deux états i et j communiquent s ils sont accessibles l un à l autre, ce que l on note i j. Cette relation est réflexive, symétrique et transitive (exercice 3). Elle définit donc des classes d équivalence, qui sont l ensemble de tous les états qui communiquent entre eux. Une chaîne de Markov qui ne comorte qu une seule classe est dite irréductible. Un état i est absorbant s il est imossible de le quitter, c est-à-dire si ii = 1. Un état absorbant forme donc une classe à lui tout seul. Une classe d états est absorbante s il est imossible de les quitter. 121

2.2.2 Etats (a)ériodiques Un état i a une ériode d s il ne eut être visité qu à des instants multiles de d, c est-à-dire si (n) ii = 0 our chaque n qui n est as multile de d, où d est le lus grand entier ayant cette roriété. Tous les états d une classe ont la même ériode. En effet, suosons que i et j communiquent, et que i soit ériodique de ériode d. Comme i communique avec j, il existe k, m N 0 tels que (k) ij > 0 et (m) ji > 0. Pour tout n N, (k+n+m) ii = (k) ir (n) rl (m) li (k) ij (n) jj (m) ji. l S r S Si n = 0, cette égalité devient (k+m) ii (k) ij (m) ji > 0, ce qui n est ossible que si (k + m) est un multile de d. Par conséquent, si n n est as un multile de d, (k + n + m) n est as un multile de d non lus, et il s ensuit que (n) jj doit être nul, uisque (k) ij (m) ji > 0. Ceci montre que j a une ériode multile de d. En recommençant le même raisonnement, avec i et j intervertis, on montre que j a la même ériode que i. Si d = 1, l état est dit aériodique. Une chaîne irréductible dont tous les états sont aériodiques est donc elle-même aériodique. 2.2.3 Etats récurrents/transitoires On désigne ar T i le tems de remier assage ar l état i: T i = inf{n N 0 : X(n) = i}. (7) Si cet ensemble est vide, on ose T i =. Le domaine de T i est donc N 0 { }. Si T i est fini, le rocessus assera un jour ou l autre ar cet état. Par contre, si T i est infini, cela signifie que le rocessus ne assera jamais ar l état i. Remarquons que our tout m N 0 P (T i = m) = P (X(m) = i et X(n) i our tout 1 n m 1). Soit f i la robabilité que le rocessus retourne arès un certain tems à l état i: On a donc que f i = P (X(n) = i our un certain n N 0 X(0) = i). (8) f i = m N 0 P (T i = m X(0) = i) = P (T i < X(0) = i). Un état i est récurrent si la robabilité que le rocessus reasse ar cet état arès l avoir quitté vaut l unité, i.e. si f i = 1. Il est transitoire sinon, i.e. si f i < 1. On eut établir qu un état est récurrent ou transitoire directement à artir des robabilités (n) ii en introduisant une variable aléatoire V i, comtant le nombre de assages ar l état i. Notons 122

ar 1 {X(n)=i} la fonction indicatrice de l état i, qui vaut 1 si X(n) = i et 0 sinon (c est donc une v.a. de Bernoulli). Alors V i est exrimé ar: On calcule que V i = 1 {X(n)=i} (9) n=0 E[V i X(0) = i] = = E[1 {X(n)=i} X(0) = i] n=0 P (X(n) = i X(0) = i) = n=0 n=0 (n) ii. (10) Si i est un état récurrent, le nombre de assages ar cet état sera infini, car la robabilité d y revenir arès l avoir quitté vaut toujours 1. Par contre, si i est un état transitoire, chaque fois que le rocessus quitte cet état, il a une robabilité f i < 1 d y revenir, et donc (1 f i ) > 0 de le quitter à jamais. Ce raisonnement intuitif eut être démontré rigoureusement: en utilisant les tems d arrêt et la roriété forte de Markov on eut montrer que P (V i > k X(0) = i) = f i. Comme P (V i > k X(0) = i) = k=0 = v 1 P (V i = v X(0) = i) = P (V i = v X(0) = i) k=0 v=k+1 v=1 k=0 vp (V i = v X(0) = i) = E[V i X(0) = i], v=1 on a donc le théorème suivant: Proosition 1 L état i est récurrent si et seulement si n=0 (n) ii = et transitoire si et seulement si n=0 (n) ii <. La roriété de récurrence est une roriété de classe: en effet, si i est un état récurrent, et si j communique avec i, alors i est aussi récurrent. En effet, comme i communique avec j, il existe m, k N 0 tels que (m) ij > 0 et (k) ji > 0. Pour tout n N, (k+n+m) jj = l S r S (k) jr (n) rl (m) lj (k) ji (n) ii (m) ij 123

d où n=0 (k+n+m) jj (k) ji (m) ij n=1 (n) ii =, ce qui montre que j est aussi récurrent. Il s ensuit que la roriété d être transitoire est aussi une roriété de classe. Finalement, on fait une distinction sulémentaire entre états récurrents, lorsqu on considère l esérance du tems de remier retour. Si l état i est récurrent, celle-ci s écrit E[T i X(0) = i] = mp (T i = m X(0) = i) = mp (T i = m X(0) = i). m N 0 m N 0 Si cette esérance est finie, l état est dit récurrent ositif, sinon il est récurrent nul. On eut montrer que si X(n) est une chaîne irréductible récurrente, alors tous ses états sont soit récurrents ositifs, soit récurrents nuls. Si de lus son esace d état est fini, alors tous ses états ne euvent être que récurrents ositifs. Une chaîne de Markov homogène irréductible, aériodique et dont tous les états sont récurrents ositifs est dite ergodique. (Il s agit d un ergodisme en distribution, as seulement en moyenne). 2.3 Comortement asymtotique De même que la réonse d un système déterministe linéaire et invariant dans le tems se comose d un régime transitoire et d un régime ermanent, on eut étudier si la distribution de robabilité π(n) tend vers une distribution limite lorsque n. Une distribution de robabilité π est dite stationnaire (ou encore invariante) si elle satisfait à l équation π = π P (11) c est-à-dire, our tout j S π j = i S π i ij. (12) Dans ce cas, si π(0) = π, (6) entraîne que π(n) = π our tout n 0. Le rocessus est donc stationnaire (au sens strict) car P (X(n + k) = i k,..., X(n) = i 0 ) = P (X(n + k) = i k X(n + k 1) = i k 1 )... P (X(n + 1) = i 1 X(n) = i 0 )P (X(n) = i 0 ) = ik 1 i k... i0 i 1 π i 0 ce qui ne déend as du tems initial n. Donc les robabilités sont indéendantes de l origine de l axe des tems, ce qui montre que le rocessus est stationnaire. Si une distribution limite existe, elle sera stationnaire. L inverse n est ourtant as vrai. Grâce à la classification faite à la section récédente, on eut maintenant énoncer les conditions sous lesquelles une chaîne de Markov à tems discret converge vers une distribution stationnaire: 124

Théorème 1 Si X(n) est une chaîne de Markov homogène ergodique alors il existe une seule distribution stationnaire donnée ar (12) et (3), i.e. solution unique de π j = i S π i ij (13) et πi = 1. (14) De lus, tout vecteur des robabilités d état tend vers cette distribution stationnaire: lorsque n. i S π(n) π Nous ne démontrons as ce théorème (il faut utiliser la roriété forte de Markov non vue ici), mais indiquons la démarche à suivre. Si l esace d états est fini, le théorème eut être établi de manière algébrique, en calculant la matrice P n, et en montrant qu elle tend vers une matrice P dont toutes les lignes sont le vecteur π. Dans le cas général d un esace d états fini ou infini (mais dénombrable), il faut utiliser une aroche astucieuse, qui consiste à couler la chaîne X(n) avec une autre chaîne Y (n), indéendante de X, de même matrice de transition P, et dont la distribution initiale de robabilité est la distribution invariante π (donc P (Y (n) = j) = πj our tout j S et n N). On montre alors que 1. le tems de remier assage simultané de X et Y ar un état i S est resque sûrement fini, i.e. que P (T (i,i) < ) = 1 avec 2. le rocessus T (i,i) = inf{n N 0 : X(n) = Y (n) = i}; { X(n) si n < T(i,i) Z(n) = Y (n) si n T (i,i) est une chaîne de Markov de même matrice de transition P et même distribution initiale de robabilité π 0 que la chaîne X, ce qui entraîne en articulier que P (Z(n) = j) = P (X(n) = j) our tout j S; 3. Pour tout j S, on a alors que P (X(n) = j) π j = P (Z(n) = j) P (Y (n) = j) = P (Z(n) = j et T (i,i) > n) + P (Z(n) = j et T (i,i) n) P (Y (n) = j) = P (X(n) = j et T (i,i) > n) + P (Y (n) = j et T (i,i) n) P (Y (n) = j) = P (X(n) = j et T (i,i) > n) P (Y (n) = j et T (i,i) > n) P (T (i,i) > n) 0 = P (T (i,i) > n) et P (T (i,i) > n) 0 si n car P (T (i,i) < ) = 1. 125

Nous mentionnons également, sans démonstration, le théorème suivant imortant. Théorème 2 Si X(n) ossède une distribution stationnaire unique π = [π0 π1 tems moyen de retour à l état i vaut...] alors le E[T i X(0) = i] = 1 πi. (15) 2.4 Quelques chaînes récurrentes classiques 2.4.1 Chaîne de Markov à deux états Un modèle simle de source binaire est une chaîne de Markov à deux états (l état 0 et l état 1: S = {0, 1} ), dont le diagramme de transition des états est rerésenté à la figure 1 et dont la matrice de transition est [ ] 1 P = (16) q 1 q où 0, q 1 et 0 < + q 2. Une telle chaîne de Markov eut ar exemle modéliser le tirage d une ièce de monnaie à ile ou face: 0 et 1 rerésentent les côtés ile et face. Elle eut aussi modéliser une suite binaire dans lequel la robabilité d aarition de chaque symbole binaire ne déend que du récédent. Enfin elle eut modéliser un canal binaire bruité: dans ce cas, la robabilité est la robabilité qu un symbole 0 émis soit erroné à la récetion, et 1 est la robabilité qu il soit transmis correctement. De même, q rerésente la robabilité qu un symbole 1 soit émis mais qu un 0 soit erronément reçu, tandis que 1 q est la robabilité qu il soit transmis correctement. On eut calculer que la matrice de transition à n étaes est P n = 1 [ ] [ q (1 q)n + + q q + q q q ]. (17) On eut vérifier que cette chaîne est irréductible et aériodique si + q < 2, et que tous ses états sont récurrents ositifs. Par conséquent, toute distribution initiale de robabilités π(0) tend vers la solution stationnaire qui est π = [ q + q 2.4.2 Marche aléatoire uni-dimensionelle sur Z ]. (18) + q Considérons la marche aléatoire uni-dimensionelle sur S = Z, décrite ar le diagramme des transitions d état de la figure 2, ou encore ar l équation X(n + 1) = X(n) + U(n) où U(n) est une suite de v.a. de Bernouilli i.i.d, renant les valeurs 1 (res. 1) avec la robabilité (res. 1 ). 126

1-1-q 0 1 q X(n) 0 < < 1/2 < q < 1 X(n) 0 < = q < < 1 n n X(n) 0 << = q < 1 X(n) = q = 1 n n Figure 1: Chaîne de Markov à deux états: diagramme des transitions, et quelques trajectoires tyiques our certaines valeurs de et q. 127

Un retour à l état 0 en 2n étaes n est ossible que si l état du rocessus s est délacé sur le diagramme n fois d une osition vers la droite, et n fois d une osition vers la gauche. Un retour à l état 0 en 2n + 1 étaes est imossible. Par conséquent, comme la osition du rocessus arès 2n étaes est décrite ar une v.a. binomiale Bin(2n, ), on a (2n) 00 = C2n n n (1 ) n = (2n)! n!n! n (1 ) n (2n+1) 00 = 0 ou encore, en utilisant la formule de Stirling n! n n e n 2πn (2n) (4(1 ))n 00 = πn Si = 1/2, (on arle alors de marche aléatoire symétrique) cette aroximation devient our de grandes valeurs de n (2n) 00 = 1 πn et n=0 (n) 00 = ce qui montre que les états sont récurrents 1. On eut de lus montrer qu ils sont récurrents nuls. Si < 1/2, la série converge (n) 00 < et les états sont transitoires. n=0 On eut de même définir une marche aléatoire sur S = Z 2. Par exemle, dans le cas symétrique (toutes les directions de délacement équirobables), les robabilités de transition seraient (i,j),(i+1,j) = (i,j),(i 1,j) = (i,j),(i,j+1) = (i,j),(i,j 1) = 1/4. On montre de la même manière que tous les états sont récurrents. Il faut signaler que cette roriété n est ceendant lus vraie our une marche aléatoire sur S = Z k avec k 3: tous les états sont alors transitoires! 2.4.3 Marche aléatoire uni-dimensionelle sur {0, 1, 2,..., N} Une marche aléatoire sur un esace d état fini S = {0, 1, 2,..., N} est beaucou lus simle à étudier. Les robabilités de transition à artir des états 0 et N doivent alors être modifiées. Nous considérons deux cas. 1 Il faudrait encore rouver que l erreur due à l aroximation de n! ar la formule de Stirling est négligeable: c est le cas ici. 128

-10 0 01 2 q=1- q=1- q=1- q=1-3 X(n) = 1/2 n X(n) 1/2 < < 1 n Figure 2: Marche aléatoire sur Z: diagramme des transitions, et quelques trajectoires tyiques our certaines valeurs de. Le remier est celui où 0 et N font office de barrières bloquantes, emêchant la marche de se oursuivre au delà de ces deux états, de sorte que NN = = 1 00 avec 0 < < 1, et dont le diagramme des transitions est rerésenté en haut de la figure 3. On eut vérifier que cette chaîne est alors ergodique, et donc que toute distribution de robabilités d état tend vers la distribution stationnaire πi = 1 ρ 1 ρ N+1 ρi (19) our 0 i N, avec ρ = /(1 ) (exercice 5). Le second cas est une marche aléatoire sur un cercle, our laquelle N0 = = 1 0N avec 0 < < 1, et dont le diagramme des transitions est rerésenté en bas de la figure 3. Si le nombre d états (N + 1) est imair, cette chaîne est alors ergodique, et toute distribution de robabilités d état tend vers une distribution invariante unique, qui est (ar symétrie, ou en utilisant l exercice 6) πi = 1 (20) N + 1 our 0 i N. D autre art, si (N + 1) est air, la chaîne est alors ériodique, de ériode 2. On eut montrer que (20) est encore sa seule distribution invariante, mais le théorème 1 ne s alique as. Toutefois, on eut montrer que toute distribution de robabilités d état tend 129

q=1-0 10 2 0 N-1 N q=1- q=1- q=1- q=1- q=1-0 10 N 0 q=1- q=1- q=1-2 q=1- q=1- N-1 q=1- q=1- q=1-0 0 0 Figure 3: Marche aléatoire à barrières bloquantes et sur un cercle. vers cette distribution stationnaire au sens de Cesàro, à savoir que lim m 1 m m n=1 π i (n) = π i = 1 N + 1. 2.4.4 Urnes d Ehrenfest Les hysiciens T. et P. Ehrenfest introduisirent un modèle simle de mécanique statistique our décrire la diffusion de articules à travers une membrane oreuse. On considère un ensemble de N articules distribuées dans deux urnes. A chaque instant n, une de ces N articules est choisie au hasard, extraite de son urne et lacée dans l autre urne. Le nombre de articules dans une urne est une chaîne de Markov. Si X(n) décrit le nombre de articules dans la remière urne, les robabilités de transition non nulles sont i,i+1 = N i N i,i 1 = i N. Tous les (N + 1) états de cette chaîne sont récurrents ositifs. Elle ossède une distribution stationnaire πi = CN i 1 2 N, (21) our 0 i N, comme on le verra à l exercice 15. Cette distribution est la loi binomiale Bin(N, 1/2), dans laquelle chaque articule a la même robabilité de se trouver dans chaque urne, indéendamment des autres articules. 130

A nouveau, la chaîne est ériodique, de ériode 2, et donc le théorème 1 ne s alique as tel quel. Toutefois, toute distribution de robabilités d état tend vers la distribution stationnaire binomiale Bin(N, 1/2) au sens de Cesàro. Ceci montre que quelle que soit la distribution initiale des articules dans les deux urnes, cette distribution tend vers une distribution d équilibre, et est une illustration du rincie d irréversibilité thermodynamique (la ériodicité d ordre 2 est en fait un artefact dû à la discrétisation du tems, qui disarait si la chaîne est à tems continu). Ceendant, la chaîne étant récurrente ositive, il y aura, avec robabilité 1, un instant où une des deux urnes sera vide, ce qui contredit ce rincie. Le aradoxe est levé en renant N très grand (ce qui est le cas réel), car dans ce cas π 0 = 1/2N est beaucou lus faible que π N/2 2/πN. En fait on eut montrer que E[T 0 X(0) = N/2] 2 N /N E[T N/2 X(0) = 0] (N/2)(1 + ln(n/2)) et donc qu il est infiniment lus raide de asser à un état où les nombres de articules entre les deux urnes sont équilibrés que l inverse. 2.5 Tems d atteinte Retournons au tems de remier assage, que nous avons déjà défini à l équation (7) comme le tems minimal (non nul) requis our atteindre un état i. On eut étendre cette définition en ne considérant non as un seul état i S, mais un sousensemble d états A de S. On définit ainsi le tems d atteinte de A S ar H A = inf{n N : X(n) A}, et ar H A = si l ensemble {n N : X(n) A } est vide. Le domaine de H A est donc 2 N { }. Nous nous intéressons tout d abord aux robabilités que artant d un état i S on atteigne le sous-ensemble A, que nous notons h ia = P (H A < X(0) = i) = P (X(n) A our un certain n N X(0) = i). (22) Ces robabilités seront d un intérêt articulier si A est un état (ou une classe d états) absorbant(s). On les aelle alors robabilités d absortion à artir de l état i. Le théorème suivant ermet de les calculer: Théorème 3 Le vecteur des robabilités h A = [h ia, i S] est la solution minimale non négative du système d équations linéaires h ia = 1 si i A h ia = j S ijh ja si i / A (23) 2 Remarquons que si A = {i}, H A = H {i} T i, car T i ne eut rendre de valeur nulle, au contraire de H {i}. 131

Démonstration: Si X(0) = i A, H A = 0 et donc h ia = 1. Si X(0) = i / A, la définition même de chaîne de Markov entraîne que h ia = P (X(n) A our un certain n N X(0) = i) = P (X(n) A our un certain n N 0 X(0) = i) = j S P (X(n) A our un certain n N 0 X(1) = j, X(0) = i)p (X(1) = j X(0) = i) = j S P (X(n) A our un certain n N 0 X(1) = j) ij = j S P (X(n) A our un certain n N X(0) = j) ij = j S h ja ij et on a donc montré que les h ia, i S sont solutions du système d équations (23). Il reste à montrer que cet ensemble de robabilités en est la solution minimale. Suosons que [g i, i S] soit une autre solution de (23). Si X(0) = i A, g i = h ia = 1. Suosons désormais que X(0) = i / A. Dans ce cas, comme [g i, i S] est une solution de (23) g i = j S ij g j = j A ij g j + j / A ij g j = j A ij + j / A ij g j. (24) On eut de même écrire que si j / A g j = jk g k = jk + jk g k. k S k A k / A En substituant g j dans le dernier terme de (24) ar cette exression, il vient g i = ij + ( ij jk + ) jk g k = ij + ij jk + ij jk g k j A j / A k A k / A j A j / A k A j / A k / A = P (X(1) A X(0) = i) + P (X(1) / A, X(2) A X(0) = i) + ij jk g k. j / A k / A En réétant les substitutions des g k qui aaraissent à chaque nouveau déveloement, on obtient arès la nième substitution g i = P (X(1) A X(0) = i) + P (X(1) / A, X(2) A X(0) = i) +... +P (X(1) / A, X(2) / A,..., X(n 1) / A, X(n) A X(0) = i) +... ij1 j1 j 2... jn 1 j n g jn. j 1 / A j 2 / A j n / A Comme g jn 0, le dernier terme du membre de droite de cette exression est non-négatif, et la somme des n remiers vaut P (X(m) A our un certain m [1, n] X(0) = i) 132

c est-à-dire P (H ia n X(0) = i). Dès lors g i P (H ia n X(0) = i) our tout n N 0, et g i lim n P (H ia n X(0) = i) = P (H ia < X(0) = i) = h ia. Une des alications les lus fréquentes de ce théorème est le cas où A est une classe absorbante. Lorsque la chaîne est finie, on eut s affranchir du calcul de la solution minimale, car la solution de (23) est unique. Ce n est souvent lus le cas lorsque l esace d états est infini. Nous nous intéressons d autre art au tems moyen que rend X(n) our atteindre le sousensemble A: µ H ia = E[H A X(0) = i] = mp (H A = m X(0) = i). (25) m N { } Remarquons que cette dernière ligne eut être exlicitée en fonction du rocessus X comme µ H ia = m N mp (X(m) A et X(n) / A our 0 n m 1 X(0) = i) si h ia = 1, c est-à-dire si le rocessus X(n) atteint le sous-ensemble A en un tems fini avec robabilité 1, et ar µ H ia = si h ia < 1. Le calcul de (25) fait de nouveau ael à un théorème similaire au récédent: Théorème 4 Le vecteur des tems moyens d atteinte µ H A = [µh ia, i S] est la solution minimale non négative du système d équations linéaires µ H ia = 0 si i A µ H ia = 1 + j / A ijµ H ja si i / A (26) Démonstration: Si X(0) = i A, H A = 0 et donc µ H ia = 0. Si X(0) = i / A, alors H A 1 et donc our tout j S, le fait que X(n) soit une chaîne de Markov imlique que et donc que E[H A X(1) = j] = 1 + E[H A X(0) = j] µ H ia = E[H A X(0) = i] = j S E[H A X(1) = j, X(0) = i]p (X(1) = j X(0) = i) = j S E[H A X(1) = j] ij = j S(1 + E[H A X(0) = j]) ij = ij + E[H A X(0) = j] ij = 1 + E[H A X(0) = j] ij = 1 + ij µ H ja. j S j S j / A j / A On a donc montré que les µ H ia, i S sont solutions du système d équations (26). 133

Il reste à montrer que cet ensemble de robabilités en est la solution minimale. Suosons que [µ G i, i S] soit une autre solution de (26). Si X(0) = i A, µg i = µ H ia = 0. Suosons désormais que X(0) = i / A. Dans ce cas, comme [µ G i, i S] est une solution de (26) µ G i = 1 + ij µ G j = 1 + ( ij 1 + ) jk µ G k = 1 + ij + ij jk µ G k j / A j / A k / A j / A j / A k / A = P (H A 1 X(0) = i) + P (H A 2 X(0) = i) + ij jk µ G k. j / A k / A En réétant les substitutions des µ G k obtient arès la nième substitution qui aaraissent à chaque nouveau déveloement, on µ G i = P (H A 1 X(0) = i) + P (H A 2 X(0) = i) +... + P (H A n X(0) = i) +... ij1 j1 j 2... jn 1 j n µ G j n. j 1 / A j 2 / A j n / A Comme µ G j n 0, le dernier terme du membre de droite de cette exression est non-négatif, d où n µ G i P (H A 1 X(0) = i) +... + P (H A n X(0) = i) = mp (H A = m X(0) = i) m=1 et en laissant n, µ G i mp (H A = m X(0) = i) = µ H ia. m=1 2.6 Quelques chaînes absorbantes classiques 2.6.1 Ruine du joueur sur {0, 1, 2,..., N} Deux joueurs jouent à ile ou face une certaine somme d argent. La somme initialement ossédée ar le joueur A est égale à i haricots, et celle ossédée ar B vaut (N i) haricots. Ils jouent leurs fortunes resectives à ile ou face: chaque fois que le côté ile aaraît, ce qui se roduit avec une robabilitité, le joueur B donne un haricot à A, et vice-versa sinon. Le jeu se termine lorsqu un des deux joueurs se retrouve sans haricots. Ce jeu est une chaîne de Markov dont le diagramme des transitions est rerésenté à la figure 4. Notons que c est un cas articulier de marche aléatoire avec deux barrières absorbantes (les états 0 et N). Il est clair que {0} et {N} sont deux classes absorbantes de cette chaîne, et que tous les autres états {1,..., N 1} forment une classe transitoire. Les questions qui nous intéressent sont (i) qui va gagner, et (ii) combien de tems va durer ce jeu? 134

1 1 0 0 1 2 0 N-1 N q=1- q=1- q=1- q=1- Figure 4: Ruine du joueur ou marche aléatoire à deux barrières absorbantes. (i) Pour réondre à la remière question, laçons-nous du côté du joueur A, et calculons la robabilité qu il gagne, c est-à-dire que le nombre de haricots en sa ossession au tems n, X(n), atteigne l état N. Comme on sait que X(0) = i, cette robabilité est donc h in = P (X(n) = N our un certain n N X(0) = i) = P (H N < X(0) = i) où H N est la v.a. décrivant le tems d atteinte de l état N. D arès le théorème 3, ce tems est la solution minimale non négative du système d équations linéaires h in = 1 si i = N h in = N j=0 ijh jn si 0 i N 1 (27) Pour cet exemle-ci, le système (27) s écrit h in = 1 si i = N h in = qh i 1,N + h i+1,n si 1 i N 1 h in = h in si i = 0 (28) Maintenant, l alication directe du théorème reviendrait à chercher la solution minimale de ce système d équations. Il est beaucou lus raide d utiliser directement le fait que 0 est lui aussi un état absorbant, et donc qu il est imossible d atteindre N à artir de 0. De la sorte, on remlace la troisième et dernière équation (triviale!) de (28) ar h 0N = 0, si bien que le système qu il faut résoudre est le système d équations aux récurrences h in = qh i 1,N + h i+1,n (29) our 1 i N 1 avec les conditions aux bords h 0N = 0 et h NN = 1. Comme il y a deux conditions aux bords différentes, la solution de (29) sera de toutes façons unique. On n a donc as à chercher la solution minimale. Raelons la forme de la solution générale de l équation aux récurrences linéaire du second ordre à coefficients constants a, b, c ax i+1 + bx i + cx i 1 = 0. Soient α et β les deux racines du trinôme du second degré az 2 + bz + c. Si α β, la solution a la forme x i = K a α i + K b β i 135

tandis que si α = β 0, elle a la forme x i = (K a + ik b )α i. Ici, a =, b = 1 et c = q, on calcule que α = 1 et β = q/ d où { Ka + K h in = b (q/) i si q K a + K b i si = q Les deux constantes K a et K b sont déterminées ar les deux conditions aux bords h 0N = 0 et h NN = 1, et on trouve finalement, our 1 i N 1, h in = { (q/) i 1 (q/) N 1 si q i/n si = q (30) (ii) La réonse à la seconde question est µ H i{0,n} = E[H {0,N} X(0) = i]. (31) Le calcul de (31) est basé sur le théorème 4, et fait l objet de l exercice 11. On trouve { ( ) 1 µ H i{0,n} = q N (q/)i 1 (q/) N 1 i si q i(n i) si = q (32) 2.6.2 Ruine du joueur sur N On rerend le même exemle que le récédent, mais cette fois le joueur B est un casino infiniment riche, si bien que sa fortune est sans limite (cfr figure 5). Que devient la robabilité du joueur A de ne as tout erdre au jeu (mais au contraire de continuer à jouer indéfiniment)? 1 0 0 1 2 03 q=1- q=1- q=1- q=1- q=1- Figure 5: Ruine du joueur face à un adversaire infiniment riche ou marche aléatoire à une barrière absorbante. Cette robabilité vaut (1 h i0 ), avec h i0 = P (X(n) = 0 our un certain n N X(0) = i) = P (H 0 < X(0) = i) où H 0 est la v.a. décrivant le tems d atteinte de l état 0. D arès le théorème 3, ce tems est la solution minimale non négative du système d équations linéaires h i0 = 1 si i = 0 h i0 = qh i 1,0 + h i+1,0 si i N 0 (33) 136

On a à nouveau un système d équations aux récurrences h i0 = qh i 1,0 + h i+1,0 our i 1, mais cette fois on n a lus qu une seule condition au bord h 00 = 1, ce qui nous laisse une indétermination sur une des deux valeurs K a ou K b dans l exression de la solution générale { Ka + K h i0 = b (q/) i si q K a + K b i si = q Si < q ce qu aliquent tous les casinos la restriction 0 h i0 1 nous imose de rendre K b = 0 et donc K a = 1. Si > q, comme K a + K b = h 00 = 1, cette équation devient h i0 = (q/) i + K a (1 (q/) i ). Pour que h i0 0 our tout i N 0, il faut que K a 0. L indétermination sur K a est levée en cherchant la solution minimale: celle-ci est en effet obtenue our K a = 0. Enfin, si = q, la restriction 0 h i0 1 nous imose encore de rendre K b = 0 et donc K a = 1. Par conséquent, our tout i N 0, et donc la robabilité cherchée vaut h i0 = { (q/) i si > q 1 si q 1 h i0 = { 1 (q/) i si > 1/2 0 si 1/2 (34) Donc, si > 1/2 il y a une robabilité non nulle que le joueur ne erde as toute sa fortune au jeu, même s il n arrête jamais. Par contre, si 1/2, il erdra resque sûrement tout son avoir. Remarquons que même dans le cas ou les jeux du casino ne sont as biaisés, le joueur erd toute sa fortune avec robabilité 1: c est le aradoxe de la ruine du joueur. 2.6.3 Processus de branchement ou d arborescence Les rocessus de branchement sont des rocessus Markoviens insirés (et utilisés) ar la biologie, our modéliser la croissance de oulation de bactéries ou des roblèmes de génétique. Ils euvent également modéliser la génération de articules ar réaction en chaîne dans des disositifs hysiques, comme l effet d avalanche dans la hotodiode APD introduite au module récédent. On considère une oulation d individus caables de roduire des descendants. On aelle (n+1) l indice de la génération, et on étudie le nombre X(n) d individus de la génération (n+1). On suose que chaque individu i de la (n + 1)ième génération aura généré durant son existence Ci n descendants, où les Ci n forment une suite de v.a. i.i.d, de loi de robabilité P (Ci n = k) = c k donnée our tout k N. 137

La remière génération ne comorte qu un seul individu (X(0) = 1), qui a C1 0 descendants, si bien que le nombre d individus de la seconde génération est X(1) = C1 0. En continuant de la sorte, à la (n + 1)ième génération, il y aura donc X(n) = C n 1 + C n 2 +... + C n X(n 1) individus. Ce rocessus est clairement une chaîne de Markov, car X(n) ne déend que de X(n 1), et as de X(n 2),..., X(0). Si c 0 = 0, l état 0 ne sera jamais atteint à artir de X(0) = 1, et la oulation ne fera que croître. Dans la suite, nous suoserons toujours que c 0 > 0. Dans ce cas, l état 0 est absorbant et tous les autres sont transitoires, car i0 = c i 0. Dès lors tout sous-ensemble fini d états {1, 2, 3,..., N} ne sera visité qu un nombre (resque sûrement) fini de fois, et ar conséquent, soit la oulation disarait entièrement, soit sa taille devient infinie. La robabilité d extinction de la oulation sachant que sa taille initiale est i est h i0 = P (X(n) = 0 our un certain n N X(0) = i). Elle est ar conséquent la solution minimale non négative de h i0 = 1 si i = 0 h i0 = j=0 ijh j0 si i N 0 (35) Dans notre cas, X(0) = 1 et la robabilité cherchée est donc h 10. Maintenant, h i0 est la robabilité que tous les descendants de i familles différentes meurent un jour ou l autre. Comme l évolution du nombre de descendants est indéendante d une famille à l autre (car les Ci n forment une suite de v.a. indéendantes our tout i et our tout n), cette robabilité est le roduit des i robabilités que chaque famille s éteigne. Comme les Ci n sont identiquement distribuées, ces i robabilités sont identiques, et valent chacune h 10. On a donc h i0 = h i 10 our tout i N 0. D autre art, 1j = P (X(n) = j X(n 1) = 1) = P (C n 1 1 = j) = c j, si bien que la robabilité cherchée, h 10, est la solution minimale de h 10 = 1j h j0 = j=0 c j h j 10. Le dernier terme de cette équation n est autre que la fonction génératrice de robabilité des variables Ci n (celles-ci étant i.i.d., elles ont toutes la même fonction génératrice de robabilité) G C (z) = j=0 z k P (Ci n = k) = k=0 z k c k, k=0 évaluée en z = h 10. En notant F (z) = G C (z) z, 138

on conclut donc que h 10 est la solution réelle minimale non négative de F (z) = 0. On calcule aisément que d 2 F dz 2 (z) = d2 G C dz 2 (z) = k(k 1)c k z k 2 0 k=2 our tout 0 z 1, de sorte que F (z) est une fonction convexe sur [0, 1], qui vaut F (0) = G C (0) = c 0 > 0 en z = 0 et F (1) = G C (1) 1 = 0 en z = 1. Dès lors, si F (z) atteint un minimum dans ]0, 1[, l équation F (z) = 0 a une solution h 10 < 1, comme indiqué à la figure 6(a). Sinon, la solution est h 10 = 1, comme indiqué à la figure 6(b). Par conséquent, h 10 = 1 si et seulement si df (z)/dz < 0 our tout 0 z < 1. Désignons ar µ C la moyenne des v.a. C n i. Comme df dz (z) = dg C dz (z) 1 = kc k z k 1 1 < k=1 kc k 1 = µ C 1, our tout z [0, 1[, on a que h 10 = 1 si µ C 1. Par contre, si µ C > 1, df (z)/dz µ C 1 > 0 our des valeurs de z roches de 1, et donc le minimum est atteint dans [0, 1[. En conclusion, le robabilité d extinction de la oulation vaut l unité si et seulement si le nombre moyen de descendants générés ar individu est inférieur ou égal à 1. k=1 F(z) = G C (z)-z F(z) = G C (z)-z c 0 c 0 h 10 1 h 10 =1 z z (a) (b) Figure 6: Solution minimale h 10 de l équation F (z) = z. 139

2.7 Chaînes réversibles 2.7.1 Définition Suosons qu on ait une chaîne de Markov ergodique à l état stationnaire, et qu à artir d un certain tems n, on considère la séquence d états X(n), X(n 1), X(n 2),..., X(0), c est-à-dire la chaîne originelle en remontant le tems (backward chain). Cette séquence est elle-même une chaîne de Markov dont les robabilités de transition sont, à artir de la formule de Bayes, ij = P (X(n) = j X(n + 1) = i) = P (X(n + 1) = i X(n) = j)p (X(n) = j) P (X(n + 1) = i) = jiπ j π i (36) où les {πi, i S} sont les robabilités d état stationnaires de la chaîne. Pour démontrer que le rocessus renversé est Markovien, il faut montrer que P (X(n) = j X(n + 1) = i, X(n + 2) = k, X(n + 3) = l,...) = P (X(n) = j X(n + 1) = i) = ˆ ij. (37) Pour cela, notons que quel que soit n N, les v.a. X(n + 2), X(n + 3),... étant donné l état X(n + 1) de la chaîne à l instant (n + 1), sont indéendantes de X(n): cela est simlement dû au fait que X(n) est une chaîne de Markov. Comme l indéendance est une relation symétrique (i.e. A est indéendant de B ssi B est indéendant de A), cela signifie qu étant donné l état X(n + 1) à l instant (n + 1), X(n) est indéendant de X(n + 2), X(n + 3),..., ce qui établit (37). Si ij = ij our tout i, j S, alors la chaîne de Markov est dite réversible (temorellement). A cause de (36), une chaîne de Markov ergodique est donc réversible si our tout i, j S π i ij = π j ji. (38) Cette condition signifie que le taux avec lequel le rocessus asse de l état i à l état j, à savoir π i ij, est égal au taux avec lequel le rocessus asse de l état j à l état j, à savoir π j ji. Pour cette raison, on aelle ces équations équations de balance. Cette condition ermet de simlifier le calcul de la distribution stationnaire: si on trouve une ensemble de réels non négatifs {x i, i S} sont la somme fait 1 et tels que x i ij = x j ji alors ces quantités sont les robabilités détat stationnaires πi. dernière relation sur i, on obtient x i ij = x j ji = x j i S i S En effet, en sommant cette et d autre art la distribution stationnaire d une chaîne ergodique est unique, d où x i = π i. 140

2.7.2 Exemles Marche aléatoire uni-dimensionelle à barrières bloquantes. Remarquons que our toute trajectoire rise jusqu à n imorte quel tems n, X(0), X(1), X(2), X(3),..., X(n 1), X(n) le nombre de transitions de l état i à l état (i+1) ne eut différer du nombre de transitions de l état (i + 1) à l état i que d une unité au lus, car entre deux transitions de i à (i + 1), il doit y nécessairement y avoir eu une transition de (i + 1) à i et vice-versa (en effet, la seule manière de revenir à l état i à artir d un état j i est de reasser ar (i + 1)). Par conséquent, la roortion sur le long terme de transitions de i à (i + 1) est égale à la roortion de transitions de (i + 1) à i, et donc cette chaîne est réversible. On vérifie de fait que les robabilités (19) satisfont à π i ij = π j ji. En fait le même argument s étend à toute chaîne de Markov à barrières bloquantes dans laquelle les transitions entre états sont limitées aux deux voisins immédiats, sans être nécessairement identiques our tous les états i; i.e. our toute chaîne our laquelle i,i+1 = 1 i,i 1 our 1 i N 1 01 = 1 00 NN = 1 N,N 1. (39) Marche aléatoire sur un cercle. Ici ar contre, la dsitribution stationnaire est (20), et la condition de réversibilité devient ij = ji our tout i j, ce qui entraîne que = i,i+1 = 1 i,i 1 et donc = 1/2. Par conséquent, si 1/2, cette chaîne n est as réversible. Urnes d Ehrenfest. Les robabilités de transition satisfaisant (39), cette chaîne est réversible. L exercice 15 montrera comment cette roriété nous ermet de calculer facilement la distribution (21),à artir des équations de balance π i 1 i 1,i = π i i,i 1. 2.8 Ergodisme Nous avons déjà mentionné qu une chaîne de Markov homogène irréductible, aériodique et dont tous les états sont récurrents ositifs est dite ergodique. Ce terme est justifié ar le théorème suivant, que nous ne demontrons as: 141

Théorème 5 Si X(n) est une chaîne ergodique, dont la distribution stationnaire est π = [π0 π 1...] alors our toute fonction bornée f : S R, ( m 1 1 P f(x(n)) ) πi f(i) our m = 1. (40) m n=0 i S En articulier, our f(x) = 1 {x=i} (i.e., f(x) = i si x = i et f(x) = 0 sinon), on a ( ) m 1 1 P 1 m {X(n)=i} πi our m = 1 (41) n=0 ce qui montre que le roortion de tems assé dans chaque état avant un certain tems m tend vers π i sur le long terme (m ). D autre art, si f(x) = x, on a m 1 1 m n=0 i S f(x(n)) = 1 m π i f(i) = i S m 1 n=0 X(n) = < X(n) > m iπ i = µ X où µ X est l esérance de la chaîne X à l état stationnaire, si bien que (40) devient P ( < X(n) > m µ X our m ) = 1. ce qui montre qu une chaîne de Markov ergodique l est ar raort à sa moyenne. Notons que l équation ci-dessus signifie que < X(n) > m converge vers µ X avec robabilité 1, ce qui est une forme d ergodisme différente (on eut montrer qu elle est lus forte) que celle en moyenne quadratique considérée au module 4. Ceci montre qu une chaîne de Markov ergodique l est non seulement ar raort à sa moyenne, mais en distribution. Dans le cas d une chaîne de Markov qui n est as nécessairement ergodique, on a le résultat suivant Théorème 6 Si X(n) est une chaîne irréductible, alors our toute fonction bornée f : S R, ( ) m 1 1 1 P 1 m {X(n)=i} our m = 1. (42) E[T i X(0) = i] n=0 En effet, si la chaîne est transitoire, le nombre de visites à l état i est fini, si bien que m 1 1 m n=0 1 {X(n)=i} 0 = 1 E[T i X(0) = i]. D autre art, si la chaîne est récurrente ositive, le théorème 2 entraîne que (42) est équivalent à (41). Enfin, dans le cas récurrent nul, la même raisonnement que dans le cas récurrent ositif établit le théorème. 142

11 = 1 12 = 22 = 1 11 = 1 1 2 1 21 = b 1 (P) = 1 b 2 (F) = 1 b 1 (P) = b 1 (F) = 1 Pile Face Pile Face (a) (b) 11 = 1 12 = 22 = 1 1 2 21 = b 1 (P) = 1 b 1 (F) = 1 1 b 2 (F) = 1 2 b 2 (P) = 2 Pile Face Pile Face (c) Figure 7: Chaîne de Markov à deux états symétrique (a), chaîne de Markov cachée à un état (b) et chaîne de Markov cachée à deux états (c) 3 Chaînes de Markov cachées 3.1 Définition On eut comliquer le modèle d une chaîne de Markov en le rendant doublement stochastique comme suit. Rerenons l exemle de la chaîne de Markov à deux états traitée comme remier exemle de la section récédente, mais dans le cas symétrique où = q et dont le diagramme des transitions d états est rerésenté à la figure 7 (a). Suosons que cette chaîne de Markov rerésente un tirage d une même ièce de monnaie à ile ou face: le rocessus se trouve dans l état 1 lorsque le cté ile (P) est tiré, et dans l état 2 lorsque le côté face (F) est obtenu. Par conséquent, si on observe la séquence de résultats successifs (qu on aelera observations) [O(0), O(1), O(2),..., O(n)] = [P, P, F, P, P, P, P, F, F, F, P, P ] il est clair que les états successifs dans lesquels la chaîne se trouvait étaient [X(0), X(1), X(2),..., X(n)] = [1, 1, 2, 1, 1, 1, 1, 2, 2, 2, 1, 1] uisqu à chaque état corresond une seule valeur observée (Pile our l état 1, face our l état 2). Un autre modèle tout aussi valable our cette situation est le modèle dégénéré de la figure 7 (b), dans lequel il n y a lus qu un seul état, mais à artir duquel lequel on eut obtenir deux observations différentes : ile avec une robabilité et face avec une robabilité (1 ). 143

A résent, on disose de deux ièces de monnaies différentes. Une ersonne lance tantôt la remière ièce, tantôt la seconde, mais elle ne dit as laquelle des deux ièces elles utilise, elle communique seulement le résultat de chaque tirage, ar exemle [o(1), o(2),..., o(n)] = [P, P, F, P, P, P, P, F, F, F, P, P ]. On eut modéliser ces exériences ar le diagramme de la figure 7 (c): l état 1 corresond à l utilisation de la remière ièce, et l état 2 à l utilisation de la seconde ièce. Lorsque la ersonne utilise la remière ièce, la robabilité d obtenir le côté ile vaut 1 et donc la robabilité d avoir le côté face est (1 1 ), tandis que our la seconde ièce ces robabilités sont resectivement 2 et (1 2 ). Outre la distribution de robabitité ile/face caractérisant chaque état, un autre ensemble de robabilités interviennent: la matrice des robabilités de transitions entre états. Ce rocessus est donc doublement stochastique, et la séquence des résultats observés ne ermet as de déterminer à cou sr l état dans lequel on se trouvait, c est ourquoi on aelle ce modèle chaîne de Markov cachée (en anglais: Hidden Markov Model (HMM)). Par exemle, suosons qu en tirant n fois la remière ièce seulement on ait la séquence d observations [O (0), O (1), O (2),..., O (n)] = [P, P, F, P, P, F, P, P, P, F, F, P ], tandis qu en tirant n fois la seconde ièce seulement on ait la séquence d observations [O (0), O (1), O (2),..., O (n)] = [F, F, F, F, P, P, P, F, F, F, P, P ]. Alors si la séquence d états successifs dans laquelle la chaîne se trouve est la séquence observée est [X(0), X(1), X(2),..., X(n)] = [1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 1, 1] [O(0), O(1), O(2),..., O(n)] = [P, P, F, P, P, P, P, F, F, F, F, P ]. De même, avec trois ièces de monnaie, on eut construire une HMM à trois états. Remarquons que le diagramme de la figure 7 (b) est une HMM dégénérée à un état. D une façon générale, une chaîne de Markov cachée fait intervenir deux aramètres: le nombre N d états i, 1 i N, que eut rendre X(n), le nombre M de valeurs v k, 1 k M, que eut rendre l observation O(n), (dans l exemle des ièces de monnaie, N est le nombre de ièces différentes qui sont tirées et M = 2, car v 1 = Pile et v 2 = Face ) et met en jeu trois ensembles de robabilité: la loi de distribution P = { ij } des robabilités ij = P (X(n + 1) = j X(n) = i) de transition d un état i à un état j, 1 i, j N, la loi de distribution B = {b i (v k )} des robabilités b j (v k ) = P (O(n) = v k X(n) = i) des observations lorsque le rocessus est dans l état i, 1 i N, 1 k M, la loi de distribution π(0) = {π i (0)} des robabilités d état initiales π i (0) = P (X(0) = i). Une chaîne de Markov cachée sera désignée de manière lus comacte ar λ = (P, B, π(0)), notation qui sécifie l ensemble comlet des aramètres du modèle. 144

4 Alication: reconnaissance de la arole Les chaînes de Markov cachées sont très utiles our la reconnaissance de la arole, car elles ermettent de s affranchir de la grande variabilité du signal de arole (la segmentation en honèmes du même mot rononcé ar deux locuteurs eut se roduire a des intervalles de tems très différents). Nous allons brièvement exoser comment on utilise les HMMs dans un des cas les lus simles de reconnaissance de la arole: la reconnaissance de mots isolés d un vocabulaire fini de K mots. Le signal de arole est d abord codé comme une séquence de symboles, ar un rétraitement arorié, comme ar exemle l analyse LPC vue au module 4. Soit O le vecteur aléatoire rerésentant cette suite de symboles qui eut rendre une des valeurs O = [O(0), O(1),..., O(n)] v = [v k0, v k1,..., v kn ] où 1 k 0, k 1,..., k n M. Le roblème de la reconnaissance est alors de retrouver le mot m r, 1 r K, qui est le lus suscetible de corresondre à cette séquence d observations. Autrement dit, si W est la v.a. rerésentant les différents mots du vocabulaire, on cherche l indice r du mot (1 r K) qui maximise la robabilité P (W = m r O = v). Comme cette robabilité ne eut as être évaluée directement, on utilise la règle de Bayes our la mettre sous la forme P (W = m r O = v) = P (O = v W = m r)p (W = m r ). (43) P (O = v) L ensemble des robabilités a riori P (W = m r ) est assez facilement déterminé à artir de la fréquence d aarition de chaque mot dans le vocabulaire limité. Les robabilités P (O = v) n ont as besoin d être évaluées our déterminer l indice r qui maximise la robabilité (43), uisqu elles ne déendent as de r. Il reste à calculer les robabilités conditionnelles P (O = v W = m r ), c est-à-dire les robabilités que la rononciation du mot d indice r ait roduit la séquence observée v. Dans une rocédure d arentissage que nous n exliquons as ici, on construit un modèle de chaque mot m r, 1 r K, qui est ici une chaîne de Markov cachée λ r = (P r, B r, π r (0)). Le roblème de la reconnaissance revient alors à calculer our chaque 1 r K la robabilité P (O = v W = λ r ) our déterminer l indice r qui maximise cette robabilité lorsqu elle est multiliée ar P (W = m r ). 145

HMM λ 1 modélisant le mot m 1 Calcul de la robabilité P(O λ 1 ) P(m 1 ) P(O λ 1 ) P(m 1 ) Signal de arole Prétraitement O Sélection de l'indice r du maximum Indice r du mot reconnu HMM λ Κ modélisant le mot m Κ Calcul de la robabilité P(O λ Κ ) P(m Κ ) P(O λ Κ ) P(m Κ ) Figure 8: Reconnaissance de mots isolés d un vocabulaire limité. Le système de reconnaissance est schématisé à la figure 8. Pour évaluer une des robabilités P (O = v W = λ), il faut d abord calculer la robabilité qu aux tems 0, 1,..., n le rocessus rerésenté ar le vecteur aléatoire X = [X(0), X(1),..., X(n)] se soit trouvé dans la séquence d états articulière avec 1 i 0,, i 1,..., i n N. On trouve i = [i 0, i 1,..., i n ] (44) P (X = i W = λ) = π i0 (0) i0 i 1 i1 i 2... in 1 i n. (45) Ensuite, calculons la robabilité qu étant dans la séquence d états articulière (44), on observe la séquence O. On suose que les observations sont statistiquement indéendantes. Dès lors, P (O = v W = λ, X = i) = = n P (O(l) = v kl W = λ, X = i) l=0 n P (O(l) = v kl W = λ, X(l) = i l ) l=0 = b i0 (v k0 )b i1 (v k1 )... b in (v kn ). (46) Par conséquent, la combinaison des relations (45) et (46), et le théorème des robabilités totales 146

entraînent que P (O = v W = λ) = = P (O = v X = i, W = λ)p (X = i W = λ) tous les i π i0 (0)b i0 (v k0 ) i0 i 1 b i1 (v k1 )... in 1 i n b in (v kn ) (47) i 0,i 1,...,i n L évaluation directe de (47) est extrêmement coûteuse en nombre d oérations: il y a N n séquences d états i différentes, et our chacune d elles il faut effectuer 2n 1 multilications et une addition, ce qui donne 2nN n oérations. A titre d exemle, s il y a N = 5 états et n = 100 observations, il y a environ 2 5 5 100 10 72 oérations! Heureusement, des algorithmes itératifs ermettent d évaluer (47) beaucou lus efficacement. Une manière de rocéder est d introduire une variable auxiliaire α i (l) = P (O(0) = v k0, O(1) = v k1,..., O(l) = v kl, X(l) = i W = λ). (48) On a de la sorte un algorithme comortant trois arties: 1. Initialisation (l = 0): la valeur initiale de cette variable est, our 1 i N, α i (0) = P (O(0) = v k0, X(0) = i W = λ) = P (O(0) = v k0 X(0) = i, W = λ)p (X(0) = i W = λ) = b i (v k0 )π i (0). 2. Induction: (0 l N 1) Le calcul itératif des α i (l + 1) à artir des α i (l) fait l objet de l exercice 8, où on établit la récurrence our 1 i N N α i (l + 1) = α j (l) ij b i (v kl+1 ). (49) j=1 3. Terminaison: (l = n) our 1 i N, N P (O = v W = λ) = P (O = v, X(n) = i W = λ) = i=1 N α i (n). i=1 Le nombre d oérations de cet algorithme n est lus que de l ordre de nn 2. Par exemle, our N = 5 et n = 100, il y a environ 3000 oérations, au lieu des 10 72 oérations nécessaires our une évaluation directe. Une autre alternative est de ne lus faire l évaluation de (47) our toutes les combinaisons d état ossibles, mais seulement our la lus vraisemblable, c est-à-dire de remlacer (47) ar P (O = v W = λ) max π i0 (0)b i0 (v k0 ) i0 i 1 b i1 (v k1 )... in 1 i n b in (v kn ) i 0,i 1,...,i n ce qui diminue considérablement le nombre d oérations. Il faut alors résoudre le roblème de la détermination de la séquence d états la lus robable. A nouveau dans ce cas, des rocédures récursives sont efficacement utilisées (algorithme de Viterbi). Notons enfin qu en ratique, la loi de robabilité b i (v k ) n est as discrète, mais continue (gaussienne). 147

5 Exercices 1. Soit un rocessus à moyenne mobile (MA) Y (n) = (X(n) + X(n 1))/2 où X(n) est une suite de v.a. de Bernouilli indéendantes dont la robabilité de succès = 1/2 (Donc P (X(n) = 1) = P (X(n) = 1) = 1/2. Le rocessus Y (n) est-il Markovien? 2. Soit un rocessus auto-régressif (AR) Y (n) = αy (n 1) + X(n) où Y (0) = 0 et où X(n) est une suite de v.a. de Bernouilli indéendantes dont la robabilité de succès = 1/2 (Donc P (X(n) = 1) = P (X(n) = 1) = 1/2). Le rocessus Y (n) est-il Markovien? 3. Soient trois états i, j, k d une chaîne de Markov. Démontrez que si i et j communiquent, et que si j et k communiquent, alors i et k communiquent. 4. Etablir la matrice (17). 5. Calculer la distribution invariante de robabilité d état our la marche aléatoire unidimensionnelle dont le diagramme des transitions est rerésenté en haut de la figure 3. 6. Une matrice P est dite doublement stochastique si tous ces éléments sont non négatifs, et si la somme de tous ses éléments le long d une ligne et d une colonne vaut 1. a) Montrer que la marche aléatoire sur un cercle est décrite ar une matrice P doublement stochastique. b) Montrer que si le nombre d états est fini, une chaîne de Markov dont la matrice de transition est doublement stochastique admet une distribution invariante. Laquelle? 7. Pour les deux chaînes de Markov définies ar les deux matrices de transition suivantes, déterminer les classes d états, et si celles-ci sont transitoires ou récurrentes: P 1 = 0 0 1/2 1/2 1 0 0 0 0 1 0 0 0 1 0 0 P 2 = 3/4 1/4 0 0 0 3/4 1/4 0 0 0 0 0 3/4 1/4 0 0 0 3/4 1/4 0 1/4 1/4 0 0 1/2. 8. Vu la météorologie de son ays, un Belge ossède en général un stock de N araluies, avec N > 1. Quand il se rend le matin à son bureau, il emmène un araluie avec lui s il leut (et qu un araluie est disonible chez lui). Par contre, s il ne leut as, il art sans araluie. Au retour, il alique le même algorithme: il rentre avec un araluie si et seulement si il leut, et qu un d eux est disonible au bureau. On suose qu indéendamment de la météo des demi-journées récédentes, il leut en début (ou en fin) de journée avec une robabilité. a) Quelle est la robabilité que notre Belge se fasse rincer? (On suose qu il utilise ses araluies de cette manière deuis (ratiquement) toujours.) Hint: soit n l instant d un déart (que ce soit de la maison ou du bureau) et soit X(n) le nombre de araluies disonibles à l instant n. Calculer la distribution stationnaire de robabilité de cette chaîne de Markov. 148