Processus stochastiques

Documents pareils
Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

3 Approximation de solutions d équations

Texte Agrégation limitée par diffusion interne

Intégration et probabilités TD1 Espaces mesurés Corrigé

Chapitre 2 Le problème de l unicité des solutions

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Résolution d équations non linéaires

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Chapitre 2. Eléments pour comprendre un énoncé

Moments des variables aléatoires réelles

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Probabilités sur un univers fini

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Université Paris-Dauphine DUMI2E 1ère année, Applications

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Espérance conditionnelle

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Intégration et probabilités TD1 Espaces mesurés

Calcul fonctionnel holomorphe dans les algèbres de Banach

Introduction à l étude des Corps Finis

4. Martingales à temps discret

Programmes des classes préparatoires aux Grandes Ecoles

Théorèmes de Point Fixe et Applications 1

Amphi 3: Espaces complets - Applications linéaires continues

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

I. Polynômes de Tchebychev

La fonction exponentielle

Continuité en un point

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Image d un intervalle par une fonction continue

III- Raisonnement par récurrence

Etude de fonctions: procédure et exemple

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Correction du Baccalauréat S Amérique du Nord mai 2007

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

3. Conditionnement P (B)

Polynômes à plusieurs variables. Résultant

Capes Première épreuve

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

1 Définition et premières propriétés des congruences

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Programmation linéaire et Optimisation. Didier Smets

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Pour l épreuve d algèbre, les calculatrices sont interdites.

Simulation de variables aléatoires

Commun à tous les candidats

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Chaînes de Markov au lycée

Cours de mathématiques

Fonctions de deux variables. Mai 2011

Suites numériques 4. 1 Autres recettes pour calculer les limites

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

DOCM Solutions officielles = n 2 10.

Correction de l examen de la première session

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Exercices Corrigés Premières notions sur les espaces vectoriels

aux différences est appelé équation aux différences d ordre n en forme normale.

Limites finies en un point

La mesure de Lebesgue sur la droite réelle

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Construction de l'intégrale de Lebesgue

Suites numériques 3. 1 Convergence et limite d une suite

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Extrait du poly de Stage de Grésillon 1, août 2010

Cours d Analyse. Fonctions de plusieurs variables

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Probabilités sur un univers fini

Calcul différentiel sur R n Première partie

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

EXERCICE 4 (7 points ) (Commun à tous les candidats)

MIS 102 Initiation à l Informatique

Le produit semi-direct

Chapitre 2. Matrices

Relation d ordre. Manipulation des relations d ordre. Lycée Pierre de Fermat 2012/2013 Feuille d exercices

Résolution de systèmes linéaires par des méthodes directes

Les indices à surplus constant

Théorie de la Mesure et Intégration

Fonctions de plusieurs variables

Calcul différentiel. Chapitre Différentiabilité

Leçon N 4 : Statistiques à deux variables


Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

IV- Equations, inéquations dans R, Systèmes d équations

CHAPITRE 10. Jacobien, changement de coordonnées.

Une forme générale de la conjecture abc

NOMBRES COMPLEXES. Exercice 1 :

Chapitre VI - Méthodes de factorisation

Transcription:

Master de Mathématiques Ingénierie Mathématique Informatique et Statistique (IMIS) Mathématiques et pplications Processus stochastiques niveau 1 Michel Roussignol nnée 2007-2008

Introduction Ce texte correspond à 12 heures de cours en première année de master de mathématiques appliquées. Il s adresse à des étudiants ayant suivi un cours de probabilité en licence de mathématiques. Son objectif est d étudier les chaînes de markov à valeurs dans un espace fini ou dénombrable et de donner une première vision du processus de Poisson. Ces deux processus sont utilisés dans de nombreuses applications et sont deux instruments de base de la boite à outils du mathématicien appliqué. Ils sont les deux processus les plus simples à étudier, c est pourquoi ils apparaissent dans le cours de processus stochastiques niveau 1. Le cours de processus stochastiques niveau 2 permettra aux étudiants de rencontrer d autres processus fondamentaux comme les processus markoviens de sauts, le mouvement Brownien, les diffusions. Ce polycopié a été écrit à partir du polycopié de Christiane Cocozza- Thivent, qui enseignait ce cours il y a deux ans, en tenant compte d apports de Marie-Claire Quenez, qui assurait ce cours l an dernier. Les séances de travaux dirigés associées à ce cours sont fondamentales pour assurer sa compréhension. 1

Table des matières 1 Chaîne de Markov : propriété de Markov 3 1.1 Définition d une chaîne de Markov................ 3 1.2 Exemples............................. 7 1.3 Propriété de Markov faible.................... 10 1.4 Propriété de Markov forte.................... 20 2 Chaîne de Markov : classification des états 27 2.1 Communication entre les états.................. 27 2.2 Etats récurrents et transients.................. 30 2.3 Probabilités d absorption et temps d atteinte.......... 36 2.4 Proportion de temps passé dans un état............ 39 3 Chaîne de Markov : mesures stationnaires et théorèmes de convergence 45 3.1 Mesures stationnaires....................... 45 3.2 Cas d une chaîne récurrente irréductible............ 50 3.3 Cas d une chaîne non irréductible................ 57 3.4 Convergence en loi vers la loi stationnaire............ 59 4 Processus de Poisson 65 4.1 Définition et propriétés...................... 65 4.2 Résultats asymptotiques..................... 72 4.3 Transformée de Laplace..................... 73 2

Chapitre 1 Chaîne de Markov : propriété de Markov Nous allons étudier des suites (X n ) n N de variables aléatoires ayant une propriété particulière de dépendance entre ces variables aléatoires, la propriété de Markov. Nous désignerons ces suites sous le nom de chaîne de Markov. Le plus souvent ces suites représentent l évolution dans le temps d une quantité aléatoire : évolution dans le temps de l état d un composant d un système, évolution dans le temps de la valeur d un bien, évolution dans le temps de la taille d une catégorie de population, évolution dans le temps d indicateurs macro-économiques,... insi on rencontre des chaînes de Markov dans de nombreux secteurs : économie, finance, biologie, physique, études de risque,... Le nom Markov est celui d un mathématicien russe, ndreï ndreïevitch Markov (1856-1922). On doit à cet élève de Tchebychev de très importants travaux en calcul des probabilités et en théorie du potentiel. Dans ce cours nous supposerons que les variables aléatoires X n prennent leurs valeurs dans un espace E fini ou dénombrable. L espace E s appelle l espace d états. 1.1 Définition d une chaîne de Markov La définition suivante exprime qu une chaîne de Markov est une chaîne sans mémoire, c est-à-dire que chaque variable aléatoire X k dépend du passé X k 1, X k 2,..., X 0 uniquement par l intermédiaire de X k 1. 3

Définition 1.1 Une suite (X n ) n N de variables aléatoires sur un espace de probabilité à valeurs dans espace E fini ou dénombrable est une chaîne de Markov sur E si, pour tout entier strictement positif k et pour toute suite x 0, x 1,..., x k d éléments de E pour laquelle P(X k 1 = x k 1, X k 2 = x k 2,..., X 1 = x 1, X 0 = x 0 ) 0, nous avons : P(X k = x k / X k 1 = x k 1, X k 2 = x k 2,..., X 1 = x 1, X 0 = x 0 ) = P(X k = x k / X k 1 = x k 1 ) La propriété dans cette définition est la propriété de Markov. Proposition 1.2 La suite (X n ) n N une chaîne de Markov sur E si et seulement si pour pour toute suite x 0, x 1,..., x m d éléments de E : P(X 0 = x 0, X 1 = x 1,..., X m = x m ) = m P(X 0 = x 0 ) P(X i = x i /X i 1 = x i 1 ) i=1 Démonstration : Une généralisation facile de la formule de Bayes donne : P(X 0 = x 0, X 1 = x 1,..., X m = x m ) = P(X 0 = x 0 )P(X 1 = x 1 / X 0 = x 0 ) P(X 2 = x 2 / X 0 = x 0, X 1 = x 1 )... P(X m = x m / X m 1 = x m 1, X m 2 = x m 2,..., X 1 = x 1, X 0 = x 0 ). En utilisant la définition d une chaîne de Markov, les expressions de la forme P(X i = x i / X i 1 = x i 1, X i 2 = x i 2,..., X 1 = x 1, X 0 = x 0 ) se simplifient en P (X i = x i / X i 1 = x i 1 ), ce qui donne la formule cherchée pour une chaîne de Markov. Inversement, si la formule ci-dessus est vraie, il est très facile de vérifier la proriété de Markov.. La loi d une chaîne de Markov est donc entièrement caractérisée par la donnée de la loi de X 0 et des probabilités conditionnelles P(X k = x/x k 1 = y) pour k 1, x et y dans E. La loi de X 0 s appelle la loi initiale de la chaîne. Définition 1.3 Une chaîne de Markov est dite homogène si pour tout k 1 et tous x et y dans E, on a : P(X k = x/x k 1 = y) = P(X 1 = x/x 0 = y) 4

Pour une chaîne de Markov homogène, on note P (y, x) = P(X 1 = x/x 0 = y). Cette fonction P définie sur E E vérifie les propriétés suivantes : x E, y E, 0 P (x, y) 1, x E, y E P (x, y) = 1. Nous appellerons une telle fonction une fonction de transition. Etant données deux fonctions de transition P et Q définies sur le même espace E, nous définissons la fonction de transition produit P Q par : P Q(x, y) = z E P (x, z) Q(z, y). Les puissances successives (ou itérées) de la fonction de transition P s écrivent : Plus généralement, on a : Par convention, on pose : c est-à-dire : P 2 = P P, P n+1 = P P n = P n P n 1. P n+m = P n P m = P m P n n, m 1. P 0 (x, y) = P 0 = I, { 1 si x = y, 0 si x y. Lorsque l ensemble E est fini et comporte N éléments on peut toujours supposer que E = {1, 2,..., N}, la fonction P s identifie alors à une matrice N N dont l élément de la ième ligne et de la jème colonne est P (i, j). Une telle matrice s appelle une matrice de transition ou une matrice stochastique. Elle est caractérisée par le fait que tous ses éléments sont compris entre 0 et 1 et que la somme des éléments de chaque ligne est égale à 1. La notion de produit et de puissance de fonctions de transition correspond évidemment aux notions de produit et de puissance de matrices de transition dans le cas fini. Pour une chaîne de Markov (X n ) n 0 de probabilité de transition P (x, y), nous avons : P(X 0 = x 0, X 1 = x 1,..., X m = x m ) = P(X 0 = x 0 ) m P (x i 1, x i ) La loi d une chaîne de Markov homogène est donc entièrement caractérisée par la donnée de la loi initiale (loi de X 0 ) et de la fonction de transition P. i=1 5

Lorsque l on étudie une chaîne de Markov homogène, on est souvent amené à visualiser une partie du comportement de la chaîne en traçant ce que l on appelle le graphe d états ou graphe de Markov. Ce graphe d états est un graphe orienté dont les sommets sont les différents états de la chaîne et dont les arcs orientés relient les sommets x et y tels P (x, y) > 0. Si on souhaite donner tous les renseignements sur le graphe, on construit un graphe valué en affectant à l arc (x, y) le poids P (x, y). Pour simuler les N premières valeurs d une chaîne de Markov homogène à valeurs dans E = {a 1, a 2,..., a p,...}, de loi initiale µ, de fonction de transition P, il suffit d appliquer la proposition 1.2, ce qui donne l algorithme suivant : 1. tirer une v.a. U 0 de loi uniforme sur [0, 1], 2. si k 1 j=1 µ(a j) U 0 < k j=1 µ(a j), poser X 0 = a k, 3. pour i = 1 à N : (a) tirer une v.a. U i de loi uniforme sur [0, 1], indépendante des précédentes, (b) si k 1 j=1 P (X i 1, a j ) U i < k j=1 P (X i 1, a j ), poser X i = a k. Connaissant la loi initiale et la fonction de transition, il est facile de calculer la loi de X n. Proposition 1.4 Si (X n ) n 0 est une chaîne de Markov homogène de fonction de transition P, nous avons pour n 1 : P(X n = x/x 0 = y) = P n (y, x) et P(X n = x) = y E P(X 0 = y) P n (y, x) Démonstration : Nous avons : P(X 0 = y, X n = x) = P(X 0 = y, X 1 = x 1,..., X n 1 = x n 1, X n = x) x 1,...,x n 1 = P(X 0 = y) P (y, x 1 ) P (x 1, x 2 )... P (x n 2, x n 1 ) P (x n 1, x) x 1,...,x n 1 = P(X 0 = y) P n (y, x) Les deux résultats de la proposition suivent immédiatement. 6

1.2 Exemples Dans ce chapitre, nous allons donner une série d exemples de chaînes de Markov. Exemple 1 : chaîne de Markov homogène sur E = {1, 2, 3, 4, 5, 6} dont la matrice de transition est : 1 0 0 0 0 0 0 0.3 0 0.7 0 0 0.2 0.2 0.3 0.3 0 0 0 0.8 0 0.2 0 0 0 0 0.5 0 0.2 0.3 0 0 0.4 0 0.1 0.5 Pour visualiser le comportement de cette chaîne, on peut tracer le graphe de Markov associé : On constate que la chaîne finira par atteindre et rester dans l état 1 ou l ensemble des deux états {2, 4} quelque soit le point de départ. Exemple 2 : chaîne à deux états Considérons une machine qui peut être dans deux états : panne (noté 0) ou fonctionnement (noté 1). Supposons que, si la machine est en panne le matin du jour n, la probabilité pour qu elle soit réparée ce jour-là et donc pour qu elle soit en fonctionnement le lendemain matin (date n + 1) est a (0 a 1), alors que si elle est en état de marche le matin du jour n la probabilité pour qu elle soit en panne le lendemain matin est b (0 b 1). Notons X n l état de la chaine le matin du jour n et µ l état initial de la machine c est-à-dire la probabilité pour qu elle soit dans chacun des deux états à l instant initial (jour 0). Puisque l état de la chaîne à la date n + 1 ne dépend que de l état de la chaîne à la date n, la suite X n forme une chaîne de Markov homogène d espace d état {0, 1} et de matrice de transition : ( ) 1 a a P = b 1 b Cherchons P(X n = i), i = 0, 1. Nous devons calculer P n. On va diagonaliser P. Cherchons ses valeurs propres : det(p λ I) = 1 a λ a b 1 b λ = (1 a λ)(1 b λ) ab = λ 2 λ(2 a b) + 1 a b. 7

La valeur λ 1 = 1 est racine, ce qui est normal puisque le fait que la somme des lignes de P valent 1 entraine que (1, 1) est vecteur propre associé à la valeur propre 1. On en déduit λ 2 = 1 a b. Les vecteurs propres (x, y) associés vérifient : bx + ay = 0. On choisit x = a et y = b. La matrice de changement de base est donc : On en déduit : Par conséquent D = Q = ( 1 a 1 b ). Q 1 = 1 ( b a a + b 1 1 ( 1 0 0 1 a b ). ) = Q 1 P Q, et donc P = Q D Q 1 et par suite P n = Q D n Q 1 = 1 ( b + a(1 a b) n a a(1 a b) n a + b b b(1 a b) n a + b(1 a b) n ). Par conséquent : ( ) P(Xn = 0) P(X n = 1) = ( µ(0) µ(1) ) P n = 1 a + b ( µ(0)(b + a(1 a b) n ) + µ(1)(b b(1 a b) n )] µ(0)[a a(1 a b) n ] + µ(1)[a + b(1 a b) n ), ce qui peut encore s écrire : P(X n = 0) = b a + b + (1 a b)n (µ(0) b a + b ) et P(X n = 1) = a a + b + (1 a b)n (µ(1) a a + b ) Supposons que a et b ne soient ni tous deux égaux à 0 ni tous deux égaux à 1. lors 0 < a + b < 2 et donc 1 a b < 1. Il s ensuit que lim n + P(X n = 0) = b a + b, lim P(X n = 1) = n + a a + b. b a Les quantités et peuvent également être retrouvées d une autre a+b a+b manière. Si l on désire choisir µ(0) et µ(1) pour que P(X n = 0) et P(X n = 1) ne dépendent pas de n, on voit qu il faut prendre µ(0) = et µ(1) = a 8 b a+b a+b

et alors nous aurons, pour tout n : P(X n = 0) = b et P(X a+b n = 1) = a. a+b Nous retrouverons ce phénomène pour une classe très générale de chaînes de Markov. Exemple 3 : considérons une suite de variables aléatoires (X n ) n 0 à valeurs dans un ensemble fini ou dénombrable E qui est définie par X 0 et par la formule de récurence pour tout n 0 : X n+1 = f(x n, U n ) où f est une fonction de E R dans E et (U n ) n 0 est une suite de variables aléatoires réelles indépendantes entre elles et indépendantes de X 0. La suite de variables aléatoires (X n ) n 0 est une chaîne de Markov homogène. En effet : P(X 0 = x 0, X 1 = x 1,..., X m = x m ) = P(X 0 = x 0, f((x 0, U 0 ) = x 1,..., f(x m 1, U m 1 ) = x m ) m = P(X 0 = x 0 ) P(f(x i 1, U i 1 ) = x i ) i 1 vu l indépendance des variables aléatoires X 0, U 0, U 1,..., U m 1. D autre part P(X i = y/x i 1 = x) = P(X i = y, X i 1 = x) P(X i 1 = x) = P(f(x, U i 1) = y, X i 1 = x) P(X i 1 = x) = P(f(x, U i 1) = y) P(X i 1 = x) P(X i 1 = x) = P(f(x, U i 1 ) = y) vu l indépendance de U i 1 et X i 1. Ceci démontre que la suite X n est une chaîne de Markov en appliquant la proposition 1.2. L homogénéité est claire puisque les variables aléatoires U n ont toutes même loi. Exemple 4 : marche aléatoire Soit ξ 1, ξ 2,..., ξ m,... une suite de v.a. à valeurs dans Z, indépendantes et de même loi ν. Soit X 0 une v.a. à valeurs dans Z indépendante des précédentes et de loi µ. Posons : X n = X 0 + ξ 1 + ξ 2 + + ξ n, 9

donc, pour n 1 : X n = X n 1 + ξ n. D après l exemple précédent, la suite (X n ) n N ) est une chaîne de Markov homogène de fonction de transition : P (i, j) = ν(j i) (i, j) Z 2. On appelle cette chaîne une marche aléatoire sur Z. En particulier si ν(1) = a, ν( 1) = b, ν(0) = c avec a + b + c = 1, on peut se représenter la marche aléatoire précédente comme la position d une particule qui se promène sur Z : lorsque la particule est au site i à l instant n, elle avance (passe au site i + 1 à l instant n + 1) avec probabilité a, recule (passe au site i 1 à l instant n + 1) avec probabilité b et ne bouge pas (reste au site i à l instant n + 1) avec probabilité c. On parle alors de marche aléatoire simple. Exemple 5 : chaîne de naissance et mort Cet exemple est une généralisation de la marche aléatoire simple. Il s agit d une chaîne à valeurs dans E = {0, 1, 2,...d} ou dans E = N. Si la chaîne est dans l état x à un certain instant, elle ne peut, à l instant suivant qu être dans les états x 1, x ou x + 1 (à condition que celui-ci appartienne à E). Sa fonction de transition s écrit P (x, y) = q x si y = x 1, r x si y = x, p x si y = x + 1, 0 sinon, avec p x, q x et r x positifs et p x + q x + r x = 1 (évidemment q 0 = 0 et p d = 0 si E = {0, 1, 2,...d}). La terminologie naissance et mort provient du cas où cette chaîne représente l évolution d une population (une transition de x à x + 1 correspond à une naissance, de x à x 1 à une mort) mais celle-ci peut servir à modéliser bien d autres contextes. Lorsque p x, q x et r x ne dépendent pas de x, on a une marche aléatoire simple. 1.3 Propriété de Markov faible On peut généraliser la propriété de Markov de la définition. C est l objet des propositions suivantes. 10

Proposition 1.5 Soit (X n ) n N est une chaîne de Markov à valeurs dans E. Pour tout n, pour tous x, y dans E et pour tout sous ensemble de E n, on a : P(X n+1 = y / (X 0, X 1,..., X n 1 ), X n = x) Démonstration : = P(X n+1 = y / X n = x). P(X n+1 = y, (X 0, X 1,..., X n 1 ), X n = x) = P(X n+1 = y, X 0 = α 0, X 1 = α 1,... X n 1 = α n 1, X n = x) = = (α 0,...,α n 1 ) (α 0,...,α n 1 ) P(X 0 = α 0, X 1 = α 1,... X n 1 = α n 1, X n = x) P(X n+1 = y / X 0 = α 0, X 1 = α 1,... X n 1 = α n 1, X n = x) P(X 0 = α 0, X 1 = α 1,... X n 1 = α n 1, X n = x) (α 0,...,α n 1 ) P(X n+1 = y / X n = x) = P(X 0, X 1,..., X n 1 ), X n = x) P(X n+1 = y / X n = x) Proposition 1.6 Soit (X n ) n N une chaîne de Markov à valeurs dans E. Pour tous n et k, pour tous y 1,..., y k éléments de E, pour tout E n, pour tout B E k et pour toute fonction f de E k dans R positive, on a : P(X n+1 = y 1,..., X n+k = y k / (X 0,..., X n 1 ), X n = x) = P(X n+1 = y 1,..., X n+k = y k / X n = x) = P(X n+1 = y 1 / X n = x) P(X n+2 = y 2 / X n+1 = y 1 )...... P(X n+k = y k / X n+k 1 = y k 1 ) et et P((X n+1,..., X n+k ) B / (X 0,..., X n 1 ), X n = x) = P((X n+1,..., X n+k ) B / X n = x) E(f(X n+1,..., X n+k ) / (X 0,..., X n 1 ), X n = x) = E(f(X n+1,..., X n+k ) / X n = x) 11

Démonstration : Notons C l événement {(X 0,..., X n 1 ) }. En utilisant la formule de Bayes et la proposition précédente on obtient : P(X n+1 = y 1,..., X n+k = y k / C, X n = x) = P(X n+k = y k / C, X n = x, X n+1 = y 1,..., X n+k 1 = y k 1 ) P(X n+k 1 = y k 1 / C, X n = x, X n+1 = y 1,..., X n+k 2 = y k 2 )... P(X n+1 = y 1 / C, X n = x) = P(X n+k = y k / X n+k 1 = y k 1 ) P(X n+k 1 = y k 1 / X n+k 2 = y k 2 )... P(X n+1 = y 1 / X n = x) Le résultat est indépendant de l événement C. Ceci démontre la première partie de la proposition. Pour la deuxième partie, il suffit d écrire : P((X n+1,..., X n+k ) B / (X 0,..., X n 1 ), X n = x) = P(X n+1 = y 1,..., X n+k = y k / (X 0,..., X n 1 ), X n = x) (y 1,...,y k ) B Quant à la troisième partie, elle s établit par combinaison linéaire de fonctions indicatrices, puis par passage à la limite croissante pour une suite de fonctions étagées approximant la fonction f. Lorsque la chaîne de Markov est homogène, la proposition précédente prend la forme suivante. Proposition 1.7 Soient (X n ) n N une chaîne de Markov homogène à valeurs dans E et P (x, y) sa fonction de transition. Pour tous n et k, pour tous x, y 1,..., y k éléments de E, pour tout E n, pour tout B E k et pour toute fonction f de E k dans R positive,, on a : P ( X n+1 = y 1,..., X n+k = y k / (X 0,..., X n 1 ), X n = x) = P(X n+1 = y 1,..., X n+k = y k / X n = x) = P (x, y 1 ) P (y 1, y 2 )... P (y k 1, y k ) = P(X 1 = y 1,..., X k = y k / X 0 = x) et P((X n+1,..., X n+k ) B / (X 0,..., X n 1 ), X n = x) 12

et = P((X 1,..., X k ) B / X 0 = x) E(f(X n+1,..., X n+k ) / (X 0,..., X n 1 ), X n = x) = E(f(X 1,..., X k ) / X 0 = x) On peut réécrire la formule précédente sous la forme : P((X 0,..., X n 1 ), X n = x, (X n+1,..., X n+k ) B) = P((X 0,..., X n 1 ), X n = x) P((X 1,..., X k ) B / X 0 = x) ou sous la forme E ( 1 {(X0,...,X n 1 ),X n=x} f(x n+1,..., X n+k ) ) = P((X 0,..., X n 1 ), X n = x) E(f(X 1,..., X k ) / X 0 = x) Par combinaison linéaire et par passage à la limite croissante, on obtient alors la proposition suivante. Proposition 1.8 Soient (X n ) n N une chaîne de Markov homogène à valeurs dans E. Pour tous n et k, pour tout x dans E, pour toute fonction g de E n dans R + et pour toute fonction f de E k dans R +, on a : E ( g(x 0,..., X n 1 ) 1 {Xn=x} f(x n+1,..., X n+k ) ) = E ( g(x 0,..., X n 1 ) 1 {Xn=x)}) E (f(x1,..., X k ) / X 0 = x) Comme exemple d application des résultats précédents, nous pouvons commencer à décrire le comportement d une chaîne de Markov homogène. Proposition 1.9 Soient (X n ) n N une chaîne de Markov homogène à valeurs dans E et P (x, y) sa fonction de transition. Pour tout x, nous avons : P(X n+1 = x,..., X n+k = x, X n+k+1 x / X n = x) et pour tout y x : = P (x, x) k (1 P (x, x)), P(X n+1 = y / X n = x, X n+1 x) = P (x, y) 1 P (x, x). 13

Démonstration : D après la proposition 1.7 P(X n+1 = x,..., X n+k = x, X n+k+1 x / X n = x) = P(X n+1 = x,..., X n+k = x, X n+k+1 = y / X n = x) = y E:y x y E:y x P (x, x) k P (x, y) = P (x, x) k (1 P (x, x)). D autre part, pour y x, on a : P(X n+1 = y / X n = x, X n+1 x) = P(X n = x, X n+1 = y) P(X n = x, X n+1 x) = P(X n+1 = y / X n = x) P(X n+1 x) / X n = x) P (x, y) = 1 P (x, x). Cette proposition signifie que si la chaîne est à un instant dans un état donné, le temps nécessaire pour changer d état suit une loi géométrique. On va voir que l on peut donner une formulation plus générale des propositions 1.6 et 1.7 grâce à des propriétés des mesures. Les ensembles de la forme {(X n+1,... X n+k ) B} avec B E k décrivent des événements postérieurs à l instant n. Mais tous les événements postérieurs à l instant n ne sont pas de cette forme et ne sont pas réunion dénombrable d événements de cette forme. Nous allons considérer l ensemble E N des suites à valeurs dans E. Cet ensemble n est pas dénombrable. On le munit de la tribu B qui est engendrée par les parties de E N de la forme 0 1... k E E... avec k entier quelconque, et 0,..., k parties de E. Un événement postérieur à n est alors un événement de la forme : pour B élément de la tribu B. (X n+1, X n+2,...) B Théorème 1.10 (propriété de Markov) Soit (X n ) n N une chaîne de Markov homogène à valeurs dans E. Pour tout n, pour tout x dans E, pour tout E n, pour tout B B et pour tout fonction mesurable f de (E N, B) dans (R +, B R+ ), on a : P((X n+1, X n+2,...) B / (X 0,..., X n 1 ), X n = x) 14

et = P((X 1, X 2,...) B / X 0 = x) E(f(X n+1, X n+2,...) / (X 0,..., X n 1 ), X n = x) = E(f(X 1, X 2,...) / X 0 = x) Démonstration : Pour n, x E et E N fixés, définissons les mesures m 1 et m 2 sur (E N, B) par : m 1 (B) = P((X n+1, X n+2,...) B / (X 0,..., X n 1 ), X n = x) m 2 (B) = P((X 1, X 2,...) B / X 0 = x). D après la proposition 1.7, les mesures finies m 1 et m 2 sont égales sur les ensembles B de la forme B 1... B k E E... (k N, B 1,..., B k sousensembles de E). L ensemble formé par de tels B contient E N et est stable par intersection finie. Par conséquent, le théorème d unicité des mesures entraine que m 1 = m 2, ce qui est le premier résultat cherché. Le deuxième résultat s obtient par combinaison linéaire et par passage à la limite croissante. Toujours par combinaison linéaire et passage à la limite croissante, on obtient le corollaire suivant. Corollaire 1.11 Soient (X n ) n N une chaîne de Markov homogène à valeurs dans E. Pour tout n, pour tout x dans E, pour toute fonction g de E n dans R + et pour toute fonction mesurable f de (E N, B) dans (R +, B R+ ), on a : E ( g(x 0,..., X n 1 ) 1 {Xn=x} f(x n+1, X n+2,...) ) = E ( g(x 0,..., X n 1 ) 1 {Xn=x)}) E (f(x1, X 2,...) / X 0 = x) Remarque : Comme la probabilité conditionnelle sachant que X 0 = x apparait souvent dans les formules, on utilise la notation P x pour cette probabilité conditionnelle. De même on utilise la notation E x pour l espérance conditionnelle sachant que X 0 = x. Les formules du théorème 1.10 deviennent alors avec ces notations : P((X n+1, X n+2,...) B / (X 0,..., X n 1 ), X n = x) et = P x ((X 1, X 2,...) B) E(f(X n+1, X n+2,...) / (X 0,..., X n 1 ), X n = x) 15

= E x (f(x 1, X 2,...)) Nous donnons maintenant un exemple typique d application de la propriété de Markov. Il s agit de calculer l espérance du temps d atteinte par la chaîne de Markov d un sous-ensemble de E. Par exemple si la chaîne décrit l évolution dans le temps de l état d un système et si une partie des états sont des états de panne, il s agit de calculer le temps moyen de panne du système. Proposition 1.12 Soit (X n ) n N une chaîne de Markov homogène à valeurs dans E de fonction de transition P (x, y). Soit un sous-ensemble de E. On pose S = min{k 0 : X k }, avec la convention min = +. On suppose que pour tout y /, P y (S < + ) = 1. Posons, pour x / : lors la fonction h vérifie : h(x) = E x (S ) R +. x /, h(x) = 1 + y / P (x, y) h(y). Démonstration : Nous supposons que x /. lors on a S 1. On peut écrire : h(x) = E x (S ) = m 1 m P x (S = m) = m 1 m y E P x (S = m, X 1 = y) Soit m 2. Si y on a P(X 0 = x, X 1 = y, S = m) = 0. Si y / en appliquant la propriété de Markov à l instant 1, on obtient : P(X 0 = x, X 1 = y, S = m) = P(X 0 = x, X 1 = y, X 2 /,..., X m 1 /, X m ) = P(X 0 = x, X 1 = y) P y (X 1 /,..., X m 2 /, X m 1 ) = P(X 0 = x, X 1 = y) P y (S = m 1) On obtient alors : h(x) = y E P x (S = 1, X 1 = y) + m 2 m y E P x (S = m, X 1 = y) = y P x (X 1 = y) + m 2 m y / P (x, y)p y (S = m 1) 16

= P x (X 1 = y) + P (x, y) m P y (S = m 1) y y / m 2 = P (x, y) + P (x, y) P y (S = m 1) + P (x, y)h(y) y y / m 2 y / = 1 + y / P (x, y)h(y) Supposons que c (complémentaire de ) est fini. Pour ne pas alourdir les notations, nous écrivons c sous la forme c = {1, 2,..., d}. La fonction h sur c s identifie alors à un vecteur colonne u (u i = h(i)) de dimension d. Notons P 1 la matrice P restreinte à, c est une matrice d d. La proposition 1.12 exprime que u est solution du système linéaire (I P 1 )u = 1 d où 1 d est le vecteur colonne de dimension d dont toutes les composantes sont égales à 1. Ce système est un système de Cramer. En effet, pour montrer que I P 1 est inversible, il suffit de montrer que lim n + P1 n = 0 (voir [5] théorèmes 1.5.1 et 1.4.5). Or, pour 1 i, j d : 0 P1 n (i, j) = d d... = i 1 =1 i 2 =1 d i 1 =1 i 2 =1 d... d i n 1 =1 d i n 1 =1 P (i, i 1 )P (i 2, i 2 )... P (i n 1, j) P i (X 1 = i 1, X 2 = i 2,..., X n 1 = i n 1, X n = j) = P i (X 1 c, X 2 c,..., X n 1 c, X n = j) P i (X 1 c, X 2 c,..., X n 1 c, X n c ) = P i (S > n). Comme lim n + P i (S > n) = P i (S = + ) = 0, on en déduit le résultat. Dans le cas où c est fini, on peut donner une condition nécessaire et suffisante pour que pour tout x /, P x (S < + ) = 1. C est l objet du lemme suivant. Lemme 1.13 Soit (X n ) n N une chaîne de Markov homogène à valeurs dans E de fonction de transition P (x, y). Soit un sous-ensemble de E. On suppose que c est fini. 17

lors P x (S < + ) = 1 si et seulement si pour tout x /, il existe n 1, x 1,..., x n 1 / et z tels que P (x, x 1 ) P (x 1, x 2 )... P (x n 2, x n 1 ) P (x n 1, z) > 0. Démonstration : Supposons P x (S < + ) = 1 pour x /. On a {S < + } = n 1 {S = n}. Donc il existe n 1 tel que 0 < P x (S = n) = P x (X 1 /,... X n 1 /, X n ) = P x (X 1 = x 1,..., X n 1 = x n 1, X n = z) = x 1 /,...x n 1 /,z x 1 /,...x n 1 /,z P (x, x 1 )... P (x n 2, x n 1 )P (x n 1, z), donc au moins un des termes de la somme est > 0. Réciproquement, supposons que pour tout x /, il existe un chemin allant de x à. Soit x /. On a : P(X 0 = x, S = + ) = y 1 / P(X 0 = x, X 1 = y 1, X 2 /, X 3 /,...) = y 1 / P(X 0 = x, X 1 = y 1 ) P y1 (X 1 /, X 2 /,...) = y 1 / P(X 0 = x, X 1 = y 1 ) P y1 (S = + ) d où P x (S = + ) = y 1 / P (x, y 1 ) P y1 (S = + ) (1.1) Montrons par récurrence sur k, que pour tout k 1 P x (S 0 = + ) = y 1 /... yk / P (x, y 1 )P (y 1, y 2 )... P (y k 1, y k )P yk (S 0 = + ). On suppose que P x (S0 = + ) =... P (x, y 1 )P (y 1, y 2 )... P (y k 2, y k 1 )P yk 1 (S0 y 1 / y k 1 / = + ) (1.2) 18

On applique la formule (1.1) avec x = y k 1 et on obtient le résultat. D autre part, pour tout x /, il existe n = n x 1 tel que... P (x, y 1 )P (y 1, y 2 )... P (y n 1, y n ) < 1. y n / y 1 / y 2 / En effet par hypothèse il existe n 1, x 1,..., x n 1 / et z tels que Or : 1 = P n (x, y n ) y n E = y 1 E y 1 / P (x, x 1 ) P (x 1, x 2 )... P (x n 2, x n 1 ) P (x n 1, z) > 0....... y n 1 E y n E y n 1 / y n E P (x, y 1 )... P (y n 1, y n ) P (x, y 1 )... P (y n 1, y n ) P (x, x 1 )... P (x n 1, z) + y 1 /... y n 1 / y n / P (x, y 1 )... P (y n 1, y n ). Comme P (x, x 1 ) P (x 1, x 2 )... P (x n 2, x n 1 ) P (x n 1, z) > 0, on a... P (x, y 1 )... P (y n 1, y n ) < 1. y 1 / y n 1 / y n / Puisque c est fini C = sup... < 1. x/ y 1 / y n 1 / y n / P (x, y 1 )... P (y n 1, y n ) En appliquant la formule (1.2) avec k = n x, on obtient, pour x / : P x (S = + ) sup P y (S = + )... P (x, y 1 )P (y 1, y 2 )... P (y nx 1, y nx ) y / y 1 / y nx / C sup P y (S = + ), y / donc l = sup P x (S = + ) C l, x/ 19

avec C < 1, donc l = 0. Ce résultat n est plus vrai si c n est pas fini. On peut donner un contreexemple. Considérons E = N {a}, pour i N, P (i, a) = ɛ i, P (i, i + 1) = 1 ɛ i, P (a, a) = 1. lors : P x (S {a} = + ) = lim n + P x(s {a} > n) = P x (X 1 = x + 1, X 2 = x + 2,..., X n = x + n) x+n 1 = (1 ɛ i ). i=x Si i ɛ i < +, alors lim n + n i=1 (1 ɛ i) > 0. 1.4 Propriété de Markov forte Une formulation encore plus générale de la propriété de Markov permet de remplacer l instant n par un instant aléatoire à condition de l instant aléatoire vérifie une propriété dite de temps d arrêt. Cette formulation est ce qu on appelle la propriété de Markov forte. Pour définir un temp d arrêt, nous avons besoin d utiliser une suite (B n ) n N de tribus de l espace de probabilité Ω sur lequel sont définies les variables aléatoires constituant la chaîne de Markov. On notera B n la tribu engendrée par X 0, X 1,..., X n, c est-à-dire la plus petite tribu rendant mesurable les variables aléatoires X 0, X 1,..., X n. Un élément de B n s écrit sour la forme {(X 0,..., X n ) } pour une partie de E n+1. Cette suite de tribus est croissante, c est-à-dire que B n B n+1. Une suite croissante de tribus est appelée une filtration. On dit que la filtration (B n ) n N est la filtration naturelle associée à la chaîne (X n ) n N. lors un temps d arrêt pour la chaîne de Markov est défini de la manière suivante. Définition 1.14 Une variable aléatoire ν à valeurs dans N {+ } est un temps d arrêt pour la chaine de Markov (X n ) n N (ou relativement à la filtration (B n ) n N ) si : n N, {ν = n} B n. Exemple : soit (X n ) n N une chaîne de Markov à valeurs dans E, un sous-ensemble de E et S le premier temps d atteinte de : S = min{k 0 : X k }. On a : {S = n} = {X 0 /, X 1 /,..., X n 1 /, X n } B n donc S est un temps d arrêt. 20

Définition 1.15 Si ν est un temps d arrêt, on définit la tribu B ν des événements antérieurs à ν par : B ν {ν = n} B n n N. Si ν est un temps d arrêt, alors X ν est B ν -mesurable. En effet, pour tout E, et n N : {X ν } {ν = n} = {X n } {ν = n} B n. L événement {ν < } appartient à B ν. Si ν 1 et ν 2 sont deux temps d arrêt tels que ν 1 ν 2, alors B ν1 B ν2. Le théorème 1.10 se généralise de la manière suivante. Théorème 1.16 (propriété de Markov forte) Soit (X n ) n N une chaîne de Markov homogène à valeurs dans E et ν un temps d arrêt relativement à celle-ci. Pour tout x E, si B ν et si B B, on a : P((X ν+1, X ν+2,...) B /, X ν = x) = P x ((X 1, X 2,...) B). Pour tout x E, si B ν et si f est une fonction mesurable de (E N, B) dans (R +, B R+ ), on a : E(f(X ν+1, X ν+2,...) /, X ν = x) = E x (f(x 1, X 2,...)). Démonstration : Commençons par la première formule. Puisque les événements {ν = n} et {ν = n} appartiennent à B n, nous obtenons, en appliquant le théroème 1.10 P(, {X ν = x}, (X ν+1, X ν+2,...) B) = n 0 P(, {X ν = x}, (X ν+1, X ν+2,...) B, ν = n) = n 0 P(, ν = n}, {X n = x}, (X n+1, X n+2,...) B) = n 0 P( {ν = n} {X n = x}) P x ((X 1, X 2,...) B) = n 0 P( {ν = n} {X ν = x}) P x ((X 1, X 2,...) B) = P( {X ν = x}) P x ((X 1, X 2,...) B). La deuxième formule s obtient à partir de la première par combinaison linéaire et passage à la limite croissante. Le corrollaire suivant qui est une simple réécriture du théorème 1.16. 21

Corollaire 1.17 Soit (X n ) n N une chaîne de Markov homogène à valeurs dans E et ν un temps d arrêt relativement à celle-ci. Pour tout x E, B ν et f est fonction mesurable de (E N, B) dans (R +, B R+ ), on a : E ( 1 {,Xν=x}f(X ν+1, X ν+2,...) ) = P(, X ν = x) E x (f(x 1, X 2,...)). Pour illustrer l utilisation de la propriété de Markov forte, nous allons étudier les temps successifs d atteinte par la chaîne d un sous-ensemble de E. Ces temps d atteinte sont définis de la manière suivante. Le premier temps d entrée dans est noté S (0) et est défini par : S (0) = S = min{n 0 : X n } Les instants successifs S (p), p 1, de retour dans sont définis par S (p) = min{n > S(p 1), X n 1 /, X n } (avec la convention habituelle min = + ). Lorsque = {x} pour un x dans E, on notera S x (p) au lieu de S (p) {x}. Commençons par établir que ces temps sont des temps d arrêt. Lemme 1.18 Soient un sous-ensemble de E, S (0) le premier temps d entrée dans et S (p), p 1, les instants successifs de retour dans. Ces temps aléatoires sont des temps d arrêt, c est-à-dire pour tous p et m dans N, on a : {S (p) = m} B m. Démonstration : La démonstration se fait par récurrence sur p. Nous avons déjà démontré dans l exemple ci-dessus que S (0) est un temps d arrêt. Supposons maintenant que {S (p) = k} B k pour tout k N et regardons {S (p+1) = m}. Nous avons : {S (p+1) = m} = {S (p) = k, X k+1,..., X k+l 1, X k+l /, k 0,l 1: k+l m 1 Par hypothèse de récurrence, {S (p) X k+l+1 /,..., X m 1 /, X m }. (1.3) = k} B k et donc pour k m, {S (p) = k} B m. Il est clair que tous les autres événements intervenant dans le membre de droite de (1.3) appartiennent à B m, d où le résultat. 22

Soit x dans E. Nous allons nous intéresser à la durée du p ième temps de séjour en x que nous noterons Dp x : c est l entier m qui vérifie X (p) S = x x,..., X = x, X x. La variable aléatoire X (p) S est le lieu x +m 1 S x (p) +m S x (p) +Dp x où la chaîne saute en sortant de x après son pème retour en x. Proposition 1.19 Soit (X n ) n N une chaîne de Markov homogène à valeurs dans E de fonction de transition P (x, y). Pour tout x E, la durée du temps de séjour de la chaîne dans x est de loi géométrique sur N de paramètre P (x, x) et il y a indépendance entre le temps de séjour en x et l endroit où la chaîne saute lorsqu elle quitte x. Plus précisément, avec les notations ci-dessus, pour tout p 0, on a : P(D x p = k + 1 / S (p) x et pour y x et P (x, x) 1 : P(X (p) S x +Dp x P(Dp x = k + 1, X (p) S x +Dp x = P(Dp x = k + 1 / S x (p) < + ) = P (x, x) k (1 P (x, x)), = y / S (p) x < + ) = = y / S (p) x < + ) < + ) P(X (p) S x +Dp x P (x, y) 1 P (x, x), = y / S (p) x < + ). Démonstration : Pour y x, le théorème 1.16 et le lemme 1.18 entrainent : P(S (p) x <, Dp x = k + 1, X (p) S x +Dp x = P(S (p) x = P(S (p) x = P(S (p) x Par conséquent : On en déduit : <, X (p) S x <, X (p) S x = y) = x, X = x,, X = x, X (p) S x +1 S x (p) +k S (p) = x) P x (X 1 = x,..., X k 1 = x, X k = y) < + ) P (x, x) k P (x, y). P(Dp x = k + 1, X (p) S x +Dp x = y / S (p) x P(D x p = k + 1 / S (p) x < ) = y E, y x P(Dp x = k + 1, X (p) S x +Dp x = P (x, x) k y E, y x P (x, y) = P (x, x) k (1 P (x, x)), 23 < ) = P (x, x) k P (x, y). = y / S (p) x < ) x +k+1 = y)

P(X (p) S x +Dp x = y / S (p) x < ) = P(Dp x = k + 1, X (p) S x +Dp x k 0 = k 0 P (x, x) k P (x, y) = y / S (p) x < ) = P (x, y) 1 P (x, x). Enfin : P(Dp x = k + 1, X (p) S x +Dp x = P (x, x) k (1 P (x, x)) = P(D x p = k + 1 / S (p) x = y / S (p) x < ) P (x, y) 1 P (x, x) < ) P(X (p) S x +Dp x = y / S (p) x < ). Plus généralement, on peut montrer que le comportement d une chaîne de Markov homogène peut être caractérisé de la façon suivante : à l instant initial, la chaîne choisit un état x selon la loi initiale et décide d y séjourner pendant une durée de loi géométrique (sur N ) de paramètre P (x, x). Lorsque cette durée est écoulée, la chaîne choisit un nouvel état y suivant la probabilité P (x, y)/(1 P (x, x)) et en arrivant en y, elle choisit la durée de son séjour suivant la loi géométrique de paramètre P (y, y),... On pourrait penser que ceci fournit une bonne façon de simuler une chaîne de Markov. En fait la simulation d une loi géométrique se faisant à partir de la simulation de variables aléatoires de Bernouilli, on ne gagne rien par rapport à la méthode de simulation naturelle décrite après la proposition 1.2. Si est un sous ensemble de E, nous allons nous intéresser à la souschaîne constituée des valeurs successives de la chaîne lors des instants de retour successifs dans. Proposition 1.20 Soit (X n ) n N une chaîne de Markov homogène à valeurs dans E et un sous-ensemble de E. On suppose que pour tout x E et pour tout n 0, les variables aléatoires S (n) sont finies presque-sûrement. La suite (X (n) S ) n N est une chaîne de Markov homogène de loi initiale µ(x) = P(X (0) S = x) et de fonction de transition Q donnée par : x, y, Q(x, y) = P x (X S (1) = y). 24

Démonstration : Montrons que les Y n = X (n) S forment une chaîne de Markov. Soit k N et y 0,... y k. Nous avons : P(Y 0 = y 0,..., Y k = y k ) = P(X S (0) = y 0,... X S (k 1) = y k 1, X S (k) = y k ) On veut appliquer la propriété de Markov au temps d arrêt S (k 1). Pour cela il faut vérifier que soit que {X S (0) {X S (0) = y 0,... X S (k 1) = y 0,... X S (k 1) = y k 1 } B (k 1) S, = y k 1, S (k 1) = n} B n, ce qui est bien intuitif mais nécessite une démonstration. On a : {X S (0) = = = y 0,... X (k )1 S {X (0) S m 0,...,m k 2, m 0 <...<m k 2 <n X (k 1) S m 0,...,m k 2, m 0 <...<m k 2 <n = y k 1, S (k 1) = n} = y 0, S (0) = y k 1, S (k 1) = n} {X m0 = y 0, S (0) X n = y k 1, S (k 1) = n} = m 0,..., X S (k 2) = y k 2, S (k 2) = m k 2, = m 0,..., X mk 2 = y k 2, S (k 2) = m k 2, D après le lemme 1.18, pour tout p k 2, {S (p) = m p} B mp B mk 2 B n, et {S (k 1) = n} B n. Par conséquent {X S (0) = y 0,... X S (k 1) = y k 1, S (k 1) = n} B n. On applique la propriété de Markov forte au temps d arrêt S (k 1). On obtient : P(Y 0 = y 0,..., Y k = y k ) = P(X (0) S = y 0,... X (k 1) S = y k 1, X,..., (k 1) S +1 l 1 p 1 X, X /,..., X /, X ) (k 1) S +l 1 S (k 1) +l S (k 1) +l+p 1 S (k 1) +l+p = P(X (0) S = y 0,..., X (k 1) S = y k 1 ) P yk 1 (X 1,..., l 1 p 1 X l 1, X l /,..., X l+p 1 /, X l+p ) = P(X S (0) = y 0,... X S (k 1) = y k 1 ) P yk 1 (X S (1) 25 = y k )

En faisant une récurrence sur k, on obtient : P(Y 0 = y 0,..., Y k = y k ) = P(X S (0) = y 0 ) P y0 (X S (1) = y 1 )... P yk 1 (X S (1) = y k ), ce qui montre que (Y n ) n N est une chaîne de Markov de loi initiale µ(y) = P (X (0) S = y) et de matrice de transition Q(x, y) = P x (X (1) S = y) 26

Chapitre 2 Chaîne de Markov : classification des états Dans tout ce chapitre, nous étudierons le comportement d une chaîne de Markov homogène, à valeurs dans un espace E (fini ou dénombrable), de fonction de transition P (x, y). 2.1 Communication entre les états Noue allons définir un certain nombre de notions qui décrivent la manière dont les états communiquent entre eux, c est-à-dire si, à partir d un état initial donné, la chaîne peut atteindre un autre état donné. Un première notion est celle d état absorbant. Définition 2.1 Un état x est absorbant si P (x, x) = 1. Si x est absorbant, alors pour tout n 1, P x (X 1 = x, X 2 = x,..., X n = x) = P (x, x) n = 1, donc P x ( n, X n = x) = 1, d où la terminologie. Cet état ne communique avec aucun autre état. Pour décrire cette notion de communication, on définit le temps d atteinte T y d un état y : T y = min{n 1 : X n = y} Il faut noter que, lorsque l état initial vaut y, la variable aléatoire T y est différente de la variable alátoire S y = min{n 0 : X n = y} rencontrée dans le chapitre précédent. On montre que T y est un temps d arrêt pour la chaîne de Markov de la même manière que S y est un temps d arrêt. 27

Définition 2.2 Nous dirons que x conduit à y si P x (T y < + ) > 0. L état x conduit à l état y si et seulement si il existe n 1 vérifiant P x (X n = y) > 0. En effet, pour tout k 1 : P x (X k = y) P x (T y < + ) = P x ( n 1 {X n = y}) n 1 P x (X n = y). et donc P x (T y < + ) > 0 n 1, P x (X n = y) > 0. Si l on construit le graphe d états, cela correspond à l existence d un chemin conduisant de x à y car = y 1 E... y n 1 E P x (X n = y) = P n (x, y) P (x, y 1 ) P (y 1, y 2 )... P (y n 2, y n 1 ) P (y n 1, y), donc P x (X n = y) > 0 équivant à l existence de x 1 E,..., x n 1 E tel que P (x, x 1 ) P (x 1, x 2 ),... P (x n 2, x n 1 ) P (x n 1, y) > 0 donc tel que P (x, x 1 ) > 0, P (x 1, x 2 ) > 0,... P (x n 2, x n 1 ) > 0, P (x n 1, y) > 0. Cela entraine que la relation conduit est transitive, c est-à-dire que si x conduit à y et si y conduit à z, alors x conduit à z. Une première notion est celle de classe fermée. Définition 2.3 Un sous-ensemble C de E est appelé une classe fermée si aucun état appartenant à C ne conduit à un état hors de C, c est-à-dire si : x C, y / C, P x (T y < + ) = 0 Proposition 2.4 Soit C E. Les conditions suivantes sont équivalentes : 1. C est une classse fermée, 2. Pour tout x C, la condition P x (T y < + ) > 0 entraine y C, 3. x C, y / C, P (x, y) = 0, 4. x C, P x ( n 1, X n C) = 1. 28

Démonstration : Les conditions 1. et 2. sont équivalents, car C fermée équivant à : pour tout x C, on a y / C P x (T y < + ) = 0, ou encore : pour tout x C, on a P x (T y < + ) > 0 y C. Voyons maintenant les autres équivalences. Supposons la condition 1. vérifiée. lors, pour x C et y / C : P (x, y) = P x (X 1 = y) P x (T y < + ) = 0, donc P (x, y) = 0. Par conséquent, la condition 1. entraine la condition 3. Supposons maintenant la condition 3. vérifiée. Montrons par récurrence sur n que pour tout n 1, x C, y / C, P n (x, y) = 0. Pour n = 1, c est la condition 3. Supposons la propriété vraie à l orde n, alors pour x C et y / C : P n+1 (x, y) = z E P n (x, z)p (z, y) = z C P n (x, z)p (z, y) = 0. La récurrence est établie, donc sous la condition 3. pour tout n, si x C et y / C, alors P n (x, y) = 0 ; par conséquent P x (T y < + ) = 0 et donc la condition 1. est vérifiée. Regardons la condition 4. Elle équivant à : Or : x C, P x ( n 1, X n / C) = 0. P x ( n 1, X n / C) = P x ( n 1, y / C, X n = y) = P x ( y / C { n 1, X n = y}) = P x ( y / C {T y < + }). Par conséquent P x ( n 1, X n / C) = 0 équivant à : pour tout y / C, P x (T y < + ) = 0. Une deuxième notion est celle de classe irréductible. Définition 2.5 Un sous-ensemble C de E est irréductible si x C, y C, x conduit à y (en langage des graphes, un sous-ensemble irréductible est une classe fortement connexe). La proposition suivante laisse entrevoir une décomposition en classes fermées irréductibles. 29

Proposition 2.6 Soit C 1 et C 2 deux classes fermées irréductibles. lors ou bien C 1 C 2 =, ou bien C 1 = C 2. Démonstration : Soit C 1 et C 2 deux classes fermées irréductibles. Supposons que C 1 C 2. Soit x C 1 C 2. Soit y C 1. Puisque x et y sont dans C 1 et que C 1 est irréductible, x conduit à y. Puisque C 2 est fermée et que x conduit à y, on a donc y C 2 (condition 2. de la proposition 2.4). On a donc prouvé que C 1 C 2. L inclusion inverse se démontre de la même manière. 2.2 Etats récurrents et transients Nous allons étudier les notions fondamentales pour les chaînes de Markov de récurrence et de transience. Définition 2.7 Un état y est dit récurrent si P y (T y < + ) = 1, il est dit transient ou transitoire si P y (T y < + ) < 1. Un premier exemple d état récurrent est un état absorbant, mais nous allons évidemment voir qu il existe d autres états récurrents. Notons N y = n 1 1 {Xn=y} le nombre de visites à l état y (à partir de l instant 1). Remarquons que {T y < + } = {N y 1}. Posons : ρ xy = P x (T y < + ). Proposition 2.8 Pour tous x et y appartenant à E et m 1 : P x (N y m) = ρ xy ρ m 1 yy, P x (N y = m) = ρ xy ρ m 1 yy (1 ρ yy ). Démonstration : Pour m 1, l événement {N y m} entraine {N y 1} et donc {T y < + }. En appliquant la propriété de Markov forte à l instant T y nous avons : P x (N y m) = P x (T y < +, X Ty = y, 1 + n 1 1 {XTy+n =y} m) = P x (T y < +, X Ty = y) P y (N y m 1) = P x (T y < + ) P y (N y m 1) = ρ xy P y (N y m 1). 30

En particulier, en prenant x = y on obtient : P y (N y m) = ρ yy P y (T y m 1). Par suite : P y (N y m) = ρ m 1 yy P y (N y 1) = ρ m yy. Donc : P x (N y m) = ρ xy P y (N y m 1) = ρ xy ρ m 1 yy. La deuxième formule de la proposition s obtient en écrivant : P x (N y = m) = P x (N y m) P x (N y m 1). La dernière formule de la proposition est intuitive : une chaîne partant de x visite y exactement m fois si elle parvient à y puis y retourne m 1 fois et ensuite n y revient plus. Théorème 2.9 1. Si y est transient, alors : 2. Si y est récurrent, alors : Démonstration : avons : P y (N y = + ) = 1, P x (N y < + ) = 1, E x (N y ) = ρ xy 1 ρ yy. P x (N y = + ) = ρ xy = P x (T y < + ). Reprenons la formule P x (N y m) = ρ xy ρ m 1 yy. Nous P x (N y = ) = lim m + P x(n y m) = lim ρ xy ρ m 1 yy m + { 0 si ρyy < 1, = ρ xy si ρ yy = 1, d où le résultat annoncé lorsque y est récurrent. Dans le cas où y est transient, c est-à-dire ρ yy < 1, nous obtenons : E x (N y ) = m 1 m P x (N y = m) = m 1 m ρ xy ρ m 1 yy (1 ρ yy ) = ρ xy(1 ρ yy ) (1 ρ yy ) 2 ρ xy =. 1 ρ yy 31

Si l état y est transient, alors pour tout x E, E x (N y ) < + et donc N y < + P x preque sûrement. Par conséquent, quelle que soit la loi initiale N y < +, donc la chaîne ne passera qu un nombre fini de fois par y. Si, au contraire, y est récurrent et si la chaîne part de y, elle y revient une infinité de fois ; tandis que si elle part d un point x y, elle peut ou non revenir en y mais si elle y revient au moins une fois, elle y revient alors une infinité de fois. Corollaire 2.10 y récurrent N y = + P y p.s. E y (N y ) = +, y transient N y < + P y p.s. E y (N y ) < +. Définition 2.11 Une chaîne dont tous les états sont transients est appelée chaîne transiente, une chaîne dont tous les états sont récurrents est appelée chaîne récurrente. La notions de récurrence et de transience se transmettent lorsque les états communiquent. Proposition 2.12 Si x conduit à y et si x est un état récurrent alors y est également récurrent et : P x (T y < + ) = P y (T x < + ) = 1. Si x conduit à y et si y est un état transient, alors x est aussi transient. Si x conduit à y et si y conduit à x, alors x et y sont de même nature, c est-à-dire ou bien tous deux transients ou bien tous deux récurrents. Démonstration : Supposons que x soit un état récurrent et que x conduise à y. Commençons par montrer que ρ yx = 1. Intuitivement, comme x conduit à y la chaîne à une probabilité strictement positive d aller de x à y sans repasser par x et si nous avions ρ yx < 1, la chaîne partant de y aurait une probabilité 1 ρ yx > 0 de ne jamais passer par x, par conséquent (d après la propriété de Markov!) la chaîne partant de x aurait une probabilité strictement positive de ne jamais revenir en x, ce qui contredit le fait que x est récurrent. Plus précisément, puisque ρ xy > 0, nous avons vu qu il existe n 1 tel que P x (X n = y) > 0. Soit n 0 le plus petit des n 1 vérifiant P x (X n = y) > 0. On 32

peut alors trouver des états x 1,..., x n0 1 différents de x et de y pour lesquels P (x, x 1 )P (x 1, x 2 )...P (x n0 1, y) > 0. Par conséquent : P x (T x = + ) P x (X 1 = x 1, X 2 = x 2,..., X n0 1 = x n0 1, X n0 = y, k 1, X n+k x) = P x (X 1 = x 1, X 2 = x 2,..., X n0 1 = x n0 1, X n0 = y) P y ( k 1, X k x) = P (x, x 1 )P (x 1, x 2 )...P (x n0 1, y)(1 ρ yx ). L état x étant récurrent, on a P x (T x = + ) = 0. Comme P (x, x 1 )P (x 1, x 2 )... P (x n0 1, y) > 0 et que P (x, x 1 )P (x 1, x 2 )...P (x n0 1, y)(1 ρ yx ) = 0, on a nécessairement 1 ρ yx = 0, c est-à-dire ρ yx = 1. Montrons maintenant que y est récurrent. Puisque ρ yx = 1 > 0, il existe n 1 1 pour lequel P y (X n1 = x) > 0. D autre part : P y (X n1 +n+n 0 = y) P y (X n1 = x, X n1 +n = x, X n1 +n+n 0 = y) Par conséquent : E y (N y ) = p 1 P y (X p = y) = P y (X n1 = x) P x (X n = x) P x (X n0 = y). p:p n 1 +1+n 0 P y (X p = y) = n 1 P y (X n1 +n+n 0 = y) P y (X n1 = x) P x (X n0 = y) n 1 P x (X n = x) = P y (X n1 = x) P x (X n0 = y) E x (N x ). Puisque x est récurrent, on a E x (N x ) = + et par suite E y (N y ) = + (car P y (X n1 = x) > 0 et P x (X n0 = y) > 0), ce qui prouve que y est récurrent. Enfin puisque y est récurrent et que y conduit à x, le début de la démonstration montre que ρ xy = 1. Si y conduit à x et si x est transient alors y est également transient car si y était récurrent, d après le résultat ci-dessus, x serait récurrent. Si un sous-ensemble est irréductible alors, d après la proposition 2.12, tous ses états sont de même nature : ou tous récurrents ou tous transients. Du théorème 2.9 et de la proposition 2.12, on déduit immédiatement le résultat suivant 33

Proposition 2.13 Soit C un sous-ensemble irréductible dont les états sont récurrents, alors pour tous x et y dans C, ρ xy = P x (T y < + ) = 1, P x (N y = + ) = 1. Théorème 2.14 Soit C une classe fermée irréductible. Si C est fini (c est-àdire comporte un nombre fini d états) alors tous les états de C sont récurrents. Démonstration : Soit C est une classe fermée, pour tout x C, nous avons P x (X n C, n) = 1 (proposition 2.4). Par conséquent pour toute loi initiale µ portée par C, on a P µ presque- sûrement : + = 1 {Xn C} = 1 {Xn=y} = 1 {Xn=y} = N y. n 1 n 1 y C y C n 1 y C Si de plus C est supposée irréductible, tous ses états sont de même nature : tous récurrents ou tous transients. S ils étaient tous transients, alors pour tout y C, on aurait N y < + P µ presque-sûrement (pour toute loi initiale µ portée par C) et donc, C étant fini, y C N y < + P µ presque-sûrement (pour toute loi initiale µ portée par C). D où une contradiction. Une classe fermée irréductible non finie n est pas nécessairement formée d états récurrents mais on a vu que tous ses états sont de même nature : ils sont soit tous récurrents soit tous transients. Par exemple une marche aléatoire simple sur Z pour laquelle a et b ne sont pas nuls est irréductible, elle est récurrente dans le cas a = b et transiente si a b. Voyons dans le cas général, comment on peut regrouper les états récurrents. Théorème 2.15 Soit E R l ensemble des états récurrents. Si cet ensemble n est pas vide, il est la réunion finie ou dénombrable de classes fermées irréductibles deux à deux disjointes appelées classes récurrentes irréductibles. Démonstration : Soit x E R et C(x) l ensemble des y E R tels que x conduise à y, c est-à-dire : C(x) = {y E : ρ xy > 0} = {y E R : ρ xy > 0} = {y E R : ρ xy = 1}). Puisque x est récurrent, nous avons par définition ρ xx = 1 et par suite x C(x). Montrons que C(x) est une classe fermée. Soit y C(x) et supposons que y conduise à z E. Comme y E R, la proposition 2.12 entraine que z E R. Et comme x conduit à y et que y conduit à z, alors x conduit à z. Nous avons donc montré que si y C(x) conduit à z, alors z C(x), ce qui prouve bien que la classe C(x) est fermée (condition 2. de la proposition 2.4). 34

Montrons que C(x) est irréductible. Soit y et z appartenant à C(x). Puisque x est récurrent et conduit à y, d après la proposition 2.12, on a ρ xy = ρ yx = 1. Donc y conduit à x. Puisque y conduit à x et que x conduit à z, alors y conduit à z. Donc C(x) est bien irréductible. Enfin le lemme 2.6 entraine que deux classes ainsi construites sont soit disjointes soit égales. Lorsque E est fini et pas trop grand, il est possible de lire sur le graphe d états de la chaîne une partie des propriétés évoquées ci-dessus. Décomposons le graphe des états en composantes fortement connexes maximales. Rappelons qu un (sous-)graphe est fortement connexe si, pour tout couple de sommets x et y, il existe un chemin conduisant de x à y. Il existe deux types de composantes fortement connexes maximales : celles desquelles ne sort aucun arc : ce sont des classes fermées (lorsqu on est entré dans une telle classe, on ne peut en sortir), on les appelle classes finales, celles desquelles sort au moins un arc. Soit C une composante fortement connexe maximale d où ne sort aucun arc. C est donc une classe irréductible (car fortement connexe) et fermée (puisque qu il ne sort aucun arc). Comme elle est finie, tous ses états sont récurrents. Donc, compte-tenu de la démonstration du théorème 2.15, C est une classe récurrente irréductible. Si maintenant C est une composante fortement connexe maximale d où sort au moins un arc. Il existe y C et z / C tels qu il y ait un chemin de y à z, donc une probabilité strictement positive pour la chaîne partant de y d aller en z sans repasser par y. Lorsque la chaîne est en z / C, elle a une probabilité égale à 1 de ne jamais revenir dans C (sinon il y aurait un chemin de z à C et donc, comme C est fortement connexe, de z à y et C ne serait pas une classe fortement connexe maximale). Donc la chaîne partant de y a une probabilité strictement positive de ne jamais revenir en y, donc y est un état transitoire. Donc une composante fortement connexe maximale d où sort au moins un arc est formée d états transitoires. Pour lire le comportement de la chaîne sur le graphe d états, on construit le graphe réduit qui fait apparaitre la décomposition en composantes fortement connexes maximales. On repère alors facilement les classes finales et les classes transitoires. Exemples : Reprenons l exemple 1 du premier chapitre. Le graphe est le suivant : 35