Introduction aux processus stochastiques

Documents pareils
Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Raisonnement probabiliste

Lagrange, où λ 1 est pour la contrainte sur µ p ).


Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Jean-Philippe Préaux

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Processus aléatoires avec application en finance

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modélisation et Simulation

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

MATHS FINANCIERES. Projet OMEGA

Texte Agrégation limitée par diffusion interne

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

L exclusion mutuelle distribuée

Modélisation du comportement habituel de la personne en smarthome

Programmes des classes préparatoires aux Grandes Ecoles

Processus Stochastiques

Guidance de Statistique : Epreuve de préparation à l examen

Relation entre deux variables : estimation de la corrélation linéaire

Resolution limit in community detection

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

«Cours Statistique et logiciel R»

Coup de Projecteur sur les Réseaux de Neurones

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Plus courts chemins, programmation dynamique

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Les arbres binaires de recherche

Modélisation aléatoire en fiabilité des logiciels

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Probabilités. C. Charignon. I Cours 3

Pourquoi l apprentissage?

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Chapitre 5 : Flot maximal dans un graphe

Chaînes de Markov au lycée

Simulation de variables aléatoires

Cryptographie et fonctions à sens unique

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Exercices sur le chapitre «Probabilités»

TSTI 2D CH X : Exemples de lois à densité 1

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Correction du baccalauréat ES/L Métropole 20 juin 2014

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Introduction aux algorithmes répartis

Programmation linéaire

3. Conditionnement P (B)

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

P1 : Corrigés des exercices

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Algorithmes d'apprentissage

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Chapitre 2 Le problème de l unicité des solutions

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Calcul Stochastique pour la finance. Romuald ELIE

!-.!#- $'( 1&) &) (,' &*- %,!

FORMULAIRE DE STATISTIQUES

Dimensionnement d une roue autonome pour une implantation sur un fauteuil roulant

Vous incarnez un surdoué en informatique qui utilise son ordinateur afin de pirater des comptes bancaires un peu partout dans le monde et s en mettre

Moments des variables aléatoires réelles

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Object Removal by Exemplar-Based Inpainting

Cours de méthodes de scoring

LE PROBLEME DU PLUS COURT CHEMIN

Introduction à l approche bootstrap

Organigramme / Algorigramme Dossier élève 1 SI

Memo BATL : la nouvelle loi sur la régularisation fiscale

LISTE D EXERCICES 2 (à la maison)

Annexe 6. Notions d ordonnancement.

Cours d analyse numérique SMI-S4

Markov processes and applications to queueing/risk/storage theory and mathematical biology

Outils logiciels pour la combinaison de vérification fonctionnelle et d évaluation de performances au sein de CADP

Modélisation multi-agents - Agents réactifs

Limitations of the Playstation 3 for High Performance Cluster Computing

4.2 Unités d enseignement du M1

Cours Informatique Master STEP

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Cours d initiation à la programmation en C++ Johann Cuenin

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Une introduction aux codes correcteurs quantiques

Introduction au datamining

Transmission d informations sur le réseau électrique

Architecture des Systèmes d Information Architecture des Systèmes d Information

données en connaissance et en actions?

Apprentissage Automatique

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2009/25

Analyse en Composantes Principales

Arbre de probabilité(afrique) Univers - Evénement

Transcription:

Introduction aux processus stochastiques Leçon 2 Louis Wehenkel Département EEI Université de Liège Montefiore - Liège - 13/2/2007 Find slides: http://montefiore.ulg.ac.be/ lwh/procstoch/ Louis Wehenkel IPS... (1/27)

Objectifs de cette leçon Louis Wehenkel IPS... (2/27)

Objectifs de cette leçon Expliquer et illustrer la notion d indépendance (conditionnelle) de variables aléatoires, dans le cas discret. Montrer comment cette notion peut être exploitée pour modéliser une expérience aléatoire. Expliquer ce que c est que l inférence probabiliste. Montrer comment exploiter les propriétés d indépendance et d indépendance conditionnelle pour l inférence. Introduire une représentation graphique des modèles probabilistes et des relations d indépendance conditionnelle. Louis Wehenkel IPS... (3/27)

Soient X, Y, Z trois v.a. discrètes. On dit que X est indépendante de Y (noté par X Y) si et seulement si i,j : P(X i,y j ) = P(X i )P(Y j ). On dit que X est indépendante de Y conditionnellement à Z (noté par X Y Z) si et seulement si i,j,k : P(X i,y j Z k ) = P(X i Z k )P(Y j Z k ). Remarque: Nous utilisons la notation P(X, Y) = P(X)P(Y) pour résumer la condition i,j : P(X i,y j ) = P(X i )P(Y j ), et la notation P(X, Y Z) = P(X Z)P(Y Z) pour résumer la condition i,j,k : P(X i,y j Z k ) = P(X i Z k )P(Y j Z k ). Louis Wehenkel IPS... (4/27)

On lance en même temps une pièce d 1 Euro et une de 2 Euros. L ensemble des résultats possibles est l ensemble des trajectoires (position, vitesse, orientation...) dans R 3 de chaque pièce, soit une fonction du temps à valeurs dans R 24. Nous définissons trois variables aléatoires binaires à partir de cette expérience: H 1 : elle vaut 1 si la pièce d 1 Euro présente son côté pile vers le haut (une fois au repos), 0 sinon. H 2 : elle vaut 1 si la pièce de 2 Euros présente son côté pile vers le haut, 0 sinon. S : elle vaut 1 si les deux pièces tombent du même côté, 0 sinon. Louis Wehenkel IPS... (5/27)

Modélisation Hypothèses physiques: La connaissance de la face sur laquelle est tombée une des deux pièces ne nous apprend rien sur la face sur laquelle l autre est tombée: P(H 1, H 2 ) = P(H 1 )P(H 2 ). La première est légèrement biaisée: P(H 1 = 1) = 0.6. La seconde est fortement biaisée: P(H 2 = 1) = 0.7. Louis Wehenkel IPS... (6/27)

Construction de la distribution de probabilité conjointe En général, on a P(H 1, H 2, S) = P(H 1 )P(H 2 H 1 )P(S H 1, H 2 ). Ici nous avons : P(H 1, H 2, S) = P(H 1 )P(H 2 )P(S H 1, H 2 ), et P(S = 1 H 1, H 2 ) = 1 si H 1 = H 2 et P(S = 1 H 1, H 2 ) = 0 sinon H 1 H 2 S P(H 1, H 2, S) 1 1 1 0.6 0.7 1 = 0.42 1 1 0 0.6 0.7 0 = 0.00 1 0 1 0.6 0.3 0 = 0.00 1 0 0 0.6 0.3 1 = 0.18 0 1 1 0.4 0.7 0 = 0.00 0 1 0 0.4 0.7 1 = 0.28 0 0 1 0.4 0.3 1 = 0.12 0 0 0 0.4 0.3 0 = 0.00 Louis Wehenkel IPS... (7/27)

Inférences A partir de la table qui précède et en oubliant la nature du problème, répondez aux questions suivantes : Quelle est la probabilité pour que H 1 = 1 et H 2 = 0? Quelle est la probabilité pour que S = 1? Sachant que S = 1, quelle est la probabilité que H 1 = 1? Sachant que S = 0, quelle est la probabilité que H 2 = 1? Calculer la distribution conditionnelle P(S H 1 = 1). Calculer la distribution conditionnelle P(H 1 S = 1). Est-ce que H i S? Est-ce que H 1 H 2 S? Est-ce que H 1 S H 2? Et si les deux pièces sont équilibrées? Louis Wehenkel IPS... (8/27)

Pierre est mal-voyant et se promène dans la forêt; il y rencontre un ours. Au retour il rencontre Tom qui est mal-entendant, et lui dit qu il a rencontré un ours d une certaine couleur. Tom rentre chez lui, et dit à son fils qu il y avait un ours d une certaine couleur dans la forêt. Nous définissons trois variables aléatoires à partir de cette histoire: O : la vraie couleur (brune ou noire) de l ours. P : la couleur (brune ou noire) que Pierre précise à Tom. T : la couleur (brune ou noire) que Tom mentionne à son fils. Louis Wehenkel IPS... (9/27)

Modélisation Hypothèses physiques explicites: Il y a 50% d ours bruns dans la forêt: P(O = B) = 0.5. Pierre se trompe de couleur 1 fois sur 10: P(P = B O = B) = 0.9 et P(P = N O = N) = 0.9 De même, Tom entend mal 1 fois sur 10: P(T = B P = B) = 0.9 et P(T = N P = N) = 0.9 Hypothèses implicites: Sachant la couleur que Pierre précise à Tom, celle que Tom mentionne à son fils ne dépend pas de la vraie couleur de l ours: P(T O, P) = P(T P). Louis Wehenkel IPS... (10/27)

Construction de la distribution de probabilité conjointe En général on a P(X 1, X 2, X 3 ) = P(X 1 )P(X 2 X 1 )P(X 3 X 1, X 2 ). Ici, nous avons P(O, P, T ) = P(O)P(P O)P(T P,[O]). O P T P(O, P, T ) B B B 0.5 0.9 0.9 = 0.405 B B N 0.5 0.9 0.1 = 0.045 B N B 0.5 0.1 0.1 = 0.005 B N N 0.5 0.1 0.9 = 0.045 N B B 0.5 0.1 0.9 = 0.045 N B N 0.5 0.1 0.1 = 0.005 N N B 0.5 0.9 0.1 = 0.045 N N N 0.5 0.9 0.9 = 0.405 Louis Wehenkel IPS... (11/27)

Inférences A partir de la table qui précède et en oubliant la nature du problème, répondez aux questions suivantes : Quelle est la probabilité pour que P = B? Quelle est la probabilité pour que T = B? Sachant que O = B quelle est la probabilité que P = B? Sachant que O = B quelle est la probabilité que T = B? Sachant que T = B quelle est la probabilité que O = B? Sachant que T = N quelle est la probabilité que O = B? Sachant que P = B quelle est la probabilité que O = B? Et en faisant appel aux propriétés physiques du problème, comment feriez-vous pour répondre à ces questions? Louis Wehenkel IPS... (12/27)

Pierre surveille l entrée de la clairière pour observer les ours qui passent. Les ours ont tendance à venir en famille, en file indienne. Les familles sont de taille variable. Pierre note la couleur de chaque ours qui passe. Sachant que Pierre a noté B, B pour les deux premiers, quelle est la probabilité pour que le troisième soit brun? Nous définissons quatre variables aléatoires: O 1 : la couleur du premier ours qui entre dans la clairière. O 2 : la couleur du second ours qui entre dans la clairière. P 1 : la couleur du premier ours notée par Pierre. P 2 : la couleur du second ours notée par Pierre. O 3 : la couleur du troisème ours. Louis Wehenkel IPS... (13/27)

Modélisation Hypothèses physiques explicites: Il y a 50% d ours bruns dans la forêt: P(O 1 = B) = 0.5. Pierre se trompe de couleur 1 fois sur 10: P(P i = B O i = B) = 0.9 et P(P i = N O i = N) = 0.9. Quelle que soit la couleur des ours qui viennent de passer, il y a une chance sur 5 pour que le suivant ne soit pas de la même couleur que le dernier arrivé: P(O 2 = B O 1 = B) = P(O 2 = N O 1 = N) = 0.8. Hypothèses implicites: Pierre se trompe de couleur de manière indépendante de ses erreurs passées et de la couleur des ours qu il a vu passer auparavant: P(P 2 O 2, O 1, P 1 ) = P(P 2 O 2 ). Les ours ne savent pas ce que Pierre note sur son cahier. Louis Wehenkel IPS... (14/27)

Construction de la distribution de probabilité conjointe Nous avons: P(O 1, P 1, O 2, P 2, O 3 ) = P(O 1 )P(P 1 O 1 )P(O 2 O 1 [P 1 ])P(P 2 O 2 [O 1, P 1 ])P(O 3 O 2 [O 1, P 1, P 2 ]) O 1 P 1 O 2 P 2 O 3 P(O 1, P 1, O 2, P 2, O 3 ) B B B B B 0.5 0.9 0.8 0.9 0.8 =... B B B B N 0.5 0.9 0.8 0.9 0.2 =... B B B N B 0.5 0.9 0.8 0.1 0.8 =......... N N N N B 0.5 0.9 0.8 0.9 0.2 =... N N N N N 0.5 0.9 0.8 0.9 0.8 =... Il faut (2 5 = 32) 4 = 128 multiplications pour remplir la table. Après le 270ème ours: 5.1e+83 multiplications et une table de 1.9e+81 lignes. Mais, l univers ne contient qu environ 1+e80 électrons... Louis Wehenkel IPS... (15/27)

Cet exemple permettra d illustrer la notion de chaîne de Markov, de distribution stationnaire, de périodicité, de stationnarité et d ergodicité, et l inférence par propagation. Nous définissons un nombre infini de variables aléatoires: X t : désigne le nombre de puces sur le dos du premier chien au temps t = 0,1,...,. On a: X t {0,1,2,...,n}, t. P(X 0 = n) = 1, et donc P(X 0 = k) = 0, k {0,...,n 1}. On peut se convaincre que X t+1 (X t 1,..., X 0 ) X t P(X t+1, X t,..., X 0 ) = P(X t+1 X t )P(X t X t 1 )...P(X 0 ) Louis Wehenkel IPS... (16/27)

Le cas particulier des deux puces Désignons par π t le vecteur ligne [P(X t = 0),...,P(X t = n)], et par Π t la matrice dont l élément i,j vaut P(X t+1 = j X t = i). Lorsque n = 2 on a π 0 = [0, 0, 1] 0 1 0 Π t = Π = 0.5 0 0.5, t {0,1,..., } Invariance! 0 1 0 Calculs pour t = 1,2,... On a P(X t = j) = n i=0 P(X t 1 = i)p(x t = j X t 1 = i). En notation matricielle on a donc π t = π t 1 Π t 1. Par conséquent π t = π 0 Π 0 Π 1 Π t 1 = π 0 Π t Louis Wehenkel IPS... (17/27)

Calculer π t pour t = 1,2,3...: [0,1,0],[0.5,0,0.5], [0, 1, 0]... Quid si en t = 0, on a 1 puce sur le dos de chaque chien? Quid si en t = 0 on ne connaît pas la répartition des n puces? Notion de distribution stationnaire: Solution de qπ = q avec q 1 + q 2 + q 3 = 1 1 1 0 1 Ici [q 1,q 2,q 3 ] 0.5 1 0.5 1 = [0,0,0,1] 0 1 1 1 1 1 1 Ou encore [q 1,q 2,q 3 ] 0.5 1 1 = [0,0,1] 0 1 1 On trouve q = [0.25, 0.5, 0.25]. Louis Wehenkel IPS... (18/27)

La prédiction du futur en général En général on définit une chaîne de Markov à p états par Une distribution initiale: π 0 (vecteur de dim. p) Une suite de matrices de transition p p: Π 0,Π 1,Π 2,... NB. Si la suite est constante on dit que la chaîne est invariante dans le temps, et on note la matrice de transition par Π. On peut alors calculer les matrices de transition à k pas de temps Π t,t+k = Π t Π t+1 Π t+k 1. L élément i,j de Π t,t+k vaut P(X t+k = j X t = i). De π t on calcule π t+k = π t Π t,t+k en kp 2 opérations +. NB. Le même calcul par marginalisation nécessite p k+1 additions. P(X t+k =i) = p i 1=1 p i k =1 P(X t+k=i, X t+k 1 =i 1,...,X t =i k ) Louis Wehenkel IPS... (19/27)

Algorithme de propagation gauche droite Calcul de P(X t+1 ) à partir de P(X t ) en multipliant le vecteur π t à gauche de la matrice Π t. Chaque propagation prend p 2 opérations. Si on connaît la valeur de X 0 on remplace π 0 par le vecteur l X0 pour calculer P(X t X 0 ), t > 0. Si on connaît X k alors à partir de X k on propage le vecteur l Xk vers la droite pour calculer P(X t X k ), t > k. Question: Comment calculer P(X t X k ), t < k? Question: Comment calculer P(X t X 0,X k ), t {1,...,k 1}? Louis Wehenkel IPS... (20/27)

De la prédiction du futur au retour dans le passé Supposons que nous connaissions le nombre de puces sur le dos du premier chien en t = 0 et en t = T. (I.e. on se donne X 0 et X T ). Que vaut alors, P(X t X 0,X T )? P(X t X 0,X T ) = P P(Xt,X 0,X T ) Xt P(Xt,X 0,X T ) = P(Xt,X T X 0 )P(X 0 ) PXt P(Xt,X T X 0 )P(X 0 ). Or P(X t,x T X 0 ) = P(X t X 0 )P(X T X t ) P(X t X 0 ) = X 0 -ème ligne de la matrice Π 0,t P(X T X t ) = X T -ème colonne de la matrice Π t,t P(X t,x T X 0 ) = (l X0 Π 0,t ) (Π t,t c XT ), où l i (resp. c j ) désigne le vecteur ligne (resp. colonne) dont la composante i (resp. j) vaut 1 (les autres sont nulles). Le symbole représente le produit terme à terme d un vecteur ligne par un vecteur colonne. Louis Wehenkel IPS... (21/27)

Discussion Si X T n est pas observé, on ne propage rien à partir de la droite. Cela revient à propager à partir de la droite le vecteur colonne 1, puisque Π t 1 = 1 (les lignes des matrices Π t somment à 1). Si on n observe pas X 0 il faut propager vers la droite un vecteur π 0. Si en plus d observer X 0 et X T, on observe aussi X k (0 < k < T) on propage l X0 vers la droite jusque k puis l Xk ; on propage c XT vers la gauche jusque k puis c Xk. Cet algorithme peut se généraliser directement au cas où on fait des observations à un nombre quelconque de pas de temps et qu on souhaite calculer les distributions de probabilités conditionnelles de chaque X t étant données les observations. Louis Wehenkel IPS... (22/27)

Pile ou face H 1 H 2 Chaque noeud correspond à une v.a. A chaque v.a. correspond une loi conditionnelle P(X i pa(x i )). S Le graphe indique que la distribution conjointe peut se factoriser sous la forme N i=1 P(X i pa(x i )). Ce graphe indique que P(H 1, H 2, S) = P(H 1 )P(H 2 )P(S H 1, H 2 ). Il s agit d un exemple de réseau bayesien. Le graphe est dirigé et acyclique. Louis Wehenkel IPS... (23/27)

L ours, Pierre et Tom Pour ce problème, la loi de probabilité conjointe se factorise de la manière suivante: P(O, P, T ) = P(O)P(P O)P(T P). Graphiquement cette factorisation est donc représentée par O P T Ce graphe indique essentiellement que O T P. Louis Wehenkel IPS... (24/27)

La chaîne de Markov Le cas général de la chaîne de Markov correspond au graphe suivant: X 0 X 1 X t 1 X t X t+1 ce qui correspond à la factorisation P(X 0, X 1,..., X t 1, X t, X t+1,...) = P(X 0 )P(X 1 X 0 ) P(X t 1 X t 2 )P(X t X t 1 )P(X t+1 X t ) Louis Wehenkel IPS... (25/27)

La balade des ours Il s agit d une chaîne de Markov cachée O 1 O 2 O t O t+1 O t 1 P 1 P 2 P t 1 P t P t+1 Le graphe exprime la factorisation: P(O 1, P 1,...,O t, P t ) = P(O 1 )P(O 2 O 1 ) P(O t O t 1 )P(P 1 O 1 )... P(P t O t ) Louis Wehenkel IPS... (26/27)

La notion d indépendance conditionnelle (d ensembles) de v.a. est une notion fondamentale dans le domaine des processus aléatoires pour la construction de modèles à partir d hypothèses physiques pour la mise au point d algorithmes efficaces d inférence. Les réseaux bayesiens permettent de représenter graphiquement une factorisation d une distribution conjointe d un ensemble de variables aléatoires de déduire des relations d indépendances conditionnelles qui sont une conséquence de cette factorisation à partir de la structure du graphe (cf propriété de d-séparation) de construire des algorithmes d inférence probabiliste qui propagent de l information le long des arcs du réseau bayesien. Louis Wehenkel IPS... (27/27)