Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens



Documents pareils
Raisonnement probabiliste

QUESTIONNAIRE SUR LA SANTE RESPIRATOIRE ET ALLERGIQUE DES ECOLIERS ET LEUR ENVIRONNEMENT SCOLAIRE

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Probabilités conditionnelles

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Qu est-ce qu une probabilité?

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Introduction à l étude des Corps Finis

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Représentation des Nombres

Le dépistage du cancer de la prostate. une décision qui VOUS appartient!

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Leucémies de l enfant et de l adolescent

Factorisation Factoriser en utilisant un facteur commun Fiche méthode

V- Manipulations de nombres en binaire

Rappels sur les suites - Algorithme

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Les indices à surplus constant

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

PRIME D UNE OPTION D ACHAT OU DE VENTE

Introduction au datamining

Les fiches repères d INTEGRANS sont réalisées par ARIS Franche-Comté dans le cadre du programme INTEGRANS. Plus d infos sur

Modélisation du comportement habituel de la personne en smarthome

Modélisation et Simulation

Sommaire de la séquence 8

Des déficiences présentes

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Suites numériques 4. 1 Autres recettes pour calculer les limites

Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.

NOTIONS DE PROBABILITÉS

Le modèle de Black et Scholes

Réseaux bayésiens. 3 e édition Patrick Naïm, Pierre-Henri Wuillemin, Philippe Leray, Olivier Pourret, Anna Becker

LA RESPONSABILITÉ DU RADIOLOGUE Point de vue de l avocat

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

!-.!#- $'( 1&) &) (,' &*- %,!

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

T de Student Khi-deux Corrélation

Précision d un résultat et calculs d incertitudes

DÉFICITS IMMUNITAIRE COMMUN VARIABLE

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Exercices sur le chapitre «Probabilités»

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Texte Agrégation limitée par diffusion interne

EXEMPLE DE LETTRE DE PLAINTE

= constante et cette constante est a.

Sommaire. G. Pujolle, F. Ravat, C. Soulé-Dupuy, G. Zurfluh

Probabilités. Une urne contient 3 billes vertes et 5 billes rouges toutes indiscernables au toucher.

Notre système. Immunitaire

Maladie de Hodgkin ou lymphome de Hodgkin

Cours Base de données relationnelles. M. Boughanem, IUP STRI

CREG : versailles.fr/spip.php?article803

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #4-5

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Le don de moelle osseuse :

Définitions. Numéro à préciser. (Durée : )

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Chapitre 3. Les distributions à deux variables

Le parcours en greffe de cellules hématopoïétiques : greffe allogénique

De la mesure à l analyse des risques

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Introduction au Data-Mining

LES CIGARETTES LÉGÈRES SONT-ELLES MOINS NOCIVES?

TSTI 2D CH X : Exemples de lois à densité 1

Cours 1 : introduction

Conception des bases de données : Modèle Entité-Association

Fonctions de plusieurs variables

Information à un nouveau donneur de cellules souches du sang

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Propagation sur réseau statique et dynamique

Parasites externes du chat et du chien

Modélisation aléatoire en fiabilité des logiciels

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

SCONET Modifications apportées dans la version SCONET

Gestion des Clés Publiques (PKI)

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

Initiation à Excel. Frédéric Gava (MCF)

Probabilités Loi binomiale Exercices corrigés

Chapitre 5 : Flot maximal dans un graphe

Ce que les femmes enceintes doivent savoir au sujet de la grippe H1N1 (appelée grippe porcine auparavant)

Zazie : Être et avoir

Stelara (ustekinumab)

1 Introduction et installation

LES TYPES DE DONNÉES DU LANGAGE PASCAL

Trucs du métier. L arthrite psoriasique en l absence du psoriasis. clinicien@sta.ca. Avez-vous un truc? Son épidémiologie et son expression

Université Paris-Dauphine DUMI2E 1ère année, Applications

Transcription:

DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2011 Supplément théorique Inférence dans les réseaux bayésiens Rappel théorique Les processus aléatoires La plupart des processus qui nous entourent, que ce soit la température, le résultat d une rencontre sportive ou la valeur d une action en bourse, comportent un élément d incertitude. Pour modéliser de tels processus et leurs incertitudes, on utilise normalement les probabilités. Ainsi, un processus aléatoire (ou stochastique) peut être défini à l aide variables aléatoires caractérisant son état incertain. Par exemple, l activité faire un pic-nic peut être représentée à l aide d une variable aléatoire PicNic qui dépend de deux autres variables aléatoires Temperature et Transport décrivant l état de la température au moment de l activité et la disponibilité d un moyen de transport pour s y rendre. Alors qu une variable est normalement représentée par un scalaire (ex : une valeur réelle), une variable aléatoire peut être décrite comme une fonction, appelée distribution de probabilité, qui associe à chaque valeur possible de la variable la probabilité que la variable prenne cette valeur. Dans le cas d une variable aléatoire discrète, cette distribution peut être exprimée à l aide d une table. Par exemple, une variable X dont la valeur est restreinte à l ensemble {val 1, val 2,..., val n } : X P (X) val 1 P (X = val 1 ) val 2 P (X = val 2 )...... val n P (X = val n ) Les réseaux bayésiens Le problème d inférence et l indépendance conditionnelle Étant donné le modèle d un processus aléatoire composé d un ensemble de variables aléatoires X = {X 1, X 2,..., X n }, on est souvent intéressé à connaître la probabilité d une variable X 1

X dont la valeur est inconnue, sachant que l on connaît la valeur de certaines autres variables {Y 1, Y 2,..., Y m } X du modèle. Ce problème, connu sous le nom d inférence, peut se décrire comme la tâche de trouver la probabilité suivante : P (X Y 1, Y 2,..., Y m ). Afin de pouvoir répondre à n importe quelle de ces requêtes, on doit pouvoir représenter les dépendances entre toutes les variables du modèle. Cela est fait à l aide de la distribution conjointe 1 de probabilité : P (X 1, X 2,..., X n ). Dans le cas où les variables X i sont binaires, cette distribution peut être représentée comme une table ayant 2 n lignes, une pour chaque affectation différente de valeurs aux variables. Si le modèle comporte un grand nombre de variables, cette table peut devenir très volumineuse. Par exemple, si n = 30, la table aura plus d un milliard de lignes. Alors qu il peut être complexe de stocker cette table, le principal problème réside au niveau de l inférence. Comme nous le verrons dans ce document, le processus d inférence exige d agréger les termes de la distribution conjointe. Or, si cette distribution contient un nombre exponentiel de termes, il devient difficile, voire impossible, de répondre aux requêtes d inférence. Heureusement, cette difficulté peut généralement être réduite grâce au principe suivant : certaines variables du modèle peuvent être considérées comme indépendantes entre elles, étant donné la connaissance de certaines autres variables. Par exemple, dans un contexte de diagnostique médical, deux symptômes reliés comme la fièvre et le mal de gorge peuvent être considérés comme indépendants, si l on connaît la maladie responsable de ces symptômes (ex. : la grippe). De manière générique, on dit qu une variable X 1 est conditionnellement indépendante d une autre variable X 2 étant donné la valeur d une variable Y, ce qui s exprime comme suit : P (X 1, X 2 Y ) = P (X 1 Y )P (X 2 Y ). Si X 1 et X 2 sont des variables binaires, la distribution conjointe de ces variables qui contient quatre lignes se réduit ainsi à deux distributions contenant chacune une seule ligne. On peut faire un parallèle avec le concept de normalisation dans les bases de données, qui permet d obtenir une représentation plus compacte des données en mettant les colonnes indépendantes d une grosse table dans des tables séparées. Modélisation à l aide de réseaux bayésiens Les réseaux bayésiens constituent une façon d exprimer les relations de causalité entre les variables d un modèle. Dans ces réseaux, chaque variable est représentée par un sommet et il existe une arrête allant de X 1 à X 2 si X 1 influe directement sur X 2. On dénote Parents(X) l ensemble de variables ayant une influence directe sur une variable X. Étant donné un réseau bayésien, la distribution conjointe peut être simplifiée comme suit : P (X 1, X 2,..., X n ) = P (X 1 X 2,..., X n ) P (X 2,..., X n ) règle du produit = P (X 1 Parents(X 1 )) P (X 2,..., X n ) indépendance. 1 Le terme conjoint signifie qu on exprime la probabilité d observer plusieurs variables simultanément. 2

P(C).001 Cambriolage Tremblement DeTerre P(T).002 Alarme C T P(A C, T) v v.95 v f.94 f v.29 f f.001 A P(J A) v.90 f.05 JohnAppelle MarieAppelle A P(M A) v.70 f.01 FIG. 1 Exemple de réseau bayésien modélisant l appel potentiel de voisins, suite au déclenchement d une alarme possiblement causé par un cambriolage ou un tremblement de terre. Notation abbrégée : T = TremblementDeTerre, C = Cambriolage, A = Alarme, J = JohnAppelle, M = MarieAppelle. Exemple tiré du livre Artificial Intelligence : A Modern Approach de Rusell et Norvig. En répétant récursivement cette opération sur le dernier terme à droite, on obtient : P (X 1, X 2,..., X n ) = P (X 1 Parents(X 1 )) P (X 2 Parents(X 2 ))... P (X n Parents(X n )) n = P (X i Parents(X i )). i=1 Ainsi, la distribution conjointe s exprime comme le produit des distributions de chaque variable X i conditionnelle à la valeur de ses parents. Il est donc suffisant de conserver les distributions conditionnelles P (X i Parents(X i )). Encore une fois, dans le cas de variables discrètes, ces distributions sont sous la forme de tables. Un exemple de réseau bayésien est illustré à la Figure 1. Cet exemple modélise un processus aléatoire où des voisins appellent au bureau d une personne s ils entendent une alarme sonner dans l appartement de cette personne. Cette alarme peut être déclenchée, entre autres, par un tremblement de terre ou un cambriolage. La probabilité conditionnelle d une alarme est donnée par la table P (A C, T ). Ainsi, la probabilité que l alarme se déclenche s il y a un tremblement de terre mais pas un cambriolage est de : P (A = v C = f, T = v) = 0, 29. La probabilité que l alarme ne se déclenche pas, étant donné les mêmes observations, est simplement la probabilité restante soit : P (A = f C = f, T = v) = 1 P (A = v C = f, T = v) = 0, 71. Pour simplfier la notation, il est courant d écrire la valeur d une variable (qui est normalement représentée avec une lettre majuscule) à l aide d une lettre minuscule. Par exemple, si X est une 3

variable, x est la valeur de cette variable. Dans le cas de variables binaires, on peut utiliser la convention suivante : x correspond à X = v, et x à X = f. Ainsi, les probabilités précédentes peuvent s écrire comme : P (a c, f) = 0, 29 P ( a c, f) = 0, 71. Suivant l idée présentée plus haut, la distribution conjointe de ce modèle peut s exprimer comme : P (M, J, A, C, T ) = P (M A) P (J A) P (A C, T ) P (C) P (T ). On note enfin que cet exemple aurait pu être modélisé différemment. Par exemple, Marie pourrait appeler pour prendre des nouvelles en cas de tremblement de terre. De même John pourrait ne pas téléphoner, même si l alarme sonne, sachant que l alarme est déclenchée par un tremblement de terre et non pas un cambriolage. Ces dépendances pourraient être modélisées à l aide d une arête allant directement de TremblementDeTerre aux variables MarieAppelle et JohnAppelle. Inférence dans les réseaux bayésien Revenons au problème d inférence et définissons une procédure générique pour répondre à des requêtes à partir d un réseau bayésien. Rappelons qu une requête peut être formulée comme la tâche de trouver la probabilité d une variable X étant donné l observation de variables {Y 1,..., Y m } : P (X Y 1,..., Y m ). Pour répondre à cette requête, il faut la ramener dans un format standard : la distribution conjointe sur l ensemble des variables. Pour ce faire, on commence par utiliser la règle du produit pour ramener les Y i avec la variable X : P (X Y 1,..., Y m ) = P (X, Y 1,..., Y m ) P ( Y 1,..., Y m ). La probabilité P ( Y 1,..., Y m ) est une constante de normalisation que l on peut remplacer par α pour simplifier l écriture : P (X Y 1,..., Y m ) = αp (X, Y 1,..., Y m ). La plupart du temps, le modèle renferme d autres variables qui sont ni la variable de requête X ni l une des variables observées Y i. Notons Z 1, Z 2,..., Z r ces variables. Pour avoir la distribution conjointe, il faut faire apparaître ces variables dans la distribution de probabilité. Cela est fait à l aide de la règle de marginalisation : P (X Y 1,..., Y m ) = α... P (X, Y 1,..., Y m, Z 1,..., Z r ). Z 2 Z 2 Z r La somme Z signifie que l on calcule le terme à droite pour toutes les valeurs possibles de Z et que l on additionne ces valeurs. 4

On remarque que le terme à la droite de la somme correspond bien à la distribution conjointe, et qu on peut maintenant calculer la probabilité de la requête : il suffit d aller chercher les valeurs dans la distribution conjointe (ex. : une table dont les valeurs sont connues) et les additionner. Or, comme nous l avons vu, cette distribution est souvent modélisée à l aide d un réseau bayésien. L étape suivante consiste alors à la remplacer par le produit des distributions conditionnelles : P (X Y 1,..., Y m ) = α Z 2... Z 2 Z r n P (X i Parents(X i )). i=1 Il reste cependant un problème : la valeur de la constante α n est pas connue. Pour obtenir cette valeur, on utilise le principe que la somme d une distribution de X sur l ensemble des valeurs de X doit donner 1. Notons le terme à la droite de α comme f(x). Nous avons alors : P (X Y 1,..., Y m ) = α f(x) = 1, X X ce qui donne α = 1 X f(x). Un exemple À titre d exemple, considérons le modèle de la Figure 1 et calculons la probabilité qu il y ait un tremblement de terre, étant donné que John appelle, mais pas Marie. Il s agît donc de trouver la probabilité : P (t j, m). On commence par ramener tous les termes du même côté : P (t j, m) = αp (t, j, m). Ensuite, il faut ajouter les variables manquantes Cambriolage et Alarme à l aide de deux sommes imbriquées : P (t j, m) = α P (t, j, m, C, A) C A = α [P (t, j, m, c, a) + P (t, j, m, c, a) + P (t, j, m, c, a) + P (t, j, m, c, a)]. 5

On utilise ensuite le réseau bayésien pour calculer les valeurs de la distribution conjointe : P (t, j, m, c, a) = P (j a) P ( m a) P (a c, t) P (c) P (t), = 0, 90 0, 30 0, 95 0, 001 0, 002 = 0, 000000513. P (t, j, m, c, a) = P (j a) P ( m a) P (a c, t) P ( c) P (t) = 0, 90 0, 30 0, 29 0, 999 0, 002 = 0, 000156443. P (t, j, m, c, a) = P (j a) P ( m a) P ( a c, t) P (c) P (t) = 0, 05 0, 99 0, 05 0, 001 0, 002 = 0, 00000000495. P (t, j, m, c, a) = P (j a) P ( m a) P ( a c, t) P ( c) P (t) = 0, 05 0, 99 0, 71 0, 999 0, 002 = 0, 0000702197. En remplaçant ces valeurs dans l expression précédente, on obtient : P (t j, m) = α [0, 000000513 + 0, 000156443 + 0, 00000000495 + 0, 0000702197] = α 0, 0002271807. Pour se débarrasser de α, il faut répéter la même opération sur P ( t j, m) : P ( t j, m) = α [P ( t, j, m, c, a) + P ( t, j, m, c, a) +P ( t, j, m, c, a) + P ( t, j, m, c, a)], 6

où P ( t, j, m, c, a) = P (j a) P ( m a) P (a c, t) P (c) P ( t), = 0, 90 0, 30 0, 94 0, 001 0, 998 = 0, 0002532924. P ( t, j, m, c, a) = P (j a) P ( m a) P (a c, t) P ( c) P ( t) = 0, 90 0, 30 0, 001 0, 999 0, 998 = 0, 00026919054. P ( t, j, m, c, a) = P (j a) P ( m a) P ( a c, t) P (c) P ( t) = 0, 05 0, 99 0, 06 0, 001 0, 998 = 0, 00000296406. P ( t, j, m, c, a) = P (j a) P ( m a) P ( a c, t) P ( c) P ( t) = 0, 05 0, 99 0, 999 0, 999 0, 998 = 0, 04930224740. En insérant ces valeurs dans la formule précédente, on a : P ( t j, m) = α [0, 0002532924 + 0, 00026919054 + 0, 00000296406 + 0, 04930224740] = α 0, 0498276944. Nous savons que P (t j, m) + P ( t j, m) = 1, donc : α(0, 0002271807 + 0, 0498276944) = 1 α 19, 978. On peut maintenant donner la réponse à notre requête : P (t j, m) = 19, 978 0, 0002271807 0, 005. P ( t j, m) = 19, 978 0, 0498276944 0, 995. On remarque que, comme prévu, 0, 005 + 0, 995 = 1. 7

Exercices Question 1 Considérez le scénario suivant : Votre compagnie vous met en charge de développer un système de détection de cancer du poumon. Alors que le mécanisme exact de cette maladie n est pas entièrement compris, on sait qu elle est influencée par plusieurs facteurs, dont le sexe, l âge et le fait qu un patient soit fumeur ou non. Par ailleurs, on sait que la cigarette est plus populaire pour certains groupes d âge que pour d autres. La maladie est également plus fréquente chez les patients dont ce type de cancer à déjà été diagnostiqué chez un parent direct, ou les patients ayant déjà souffert du cancer. Par ailleurs, le cancer du poumon possède plusieurs symptômes dont la toux, la perte de poids et la fatigue. Sauf pour la perte de poids, les symptômes de la maladie sont similaires à une infection respiratoire, causée par un virus ou une allergie. Pour diagnostiquer la maladie, deux méthodes peuvent être employées : on peut chercher des lésions ou des masses sur des radiographies, ou mesurer le taux de globules blancs et rouges dans le sang. Cependant, ces deux tests ne sont pas totalement fiables. Ainsi, il arrive ne pas pouvoir détecter un cancer à partir d une radiographie, surtout lors des phases initiales de la maladie. De même, une anomalie au niveau du sang peut également être causée par une maladie affectant le système immunitaire. Proposez un réseau bayésien modélisant ce processus. Le modèle devrait permettre de diagnostiquer la maladie même si certaines informations sur le patient ne sont pas connues. Question 2 En vous basant sur le modèle de la Figure 1, trouver les probabilités des requêtes suivantes : 1. La probabilité que l alarme se déclenche sans que Marie ou John n appelle ; 2. La probabilité qu un tremblement de terre et qu un cambriolage surviennent en même temps ; 3. La probabilité que Marie appelle si un cambriolage est en cours et que l alarme sonne ; 4. La probabilité que l alarme ne sonne pas s il n y a ni tremblement de terre, ni cambriolage ; 5. La probabilité que John appelle mais que Marie n appelle pas, si un cambriolage est en cours. 8