Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques

Transcription

1 Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Patrick Dallaire Université Laval Département d informatique et de génie logiciel 3 novembre 2011 Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

2 Introduction Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

3 Introduction Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

4 Introduction Apprentissage bayésien Principe de base En statistique bayésienne, nous devons 1 construire un modèle statistique liant les données aux paramètres 2 formuler l information connue a priori concernant les paramètres 3 combiner les sources d information via le théorème de Bayes 4 utiliser la distribution a posteriori pour l inférence des paramètres Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

5 Théorème de Bayes Introduction Apprentissage bayésien Le théorème de bayes : p(θ D) = p(d θ)p(θ) p(d θ)p(θ)dθ Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

6 Théorème de Bayes Introduction Apprentissage bayésien Le théorème de bayes : p(θ D) = p(d θ)p(θ) p(d θ)p(θ)dθ Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

7 Introduction Apprentissage bayésien Motivation de l approche bayésienne nonparamétrique La spécification d une distribution a priori détermine l espace d hypothèses, soit les paramètres à considérer. Le statisticien bayésien construit un prior sur l espace des fonctions de densités. L approche nonparamétrique consiste à construire des fonctions de densités aléatoires n ayant aucune restriction quant à leur expressivitées. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

8 Introduction Exemple - Régression linéaire Apprentissage bayésien Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

12 Introduction Apprentissage bayésien Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

13 Le processus de Dirichlet Définition Un processus de Dirichlet DP(α, H) est une distribution de probabilités sur l espace des mesures de probabilités discrètes. La distribution de base H vient déterminer l espérance du processus. Le paramètre α agit sur la variance du processus autour de H. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

14 Description du support Le processus de Dirichlet Le support du processus de Dirichlet est l espace des distributions se représentant par une somme infinie de point de masse : 0.3 G = π k δ θk k=1 0.2 G(θ) θ Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

15 Le processus de Dirichlet Construction stick-breaking Un échantillon G DP(α, H) peut être construit via un processus consistant à briser récursivement un bâton initialement unitaire. Le point de fracture est déterminé aléatoirement par une loi Beta : β k Beta(1, α) La longueur de la composante brisée se calcul de façon suivante : k 1 π k = β k (1 β j ) L emplacement d une masse dans l espace des paramètres est déterminé par : θ k H j=1 Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

16 Le processus de Dirichlet Illustration du processus stick-breaking Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

27 Le processus de Dirichlet Le processus du restaurant chinois Le processus du restaurant chinois est obtenu par l intégration d une vraisemblance multinomiale avec un processus de Dirichlet a priori La métaphore est la suivante : 1 Un premier client entre dans le restaurant et s assoit à la première table 2 Le choix du n ième client est déterminé par la popularité des tables : soit n k /(n 1 + α), la probabilitité de choisir la table k et α/(n 1 + α), la probabilitité de choisir une table libre 3 Notons que le restaurant contient un nombre infini de tables et que chaque table peut assoir une infinité de clients Ce processus stochastique exhibe un comportement de regroupement (rich-get-richer), assurant qu un nombre fini de tables auront une popularité appréciable Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

28 Le processus de Dirichlet Distribution sur les matrices binaires Une matrice binaire peut représenter les choix des clients où Z ik = 1 ssi le client i est associé à la table k, sinon Z ik = 0. Chaque rangée ne contient qu un seul élément non nulle. Les colonnes et les rangées de la matrice peuvent être permutées. La matrice dispose d un nombre infini de colonnes nulles et d un nombre fini de colonnes non nulles. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

29 Le processus de Dirichlet Illustration du processus du restaurant chinois 100 α = α = α = client table table table Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

30 Le processus de Dirichlet Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

31 Le processus Beta Définition Un processus Beta BP(α, H) est une distribution de probabilités sur l espace des mesures discrètes. La mesure de base H vient déterminer l espérance du processus. La masse γ = H(Θ) de la mesure est un 3 ième paramètres. Les paramètre α et γ agissent sur la variance autour de H. Ce processus fait partie de la famille des mesures complétement aléatoires. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

32 Description du support Le processus Beta Le support du processus Beta est l espace des mesures se représentant par une somme infinie de point de masse : G(θ) G = π k δ θk k= θ Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

33 Le processus Beta Construction stick-breaking Un échantillon G BP(α, H) peut être construit via la combinaison de plusieurs processus consistant à briser récursivement un bâton initialement unitaire. Le processus stick-breaking est définit de la façon suivante : G = C i i=1 j=1 β (i) ij C i Poisson(γ) β (t) ij Beta(1, α) θ ij 1 γ H i 1 (1 β (t) t=1 ij ) Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

34 Le processus Beta Le processus du buffet indien Le processus du buffet indien est obtenu par l intégration d un processus de Bernoulli avec un processus de Beta a priori. La métaphore est la suivante : 1 Un premier client entre dans le restaurant, se dirige vers le buffet infiniement long et choisit Poisson(γ) mets. 2 La sélection du n ième client est déterminé par la popularité des mets : soit n k /(n 1 + α), la probabilitité d inclure le mets k αγ et Poisson( ), le nombre de nouveaux mets choisit n 1+α Ce processus stochastique exhibe un comportement de regroupement (rich-get-richer), assurant qu un nombre fini de mets auront une popularité appréciable. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

35 Le processus Beta Distribution sur les matrices binaires Une matrice binaire peut représenter les choix des clients où Z ik = 1 ssi le client i est a selectionné le mets k, sinon Z ik = 0. Chaque rangée peuvent contennir plusieurs éléments non nulles. Les colonnes et les rangées de la matrice peuvent être permutées. La matrice dispose d un nombre infini de colonnes nulles et d un nombre fini de colonnes non nulles. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

36 Le processus Beta Illustration du processus du buffet indien 100 γ = γ = γ = client mets mets mets Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

37 Le processus Beta Résumé des relations DP/CRP et BP/IBP Le théorème de de Finetti P(θ 1,..., θ n ) = n G(θ i )dp(g) i=1 permet de démontrer l indépendance conditionnelle d une séquence d observations en fonction d une mesure cachée. La mesure cachée du CRP et le DP, et celle du IBP correspond au BP. Cette propriété assure l exchangeabilité des rangées des matrices binaires. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

38 Le processus Beta Résumé des relations DP/CRP et BP/IBP Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

39 Le processus Beta Résumé des relations DP/CRP et BP/IBP Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

40 Le processus Beta Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

41 Les réseaux bayésiens nonparamétriques Les réseaux bayésiens Un réseau bayésien (RB) permet de représenter graphiquement les indépendences conditionnelles d un ensemble de variables aléatoires La probabilité jointe se factorise d après la structure du graphe : d p(x 1,..., x d ) = p(x j pa G (x j )), j=1 Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

42 Les réseaux bayésiens nonparamétriques Apprentissage bayésien des réseaux bayésiens Le problème d apprentissage d un RB se caractérise par : 1 l indentification de la structure G du réseau 2 l estimation des paramètres des probabilités conditionnelles D un point de vue bayésien, ce problème se formule tel que : p(θ, G D) = p(d θ, G)p(θ G)p(G) p(d θ, G)p(θ G)p(G)dP(θ, G) La spécification de la distribution a priori p(θ, G) vient déterminer l espace des réseaux bayésiens sur lequel l inférence est réalisée. Comment pouvons-nous construire une distribution adéquate sur l espace des structures de graphes G? Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

43 Les réseaux bayésiens nonparamétriques Les réseaux bayésiens nonparamétriques Selon Ickstadt et al., un réseau bayésien nonparamétrique est un mélange infini de réseaux bayésiens de structures et paramètres distincts. Le modèle proposé utilise le processus de Dirichlet comme prior sur les distributions discrètes de mélange : p(x) = π k p(x θ k, G k ) k=1 où les π k suivent une distribution stick-breaking. Pour un traitement entièrement nonparamétrique, le choix de la distribution de base H doit être bayésien nonparamétrique. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

44 Les réseaux bayésiens nonparamétriques Distribution bayésienne nonparamétrique sur les structures Deux constructions bayésiennes nonparamétriques ont été proposées pour définir p(g) : Mansinghka et al. utilise le processus du restaurant chinois et assume que les variables sont toute observables. Adams et al. utilise le processus du buffet indien et admet des variables cachées. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

45 Les réseaux bayésiens nonparamétriques Construction de Mansinghka et al. Soit un ensemble de variables {x 1,..., x d }. Le regroupement des variables est distribué selon un CRP. Un ordre hiérarchique est introduit sur les K groupes. Seule les arêtes partant d une variable d un groupe supérieur et allant vers une variable d un groupe inférieur sont autorisées. La probabilité d une structure d exprime par : p(g) = d d i=1 j=1 η z ij o ci,o cj (1 η oci,o cj ) 1 z ij Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

46 Les réseaux bayésiens nonparamétriques Construction de Adams et al. Cette construction admet un nombre infini de variables aléatoires cachées et d variables observables. La distribution est définit par un nouveau processus stochastique, le processus du buffet indien en cascade (CIBP). La métaphore est la suivante : 1 Initialement, d clients entre dans le restaurant 1 et sélectionne leurs mets d après le IBP. 2 Les mets sélectionnés dans le restaurant i deviennent des clients qui entre dans le restaurant i + 1 pour choisir des mets selon un IBP. 3 Le processus se termine lorsqu aucun mets n est choisit dans un restaurant. La probabilité d une structure d exprime par : p(g) Λ(G) l=1 α K (l) K (l 1) i=1 κ l i K (l) exp{αh K (l 1)} k=1 (K (l 1) n l k )!(nl k 1)! K (l 1)! Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

47 Les réseaux bayésiens nonparamétriques Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

48 Proposition de recherche Sommaire Nous avons introduit les processus stochastiques de bases utilisés en bayésien nonparamétrique. Le support de la distribution induite par le CIBP n admet qu un sous-ensemble des structures de réseaux bayésiens. Actuellement, aucune distribution bayésienne nonparamétrique n est disponible pour les structures générales de graphes orientés acycliques. L objectif est d introduire une distribution équivalente sur les matrices triangulaires binaires infinies (MTBI). Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

49 Proposition de recherche Sommaire Nous avons introduit les processus stochastiques de bases utilisés en bayésien nonparamétrique. Le support de la distribution induite par le CIBP n admet qu un sous-ensemble des structures de réseaux bayésiens. Actuellement, aucune distribution bayésienne nonparamétrique n est disponible pour les structures générales de graphes orientés acycliques. L objectif est d introduire une distribution équivalente sur les matrices triangulaires binaires infinies (MTBI). Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

50 Proposition de recherche Représentation des graphes orientés acycliques Un graphe orienté acyclique (DAG) G = (V, E) se représente par une matrice d adjacence Z où : { 1 si (x i, x j ) E Z ij = 0 si (x i, x j ) / E Il n existe aucune arrête quittant un sommet d indice inférieur se dirigeant vers un sommet d indice superieur. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

51 Proposition de recherche Le DAG sous forme de matrice triangulaire binaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

52 Proposition de recherche Représentation du CIBP par matrice triangulaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

60 Proposition de recherche Représentation graphique de la MTBI Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

61 Proposition de recherche Déconstruction du CIBP La déconstruction du CIBP revient à déterminer le processus stick-breaking qui le sous-tend. Une telle construction doit nécessairement exister sachant que les IBP sous-jacent en possèdent. Cette construction sera probablement une combinaison de stick-breaking pour BP. Il sera intéressant d identifier les propriétés du graphes qu influence la mesure cachée (degrée entrant, degrée sortant, largeur du graphe, densité d arêtes, etc). Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

62 Proposition de recherche Reconstruction de la distribution La construction stick-breaking du CIBP doit être modifiée afin de rétablir le support de la distribution. Dériver une nouvelle métaphore analogue au CIBP où la mesure cachée est marginalisée. Développer un algorithme d inférence efficace. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

63 Proposition de recherche Évaluations expérimentales La principale application que nous visons concerne l apprentissage de modèles graphiques. Les ensembles de données à utiliser sont : les visages de Olivetti, les visages de Frey et les chiffres de MNIST. Une comparaison des performances sera faite avec le CIBP. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

64 Proposition de recherche Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

65 Plan de travail Conclusion Étudier le CIBP dans l optique de développer une distribution bayésienne nonparamétrique sur les MTBI : Trouver la construction stick-breaking du CIBP. Définir un algorithme d inférence par coupe pour CIBP. Construction d un nouveau processus stochastique : Modifier la construction stick-breaking du CIBP. Développer un processus entièrement nouveau : Dislocation d un IBP Stick-breaking sur les degrées sortants (exemple) Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66

66 Conclusion Conclusion Développer une distribution bayésienne nonparamétrique sur les MTBI. Rapprochement entre réseaux bayésiens et bayésien nonparamétrique. Les MTBI sont une structure générale et pourront être utilisées pour d autres applications. Stimulera la recherche concernant les distributions sur les matrices binaires infinies. Patrick Dallaire (Laboratoire DAMAS) 3 novembre / 66