Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques

Documents pareils

PROBABILITES ET STATISTIQUE I&II

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Simulation de variables aléatoires

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Raisonnement probabiliste

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Arbres binaires de décision

Probabilités sur un univers fini

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

FORMULAIRE DE STATISTIQUES

FIMA, 7 juillet 2005

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Programmation linéaire

TABLE DES MATIERES. C Exercices complémentaires 42

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Plus courts chemins, programmation dynamique

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Théorie de l estimation et de la décision statistique

Introduction au datamining

Processus aléatoires avec application en finance

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Table des matières. I Mise à niveau 11. Préface

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 5 : Flot maximal dans un graphe

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Méthodes de Simulation

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Modélisation du comportement habituel de la personne en smarthome

Probabilités sur un univers fini

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Transmission d informations sur le réseau électrique

Chapitre 3. Les distributions à deux variables

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Travaux dirigés d introduction aux Probabilités

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Théorie et codage de l information

Introduction au Data-Mining

Fonctions de plusieurs variables

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Développement décimal d un réel

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Cours d initiation à la programmation en C++ Johann Cuenin

Modélisation et Simulation

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

1 Définition de la non stationnarité

Moments des variables aléatoires réelles

Peut-on imiter le hasard?

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Probabilités III Introduction à l évaluation d options

Couples de variables aléatoires discrètes

Programmes des classes préparatoires aux Grandes Ecoles

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Sujet 4: Programmation stochastique propriétés de fonction de recours

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Programmation linéaire

Suites numériques 3. 1 Convergence et limite d une suite

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

La classification automatique de données quantitatives

Qu est-ce qu une probabilité?

Résumé des communications des Intervenants

I. Polynômes de Tchebychev

Résolution de systèmes linéaires par des méthodes directes

Finance, Navier-Stokes, et la calibration

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Calcul différentiel sur R n Première partie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Eléments de Théorie des Graphes et Programmation Linéaire

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Définitions. Numéro à préciser. (Durée : )

Algorithmes d'apprentissage

Estimation et tests statistiques, TD 5. Solutions

Modèles et Méthodes de Réservation

Jean-Philippe Préaux

Limites finies en un point

Résolution d équations non linéaires

Intégration de la dimension sémantique dans les réseaux sociaux

Le modèle de Black et Scholes

Le modèle de régression linéaire

Correction du baccalauréat ES/L Métropole 20 juin 2014

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Pierre Thérond Année universitaire

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

4 Distributions particulières de probabilités

STATISTIQUES. UE Modélisation pour la biologie

Cours d Analyse. Fonctions de plusieurs variables

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Transcription:

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Patrick Dallaire Université Laval Département d informatique et de génie logiciel 3 novembre 2011 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 1 / 66

Introduction Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 2 / 66

Introduction Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 3 / 66

Introduction Apprentissage bayésien Principe de base En statistique bayésienne, nous devons 1 construire un modèle statistique liant les données aux paramètres 2 formuler l information connue a priori concernant les paramètres 3 combiner les sources d information via le théorème de Bayes 4 utiliser la distribution a posteriori pour l inférence des paramètres Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 4 / 66

Théorème de Bayes Introduction Apprentissage bayésien 0.5 0.4 0.3 0.2 0.1 0 5 4 3 2 1 0 1 2 3 4 5 Le théorème de bayes : p(θ D) = p(d θ)p(θ) p(d θ)p(θ)dθ Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 5 / 66

Théorème de Bayes Introduction Apprentissage bayésien 0.5 0.4 0.3 0.2 0.1 0 5 4 3 2 1 0 1 2 3 4 5 Le théorème de bayes : p(θ D) = p(d θ)p(θ) p(d θ)p(θ)dθ Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 6 / 66

Introduction Apprentissage bayésien Motivation de l approche bayésienne nonparamétrique La spécification d une distribution a priori détermine l espace d hypothèses, soit les paramètres à considérer. Le statisticien bayésien construit un prior sur l espace des fonctions de densités. L approche nonparamétrique consiste à construire des fonctions de densités aléatoires n ayant aucune restriction quant à leur expressivitées. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 7 / 66

Introduction Exemple - Régression linéaire Apprentissage bayésien 3 2 1 0 1 2 6 4 2 0 2 4 6 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 8 / 66

Introduction Exemple - Régression linéaire Apprentissage bayésien 3 2 1 0 1 2 6 4 2 0 2 4 6 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 9 / 66

Introduction Exemple - Régression linéaire Apprentissage bayésien 3 2 1 0 1 2 6 4 2 0 2 4 6 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 10 / 66

Introduction Exemple - Régression linéaire Apprentissage bayésien 3 2 1 0 1 2 6 4 2 0 2 4 6 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 11 / 66

Introduction Apprentissage bayésien Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 12 / 66

Le processus de Dirichlet Définition Un processus de Dirichlet DP(α, H) est une distribution de probabilités sur l espace des mesures de probabilités discrètes. La distribution de base H vient déterminer l espérance du processus. Le paramètre α agit sur la variance du processus autour de H. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 13 / 66

Description du support Le processus de Dirichlet Le support du processus de Dirichlet est l espace des distributions se représentant par une somme infinie de point de masse : 0.3 G = π k δ θk k=1 0.2 G(θ) 0.1 0 4 3 2 1 0 1 2 3 4 θ Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 14 / 66

Le processus de Dirichlet Construction stick-breaking Un échantillon G DP(α, H) peut être construit via un processus consistant à briser récursivement un bâton initialement unitaire. Le point de fracture est déterminé aléatoirement par une loi Beta : β k Beta(1, α) La longueur de la composante brisée se calcul de façon suivante : k 1 π k = β k (1 β j ) L emplacement d une masse dans l espace des paramètres est déterminé par : θ k H j=1 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 15 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 16 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 17 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 18 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 19 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 20 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 21 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 22 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 23 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 24 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 25 / 66

Le processus de Dirichlet Illustration du processus stick-breaking 0.1 0 0.1 0.5 0 0.2 0.4 0.6 0.8 1 0.4 0.3 0.2 0.1 0 4 3 2 1 0 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 26 / 66

Le processus de Dirichlet Le processus du restaurant chinois Le processus du restaurant chinois est obtenu par l intégration d une vraisemblance multinomiale avec un processus de Dirichlet a priori La métaphore est la suivante : 1 Un premier client entre dans le restaurant et s assoit à la première table 2 Le choix du n ième client est déterminé par la popularité des tables : soit n k /(n 1 + α), la probabilitité de choisir la table k et α/(n 1 + α), la probabilitité de choisir une table libre 3 Notons que le restaurant contient un nombre infini de tables et que chaque table peut assoir une infinité de clients Ce processus stochastique exhibe un comportement de regroupement (rich-get-richer), assurant qu un nombre fini de tables auront une popularité appréciable Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 27 / 66

Le processus de Dirichlet Distribution sur les matrices binaires Une matrice binaire peut représenter les choix des clients où Z ik = 1 ssi le client i est associé à la table k, sinon Z ik = 0. Chaque rangée ne contient qu un seul élément non nulle. Les colonnes et les rangées de la matrice peuvent être permutées. La matrice dispose d un nombre infini de colonnes nulles et d un nombre fini de colonnes non nulles. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 28 / 66

Le processus de Dirichlet Illustration du processus du restaurant chinois 100 α = 1 100 α = 5 100 α = 10 90 90 90 80 80 80 70 70 70 60 60 60 client 50 50 50 40 40 40 30 30 30 20 20 20 10 10 10 10 20 30 table 10 20 30 table 10 20 30 table Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 29 / 66

Le processus de Dirichlet Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 30 / 66

Le processus Beta Définition Un processus Beta BP(α, H) est une distribution de probabilités sur l espace des mesures discrètes. La mesure de base H vient déterminer l espérance du processus. La masse γ = H(Θ) de la mesure est un 3 ième paramètres. Les paramètre α et γ agissent sur la variance autour de H. Ce processus fait partie de la famille des mesures complétement aléatoires. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 31 / 66

Description du support Le processus Beta Le support du processus Beta est l espace des mesures se représentant par une somme infinie de point de masse : G(θ) 1 0.8 0.6 0.4 0.2 G = π k δ θk k=1 0 4 3 2 1 0 1 2 3 4 θ Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 32 / 66

Le processus Beta Construction stick-breaking Un échantillon G BP(α, H) peut être construit via la combinaison de plusieurs processus consistant à briser récursivement un bâton initialement unitaire. Le processus stick-breaking est définit de la façon suivante : G = C i i=1 j=1 β (i) ij C i Poisson(γ) β (t) ij Beta(1, α) θ ij 1 γ H i 1 (1 β (t) t=1 ij ) Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 33 / 66

Le processus Beta Le processus du buffet indien Le processus du buffet indien est obtenu par l intégration d un processus de Bernoulli avec un processus de Beta a priori. La métaphore est la suivante : 1 Un premier client entre dans le restaurant, se dirige vers le buffet infiniement long et choisit Poisson(γ) mets. 2 La sélection du n ième client est déterminé par la popularité des mets : soit n k /(n 1 + α), la probabilitité d inclure le mets k αγ et Poisson( ), le nombre de nouveaux mets choisit n 1+α Ce processus stochastique exhibe un comportement de regroupement (rich-get-richer), assurant qu un nombre fini de mets auront une popularité appréciable. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 34 / 66

Le processus Beta Distribution sur les matrices binaires Une matrice binaire peut représenter les choix des clients où Z ik = 1 ssi le client i est a selectionné le mets k, sinon Z ik = 0. Chaque rangée peuvent contennir plusieurs éléments non nulles. Les colonnes et les rangées de la matrice peuvent être permutées. La matrice dispose d un nombre infini de colonnes nulles et d un nombre fini de colonnes non nulles. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 35 / 66

Le processus Beta Illustration du processus du buffet indien 100 γ = 1 100 γ = 5 100 γ = 10 90 90 90 80 80 80 70 70 70 60 60 60 client 50 50 50 40 40 40 30 30 30 20 20 20 10 10 10 10 20 30 40 50 10 20 30 40 50 10 20 30 40 50 mets mets mets Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 36 / 66

Le processus Beta Résumé des relations DP/CRP et BP/IBP Le théorème de de Finetti P(θ 1,..., θ n ) = n G(θ i )dp(g) i=1 permet de démontrer l indépendance conditionnelle d une séquence d observations en fonction d une mesure cachée. La mesure cachée du CRP et le DP, et celle du IBP correspond au BP. Cette propriété assure l exchangeabilité des rangées des matrices binaires. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 37 / 66

Le processus Beta Résumé des relations DP/CRP et BP/IBP 1 0.5 0 5 10 15 20 25 30 35 40 45 50 50 45 40 35 30 25 20 15 10 5 5 10 15 20 25 30 35 40 45 50 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 38 / 66

Le processus Beta Résumé des relations DP/CRP et BP/IBP 1 0.5 0 5 10 15 20 25 30 35 40 45 50 50 45 40 35 30 25 20 15 10 5 5 10 15 20 25 30 35 40 45 50 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 39 / 66

Le processus Beta Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 40 / 66

Les réseaux bayésiens nonparamétriques Les réseaux bayésiens Un réseau bayésien (RB) permet de représenter graphiquement les indépendences conditionnelles d un ensemble de variables aléatoires. 1 5 2 4 3 La probabilité jointe se factorise d après la structure du graphe : d p(x 1,..., x d ) = p(x j pa G (x j )), j=1 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 41 / 66

Les réseaux bayésiens nonparamétriques Apprentissage bayésien des réseaux bayésiens Le problème d apprentissage d un RB se caractérise par : 1 l indentification de la structure G du réseau 2 l estimation des paramètres des probabilités conditionnelles D un point de vue bayésien, ce problème se formule tel que : p(θ, G D) = p(d θ, G)p(θ G)p(G) p(d θ, G)p(θ G)p(G)dP(θ, G) La spécification de la distribution a priori p(θ, G) vient déterminer l espace des réseaux bayésiens sur lequel l inférence est réalisée. Comment pouvons-nous construire une distribution adéquate sur l espace des structures de graphes G? Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 42 / 66

Les réseaux bayésiens nonparamétriques Les réseaux bayésiens nonparamétriques Selon Ickstadt et al., un réseau bayésien nonparamétrique est un mélange infini de réseaux bayésiens de structures et paramètres distincts. Le modèle proposé utilise le processus de Dirichlet comme prior sur les distributions discrètes de mélange : p(x) = π k p(x θ k, G k ) k=1 où les π k suivent une distribution stick-breaking. Pour un traitement entièrement nonparamétrique, le choix de la distribution de base H doit être bayésien nonparamétrique. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 43 / 66

Les réseaux bayésiens nonparamétriques Distribution bayésienne nonparamétrique sur les structures Deux constructions bayésiennes nonparamétriques ont été proposées pour définir p(g) : Mansinghka et al. utilise le processus du restaurant chinois et assume que les variables sont toute observables. Adams et al. utilise le processus du buffet indien et admet des variables cachées. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 44 / 66

Les réseaux bayésiens nonparamétriques Construction de Mansinghka et al. Soit un ensemble de variables {x 1,..., x d }. Le regroupement des variables est distribué selon un CRP. Un ordre hiérarchique est introduit sur les K groupes. Seule les arêtes partant d une variable d un groupe supérieur et allant vers une variable d un groupe inférieur sont autorisées. La probabilité d une structure d exprime par : p(g) = d d i=1 j=1 η z ij o ci,o cj (1 η oci,o cj ) 1 z ij Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 45 / 66

Les réseaux bayésiens nonparamétriques Construction de Adams et al. Cette construction admet un nombre infini de variables aléatoires cachées et d variables observables. La distribution est définit par un nouveau processus stochastique, le processus du buffet indien en cascade (CIBP). La métaphore est la suivante : 1 Initialement, d clients entre dans le restaurant 1 et sélectionne leurs mets d après le IBP. 2 Les mets sélectionnés dans le restaurant i deviennent des clients qui entre dans le restaurant i + 1 pour choisir des mets selon un IBP. 3 Le processus se termine lorsqu aucun mets n est choisit dans un restaurant. La probabilité d une structure d exprime par : p(g) Λ(G) l=1 α K (l) K (l 1) i=1 κ l i K (l) exp{αh K (l 1)} k=1 (K (l 1) n l k )!(nl k 1)! K (l 1)! Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 46 / 66

Les réseaux bayésiens nonparamétriques Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 47 / 66

Proposition de recherche Sommaire Nous avons introduit les processus stochastiques de bases utilisés en bayésien nonparamétrique. Le support de la distribution induite par le CIBP n admet qu un sous-ensemble des structures de réseaux bayésiens. Actuellement, aucune distribution bayésienne nonparamétrique n est disponible pour les structures générales de graphes orientés acycliques. L objectif est d introduire une distribution équivalente sur les matrices triangulaires binaires infinies (MTBI). Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 48 / 66

Proposition de recherche Sommaire Nous avons introduit les processus stochastiques de bases utilisés en bayésien nonparamétrique. Le support de la distribution induite par le CIBP n admet qu un sous-ensemble des structures de réseaux bayésiens. Actuellement, aucune distribution bayésienne nonparamétrique n est disponible pour les structures générales de graphes orientés acycliques. L objectif est d introduire une distribution équivalente sur les matrices triangulaires binaires infinies (MTBI). Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 49 / 66

Proposition de recherche Représentation des graphes orientés acycliques Un graphe orienté acyclique (DAG) G = (V, E) se représente par une matrice d adjacence Z où : { 1 si (x i, x j ) E Z ij = 0 si (x i, x j ) / E Il n existe aucune arrête quittant un sommet d indice inférieur se dirigeant vers un sommet d indice superieur. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 50 / 66

Proposition de recherche Le DAG sous forme de matrice triangulaire binaire 1 1 2 3 5 2 4 5 6 1 2 3 4 5 6 4 3 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 51 / 66

Proposition de recherche Représentation du CIBP par matrice triangulaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 52 / 66

Proposition de recherche Représentation du CIBP par matrice triangulaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 53 / 66

Proposition de recherche Représentation du CIBP par matrice triangulaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 54 / 66

Proposition de recherche Représentation du CIBP par matrice triangulaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 55 / 66

Proposition de recherche Représentation du CIBP par matrice triangulaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 56 / 66

Proposition de recherche Représentation du CIBP par matrice triangulaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 57 / 66

Proposition de recherche Représentation du CIBP par matrice triangulaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 58 / 66

Proposition de recherche Représentation du CIBP par matrice triangulaire Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 59 / 66

Proposition de recherche Représentation graphique de la MTBI 14 15 16 17 18 19 20 12 13 9 10 11 21 23 22 5 6 7 8 1 2 3 4 Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 60 / 66

Proposition de recherche Déconstruction du CIBP La déconstruction du CIBP revient à déterminer le processus stick-breaking qui le sous-tend. Une telle construction doit nécessairement exister sachant que les IBP sous-jacent en possèdent. Cette construction sera probablement une combinaison de stick-breaking pour BP. Il sera intéressant d identifier les propriétés du graphes qu influence la mesure cachée (degrée entrant, degrée sortant, largeur du graphe, densité d arêtes, etc). Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 61 / 66

Proposition de recherche Reconstruction de la distribution La construction stick-breaking du CIBP doit être modifiée afin de rétablir le support de la distribution. Dériver une nouvelle métaphore analogue au CIBP où la mesure cachée est marginalisée. Développer un algorithme d inférence efficace. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 62 / 66

Proposition de recherche Évaluations expérimentales La principale application que nous visons concerne l apprentissage de modèles graphiques. Les ensembles de données à utiliser sont : les visages de Olivetti, les visages de Frey et les chiffres de MNIST. Une comparaison des performances sera faite avec le CIBP. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 63 / 66

Proposition de recherche Plan de présention Introduction des principes d apprentissages bayésiens Les processus de Dirichlet et du restaurant chinois Les processus Beta et du buffet indien État de l art des réseaux bayésiens nonparamétriques Proposition d un processus stochastique sur les MTBI Plan de travail et conclusion Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 64 / 66

Plan de travail Conclusion Étudier le CIBP dans l optique de développer une distribution bayésienne nonparamétrique sur les MTBI : Trouver la construction stick-breaking du CIBP. Définir un algorithme d inférence par coupe pour CIBP. Construction d un nouveau processus stochastique : Modifier la construction stick-breaking du CIBP. Développer un processus entièrement nouveau : Dislocation d un IBP Stick-breaking sur les degrées sortants (exemple) Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 65 / 66

Conclusion Conclusion Développer une distribution bayésienne nonparamétrique sur les MTBI. Rapprochement entre réseaux bayésiens et bayésien nonparamétrique. Les MTBI sont une structure générale et pourront être utilisées pour d autres applications. Stimulera la recherche concernant les distributions sur les matrices binaires infinies. Patrick Dallaire (Laboratoire DAMAS) 3 novembre 2011 66 / 66