Modèles markoviens et extensions pour la classification de données complexes

Documents pareils
MCMC et approximations en champ moyen pour les modèles de Markov

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modélisation aléatoire en fiabilité des logiciels

Apprentissage Automatique

MATHS FINANCIERES. Projet OMEGA

Analyse en Composantes Principales

Projet de Traitement du Signal Segmentation d images SAR

Simulation de variables aléatoires

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Pourquoi l apprentissage?

4 Exemples de problèmes MapReduce incrémentaux

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Cours d Analyse. Fonctions de plusieurs variables

Classification non supervisée

Tests semi-paramétriques d indépendance

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Processus aléatoires avec application en finance

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Introduction au Data-Mining

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Probabilités III Introduction à l évaluation d options

Calcul intégral élémentaire en plusieurs variables

Produits de crédit en portefeuille

Chapitre 2 Le problème de l unicité des solutions

Raisonnement probabiliste

TD1 Signaux, énergie et puissance, signaux aléatoires

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Plus courts chemins, programmation dynamique

1 Complément sur la projection du nuage des individus

Une introduction aux codes correcteurs quantiques

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Méthodes de Simulation

L apprentissage automatique

Module 7: Chaînes de Markov à temps continu

CarrotAge, un logiciel pour la fouille de données agricoles

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Fonctions de plusieurs variables. Sébastien Tordeux

Cours d analyse numérique SMI-S4

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Intégration de la dimension sémantique dans les réseaux sociaux

Exclusion Mutuelle. Arnaud Labourel Courriel : arnaud.labourel@lif.univ-mrs.fr. Université de Provence. 9 février 2011

Optimisation for Cloud Computing and Big Data

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La classification automatique de données quantitatives

Programmation linéaire

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Markov processes and applications to queueing/risk/storage theory and mathematical biology

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

Dynamique des protéines, simulation moléculaire et physique statistique

Eléments de Théorie des Graphes et Programmation Linéaire

Économetrie non paramétrique I. Estimation d une densité

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Cours de méthodes de scoring

Moments des variables aléatoires réelles

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Chapitre 3. Algorithmes stochastiques. 3.1 Introduction

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

4. Martingales à temps discret

VARIABLES LATENTES ET MODÉLISATION STATISTIQUE EN ASSURANCE

Calcul Stochastique pour la finance. Romuald ELIE

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Algorithmes d'apprentissage

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Structures algébriques

Principe de symétrisation pour la construction d un test adaptatif

Théorie de l estimation et de la décision statistique

Optimisation des fonctions de plusieurs variables

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Modèles et Méthodes de Réservation

Modélisation multi-agents - Agents réactifs

Chapitre 0 Introduction à la cinématique

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Travaux dirigés d introduction aux Probabilités

Équations d amorçage d intégrales premières formelles

FORMULAIRE DE STATISTIQUES

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Cryptographie et fonctions à sens unique

NON-LINEARITE ET RESEAUX NEURONAUX

SAV ET RÉPARATION. Savoir-faire.

Feuille d exercices 2 : Espaces probabilisés

Modélisation du comportement habituel de la personne en smarthome

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Outils logiciels pour la combinaison de vérification fonctionnelle et d évaluation de performances au sein de CADP

4.2 Unités d enseignement du M1

RO04/TI07 - Optimisation non-linéaire

PROCESSUS PONCTUELS MARKOVIENS

Arbres binaires de décision

Transcription:

Modèles markoviens et extensions pour la classification de données complexes THÈSE présentée par Juliette BLANCHET réalisée sous la direction de Cordelia Schmid et Florence Forbes Mercredi 10 octobre 2007 1 / 41

1 Problématique : classification de données structurées 2 Classification d individus soumis à un bruit complexe 3 Classification d individus à partir d observations incomplètes 4 Conclusion et perspectives 2 / 41

1 Problématique : classification de données structurées 2 Classification d individus soumis à un bruit complexe 3 Classification d individus à partir d observations incomplètes 4 Conclusion et perspectives 3 / 41

Problématique : classification Objectif : Faire des groupes d individus à partir d observations. Hypothèse : Dépendances particulières entre les individus, définies à l aide d un graphe d interactions fixé et connu. Noeuds = individus/sites Arêtes = dépendance directe voisins Exemple : segmentation d image Classification supervisée : observations étiquetées (base d apprentissage) Classification non supervisée 4 / 41

Approche probabiliste I les individus, K les classes (ex. : vélo/fond), G un graphe observations x = {x i IR D, i I} classification z = {z i K, i I} Classification probabiliste optimale : Maximum a posteriori (MAP) : z map = argmax P(z x) z }{{} loi a posteriori Maximum des probabilités marginales (MPM) : pour tout i I, z mpm i = argmax P(z i x) z i Quel modèle pour tenir compte du graphe? 5 / 41

Modèle de champ de Markov caché P(x,z) = P(x z) }{{} P(z) }{{} modèle de bruit loi a priori Définition : On dit que (X,Z) est un champ de Markov caché à bruit indépendant si : Hypothèse de bruit indépendant : P(x z) = i I P(x i z i ) En général P(. Z i = k) N(µ k,σ k ) Z est un champ de Markov graphe P(z) i I P(z i ) 6 / 41

Loi a priori markovienne Définition : Z est un champ de Markov si z, i, P(z i z I\i ) = P(z i z Ni ) Z suit une distribution de Gibbs : P G (z) = W 1 exp( V c (z c )) c C clique c C = ensemble de sites tous voisins les uns des autres 7 / 41

Loi a priori markovienne Définition : Z est un champ de Markov si z, i, P(z i z I\i ) = P(z i z Ni ) Z suit une distribution de Gibbs : P G (z) = W 1 exp( V ij (z i, z j )) i j en se restreignant aux potentiels sur les cliques d ordre 2 7 / 41

Loi a priori markovienne Définition : Z est un champ de Markov si z, i, P(z i z I\i ) = P(z i z Ni ) Z suit une distribution de Gibbs : P G (z) = W 1 exp( V (z i, z j )) i j en supposant les potentiels homogènes et isotropes. Paramètre = matrice symétrique V = (V (k, k )) k,k K V (k, k ) coefficient de compatibilité entre les classes k et k 7 / 41

Loi a priori markovienne Définition : Z est un champ de Markov si z, i, P(z i z I\i ) = P(z i z Ni ) Z suit une distribution de Gibbs : P G (z) = W 1 exp( V (z i, z j )) i j en supposant les potentiels homogènes et isotropes. Paramètre = matrice symétrique V = (V (k, k )) k,k K V (k, k ) coefficient de compatibilité entre les classes k et k W ne peut pas être calculé. Des approximations sont nécessaires. 7 / 41

Illustration graphique Considérons 3 individus i, s et t tels que : s i t Modèles graphiques associés : Z s Z i Z t Z s Z i Z t X s X i X t champ de Markov caché à bruit indépendant X s X i X t mélange indépendant Il existe divers algorithmes d estimation (ICE, gradient stochastique, EM-champ moyen...) et de classification (recuit simulé, ICM...). 8 / 41

Contributions On s intéresse à la classification d individus structurés à partir d observations dites «complexes» : Classification d individus à partir d observations de grande dimension > Modèle parcimonieux de [Bouv07] dans un cadre markovien Classification d individus soumis à un bruit complexe > Famille de modèles de Markov triplet Classification d individus à partir d observations incomplètes > Cadre markovien, sans complétion préalable des données 9 / 41

1 Problématique : classification de données structurées 2 Classification d individus soumis à un bruit complexe 3 Classification d individus à partir d observations incomplètes 4 Conclusion et perspectives 10 / 41

Limites des hypothèses classiques Le modèle de champ de Markov caché à bruit indépendant suppose : (A) Z est un champ de Markov (B) Le bruit est indépendant : P(x z) = i I P(x i z i ) On va chercher à relâcher l hypothèse de bruit indépendant (B). Remarque : En pratique dans les algorithmes, l hypothèse (A) n est pas nécessaire puisque seule est utilisée la markovianité de Z X = x (et non directement celle de Z). 11 / 41

Relâcher les hypothèses classiques Zs Xs Zs Zi Xi Zi Xs Xi Zt Xt Zt Xt (X,Z) est un champ de Markov caché à bruit indépendant (A) Z est markovien (B) P(x z) = i I P(x i z i ) (X,Z) est un champ de Markov couple si sa distribution est markovienne : P G (x,z) exp( c C V c (x c,z c )) Zs Zi Zt Ys Yi Yt Xs Xi Xt Ajout d un champ auxilliaire Y = (Y i ) i I discret, Y i L (X,Y,Z) est un champ de Markov triplet si sa distribution est markovienne : P G (x,y,z) exp( c C V c (x c,y c,z c )) 12 / 41

Intérêt du modèle triplet En notant U = (Y,Z), U i = (Y i, Z i ) L K, P G (x,u) exp( c C V c (x c,u c )) (X,U) est un champ de Markov couple On est ramené au cadre connu des champs de Markov couples par l ajout d un champ auxiliaire modélisant des bruits complexes. On passe d un problème à K classes associées à des bruits complexes à un problème à LK classes associées à des bruits plus simples. Le champ auxilliaire Y peut être interprété de diverses façons : stationnarités (image) sous-classes (textures)... 13 / 41

Cas particulier P G (x,y,z) exp( V c (y c,z c )) P(x i y i, z i ) c C i I }{{} P G (y,z) }{{} P(x y,z) (X, U) est un champ de Markov caché à bruit indépendant. Zs Zi Zt Ys Yi Yt Xs Xi Xt Avantage : plus général que P(x y,z) = P(x i z i ) de [Benb05,07] Inconvénient : nécessite le cadre supervisé i I 14 / 41

Notre modèle de Markov triplet P G (x,y,z) exp( B ziz j (y i, y j ) + C(z i, z j )) f(x i θ yiz i ) i j i I }{{}}{{} P G (y,z) P(x y,z) Paramètres : les θ lk associés aux LK classes les K 2 matrices B kk de taille L L la matrice C de taille K K C(k, k ) compatibilité entre les classes k et k B kk (l, l ) compat. entre les sous-classes l et l des classes k et k. 15 / 41

Caractéristiques de notre modèle P G (x,y,z) exp( B ziz j (y i, y j ) + C(z i, z j )) f(x i θ yiz i ) i j i I }{{} P G (y,z) }{{} P(x y,z) 1 Avec U = (Y,Z), le couple (X,U) est un champ de Markov caché à bruit indépendant à LK classes 2 Y Z = z est un champ de Markov : P G (y z) = 1 W(z) exp( B ziz j (y i, y j )) i j 3 Conditionnellement à Z = z, le couple (X,Y) est un champ de Markov caché à bruit indépendant adapté au cadre supervisé 16 / 41

Schéma de la classification supervisée Modèle de Markov triplet initial Zs Zi Zt Ys Yi Yt Xs Xi Xt Phase d apprentissage sur le modèle de champ de Markov caché à bruit indépendant (X,Y Z = z) : estimation des θ lk et B kk. Phase de test sur le modèle de champ de Markov caché à bruit indépendant (X,U) : estimation de la matrice C avec les ˆθ lk et ˆB kk appris, puis classification. Y s z Xs Us Xs Y i z Xi Ui Xi Y t z Xt Ut Xt 17 / 41

Application : reconnaissance de textures Base d apprentissage : 7 textures, 10 7 = 70 images uni-texture Brique Moquette Tissu Sol 1 Sol 2 Marbre Bois Base de test : 70 images uni-texture et 63 images multi-textures. Les images sont prises dans des conditions naturelles : grandes variations de luminosité, différentes échelles, différents angles de vue. Niveaux de gris inefficaces. Descripteurs d image, très classiques en vision par ordinateur. 18 / 41

Descripteurs d image L extraction des descripteurs d image s effectue en deux étapes : 1 Détection des points d intérêt et calcul des échelles associées : identifie les zones ayant des caractéristiques particulières Ex : Laplace : régions les plus saillantes 2 Calcul des descripteurs sur les zones détectées Ex : SIFT découpe les zones en 4 4 zones puis calcule le gradient de l intensité dans les 8 directions dimension D = 4 4 8 = 128 19 / 41

Choix du réseau d interaction Les points d intérêt sont irrégulièrement espacés. Quel graphe? Il n existe pas d outils pour le choix du meilleur graphe. Graphe de Delaunay 20 / 41

Les modèles considérés Mélange indépendant : P(x,z) = i I π zi f(x i θ zi ) Champ de Markov caché : P(x,z) exp(c 1 zi=z j ) f(x i θ zi )) i j i I Mélange de mélange indépendant : P(x,y,z) = i I λ yiz i π zi f(x i θ yiz i ) Champ de Markov triplet : P G (x,y,z) exp( i j [B ziz j (y i, y j ) + c] 1 zi=z j ) i I f(x i θ yiz i ) où f est gaussienne de matrice de covariance diagonale ou paramétrée pour la grande dimension [Bouv07] 21 / 41

Taux de classification correcte Modèle Brique Moqu. Tissu Sol 1 Sol 2 Marbre Bois Mélange diagonal Mélange grande dimension Markov caché diagonal Markov caché grande dimension Mél. de mél. diagonal Mél. de mél. grande dimension Markov triplet diagonal Markov triplet grande dimension 34.1 27.6 43.7 27.4 33.8 26.3 29.8 42.1 35.1 52.1 29.4 46.4 28.4 31.1 36.0 30.0 43.8 31.1 39.6 29.1 32.5 42.5 35.6 52.6 33.1 48.3 29.8 34.9 77.6 31.6 58.3 28.3 58.8 33.9 58.6 81.2 57.0 62.5 35.6 67.4 37.1 65.0 96.6 80.7 83.6 82.7 83.9 46.1 95.2 99.3 98.6 99.3 97.4 99.6 56.2 99.3 22 / 41

Illustration Brique Moqu. Tissu Sol 1 Sol 2 Marbre Bois Taux Vraie classif. Markov caché grande dimension 37.9% Mél. de mél. diagonal 41.5% Mél. de mél. grande dimension Markov triplet diagonal Markov triplet grande dimension 43.4% 79.9% 94.3% 23 / 41

1 Problématique : classification de données structurées 2 Classification d individus soumis à un bruit complexe 3 Classification d individus à partir d observations incomplètes 4 Conclusion et perspectives 24 / 41

Données incomplètes Certaines observations sont manquantes : elles n ont pas pu être observées. Ex : sondé ne répondant pas à une question elles sont incohérentes. Ex : spectres de Mars Express (Labo. de Planétologie de Grenoble) 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0.01 0 1 2 3 4 5 6 Objectif : classer les individus à partir d observations incomplètes et du graphe d interaction. 25 / 41

Traitement heuristique Se ramener à des observations complètes... suppression des vecteurs d observations incomplets imputation : remplacer les observations manquantes par une valeur raisonnable (zéro, moyenne, k-plus proches voisins...)... puis classer les individus à partir des observations complétées. Ne tient compte ni de l incertitude sur les valeurs imputées, ni du graphe, ni de l objectif de classification. Modifie les relations entre les observations (sous-estime la variabilité). Approche probabiliste ne nécessitant pas le remplacement préalable des valeurs manquantes 26 / 41

Modélisation du problème I les individus, K les classes, G un graphe observations x = {x i IR D, i I} classification z = {z i K, i I} absence m = {m i {1,, D}, i I} + x = (x o,x m ) x o = {x oi i } xm = {x mi i } Ce qu on connait : x o, m, G Ce qui est manquant : x m, z 27 / 41

Modélisation probabiliste Nécessite de définir la loi jointe : P(x,z,m ψ; ρ) = P(m x,z, ρ) P(x,z ψ) où ρ paramètres de P(m x,z) ψ paramètres de P(x,z) Classification optimale : Maximum a posteriori (MAP) : z map = argmax P(z x o, ψ) z Maximum des probabilités marginales (MPM) : pour tout i I, z mpm i Nécessite la connaissance de ψ... = argmax z i P(z i x o, ψ) 28 / 41

Hypothèse MAR On se place sous l hypothèse MAR (Missing At Random) : le processus d absence ne dépend que des données observées P(m x,z) = P(m x o ) Intérêt : factorisation de la vraisemblance P(x o,m ψ, ρ) = P(m x o, ρ) P(x o ψ) Chercher ˆψ maximisant la vraisemblance P(x o,m ψ, ρ) revient à chercher ˆψ maximisant la vraisemblance P(x o ψ), indépendamment du mécanisme d absence. 29 / 41

Estimation Modèle pour (X, Z) : champ de Markov caché à bruit indépendant P(x,z ψ) = P G (z φ) i I f(x i θ zi ) On cherche ψ maximisant la vraisemblance des observations : ˆψ = argmax ψ log P(x o ψ) 30 / 41

Estimation Modèle pour (X, Z) : champ de Markov caché à bruit indépendant P(x,z ψ) = P G (z φ) i I f(x i θ zi ) On cherche ψ maximisant la vraisemblance complétée : ˆψ = argmax ψ logp(x o,x m,z ψ) 30 / 41

Estimation Modèle pour (X, Z) : champ de Markov caché à bruit indépendant P(x,z ψ) = P G (z φ) i I f(x i θ zi ) On cherche ψ maximisant la vraisemblance complétée : ˆψ = argmax ψ logp(x o,x m,z ψ) }{{} E(log P(x o,x m,z ψ) x o ) 30 / 41

Estimation Modèle pour (X, Z) : champ de Markov caché à bruit indépendant P(x,z ψ) = P G (z φ) i I f(x i θ zi ) On cherche ψ maximisant la vraisemblance complétée : ˆψ = argmax ψ logp(x o,x m,z ψ) }{{} E(log P(x o,x m,z ψ) x o ) Algorithme itératif EM pour observations incomplètes : ψ (q+1) = argmax E(log P(x o,x m,z ψ) x o, ψ (q) ) ψ Problème : Incalculable lorsque Z markovien Mais : facile lorsque Z indépendant [Litt86] se ramener à une distribution factorisée [Cel03] sur observations complètes 30 / 41

EM de type champ moyen Approximation par une distribution factorisée : P G (z) i I Q i (z i ) 31 / 41

EM de type champ moyen Approximation en champ moyen : P G (z) i I P(z i µ Ni ) 31 / 41

EM de type champ moyen Approximation de type champ moyen : z = champ constant P G (z) i I P(z i z Ni ) 31 / 41

EM de type champ moyen Approximation de type champ moyen : z = champ constant P G (z) i I P(z i z Ni ) Algorithme itératif EM-champ moyen pour observations incomplètes : 1 Fixer une configuration z à partir de x o et ψ (q) 2 Appliquer EM sur le modèle factorisé pour mettre à jour les paramètres ψ (q+1). En particulier, z peut être simulé selon P(Z x o, ψ (q) ) (échantillonneur de Gibbs) : algorithme en champ simulé (SF). 31 / 41

L étape (EM) (E) Calcul des probabilités a posteriori t (q) ik = P(Z i = k z Ni, x oi i, ψ(q) ) : π (q) t (q) ik f(xoi i θ(q) k ik = ) si o i π (q) ik f(x oi i θ(q) k ) k K si o i = où π (q) ik = P(Z i = k z Ni, φ (q) ) (M) Mise à jour des paramètres φ de P G (z φ) et θ = (θ k ) k K des densités f(. θ k ) : φ (q+1) = argmax t (q) ik log π ik (1) φ θ (q+1) i I k K k = argmax θ k i I π (q) ik t (q) ik E(log f(xoi i, Xmi i θ k ) x oi i, θ(q) k ) (2) L équation (1) est identique au cas complet (descente de gradient) L équation (2) est identique au cas du mélange indépendant [Litt86] 32 / 41

Cas gaussien - moyenne On s intéresse au cas où f(. θ k ) est gaussienne, avec θ k = (µ k, Σ k ). f(x oi i θ k) f(x mi i x oi i, θ k) où η ik et Γ ik = N(x oi i µoi k, Σoioi = N(x mi i η ik, Γ ik ) = µ mi k = Σ mimi k + Σ mioi k k ) Σ mioi k (Σ oioi k (Σ oioi k ) 1 (x oi i µ oi ) 1 Σ oimi k Mise à jour de la composante d 1, D de la moyenne µ k : µ d k = t i ik lik d { x i t avec lik d = d i si d o i ik ηik d sinon k ) consiste à remplacer les valeurs manquantes x mi i conditionnellement aux observations x oi i. par leur moyenne η ik 33 / 41

Cas gaussien - covariance On s intéresse au cas où f(. θ k ) est gaussienne, avec θ k = (µ k, Σ k ). f(x oi i θ k) f(x mi i x oi i, θ k) où η ik et Γ ik = N(x oi i µoi k, Σoioi = N(x mi i η ik, Γ ik ) = µ mi k = Σ mimi k + Σ mioi k k ) Σ mioi k (Σ oioi k (Σ oioi k ) 1 (x oi i µ oi ) 1 Σ oimi k Mise à jour de la composante d, d 1, D de covariance Σ k : k ) Σ dd k = (S dd ik ) = i t ik S dd ik i t ik avec (x d i µd k )(xd i µ d k ) k ) k ) (x d i µd k )(ηd ik µd (ηik d µd k )(xd i µ d (ηik d µd k )(ηd ik µd k ) + Γdd ik si d o i et d o i si d o i et d m i si d m i et d o i si d m i et d m i n est pas équivalent à remplacer les valeurs manquantes x mi i moyenne η ik conditionnellement aux observations x oi i. par leur 34 / 41

Application : sur images synthétiques Bruit gaussien non diagonal, D = 4 % erreur 70 60 50 40 30 20 EMmiss ZERO+SF MEAN+SF KNN+SF UMEAN+SF CMEAN+SF SFmiss Absence aléatoire 10 (MAR) 0 0 10 20 30 40 50 60 70 80 90 % absence 0% 30% 60% 80% 90% e = 0.61% e = 0.77% e = 1.12% e = 3.08% e = 4.94% 35 / 41

Application : sur images synthétiques 70 60 50 EMmiss ZERO+SF MEAN+SF KNN+SF UMEAN+SF CMEAN+SF SFmiss Bruit gaussien non diagonal, en dimension D = 4 Absence par censure % erreur 40 30 20 10 (NMAR) 0 0 10 20 30 40 50 60 70 80 90 % absence 0% 30% 50% 60% 70% e = 0.61% e = 2.24% e = 5.56% e = 11.47% e = 32.45% 36 / 41

Application : classification de gènes On souhaite classer des gènes de Saccharomyces cerevisiae (levure) régulés lors de la division cellulaire. Les données [Spel98] : 612 gènes observés toutes les 10 minutes durant 160 minutes Observations = scores de biopuces, D = 17 37 / 41

Application : classification de gènes On souhaite classer des gènes de Saccharomyces cerevisiae (levure) régulés lors de la division cellulaire. Les données [Spel98] : 612 gènes observés toutes les 10 minutes durant 160 minutes Observations = scores de biopuces, D = 17 5% d observations manquantes, > 80% des gènes affectés Réseau d interactions entre protéines http://string.embl.de 3530 arêtes (11.5 voisins par gène) 41 gènes non connectés 37 / 41

Classification de gènes de la levure : résultats Groupes plus homogènes avec notre algorithme (SFmiss) 38 / 41

Classification de gènes de la levure : résultats Groupes plus homogènes avec notre algorithme (SFmiss) Groupe mieux les gènes de fonctions biologiques similaires (GO) n o p-valeur p-valeur p-valeur de classe pour SFmiss pour EMmiss pour KNN+SF k=4 GO :0006732, coenzyme met. process 1.1 10 2 > 0.1 > 0.1 k=5 GO :0005819, spindle 4.6 10 9 6.7 10 7 2.0 10 6 GO :0006790, sulf. met. process 1.1 10 4 2.4 10 4 8.7 10 4 GO :0000278, mitotic cell cycle 2.2 10 3 7.7 10 3 > 0.1 GO :0030472, mit. spin. org. & biogen. in nucleus 5.2 10 3 8.8 10 3 2.0 10 2 k=6 GO :0006974, resp. to DNA dam. stim. 1.8 10 3 3.0 10 3 8.0 10 3 GO :0000724, dbl-str. bk rep. via hom. comb. 1.9 10 2 2.7 10 2 4.6 10 2 GO :0000030, mannosyltransf. act. 1.1 10 2 1.2 10 2 2.7 10 2 k=9 GO :0042555, MCM cplx 3.4 10 4 8.3 10 4 4.0 10 4 GO :0008026, ATP-dep. helicase act. 5.5 10 4 1.3 10 3 4.5 10 4 GO :0006268, DNA unwind. replic. 2.8 10 3 6.7 10 3 1.1 10 3 GO :0042623, ATPase act. coupl. 4.4 10 3 1.5 10 2 4.3 10 2 38 / 41

Classification de gènes de la levure : résultats Groupes plus homogènes avec notre algorithme (SFmiss) Groupe mieux les gènes de fonctions biologiques similaires (GO) Etude de stabilité : 30 25 20 15 10 EMmiss 5 KNN+SF PREV+SF SFmiss 0 0 5 10 15 20 25 38 / 41

1 Problématique : classification de données structurées 2 Classification d individus soumis à un bruit complexe 3 Classification d individus à partir d observations incomplètes 4 Conclusion et perspectives 39 / 41

Conclusion Modèles et méthodes pour la classification d individus structurés à partir d observations complexes : Famille de champs de Markov triplets pour la classification d individus soumis à des bruits complexes. > Application à la reconnaissance d images de textures. Cadre markovien pour la classification d observations incomplètes. > Application à la classification de gènes de la levure. Logiciel SpaCEM 3 (Spatial Clustering with EM and Markov Models) en C++, disponible à l adresse : http://mistis.inrialpes.fr/software/spacem3.html. 40 / 41

Perspectives A court terme, dans les applications : Introduction de poids w, fixés, connus, pour pondérer l importance relative des arêtes (distance, confiance...) V ij (z i, z j ) = w ij V (z i, z j ) Reconstruire les observations manquantes en les estimant par la moyenne conditionnelle, après classification : 2 (ẑ i, ˆx mi i ) = argmax z i,x m i i P(z i, x mi i x oi i ) { ẑi = argmax zi P(z i x oi i ) ˆx mi i = argmax m x i f(x mi i i x oi i, ẑ i) = η iẑi erreur relative moyenne 1.8 1.6 1.4 1.2 1 0.8 0.6 ZERO MEAN KNN SFmiss A plus long terme : Graphe non fixé? Incomplet? Modèle de Markov triplet en situation non supervisée? 0.4 10 20 30 40 50 60 70 80 90 % absence 41 / 41