Sur l apprentissage de Réseaux Bayésiens à partir de bases d exemples incomplètes et application à la classification



Documents pareils
Réseaux bayésiens : Apprentissage et diagnostic de systemes complexes

Introduction au Data-Mining

Introduction au Data-Mining

Modélisation du comportement habituel de la personne en smarthome

Chapitre 5 : Flot maximal dans un graphe

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

La classification automatique de données quantitatives

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

MCMC et approximations en champ moyen pour les modèles de Markov

Raisonnement probabiliste

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Laboratoire 4 Développement d un système intelligent

APPROCHE SEMI-MARKOVIENNE POUR LA MODÉLISATION DE STRATÉGIES DE MAINTENANCE : APPLICATION À LA PRÉVENTION DE RUPTURE DU RAIL

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Apprentissage Automatique

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

APPROCHE DE MODELISATION DE LA PROPAGATION DE L INCENDIE DANS UN EDIFICE ET SON INTEGRATION DANS UN SYSTEME DECISIONNEL

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Apprentissage statistique dans les graphes et les réseaux sociaux

CarrotAge, un logiciel pour la fouille de données agricoles

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Résolution d équations non linéaires

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Jean-Philippe Préaux

L apprentissage automatique

Introduction au datamining

Application de K-means à la définition du nombre de VM optimal dans un cloud

INF6304 Interfaces Intelligentes

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Chapitre 7. Récurrences

Méthodes de Simulation

Algorithmes d'apprentissage

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Annexe 6. Notions d ordonnancement.

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Ebauche Rapport finale

Calculs de probabilités

Théorèmes de Point Fixe et Applications 1

CHAPITRE 5. Stratégies Mixtes

Pourquoi l apprentissage?

Compression Compression par dictionnaires

Détection d utilisateurs malveillants dans les réseaux sociaux

Modèles et simulations informatiques des problèmes de coopération entre agents

Plus courts chemins, programmation dynamique

Arbres binaires de décision

Modélisation aléatoire en fiabilité des logiciels

5. Apprentissage pour le filtrage collaboratif

Analyse de grandes bases de données en santé

Probabilités conditionnelles

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Équations non linéaires

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.

Chp. 4. Minimisation d une fonction d une variable

Cours de Master Recherche

FaceBook aime les Maths!

Probabilités sur un univers fini

Big Data et Graphes : Quelques pistes de recherche

Méthodes d apprentissage statistique «Machine Learning»

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Resolution limit in community detection

Big Data et Graphes : Quelques pistes de recherche

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

de calibration Master 2: Calibration de modèles: présentation et simulation d

TABLE DES MATIERES. C Exercices complémentaires 42

Problème d ordonnancement de véhicules en variables booléennes

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Anonymisation de réseaux sociaux

NON-LINEARITE ET RESEAUX NEURONAUX

Intégration de la dimension sémantique dans les réseaux sociaux

Architecture des Systèmes d Information Architecture des Systèmes d Information

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Asynchronisme : Cadres continu et discret

Puissances d un nombre relatif

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Cours de méthodes de scoring

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Classification non supervisée

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Résumé des communications des Intervenants

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Chaînes de Markov au lycée

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

FIMA, 7 juillet 2005

Probabilités (méthodes et objectifs)

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Evaluation des modèles non-linéaires à effets mixtes

TRAITEMENT DES VALEURS MANQUANTES POUR L APPLICATION DE L ANALYSE LOGIQUE DES DONNEES À LA MAINTENANCE CONDITIONNELLE

Découverte et analyse de dépendances dans des réseaux d entreprise

Transcription:

Sur l apprentissage de Réseaux Bayésiens à partir de bases d exemples incomplètes et application à la classification et Philippe LERAY, Laboratoire LITIS, Rouen. Rencontres Inter-Associations La classification et ses applications AFIA - ARIA - EGC - INFORSID - SFC - SFDS - LMO - ASTI 21 Mars 2006

Plan 1 Introduction Données manquantes et entrées incomplètes Classification : le Réseau Bayésien Naïf 2 Espérence-Maximisation Structurelle La méthode AMS-EM Notre adaptation : MWST-EM 3 Le réseau Bayésien Naïf Augmenté par un Arbre Apprendre une Structure pour la Classification à partir de Données Incomplètes Résultats 4 Conclusions et Perspectives References15

Problématique Soit X un système complexe. X est représenté par de nombreux attributs {X i } 1 i n. Certains attributs sont observés systématiquement, d autres sont observés occasionnellement, état critique du système? mesure couteuse?... et de nombreux autres ne sont jamais observés, parce que leur influence/pertinence est faible? parce que l on ne pas connaissance de leur intérêt?... Par Exemple : Pour une base de 2000 exemples sur 20 attributs, 20% des mesures sont manquantes complètement au hasard = en moyenne seulement 23 cas complets (c-à-d %EI 99%)

Types de donéees manquantes Notations : D =< O, H >= ((d il )) n m R = ((r il )) n m, une matrice où r il = 1 si d il est manquant, 0 sinon. Θ, paramètres de la loi qui a généré D, µ, paramètres de la loi qui a généré R. Données manquantes? Rubin (1976) P(O, H, R Θ, µ) = P(O, H Θ) P(R O, H, µ) MCAR : P(R O, H, µ) = P(R µ) MAR : P(R O, H, µ) = P(R O, µ) NMAR : P(R O, H, µ), cas non ignorables.

Le réseau Naïf Supposons que la classe a une influence sur toutes les variables, mais indépendamment Classe [P(C=i)] i [P(A=a C=i)] a,i A B C D E F G Ce qu il est possible de faire : l apprentissage des paramètres avec DI (par ex. avec EM), l inférence avec des Données Incomplètes.

Le réseau Naïf Supposons que la classe a une influence sur toutes les variables, mais plus indépendamment Classe A B C D E F G Ce qu il est toujours possible de faire : l apprentissage des paramètres avec DI (par ex. avec EM), l inférence avec des Données Incomplètes. et si l on veut ajouter des dépendances automatiquement :? (peu de méthodes efficaces à partir de DI)

Donner un score à partir d une base incomplète Soit S(M D c ), score pour un modèle M et des données complètes D c. approximation de S pour M et la base incomplète D =< O, H > Q S (M D) = E H P(H O,µ) [ S(M O, H) ] Mais la loi P(H O, µ) est inconnue. Principe EM Supposons que le modèle M 0 a généré la base D alors Q S (M D) Q S (M : M 0 [ ] D) = E H P(H O,M 0 ) S(M O, H) Q S (M : M 0 D) = S(M O, H)P(H O, M 0 )) H Ou la loi a posteriori P(H O, M 0 ) est connue.

Structural-EM Choisir un modèle M 0 ( P(H M 0 )) Trouver un modèle M i+1 qui maximise un score Q S (M : M i D) Utiliser le nouveau modèle comme base pour l itération suivante jusqu à convergence. EM généralisé : augmente le score AMS-EM : le nouveau modèle est choisi parmis les voisins du graphe courant Friedman (1997)

MWST-EM AMS-EM : le nouveau modèle est choisi parmis les voisins du graphe courant Friedman (1997) nombreuses itérations MWST-EM : nous trouvons le meilleur modèle dans l espace des arbres Leray & François (2005) peu d itérations Pour cela, on utilise un algorithme de type Kruskal sur la matrice de score suivante : [ ] [ ] Mij Q = Q bic (X i, P i = {X j }, Θ Xi Xj : T, Θ ) Q bic (X i, P i =, Θ Xi : T, Θ ) i,j où Q BIC (G, Θ : G, Θ )= Q bic (X i, P i, Θ Xi Pi : G, Θ ) et i Q bic (X i, P i, Θ Xi Pi : G, Θ ) = Nijk logθ ijk log N 2 Dim(Θ Xi P i ) X i =x k P i =pa j avec N ijk = E G,Θ [ Nijk ] = N P(Xi = x k, P i = pa j G, Θ ).

TAN-EM Classe A B C D E F G Pour augmenter le réseau naïf par un arbre, la classe fait toujours partie de l ensemble des parents et la matrice de score devient (i, j = classe) : [ [ Mij Q ]i,j = Q bic (X i, P i = {C, X j }, Θ Xi Xj : T, Θ ) ] Q bic (X i, P i = {C}, Θ Xi : T, Θ )

Résultats N N app N test #C %EI Hepatitis 20 90 65 2 8.4 House 17 290 145 2 46.7 Horse 28 300 300 2 88.0 Thyroid 22 2800 972 2 29.9 Mushrooms 23 5416 2708 2 30.5 NB-EM MWST-EM TAN-EM AMS-EM AMS-EM+T Hepatitis 70.8% 73.8% 75.4% 66.1% 66.1% -1224 ; 29-1147 ; 90-1148 ; 88-1211.5 ; 1213-1207 ; 1478 House 89.7% 93.8% 92.4% 92.4% 93.8% -2203 ; 110-2518 ; 157-2022 ; 180-2524 ; 1732-2195 ; 3327 Horse 75% 77.9% 80.9% 66.2% 66.2% -5589 ; 227-5199 ; 656-5354 ; 582-5348 ; 31807-5318 ; 10054 Thyroid 95.3% 93.8% 96.2% 93.8% 93.8% -39348 ; 1305-38881 ; 3173-38350 ; 3471-38303 ; 17197-39749 ; 14482 Mushrooms 92.8% 74.7% 91.3% 74.9% 74.9% -97854 ; 2028-108011 ; 6228-87556 ; 5987-111484 ; 70494-110828 ; 59795

Conclusions La méthode TAN-EM permet d obtenir : de bonnes performances en classification, de bonnes vraissemblances des modèles obtenus, un excellent rapport performances/rapidité (car basée sur le réseau naïf et MWST-EM Leray & François (2005)). Néanmoins, cette méthode est limitée au tâches de classification, augmente le NB forcement par un arbre.

Perspectives Pour TAN-EM : adaptation à la classification non-supervisée, tests sur des données générées (MAR), tests en non-supervisé. Pour MWST-EM : passer de l espace des arbres à l espace des forets (= FAN-EM), l espace des équivalents de Markov (= GES-EM et BNAN-EM?), remplacer les principes de EM par d autres (Robust Bayesian Estimator...) = NMAR.

Merci pour votre attention. Questions? Remarques? Suggestions?

Friedman, N. (1997). Learning belief networks in the presence of missing values and hidden variables. In in the Proceedings of the 14th International Conference on Machine Learning, (pp. 125 133). Morgan Kaufmann. Leray, P. & François, O. (2005). Bayesian network structural learning and incomplete data. In in the proccedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR 2005), Espoo, Finland. Rubin, D. (1976). Inference and missing data. Biometrika, 63, 581 592.