Méthodes de classification supervisées



Documents pareils
Nouveautés apportées à l assessment-tool

La rentabilité des investissements

Les solutions solides et les diagrammes d équilibre binaires. sssp1. sssp1 ssss1 ssss2 ssss3 sssp2

Financement des investissements Page 1 sur 6

Les stratégies de Backup dans WSS V3

CYBERLEARN COURS MOODLE. SUPPORT DE TRAVAIL Pour professeur-es et assistant-es d'enseignement

Résumé du module 6 : Coût et structure du capital

SYSTEME DE TELERADIAMETRIE H*(10)

CARACTERISTIQUES STATIQUES D'UN SYSTEME

Les circuits électriques en régime transitoire

Caractéristiques des signaux électriques

LE TABLEAU DE BORD REMONTEE DES COMPTES. Outils de gestion prévisionnelle, d'analyse financière et du contrôle de gestion. TABLE DES MATIERES

Arbres binaires de décision

Pour répondre au besoin de sécurité juridique et de prévisibilité, la Loi type devrait traiter des questions suivantes:

Texte Ruine d une compagnie d assurance

PHASE 1 : choix et définition du sujet du TM.

Je suis capable tout seul!

Manuel d'utilisation: Gestion commerciale - CRM

marché français du stockage (+12% en plupart ont des réticences en raison grandes villes d Europe, c est aussi la

Consultation : Soutien à la réalisation du plan de communication du Pôle PASS

- Le service aux tables. - Le service rapide & commande pour emporter. - Le service à l auto. - La livraison. o Voir le feuillet Livraison.

Terrain de jeu Analogie au sport professionnel

2. Quelle est la valeur de la prime de l option américaine correspondante? Utilisez pour cela la technique dite de remontée de l arbre.

LIVRE BLANC SEM. Google AdWords Le guide ultime du SEM pour votre Boutique en ligne

COMPTE RENDU DE LA COMMISSION COMMUNICATION

Charte de la gestion cookies groupe PVCP 25/09/2014

PROCESSUS DE CERTIFICATION DES MONITEURS JE NAGE INFORMATIONS POUR LES MAITRE ÉVALUATEURS

Guide d aide à la rédaction d un essai

Algorithmes d'apprentissage

Le mode de fonctionnement des régimes en annuités. Secrétariat général du Conseil d orientation des retraites

Amandine CUER INDUSTRIELS! GAGNEZ DU TEMPS DANS VOS ECHANGES AVEC VOS INFORMATIQUE - INTERNET - TELECOMMUNICATIONS LA LETTRE D INFORMATION - MAI 2011

GUIDE DES INDICES BOURSIERS

Utiliser les activités de cours de Moodle : le Questionnaire

Gestion des Prospects : Adresses à exporter

Charte de l Association Suisse de Portage des Bébés (ASPB)

Recueil d'exercices de logique séquentielle

NOTICE POUR L IMPORT DU FICHIER «IACA» DANS CORRELYCE

2. Trouvez la version du firmware que vous souhaitez télécharger dans la rubrique Boot From CD, correspondant à votre modèle de SSD.

Catalogue de formation bureautique

Service de mobilité interbancaire - Règlement

Les EMA (Empreintes de Machines à Affranchir)

Scénario 2 : La promesse

Bourse Étienne-Beauclair Banque Nationale

Service de mobilité interbancaire - Règlement

GUIDE INSTALLATION IAS

Cible de Sécurité - Blancco DataCleaner+ v4.8

a) Financement par des tiers : emprunts, crédits bancaires, leasing, crédit spontané (lors d un achat à crédit) ;

Filtrage optimal. par Mohamed NAJIM Professeur à l École nationale supérieure d électronique et de radioélectricité de Bordeaux (ENSERB)

Compte rendu Commission Communication du 7 juillet 2010 Brasserie Flo

FICHE DE POSTE Fonction : Chef de Division Contrôle des opérations Financières FONCTION : CHEF DE DIVISION CONTRÔLE DES OPÉRATIONS FINANCIÈRES

Finance 1 Université d Evry Val d Essonne. Séance 2. Philippe PRIAULET

Vente de Capacités de Stockage de gaz du 13 mai 2015

Sociétés Non Financières - taux endettement - % PIB, valeur nominale

Rappels théoriques. -TP- Modulations digitales ASK - FSK. Première partie 1 INTRODUCTION

Secteur Public Comment faire face aux réductions budgétaires?

Logiciel de gestion des inscriptions en CPGE

Note de cadrage de la version Apogée 4.10

Terminologie. Termes utilisés dans le Système d évaluation et le Guide de référence. Nouvelle terminologie

Kluwer ERP Dashboard - VERO.

Division des Statistiques du Commerce Extérieur

KDJHU HQHUJ\ manuel de l'xwlolvdteur tebis

Chapitre 2 L investissement. . Les principales caractéristiques de l investissement

POLITIQUE DE REMUNERATION

Le dispositif de qualification OPQIBI pour les audits énergétiques (réglementaires)

MATHEMATIQUES FINANCIERES

F 2 = - T p K F T = - T p K 0 - K 0

Chapitre 2 SIMILITUDE ET ADIMENSIONNEMENT 2.1. PROBLÈMATIQUE

L'avenir de l'internet : vers une nouvelle ère?

Titre II / Chapitre 1I : Faciliter l accès au soins de premier recours

La classification automatique de données quantitatives

LOGICIELS ET BASES DE DONNÉES PROTECTION ET VALORISATION

GUIDE DE L UTILISATEUR

SAP Financial Innovation Day 18 Mars 2014 Genève Amélioration du Planning financier : un processus simplifié pour une meilleure qualité de données

TB 352 TB 352. Entrée 1. Entrée 2

Colloque Rapport de l'atelier 1

n 1 LES GRANDS THÈMES DE L ITB > 2009 Les intérêts simples et les intérêts composés ( ) C T D ( en mois)

MIGRATION VERS L'OMNIPCX OFFICE R9.1

Utilisation de RAMSIS dans la conception automobile Lisa Denninger Apports et Limites des Mannequins Virtuels 18 Novembre 2014

Fiche programme Bureau Aquitaine Europe. Le programme Jeunesse en action Jeunesse

Exemples de résolutions d équations différentielles

Locallife Leader de l édition d annuaires locaux en ligne, Présent en France depuis octobre 2008

Club des Léopards de Rouen

(les caractères apparaissent en vidéo inversé : blanc sur fond

Formation Référencement / SEO e-commerce

Impact du vieillissement démographique sur l impôt prélevé sur les retraits des régimes privés de retraite

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

A toutes les Directrices et à tous les Directeurs des établissements scolaires de l enseignement secondaire et secondaire technique

Pour l étude d un logiciel documentaire : o Mener une réflexion technique sur les ressources d un logiciel documentaire : Caractériser le logiciel

Estimation des matrices de trafics

Développement d applications mobiles natives avec LongRange de LANSA

Chap I : Economie d'entreprises

Université Technique de Sofia, Filière Francophone d Informatique Notes de cours de Réseaux Informatiques, G. Naydenov Maitre de conférence, PhD

FOCUS : LES SYSTÈMES D INFORMATION

VA(1+r) = C 1. VA = C 1 v 1

Directory List & Print (Pro) by Infonautics GmbH, Switzerland

Dossier de Presse. 1 ier guide Interactif pour créateurs et entrepreneurs

Les activités HSF et P2IO

Communiqué de lancement : Sage 100 Scanfact Version V15.50

TRAVAUX PRATIQUES N 5 INSTALLATION ELECTRIQUE DE LA CAGE D'ESCALIER DU BATIMENT A

Copules et dépendances : application pratique à la détermination du besoin en fonds propres d un assureur non vie

Transcription:

Méhdes de classificain suervisées Les méhdes de segmenain u les arbres de décisin Yves Lechevallier INRIA-Rcquencur 78153 Le Chesnay Cedex E_mail : Yves.Lechevallier@inria.fr Yves Lechevallier Maser-ISI 1

Prcessus Daa Mining Phase A : Enreô de dnnées Enreô de dnnées Phase B : Exlrain Ensemble d arenissage Ensemble validain Ensemble de es Phase C Mdélisain Ensemble de règles Classifieurs Dnnées Oérainnelles Phase D: Chix du mdèle Phase E: Prédicin / Scring Scres Règles Yves Lechevallier Maser-ISI 2

Méhdes de classemen Discriminain Les méhdes de classemen n ur bje d idenifier la classe d aarenance d bjes définis ar leur descriin Un bje à classer es une enié aarenan à une ulain hérique Π cnsiuan l ensembles des bjes susceibles d avir à êre classés. Cee ulain es susée cnnue de façn exhausive. Yves Lechevallier Maser-ISI 3

Nains Π es muni d une ariin Π 1,,Π K. G{1,,K} Y la fncin de classemen D X esace de descriin suven R Un cule x,y ù x rerésene sa descriin e y l indice de sa classe d aarenance. Yves Lechevallier Maser-ISF 4

cule «descriin, classe» Π X Y D X G Un cule x,y ù x rerésene sa descriin e y l indice de sa classe d aarenance. Yves Lechevallier Maser-ISF 5

Objecif des méhdes de classemen Truver une rcédure de classemen Yˆ, die fncin de décisin, qui à ue descriin de D X furni l indice d une classe de Π. Π X Y D X G Y^ Cee rcédure devra êre aussi bnne que ssible e furnir le classemen des bjes de à arir de leur descriin. Yves Lechevallier Maser-ISF 6

Fncin de décisin Tue fncin de décisin indui sur une ariin en classes R 1,..., R,..., R K aelées régin d'affecain de Yˆ { x D / Yˆ x } R Yˆ 1 X Pur un descrieur X e une fncin de décisin n eu définir sur Π une ariin en K classes d'affecain. Yˆ Yves Lechevallier Maser-ISF 7

Fncin de décisin Yˆ Tus les bjes aarenan à une même classe d'affecain sn aribués de la même façn ar Yˆ 1 1 Yˆ ˆ 1 X X R Π D X X ^ Y Π Y G Πˆ,..., Πˆ,..., ˆ Π 1 K Π1,..., Π,..., Π K Yves Lechevallier Maser-ISF 8

Esace de descriin D X élémen de E valeur dans D X X X X j X Π X 1 D X Yves Lechevallier Maser-ISF 9

Classes a riri élémen de E valeur dans D X Π 1 X, Y X, Y X j X Π 2 Π X 1 D X Yves Lechevallier Maser-ISF 10

Fncin de décisin Yˆ élémen de E valeur dans D X X j Yˆ R X Yˆ ˆ 1 1 1 X X R Π Πˆ,..., Πˆ,..., Πˆ 1 K X 1 D X Yves Lechevallier Maser-ISF 11

Tableau de dnnées Tableau de dnnées mdèle «vecriel» Rerésenain dans R de ris Iris. Web Sie : h://www.ics.uci.edu/~mlearn/mlsummary.hml Yves Lechevallier Maser-ISF 12

Visualisain des iris On sélecinne deux variables: Sealwidh e Seallengh Les ris classes sn rerésenées ar 3 culeurs différenes Yves Lechevallier Maser-ISF 13

Erreur de classemen A chaque fncin de décisin n a une règle de décisin Si Yˆ x alrs x Πˆ La erfrmance glbale RYˆ de la fncin de décisin Yˆ es la myenne des rbabiliés d'erreur de cee fncin de décisin sur l'esace de descriin. Π I Πˆ 1 Pr Π I Πˆ. R Yˆ Pr[ Yˆ Y ] Pr h h * La règle d'affecain Yˆ es la règle de bayes d'erreur minimale si elle es vérifie : Y R Yˆ ˆ * R Yˆ Yves Lechevallier Maser-ISF 14

Arche Bayésienne Prbabiliés a riri des classes π Les lis de rbabilié L x du veceur x dans chaque classe a riri. Une fncin C de cû du classemen d un bje de la classe a riri P dans la classe d affecain P h cû Ch/ Une fncin de décisin Y*. Yves Lechevallier Maser-ISF 15

Règle de Bayes d erreur minimale x Y * x ù es elquepr / x maxpr h / x Cee définiin es eu érainnelle, en effe, n cnnaî raremen la rbabilié d'un classemen sachan une descriin. Thérème de Bayes π L Pr[ Y ] x Pr[ X x / Y Pr / x π L x L x ] es la densié de la classe x Y * x ù es elquepr / x max L x π Yves Lechevallier Maser-ISF 16

Les descriins suiven une li nrmale Le descrieur X des exemles es cnsiué de descrieurs numériques e que sa disribuin, cndiinnellemen aux classes, sui une li nrmale mulidimensinnelle cenrée sur le veceur μ e de marice de variance-cvariance Σ. La vraisemblance cndiinnelle de X ur la classe s'écri alrs L x 2 de 1 ex 1 2 1 π Σ x μ Σ x μ 2 Yves Lechevallier Maser-ISF 17

Exemle 1 L x Pr / x π L x L x 1.0 0.8 densié de deux lis nrmales de variances égales mu 1.67, sigma 0.1 F mu 1.76, sigma 0.1 H 1.0 rbabilié a seriri seriri F seriri H 0.8 densié -> 0.6 0.4 densié -> 0.6 0.4 0.2 0.2 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> Les variances e les rbabiliés a riri sn égales Yves Lechevallier Maser-ISF 18

Exemle 2 L x Pr / x π L x L x 1.0 densié de deux lis nrmales de variances # mu 1.67, sigma 0.07 F mu 1.76, sigma 0.1 H 1.0 rbabilié a seriri seriri F seriri H 0.8 0.8 densié -> 0.6 0.4 densié -> 0.6 0.4 0.2 0.2 0.0 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> x -> Les variances sn inégales égales Les rbabiliés a riri sn égales Yves Lechevallier Maser-ISF 19

Généralisain Caacié de bien affecer de nuvelles dnnées Mdèle simle Yves Lechevallier 20 Maser-ISF

Généralisain Mdèle un eu r flexible Cmlexié du mdèle : Cmmen adaer au mieux le mdèle aux dnnées sachan que l n ne ssède qu un échanilln? Yves Lechevallier Maser-ISF 21

Cmlexié du mdèle Analyse discriminane linéaire Percern Yves Lechevallier Maser-ISF 22

Cmmen amélirer cee sluin? X2 b a X1 Yves Lechevallier Maser-ISF 23

Les arbres de décisin Un arbre de décisin es un enchaînemen hiérarchique de règles lgiques u de rducin cnsruies de manière aumaique à arir de E. La cnsrucin de l arbre de décisin cnsise à uiliser les descrieurs, ur les subdiviser rgressivemen l ensemble E en sus-ensembles de lus en lus fins. Yves Lechevallier Maser-ISF 24

Exemle d arbre binaire Grge nn irriée Bien-rans 91 Malades 1 Teméraure < 37.5 Bien-rans 97 Malades 38 Grge irriée Bien-rans 100 Malades 100 Bien-rans 6 Malades 37 Teméraure > 37.5 Bien-rans 3 Malades 62 Malade "Malade" Règle1 Règle 2 "Bien-ran" Règle 3 Bien-ran Malade Règle 1 : [eméraure > 37.5] Règle 2 : [eméraure < 37.5] ET [grge irriée]: Règle 3 : eméraure < 37.5] ET NON[grge irriée] Yves Lechevallier Maser-ISF 25

Segmenain/arbres de décisin Décuage successif de E à l aide d une séquence de règles de rducin. Dans chaque sus-ensemble, une nuvelle évaluain es faie, celle-ci va ermere un nuveau décuage. Les ensembles erminaux sn aelés feuilles e les ensembles inermédiaires sn aelés nœuds. Yves Lechevallier Maser-ISF 26

Cnsrucin d'un arbre de décisin un mde d'écriure des quesins binaires, une règle d'éiqueage de chacun des segmens erminaux, un crière d'évaluain de la qualié d'une subdivisin ur déerminer la meilleure subdivisin d'un nœud inermédiaire, un crière d arrê ermean d'arrêer la cnsrucin de l'arbre e décider si un nœud es une feuille. Yves Lechevallier Maser-ISF 27

Définiin d'un arbre binaire Un arbre binaire es défini ar un rile T, g, d cnsiué d'un ensemble T nn vide d'eniers siifs e de deux fncins g e d définies sur T. Les fncins g e d resecen les deux rriéés caracérisiques : g 0 d 0 g > 0 d > 0 Aure que le lus ei enier de T, il exise ur chaque un élémen unique s de T el que g s d s Les élémens de T sn les nœuds de l'arbre e le lus ei élémen de T la racine de l'arbre. Yves Lechevallier Maser-ISF 28

Définiins si s g s d alrs le nœud es aelé ère de s. si si s g s d alrs s es aelé fils gauche du nœud alrs s es aelé fils dri de Si g 0 d 0 le nœud n'a as de fils alrs il es aelé nœud erminal. Dans le cas cnraire es aelé nœud nn erminal de T. On ne T ~ l'ensemble des segmens erminaux de T. A chaque segmen erminal n eu asscier une régin de D X Yves Lechevallier Maser-ISF 29

Sus-arbre Sus-arbre élagué 1 2 3 4 5 6 7 9 8 Sus-arbre quelcnque T es aelé sus-arbre de T si les ris élémens T, g' e d' définissen un arbre Un sus-arbre es di «élagué» s il ssède la racine e dans ce cas l ensemble des segmens erminaux frme une ariin de D X Yves Lechevallier Maser-ISF 30

Quesin binaire variable cninue [X > 3.5]? Q 0 Q 1 g Dans le cas d une variable cninue n évalue ues cuures ssibles c es-à-dire au maximum n-1 Pur une variable qualiaive rdnnée Y, n évalue ainsi au maximum m-1 biariins Dans le cas d'une variable qualiaive nn rdnnée, n se heure vie à un rblème de cmlexié, le nmbre de dichmies du dmaine d'bservain éan alrs égal à 2 m-1-1. d Variable qualiaive [ X { m,..., m }]? 1 h Yves Lechevallier Maser-ISF 31

Règle imale d'éiqueage d'un segmen erminal Une règle d'éiqueage d'un arbre T es une alicain définie sur l'ensemble T des segmens erminaux de l'arbre T dans G h G / h C / C Pr h / La erfrmance glbale es mesurée ar le risque asscié à sn uilisain C C Yˆ * Cˆ / h G Yˆ *.Pr ~ T À arir des fréquences emiriques C / h υ Cˆ Cˆ Yˆ Yˆ υ ~ T υ Yves Lechevallier Maser-ISF 32 n

Chix d'un crière d'évaluain Il y a K éiqueages ssibles ur. La myenne ndérée des risques assciés à ces différenes éiquees s'écri sus la frme. C G C / Pr / G h G C / hpr h / Pr / Cee quanié rerésene égalemen l'esérance mahémaique du risque encuru à affecer aléairemen les descriins de suivan la li Pr Y ˆ x / x Pr / Le gradien Δ du risque, indui ar une quesin Q au nœud Δ C g Pr g / C d Pr d / [ C ] Q, C Rechercher Δ C Q *, max Δ Q C Q, Yves Lechevallier Maser-ISF 33

Cas ù les cûs d'un mauvais classemen sn ideniques Si les cûs d'un mauvais classemen sn us ideniques alrs le risque asscié au segmen rend la frme de l'indice d'imureé de Gini uilisé dans CART i Pr / Pr h / G h G h La nin d'imureé a éé inrduie ar Breiman e al. [BRE84] e elle caracérise un cnce rès uile dans les méhdes de segmenain. Yves Lechevallier Maser-ISF 34

Imureé Pur mesurer la qualié d une cuure au nœud e le uvir discriminan de l arbre n va uiliser la nin d imureé qui caracérisera le degré de mélange du nœud. Un nœud es di ur si le segmen qui lui es asscié ne cnien que des descriins d'élémens d'une même classe. Inversemen un segmen es d'imureé maximum quand les K classes sn équirbables dans ce segmen. Yves Lechevallier Maser-ISF 35

i : imureé d un nœud n 1, n 2,, n n 1d, n 2d,, n d n 1g, n 2g,, n g d g Cuure du nœud L algrihme cnsise à maximiser de diminuin de l imureé [ ] d d g g i i i i Δ K K N n 1 1 /, / avec / n n g g e Yves Lechevallier 36 Maser-ISF

Prriéés de l imureé i Φ 1/, 2 /,..., K / êre une fncin symérique des / êre minimum si le nœud es ur 1/,,K/1,0,..,0 u 0,1,..,0 u 0,..,1 Êre maximum si le mélange es idenique à la disribuin de déar arfai 1/,,K/n 1 /n, n 2 /n,.., n K /n Êre une fncin cncave afin que la diminuin d imureé si ujurs siive u nulle La diminuin es nulle si quel que si n a : // g Yves Lechevallier Maser-ISF 37

Quelques définiins de l imureé Indice de diversié de Gini CART L enrie de Shannn ID3 K r K r K r K r s s r r s r i 1 2 2 1 1, 1 / / / / [ ] K r r r i i 1 / lg / Yves Lechevallier 38 Maser-ISF

Imureé de l arbre es l ensemble des nœuds erminaux, l imureé de l arbre T es: T ~ ~ ~ i I T I T T On a : i T I T I T I d g Δ Δ Minimiser l imureé à chaque cuure revien à minimiser l imureé ale de l arbre Yves Lechevallier 39 Maser-ISF

Règle de décisin Règle d affecain d un nœud Le nœud es affecé à la classe j si j/ es suérieur à us les / K j r r r j r 1; / / 1 / max 1 r es le aux aaren de mauvais classemen du nœud Taux aaren de mauvais classemen de l arbre T r T R ~ Yves Lechevallier 40 Maser-ISF

Crières d arrê de l arbre On arrêe le décuage du nœud si: es ur l imureé es au dessus d un seuil s variain de l imureé r faible nmbre d individus dans es r faible es resque ur On bien ainsi l arbre maximal Tmax Yves Lechevallier Maser-ISF 41

Validain de l arbre La crissance de l arbre erme de faire cnverger l esimaeur de / vers /x quand le nmbre de nœuds crî Au nœud / n n E il y une réducin du biais une augmenain de la variance / 1 / 1 n n n Var Cmrmis biais/variance Yves Lechevallier 42 Maser-ISF

Le cmrmis biais/variance la cmlexié du mdèle es elle suffisane ur réaliser une arximain crrece de la fncin de décisin Y*? L erreur d esimain réalisée sur l échanilln es un bn indicaeur de la erfrmance du mdèle sur les dnnées fuures? L esimain de Y* es elle rès déendane de l échanilln? Yves Lechevallier Maser-ISF 43

Recherche de l arbre imal Élagage de l arbre: L arbre maximal Tmax es cnsrui en minimisan l imureé. L arbre es r dévelé ur êre rbuse En élaguan rgressivemen l arbre maximal, n cnsrui une suie de sus-arbres qui sn us embîés avec l arbre maximal Yves Lechevallier Maser-ISF 44

Crière de réducin de la cmlexié ~ R T R T α T α α es un cefficien de énalié Pur α dnné, n chisi l arbre élagué T α imal en minimisan, sur l échanilln es u ar validain crisée, le risque myen R α T. Puis, armi ces arbres, le meilleur es reenu. Exise--il armi ces sus-arbres un arbre T qui minimise ce risque? Es-il ssible de cnsruire un algrihme d élagage efficace? Yves Lechevallier Maser-ISF 45

Avanages des arbres Avanages Méhde es nn aramérique e insensible aux valeurs exrêmes Elle erme de raier de variables de naures différenes Elle cmre une sélecin des variables Elle déermine des sus-ulains définies ar des règles facilemen inerréables. On eu isler cerains nœuds e définir des classes de risque Yves Lechevallier Maser-ISF 46

Incnvéniens des arbres Incnvéniens La méhde eu êre eu rbuse car elle sélecinne as à as les variables Elle es liée à la définiin de seuils dnc elle es sensible à de légères erurbains sur les dnnées La cnsrucin es assez délicae en ariculier au mmen de l élagage. Il es difficile de sélecinner l arbre imal Yves Lechevallier Maser-ISF 47