Qualité d une classification

Transcription

1 Méthodes en classification automatique Qualité d une classification Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr Master ISI

2 Qualité d une partition Validation interne À partir du critère optimisé par la méthode de classification Validation externe À partir d informations externes, par exemple une partition. Master ISI 2 2

3 Validation interne Gain entre la partition en une classe et la partition en classes obtenue par la méthode de classification. La partition en une classe représente l hypothèse que l échantillon est homoène. La décomposition de cet échantillon en classes est inutile Master ISI 3 3

4 Critère d adéquation Critère d adéquation entre P(C,...,C ) et L(,..., ). ( P, L) s C i d 2 ( x s, ) p s C i ( x s ) 2 C P, R p Adéquation de la classe C avec le prototype U (Variabilité) Critère re d homod homoénéité de la classe C S ( C, U ) d 2 ( x, U ) s C U R Master ISI 4 s I ( C ) w( C, ) min d 2 ( x, U ) Critère re d homod homoénéité de la partition C I( P) p s C I( s C ) 4

5 5 Master ISI 5 Quand les prototypes sont les barycentres barycentres des classes et d est la distance euclidienne distance euclidienne, alors : C s C s C d C w ), ( ), ( 2 x est l inertie inertie de la classe C. TW+B avec E w C W E w T ), ( et ), ( B W T + avec ), ( E C w T ), ( C W w p T T T T Somme sur les classes Somme sur les variables Décomposition du critère d inertie

6 6 Master ISI 6 Décomposition du critère d inertie C i E i x T T 2 ) ( C i i x W W 2 ) ( T W W W2 B B B2 2 x x7 E n B B 2 ) (

7 7 Master ISI 7 Décomposition du critère d inertie C i E i x T T 2 ) ( C i i x W W 2 ) ( E n B B 2 ) ( B W T + Inertie totale Inertie intra classes Inertie inter classes Relations

8 Critères de qualité Partition Variable Classe Un indice de qualité est le ratio entre la valeur d homoénéité d une classe ou d une d variable et le critère re homoénéit ité associé à la partition rossière re P 0 E pour cette classe ou cette variable. Un indice de qualité peut être interprété comme un ain entre l hypothèse nulle «Absence de structure Partition en une classe»et la partition en classes. Master ISI 8 8

9 Qualité d une partition Pour la partition P 0 E l inertie est définie par : I ( E) w( E, ) d 2 ( x, ) E s E la qualité d une partition P est définie par: I( E) I( P) T W Q ( P) I( E) T Cela mesure la part de l information conservée en assimilant les obets de E aux prototypes des classes obtenues. s B T E homoénéit ité d une partition Master ISI 9 9

10 Perte d information Le critère Q(P) représente la perte d information en remplaçant le tableau des données Z par le tableau des centres de ravité. Réduction des lines d un tableau z z z Z [ z, L, z i, L, z N ] zi zi z zn zn z p p i p N G [,, ] p p p Master ISI 0 0

11 Qualité de la variable Pouvoir discriminant une partition P(C,...,C ) d une variable un système L(,..., ) de prototypes Cet indice représente la part de l homoénéité de la variable prise en compte par la partition P : Rèle : T W Q ( P) T Q (P) > Q(P) alors la variable est discriminante par rapport à la partition P B T Master ISI

12 Qualité de la classe une partition P(C,...,C ) un système L(,..., ) de prototypes Pour chaque classe la qualité est définie par : W Q ( C ) T Cette valeur mesure le ain de remplacer le prototype associé à E par le prototype de la classe C. Une valeur proche de caractérise une classe homoène et un prototype très différent du prototype lobal. B T Master ISI 2 2

13 Contribution de la variable La contribution de la variable est définie par le ratio entre le critère d homoénéité calculé sur cette variable et le critère d homoénéité défini sur l ensemble des variables. ( P) W W Cette valeur peut être comparé à la contribution, de cette variable sur la partition rossière P 0 : T T Master ISI 3 3

14 Contribution de la classe Cet indice mesure la contribution de la classe au critère d homoénéité de la partition P ( C / P) W W Cette valeur peut être comparé à la contribution, de cette classe sur la partition rossière P 0 : T T Master ISI 4 4

15 Validation externe Nous avons une partition a priori qui représente la classification cible. Elle est représentée par la fonction Y D X Π X Y G Un exemple est représenté par un couple (x,y) où x est sa description et y est l indice de sa classe a priori. Master ISI 5 5

16 Rèle de Bayes d erreur minimale x Y *( x) où est telquepr( / x) maxpr( h / x) Cette définition est peu opérationnelle, en effet, on connaît rarement la probabilité d'un classement sachant une description. Théorème de Bayes π L Pr[ Y ] ( x) Pr[ X x / Y Pr( / x) π L ( x) L( x) ] est la densité de la classe x Y *( x) où est telquepr( / x) max L ( x) π Master ISI 6 6

17 Les descriptions suivent une loi normale Le descripteur X des exemples est constitué de p descripteurs numériques et que sa distribution, conditionnellement aux classes, suit une loi normale multidimensionnelle centrée sur le vecteur µ et de matrice de variance-covariance Σ. La vraisemblance conditionnelle de X pour la classe s'écrit alors ( p ) (2 ) det exp( ( ) ( )) 2 t π Σ x µ Σ x L ( x) µ 2 Master ISI 7 7

18 Exemple Les variances et les probabilités a priori sont éales La taille moyenne des femmes est éale à, densité de deux lois normales de variances éales mu.67, sima 0. F mu.76, sima 0. H La taille moyenne des hommes est éale à,76 µ,67 et µ 2,76 densité -> x -> L (x) Master ISI 8 8

19 Rèle de Bayes Pr( / x) π L ( x) L( x) Cette rèle minimise le pourcentae de mauvais classement probabilité a posteriori.0 posteriori F posteriori H 0.8 densité -> x -> Réion de F Réion de H Master ISI 9 9

20 densité -> Construction d un tableau de confusion à partir d une fonction de décision densité de deux lois normales de variances éales D mu.67, sima 0. F mu.76, sima 0. H B A Qualité de la décision : (A+D)/(A+B+C+D) x -> Classes a priori H F C Classes d affectation R H R F A C B D Master ISI 20 20

21 Qualité d un score Chaque sortie du réseau est associée à une classe a priori. L obectif est d analyser les scores de cette sortie Les exemples sont les observations de la classe a priori associée à cette sortie Les contre-exemples sont les observations des autres classes Master ISI 2 2

22 Courbe ROC (/3) Receiver Operatin Characteristic curve Pour un score s nous avons quatre comptaes (A) Les Vrais Positifs sont les exemples ayant une valeur supérieure à s. (B) Les Faux Positifs sont les contre-exemples ayant une valeur supérieure à s. (C) Les Vrais Néatifs sont les exemples ayant une valeur inférieure à s. (D) Les Faux Néatifs sont les contre-exemples ayant une valeur inférieure à s. Master ISI 22 22

23 Courbe ROC (2/3) On se fixe la classe a priori G et F est l ensemble des autres classes a priori La sensibilité du score s est éale à P[S>s/G], la sensibilité est le pourcentae de Vrais Positifs La spécificité du score s est éale à P[S<s/F], la spécificité est le pourcentae de Faux Néatifs Master ISI 23 23

24 Courbe ROC Groupe à détecter : H Quand le score aumente.00 specificite(x) Prob -> sensibilite(x) la sensibilité diminue cela sinifie que le % d exemples dépassant cette valeur diminue Si s,6 on a 90% des exemples qui dépassent cette valeur et 40% des contre-exemples qui sont en dessous de cette valeur x -> La spécificité aumente cela sinifie que le % de contreexemples en dessous de cette valeur aumente Master ISI 24 24

25 Courbe ROC L (x) densité de deux lois normales de variances éales mu.67, sima 0. F mu.76, sima 0. H densité -> SensibilitéFN x -> SpécificitéFP Master ISI 25 25

26 Courbe ROC : interprétation La diaonale représente la courbe ROC d un échantillon d exemples et contreexemples complètement mélanés La courbe ROC de auche est celle de notre exemple (µ,67 et µ 2,76) La courbe ROC de droite est celle obtenue avec µ,57 et µ 2,86 Courbe ROC Courbe ROC.00 ROC.00 ROC sensibilite 0.50 sensibilite specificite -specificite La surface entre la diaonale et la courbe ROC est une mesure de séparabilité des exemples avec les contre-exemples. Master ISI 26 26

27 Autre critère d évaluation L'évaluation de la qualité des classes C i énérées par la méthode de classification est basée sur sa comparaison avec les classes a priori U n i est le nombre d exemples classées dans la classe a priori U et ayant été affectés à la classe C i obtenu par la méthode de classification. n. est le nombre d exemples mises dans la classe a priori U n.i est le nombre d exemples de la classe C i n est le nombre d exemples. Master ISI 27 27

28 F mesure La F-measure combine les mesures de précision et de rappel entre deux classes U i et C i. de deux partitions. La mesure de rappel est définie par R(i,)n i /n. C est le pourcentae d exemples de la classe a priori que l on retrouve dans la classe i obtenue par classification. La mesure de précision est définie par P(i,) n i /n.i C est le pourcentae d exemples de la classe i que l on retrouve dans la classe a priori. Master ISI 28 28

29 F F-mesure La F-measure proposée par (Van Risberen, 979) combine les mesures de précision et de rappel entre U et C i. La mesure de rappel est définie par R(i,)n i /n. La mesure de précision est définie par P(i,) n i /n.i La F-measure entre la partition a priori U en roupes et la partition P par la méthode de classification est : ( n. / n) max(2. R(, ). P(, ) ( R(, ) + P(, ))) F mesure pour la classe a priori : F( ) max(2. R(, ). P(, ) ( R(, ) + P(, ))) Master ISI 29 29

30 Résultats d une méthode de classement Run information Scheme: wea.classifiers.trees.j48 -C M 2 Relation: iris Instances: 50 Attributes: 5 sepallenth sepalwidth petallenth petalwidth class Test mode: split 66% train, remainder test Classifier model (full trainin set) J48 pruned tree petalwidth < 0.6: Iris-setosa (50.0) petalwidth > 0.6 petalwidth <.7 petallenth < 4.9: Iris-versicolor (48.0/.0) petallenth > 4.9 petalwidth <.5: Iris-virinica (3.0) petalwidth >.5: Iris-versicolor (3.0/.0) petalwidth >.7: Iris-virinica (46.0/.0) Number of Leaves : 5 Size of the tree : 9 Master ISI 30 30

31 Critères de qualité Evaluation on test split Summary Correctly Classified Instances % Incorrectly Classified Instances % appa statistic Mean absolute error Root mean squared error Relative absolute error % Root relative squared error % Total Number of Instances 5 Detailed Accuracy By Class TP Rate FP Rate Precision Recall F-Measure Class 0 Iris-setosa Iris-versicolor Iris-virinica Confusion Matrix a b c <-- classified as a Iris-setosa b Iris-versicolor c Iris-virinica En line les classes d affectation En colonne les classes a priori Master ISI 3 3

32 Critères de qualité Detailed Accuracy By Class TP Rate FP Rate Precision Recall F-Measure Class 0 Iris-setosa Iris-versicolor Iris-virinica TP rate : taux des «vrais positifs» 5/7 R V R NV FP rate : taux des «faux positifs» 0/34 V 5 2 Precision : 5/5 Rappel : «recall» 5/7 NV 0 34 F-Measure : 2**0.882/(+0.882) Master ISI 32 32