SETIT 007 4 th Internationa Conference: Sciences of Eectronic, Technoogies of Information and Teecommunications March 5-9, 007 TUNISIA Appication des SVMs basés sur agorithme SMO pour a détection d anomaies cardiaques Z.Zidema.Amirou *, A.Amirou *, M.Djeddi * & N.Djouaher * * Laboratoire LAMPA Département d Eectronique, Facuté de Génie Eectrique et d Informatique Université Mououd Mammeri Tizi-Ouzou, Agérie E-maî: zz_amirou004@yahoo.fr Résumé: Les SVM constituent un nouveau type d agorithmes d apprentissage, originaement introduits par Vadimir Vapnik [VAP95]. Is sont basés sur un agorithme d apprentissage ayant comme fonction de décision un hyperpan optima dans un espace de grande dimension. Parmi es méthodes à noyaux, inspirées de a théorie statistique de apprentissage de Vapnik, es SVM constituent a forme a pus connue. Is ont été adaptés à divers contextes: cassification avec apprentissage, estimation de support de densité, régression, etc. Les SVM sont appiqués avec une efficacité remarquabe à a reconnaissance de caractères manuscrits, au traitement d images, à a prédiction de séries temporees, au diagnostic médica, au contrôe quaité, etc. Cet artice propose appication des SVMs pour a reconnaissance d une Fibriation Auricuaire (AF) une des arythmies cardiaques es pus courantes. L agorithme d apprentissage utiisé est a SMO (Sequentia Minima Optimization), pus rapide et pus simpe à impémenter. La base d étude utiisée pour apprentissage et es tests provient de a base MIT BIH Arrythmia database. Mots cefs: Support Vector Machines (SVMs), Agorithme SMO, Arythmie cardiaque..introduction Pendant ces dernières années, un intérêt remarquabe a été accordé aux Support Vector Machines (SVMs) [VAP95]. Ces agorithmes d apprentissage ont trouvé des domaines d appication très variés comme a reconnaissance de caractères manuscrits [LEC95], a détection de visage [OSU97], a détection de composante audio [GUO03]. Néanmoins, L utiisation des SVMs était imitée à un groupe de chercheurs car es agorithmes d apprentissage standards étaient ongs et difficies à impémenter. Pour Paier à ce probème, John. C.Patt à mis au point un agorithme d apprentissage pour SVMs appeé SMO (Sequentia Minima Optimization) [JCP 98]. Cet agorithme est généraement pus rapide, pus simpe à impémenter et nécessite un espace mémoire réduit. Dans cet artice, nous proposons une appication de cet agorithme pour a reconnaissance d une arythmie cardiaque parmi es pus courantes. I s agit de a Fibriation Auricuaire (FA). Notons que beaucoup de travaux sont déjà fait en utiisant es réseaux de neurones [LEP0] [CLA97]. La ecture de cette arythmie se fait sur onde P d un ECG car cette onde représente activité éectrique des oreiettes. L étude de cette onde nous permet de cacuer un certain nombre de paramètres discriminants et constituer ainsi es vecteurs d entrée x i du SVM, reatif à chaque battement i. Notons que es paramètres retenus sont: a durée de onde P, son ampitude, sa fréquence et sa forme représentée par es coefficients d un poynôme d ordre 4 et information fréquentiee donnée par a mobiité de onde.
: SETIT007. Aperçu sur es Support Vector Machines. SVMs Les SVM constituent un nouveau type d agorithmes d apprentissage, originaement introduits par Vapnik [VAP 98]. Le succès de cette méthode est justifié par es soides bases théoriques qui a soutiennent Les SVMs sont basés sur un agorithme d apprentissage ayant comme fonction de décision un hyperpan optima dans un espace de grande dimension D. La projection dans cet espace est réaisée pour paier à a non inéarité de séparation. A partir des données d apprentissage {xi,yi)} où xi R n et yi {-,+}. L agorithme consiste à représenter es points xi dans cet espace D par une transformation non inéaire construite à partir d une famie de fonctions {ϕ k } sous certaines conditions. La série ϕ k (x).ϕ k(y) converge vers une fonction K appeée noyau (Kerne) Le probème est posé dans autre sens: pour un noyau donné K(x,y), existe-t-i une famie des ϕ k vérifiant équation (). Pour vérifier cea, i est nécessaire et suffisant que e noyau K(x.y) vérifie a condition de Mercer [NJC0].. H x.w+b=0 * * * * * marge = / w max * x i.w+b>0 Ε Ε ϕ k ϕ K( x, y) ( x). ( y) = () k N k Xj.w+b<0 H H Dans ce cas, a fonction de décision est donnée par e signe de a fonction de discrimination suivante qui ne dépend pus que du noyau _ f( x) yiα i K( x, + b () = où es αi et b sont des coefficients à déterminer, en maximisant a distance, appeée marge, entre a frontière de décision f(x)=0 et e nuage de point dans D. (voir figure ) pour une iustrations de ces concepts). Le probème devient un probème d optimisation : N min w + C ξ i (3) i = sous contraintes : y i ( < w, xi > ) ξ i (4) où C est une constante à déterminer et ξ i est erreur non négative. En pratique, on résoudre e probème dua L D (II.5): LD = (, ) =, αi αiα j yi y jk xi x j i i = sous contraintes : 0 α i C, i =, et i = α iyi = 0 () 5 Figure Hyperpan optima (H) séparant es deux casses par SVMs décrit par x.w+b=0. Les vecteurs support sont es points encercés pacés sur es deux pans H et H satisfaisant : x. w+b = I existe pusieurs types de noyaux K es pus connus, sont donnés en tabe : Tabe. Exempes de Kernes utiisés en SVMs Type de Kerne (K) K(x,x i ) Poynomia: P(d) T d + x. x i Radia Basic Fonction RBF(σ) exp x x i σ Sigmoide: S(s 0, s ) tanh s + 0 xt. xi s Les paramètres p, σ, s 0 et s sont fixés par utiisateur.. L agorithme SMO L agorithme Sequentia Minima Optimization (SMO) posé par [JCP98] est un agorithme qui permet de résoudre rapidement e probème quadratique (5) du SVM sans passer par toutes es étapes de résoution numérique d un QP. L idée principae des agorithmes de décomposition est de travaier avec un sousensembe réduit de données du probème, garder es soution et continuer avec e reste des données où es soutions antérieures doivent être encore testées. La SMO prend cette idée à extrême : ee optimise seuement deux vecteurs par itération. Cette optimisation admet une soution anaytique. A chaque
SETIT007 itération, a SMO choisit deux coefficients de Lagrange i et j pour es optimiser ensembe, trouver ses vaeurs optimaes étant donné que toutes es autres sont fixes, et actuaiser e vecteur soution. L D = α + α K ( x. x) α K ( x. x ) α y yk( x. x) α α yα v yα v + cte (6) avec : vi = yiα ik( xi. x j) j= 3 En respectant es contraintes : 0 α, α C et αi yi = 0 (fig ). On dérive L D par rapport à et on obtient des expressions de cette variabe en fonction de erreur de cassification (9) new od y ( E E) α = α K (7) α new = α new + y y( α od new α ) (8) où k=k(x.x ) + K(x.x ) -K(x.x ) et E et E : Ei = f ( yi = α j y j K ( x j. + b yi (9) j = La SMO optimise deux coefficients à chaque itération. Un des deux doit vioer es conditions de KKT pour être choisi dans itération courante. C,C C,C 3. Chargement des données Parcequ i est un système interactif et convivia de cacu numérique et de visuaisation graphique, Matab, est environnement sur eque nous avons déveoppé nos traitements. Le chargement des signaux ECG sous Matab constitue étape initiae de notre agorithme. I s agit de convertir es données codée sous a forme initiae du MIT BIH database en un format compréhensif par Matab. Notre base d étude est issue de a base MIT BIH Arrythmia database (casse 3). Nous avons choisi 0 enregistrements de 30 mn chacun. 4 Traitements préiminaires - Les bruits HF Le fitrage du signa dans e domaine tempsechee permet de séparer es coefficients d ondeettes reatifs aux hautes fréquences du reste du signa. Notons qu un seuiage soft est appiqué aux coefficients d ondeettes avant a reconstruction du signa [DON99] - La igne de base Un autre phénomène moins gênant que e bruit mais pouvant entraîner des probèmes est ceui des fuctuations de a igne de base. L origine des fuctuations peut être due aux mouvements respiratoires, au mauvais contact éectrode-peau ou autres. Une forte dérive de a igne de base peut donner à cee-ci des vaeurs prise habitueement par des compexes QRS et donc entraîner des erreurs - Détection des ondes R Pour pouvoir segmenter onde P, i est impératif de détecter onde R (voir figure 3) de chaque cyce et travaier ensuite sur une fenêtre à gauche de cette onde [ZAM05]. 0,0 0,0 y y - = γ y =y + = γ Figure Les deux mutipicateurs de Lagrange choisis doivent satisfaire es contraintes du probème. Le critère d arrêt de a SMO est aussi a surveiance des conditions de KKT. La comparaison entre es deux formuations du Lagrangien et de son dua peut être utiisée pour assurer a convergence. Après apprentissage, a fonction de décision d écrit : m f( x) = sign( α i yik( x, + b) (0) où m est e nombre de vecteurs support. f(x) et étiquette de cassification 400 00 0 3 0 00 00 300 400 500 600 700 x 0 0 0 0 00 00 300 400 500 600 700 figure 3 Détection des ondes R 5.Cacu des paramètres discriminants Les paramètres utiisés pour essayer de prédire e risque de FA sont reatifs à onde P de ECG (figure 4)
SETIT007 signaux ont d abord subit un pré-traitement pour atténuer es bruits HF et a igne de base, une segmentation de onde P est ensuite effectuée dans e domaine tempore. figure 4. Aure d un cyce de ECG, onde encercée représente activité des oreiettes. Pour effectuer une discrimination entre es deux types d onde P normae et à risque de fibriation, i est impératif de cacuer certains paramètres et caractéristiques pouvant constituer es vecteurs d entrée du cassifieur. Ces vecteurs de caractéristiques sont constitués chacun de 7 ééments : - Les paramètres tempores à savoir a durée et ampitude de onde P représentent es deus premiers ééments du vecteur. - La différence entre es formes de onde P peut être capturée a travers une modéisation qui consiste à approximer onde P à un poynôme d ordre 4 au sens des moindres carrés [CJP99]. Les coefficients du poynôme constituent es 4 ééments suivants du vecteur d entrée. figure 4. Approximation d une onde P à un poynôme du quatrième ordre - Des études [CLA97], ont montré a divergence sur a pertinence des paramètres tempores d où a nécessité d exporer e domaine fréquentie. Le paramètre fréquentie est extrait en cacuant a mobiité définie dans [RAM04] du segment P. Cette mobiité est donnée par équation (). var( x) Mb= () x' où x représente e segment P et x a première dérivée. 6. Résutats expérimentaux Pour construire a matrice d apprentissage Xapp et de test Xtest, nous avons effectué un cacu de paramètres sur ensembe A des signaux issus de a base MIT BIH Arrythmia database (casse 3). Ces Pour ajuster e paramètre C, choisir e Kerne (noyau) et fixer es constantes reatives à ce noyau, nous avons dans un premier temps utiisé a même matrice (entrée x i ) pour apprentissage et pour e test. Nous avons ensuite compété a matrice de test par des données arbitrairement prises dans a base d étude. Pour ensembe d apprentissage utiisé, e vecteur w norma à hyperpan est à 7 ééments te que w=(0.48, 0.769, 5.5660. 0.8455,.6966, 4,657, 0.39) où chaque axe de a dimension de espace est représenté par un éément du vecteur caractéristique x i. Le taux de cassification est estimé à 85%. Ce taux de cassification n est nom pas du à a méthode cassification mais à a base d apprentissage qui n est pas très arge. 7. Concusion et perspectives Dans cet artice, nous avons examiné appication des Support Vector Machines basé sur agorithme SMO pour a reconnaissance d une arythmie cardiaque. L agorithme d apprentissage a été impémenté sous environnement Matab avec un noyau poynomia. Des tests effectués sur une base de données provenant de a MIT-BIH database nous ont permis de réaiser un taux de cassification avoisinant es 85%. Ce résutat qui sembe pas très satisfaisant est dû au fait que a base de donnée n est pas très riche d une part et au fait que certains battements sont très difficies à casser. Parmi es perspectives vers esquees s ouvre ce travai, éargissement de a base de données, introduction d autres casses, introduire a notion de rejet pour pouvoir rejeter es points qui sont difficies à casser à savoir es points ambigus. et introduction d un nouveau noyau pouvant être pus adéquat a notre appication. 8. References [CJP99] Couderc JP & a, 999 Waveet anaysis of spatia dispertion of P-wave morphoogy in patients [CLA96] Cavier.L & a,996, P-wave parameters for atria fibriation risk detection, 8th anuainternationa conference of the IEEE Engineering in Medicine and Bioogy society. [DON99] D.Donoho 999, 'Denoising by soft threshoding', IEEE Trans on Info Theory, 4, 3, pp 63-67,.(999) [JCP98], John. C. Patt, Sequentia Minima Optimization: A Fast Agorithm for Training Support Vector Machines, Technica Report MSR-TR-98-4, Apri (998).
SETIT007 [LEC95], LeCun.Y &a, Learning Agorithmes for Cassification: A comparison on Handwritten Digit Recognition, Neura Network: The statistica mechanics perspective, Word Scientific, pp 6-76, (995) [LEP0] Ronan.Lepage & a, 00 ECG sementation and P-wave feature extraction: appication to patients prone to atria fibriation, IEEE/EMBS, Istambu, (Turkey ) [RAM04] Ramaswamy.P & a 004, Muti-Parameter Detection of Ectopic Heartbeats, IEEE, Int.Workshop.BioCAS, (004) [VAP95], Vapnik.V, The nature of statistica earning theory, Springer-Verag, (995). [VAP98], Vapnik.V.N, Statistica earning theory, John Wiey & sons, New York, (998) [ZAM05] Z.Amirou & a 005, Cassification of Patients Prone to Atria Fibriation using SVMs, IEEE, ICESIT 05, 9- juy (005)