Théori d l iformatio t codag 200/20 Cours 3 r mars Esigat: Marc Llarg Scrib: Guilhm Gamard Pour iformatio http://www.di.s.fr/~llarg/ifo.html 3. Codag d sourc uivrsl O chrch maitat à trouvr u codag pour u u suit qulcoqu u sas fair aucu hypothès probabilist. Nous commços par voir u xmpl simpl d u tl codag pour u suit biair, avat d étudir l algorithm d Lmpl-Ziv. 3.. Codag uivrsl pour u suit biair Pour codr u suit biair u {0, }, o étudi l algorithm offli suivat : voyr l ombr d das la suit : i=0 u i, log 2 + bits ; voyr l idic d la suit parmi touts ls suits ayat, log bits. Il faut doc au total : lu log + + log + 2 O rli ctt valur à l tropi grâc au lmm suivat. Lmm 3.. Pour 0,, o a 8 2 H Démostratio. O rappll la formul d Stirlig : 2π π! 2π xp 2 O ot alors = p t q = p. O rappll la otatio Hp = p logp q logq, d tll sort qu 2 Hp = p p q q. u algorithm qui doit lir l smbl du mssag avat d pouvoir commcr l codag 3-
Cours 3 r mars 200/20 O a alors, = p = 2π 2πp p xp 2 p 2πq q q 2πpq p p q q xp 2 < πp 2 Hp, Car xp 2 < 2. D mêm pour la bor ifériur, o a p = 2πp p 2π 2πpq 2 Hp xp p q q xp 2πq 2p 2q 2p. 2q O distigu alors plusiurs cas : si p t q 3, alors xp + xp > π, 2p 2q 9 2 si p = t q = alors = 2 t p =, la bor vaut 2 t st corrct. 2 si p = t q = 2 alors = 3 t p =, la bor vaut 2.92 t st corrct. 3 si p = 2 t q = 2 alors = 4 t p =, la bor vaut 5.66 t st corrct. 4 O a doc lu log + + H H 2 log 2 logπ + 2 + 2 log 2 logπ + 3 Doc l coût pour décrir ctt suit st d log bits plus du coût optimal d 2 H pour u distributio d Broulli corrspodat à p =. 3..2 Codag par automats à états fiis Nous allos das u prmir tmps étudir la comprssio d u suit ifii u par ds automats fiis. Nous établiros alors u bor sur l taux d comprssio d tls algorithms, avat d motrr qu l algorithm d Lmpl-Ziv attit ctt bor. 3-2
Cours 3 r mars 200/20 Das tout la suit, chaqu symbol d la sourc appartit à u alphabt fii ayat J symbols avc J 2. Défiitio 3.. U automat à spac d états fii st composé d u têt d lctur s trouvat das u crtai état parmi u smbl fii. L automat lit l tré symbol par symbol, chacu d tr ux traîat u chagmt d état t l émissio d u mot, évtullmt vid. Ls chagmts sot régis par u tabl d trasitios qui st u caractéristiqu d l automat. Pour l tré u = u u 2 u 3..., l automat produit y = y y 2 y 3,... visitat ls états z = z z 2 z 3... doés par : y = f z, u à valurs {0, }, pour, z + = gz, u à valurs das l spac d états fii, pour. Ls foctios f t g corrspodt à u cosultatio d la tabl ds trasitios. O otra u j = u u +... u j t f z, u j = yj, gz, u j = z j+. L décodur a coaissac d l automat t d so état iitial. Il doit êtr capabl d rcostruir u à partir d y. Défiitio 3..2 O dit qu u codur st sas prt d iformatio, ou SPI, si u s r v t r alors pour tout z r o a : soit f z r, u s r f z r, v t r, soit gz r, u s r gz r, v t r. Pour u codur état pas SPI, il st impossibl d rtrouvr u à partir d y. Notos cpdat qu u codur SPI st pas écssairmt uiqumt décodabl, comm l motr l xmpl 3..2. Nous calculos maitat u bor ifériur sur l ombr d bits utilisés par symbol d tré pour tout codur SPI. Ctt bor s appliqura égalmt aux codurs SPI coçus coaissat U à l avac, comm l fait l algorithm d Huffma. Défiitio 3..3 Pour u codur E, so ratio d comprssio pour u st défii par O défiit alors : O ot qu ρ s u log J. ρ E u = l y. ρ s u = mi{ρ Eu, E codur SPI à s états} 3-3
Cours 3 r mars 200/20 FIG. 3.. Automat d codag. Ls suits ifiis AAAA... t BBBB... sot codés par 0000... t doc idistiguabls pourtat l automat st SPI. O défiit alors la comprssibilité d u, oté ρu par : ρ s u = lim sup ρ s u ρu = lim ρ s u. s Soit cu l ombr maximum d mots disticts lsquls u put êtr découpé l mot vid ε iclus. O a doc cu. Si u st découpé c mots disticts, o défiit m t 0 r Jm tls qu c = m =0 J + r. Si u tl c st doé, l miimal st obtu par gq m =0 J + mr car il y a J mots d loguur. Pour J 2, o a m =0 m =0 J = m Jm J 3-4 J = Jm J J J m J J
Cours 3 r mars 200/20 O obtit doc : mc r + J J c r + mr J m 2 c + J J J c m 2c D plus, o a c < Jm+ J doc c < cj + < J m+ t m + log J c. Au fial o obtit : > c log J c J 3. 3. Théorèm 3.. Pour tout codur SPI à s états, cu ly cu log 2. 8s 2 Démostratio. O a u = w... w c où c = cu mots différts. O pos c ij = l ombr d mots qui trouvt l codur das l état i t l laisst das l état j. Comm l codur st SPI, ls sortis corrspodats sot écssairmt différts t lur loguur total l ij doit satisfair 3. avc J = 2 puisqu y st u suit biair, doc : cij l ij c ij log 2. 8 Doc ly = cij i,j s c ij log 2 8. Comm cij = cu t qu l miimum du trm d droit sous ctt cotrait st attit à c ij = cu foctio covx symétriqu, o obtit l s 2 résultat voulu. L lmm suivat st motré xrci. Lmm 3..2 D après l théorèm, cu = O log ρ s u lim sup cu log 2 cu 8s 2 = lim sup cu log 2 cu cu log 2 cu. = lim sup 3-5 lim sup cu log8s2
Cours 3 r mars 200/20 Comm ctt drièr xprssio dépd pas d s, o a : ρu lim sup 3..3 Algorithm d Lmpl-Ziv cu log 2 cu. 3.2 Nous décrivos maitat l algorithm d Lmpl-Ziv. L foctiomt st l suivat : iitialisr u dictioair avc tous ls mots d loguur ; attribur à chaqu mot u codag biair, par ordr lxicographiqu ; si l dictioair a D mots, la loguur ds mot-cod st log 2 D. chaqu fois qu u mot d loguur m appartat au dictioair st lu tré, émttr l mot-cod corrspodat, rmplacr das l dictioair l mot par l smbl ds xtsios d u lttr du mot c st à dir ls mots d loguur m + ayat comm préfix l mot lu tré. U xmpl prmt d miux saisir l comportmt d l algorithm. Soit aaaccb la chaî à comprssr. La figur 3..3 do alors ls différts états du dictioair lisat d gauch à droit. La chaî émis st 00 000 0 0. L décodag s ffctu d faço parfaitmt symétriqu. État doé qu la mis à jour du dictioair st fait après l émissio du mot-cod, l décodur put fair la mêm mis à jour u fois l mot-cod rçu, t doc maitir l mêm dictioair tout au log d la décomprssio. O ot qu il dmur u problèm lors d la fi du codag : l drir mot lu corrspod pas écssairmt à u fuill d l arbr. Divrss solutios xistt pour pallir à cci, par xmpl choisisat d umérotr tous ls œuds d l arbr plutôt qu ls fuills. Voyos maitat das qull msur l codag d Lmpl-Ziv st fficac. Si l algorithm découp u c LZu mots w, w 2,... w clz, alors u = εw, w 2,... w clz t ls c LZ u prmirs mots sot différts. Si l o cocatè ls dux drirs mots, o obtit u découpag c LZ u mots différts. O a alors c LZu cu. La taill du dictioair à la fi du découpag d u st J + c LZu J, t l ombr d œuds das l arbr c lz u J. Mêm si o attribu à chaqu oud d l arbr u mot-cod, l ombr total d digits biairs voyés sra : l LZ y c LZu log 2 Jc LZu cu log 2 2Jcu 3-6
Cours 3 r mars 200/20 FIG. 3.2. Évolutios succssivs du dictioair 3-7
Cours 3 r mars 200/20 D où lim sup où la drièr iégalité vit d 3.2. l cu LZy lim sup log 2 cu ρu, L algorithm d Lmpl-Ziv st doc au mois aussi bo qu import qul codag SPI par automats fiis. Notr cpdat qu l algorithm d Lmpl-Ziv st pas u codag par automat fii. Par cotr, l codag d Huffma par blocs fait parti d ctt drièr class t doc l algorithm d Lmpl-Ziv fait doc aussi bi qu l codag d Huffma par blocs pour tout loguur d bloc. Das l cas d u sourc sas mémoir, u démostratio rigourus d l optimalité d l algorithm d Lmpl-Ziv st doé xrci. 3-8