Théorie de l information et codage 200/20 Cours 8février20 Enseignant: Marc Lelarge Scribe: Marc Lelarge Pour information Page webdu cours http://www.di.ens.fr/~lelarge/info.html Notations Pour des variables aléatoires (v.a.) discrètes X et Y à valeurs dansxetyresp., on utilisera lesnotations suivantes pourx Xet y Y: p(x) = P(X=x) p(y) = P(Y= y) p(x,y) = P(X=x,Y= y) p(x y) = P(X=x Y= y)=p(x,y)/p(y). Lorsque cesnotations sont ambigues, on pourra écrire p X (x),p Y (y),p X,Y (x,y),p X Y (x y).. Codage de source et test d hypothèse.. Entropie Une source (discrète) émet une suite de v.a.{u i } à valeurs dans un ensemble finiu i= appelé l alphabet de la source. Si les U i sont indépendants et identiquement distribués (i.i.d.)deloi P,la source estdite sans mémoire dedistribution P. Définition.. Soit U une variable aléatoire à valeurs dans un ensemble fini U, de distribution de probabilité : p(u)=p(u=u),. Son entropie est, par définition, la quantité H(U)= E [ log(p(u)) ] = p(u)logp(u), aveclaconvention 0log0=0. -
Cours 8 février 20 200/20 Le choix de la base du logarithme correspond à un choix d unité. Dans ce premier cours, on choisit la base 2. L entropie s exprime alors en bits. Un(k, n)-codage binaire est une paire de fonctions f :U k {0,} n, etφ :{0,} n U k. Pour une source donnée,la probabilité d erreurdu code (f,φ)est e(f,φ) := P(φ(f(U (k) )) U (k) ), avecu (k) = (U,...,U k )leskpremiers symboles émisparla source. Le but est de trouver des codes avec un ratio n/k petit et une probabilité d erreur petite. Plusprécisément,pourtoutk,soitn(k,ǫ)lepluspetitentierntelqu ilexisteun(k,n)-code satisfaisant e(f,φ) ǫ. Théorème.. Pour une source discrète sans mémoire de distribution P(U=u)=p(u), on a pour toutǫ (0,): n(k, ǫ) lim k = H(U)= p(u) log p(u). Démonstration. L existence d un (k, n)-code binaire avec e( f, φ) ǫ est équivalente à l existence d un ensemble A U k avecp(a) ǫet A 2 n. A est alors l ensembledes suites u (k) U k reproduites de manière exacte, c.a.d.tellesqueφ(f(u (k) ))=u (k). Soit s(k,ǫ) la taille mimimaled un ensemblea U k avecp(a) ǫ, c.a.d s(k,ǫ)=min{ A ; P(A) ǫ}. Pour prouver le théorème, il suffitde montrer que pourǫ (0,), lim logs(k,ǫ) k Pour ceci, on définitl ensembleb(k,δ) U k suivant = H(U). (.) B(k,δ)= { u (k) U k, 2 k(h(u)+δ) p(u (k) ) 2 k(h(u) δ)}. Montrons tout d abord que lim P(B(k,δ)=pourtoutδ>0. Soit la v.a. réelle Y i = logp(u i ), qui est bien définie avec probabilité même s il existe avec p(u)=0. Les Y i sont i.i.d.de moyenne H(U).Par laloi faibledesgrands nombres, on a lim P k Y i H(U) k δ = pourtoutδ>0. i= -2
Cours 8 février 20 200/20 Comme U (k) B(k,δ)ssi k k i= Y i H(U) δ,on abien limp(b(k,δ))=pourtoutδ>0. (.2) La définition de B(k,δ) impliqueque B(k,δ) 2 k(h(u)+δ). Par (.2), on a donc pour tout δ>0 lim sup k logs(k,ǫ) limsup log B(k,δ) H(U)+δ. (.3) k Dansl autresens,pourtouta U k avecp(a) ǫ,(.2)impliquepourksuffisament grand, On adonc pardéfinition de B(k,δ), A A B(k,δ) etdoncpour toutδ>0, P(A B(k,δ)) ǫ 2. u (k) A B(k,δ) p(u (k) )2 k(h(u) δ) ǫ 2 2k(H(U) δ), lim inf Ceci, avec(.3), implique (.). k logs(k,ǫ) H(U) δ. Corollaire.. 0 H(U) log U..2 Information mutuelle Nous généralisons maintenant l approche précédente en donnant des poids différents aux éléments deu k. Plus précisément, nous considérons une suite de fonctions masse à valeurpositive M (u),m 2 (u),... suru eton définit M(u (k) ) := k M i (u i ), pour u (k) = (u,...,u k ), i= etpour A U k, M(A) := u k AM(u k ). On définitalors s(k,ǫ)=min{m(a); A U k, P(A) ǫ}. -3
Cours 8 février 20 200/20 Théorème..2 Si les U i sont indépendants de loi p i et max i [k], logm i (u) c alors pour toutǫ (0,), avec ( lim k) k logs(k,ǫ) E = 0, E k := k k i= p i (u)log M i(u) p i (u). Démonstration. Soit Y i = log M i(u i ). Les Y p i (U i ) i sont indépendants tels que E [ k k i= Y i] = Ek doncl inégalité de Chebyshevdonnepour toutδ>0 P k k Y i E k δ k 2 δ 2 i= k i= Var (Y i ) kδ max 2 i Var (Y i ) Ceci signifie que pour l ensemble { B(k,δ)= u (k) U k, E k δ } k log M(u(k) ) p(u (k) ) E k+δ, on a P(B(k,δ)) η k avecη k = max kδ 2 i Var (Y i ). Par définition, on a M(B(k,δ)) = M(u (k) ) u (k) B(k,δ) u (k) B(k,δ) 2 k(e k+δ). p(u (k) )2 k(e k+δ) On en déduitque logs(k,ǫ) logm(b(k,δ)) E k k k+δ siη k ǫ. Dans l autre sens, pour tout A U k ave P(A) ǫ, on a P(A B(k,δ)) ǫ η k d où M(A) M(A B(k,δ)) p(u (k) )2 k(e k δ) u (k) A B(k,δ) ( ǫ η k )2 k(e k δ). On adonc logs(k,ǫ) log( ǫ η k k k)+e k δ.ceciconclut lapreuve ennotantque l hypothèse max i [k], logm i (u) c implique que max i Var Y i est borné et donc que η k 0 quand. Application: Test d hypothèse. -4
Cours 8 février 20 200/20 Problème :déciderentre deuxdistributions PetQàpartird unéchantillon detaillek, c.a.d. le résultat de k tirages indépendants. Un test est défini parun ensemble A U k : si l échantillon (U,...,U k )appartient àaalors letest retourne l hypothèse P sinon Q. On considère un scénario où les hypothèses ne sont pas symmétriques. On désire une probabilité d erreur au plusǫsi P est la vraie distribution, c.a.d. P(A) ǫ. Le but est alors de minimiser la probabilité d erreur si l hypothèse Q est vraie, c.a.d Corollaire..2 Pour toutǫ (0,), ona β(k,ǫ)=min{q(a), t.q. A U k, P(A) ǫ}. lim k logβ(k,ǫ)= p(u)log p(u) q(u). Démonstration. Si q(u)>0pour tout, il suffit d appliquer le théorème précédent avecp i = P etm i = Q. S il existe un u avec p(u)>q(u)=0 alors la P-probabilité que l échantillon de taille k contienne ce u tend vers etβ(k,ǫ)=0 pour k suffisament grand et dons l assertion est encore valide. Définition..2 L entropie relative ou distance de Kullback-Leibler entre deux distributions p et qestdéfiniepar: [ D(p q)=e p log p(u) ] = p(u)log p(u) q(u) q(u), aveclesconventions 0log 0 0 = 0,0log 0 q = 0 etplog p 0 =. L entropie d une paire (U,V) ne nécessite pas de nouvelle définition! On notera H((U,V))=H(U,V). La différence H(U,V) H(U) mesure la quantité d information supplémentaire sur le couple (U,V) donnée par V si U est déjà connu. Cette différence est appelée l entropie conditionnelle de V sachant U et est notée : H(V U)=H(U,V) H(U) On a donc H(V U)= v V p(u,v)log p(u,v) p(u) avech(v U=u)= v Vp(v u)logp(v u). = p(u)h(v U=u), Lemme.. On a H(V U) H(V) -5
Cours 8 février 20 200/20 Démonstration. H(V) H(V U) = H(V) H(U,V)+H(U) = p(u,v)log p(u,v) p(u)p(v) v V = D(p U,V p U p V ) 0. Définition..3 L information mutuelle entre U et V est définie par I(U;V)=H(V) H(V U)=H(U) H(U V)=H(V)+H(U) H(U,V). L information mutuelle entre U et V correspond à la diminution d incertitude sur V causée par la connaissance de U, c.a.d la quantité d information sur V contenue dans U. Elle est symmétrique enu etv. -6