1.1 Codage de source et test d hypothèse



Documents pareils
Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Espérance conditionnelle

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Suites numériques 3. 1 Convergence et limite d une suite

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Travaux dirigés d introduction aux Probabilités

Limites finies en un point

Sur certaines séries entières particulières

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Intégration et probabilités TD1 Espaces mesurés Corrigé

M2 IAD UE MODE Notes de cours (3)

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Intégration et probabilités TD1 Espaces mesurés

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

La mesure de Lebesgue sur la droite réelle

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Chapitre 2. Eléments pour comprendre un énoncé

Probabilités sur un univers fini

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Calcul différentiel sur R n Première partie

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Moments des variables aléatoires réelles

n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v t

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Image d un intervalle par une fonction continue

FIMA, 7 juillet 2005

Simulation de variables aléatoires

Continuité en un point

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

3. Conditionnement P (B)

Principe de symétrisation pour la construction d un test adaptatif

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Transmission d informations sur le réseau électrique

Calcul fonctionnel holomorphe dans les algèbres de Banach

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Continuité d une fonction de plusieurs variables

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Cours Fonctions de deux variables

Chapitre 3. Les distributions à deux variables

Précision d un résultat et calculs d incertitudes

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Introduction à l étude des Corps Finis

Fondements de l informatique Logique, modèles, et calculs

Fonctions de plusieurs variables

Probabilités sur un univers fini

Lois de probabilité. Anita Burgun

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

Probabilités. C. Charignon. I Cours 3

PLAN NOTATIONS UTILISÉES

Objets Combinatoires élementaires

Calculabilité Cours 3 : Problèmes non-calculables.

4. Martingales à temps discret

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Optimisation Discrète

Relation d ordre. Manipulation des relations d ordre. Lycée Pierre de Fermat 2012/2013 Feuille d exercices

Théorème du point fixe - Théorème de l inversion locale

Leçon 01 Exercices d'entraînement

Probabilités conditionnelles Loi binomiale

1 Recherche en table par balayage

Probabilités III Introduction à l évaluation d options

LES GENERATEURS DE NOMBRES ALEATOIRES

Loi d une variable discrète

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Raisonnement probabiliste

Théorie de la mesure. S. Nicolay

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Cours d Analyse. Fonctions de plusieurs variables

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Approximations variationelles des EDP Notes du Cours de M2

3 Approximation de solutions d équations

Texte Agrégation limitée par diffusion interne

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

Théorie de la Mesure et Intégration

Quantification Scalaire et Prédictive

Comparaison de fonctions Développements limités. Chapitre 10

ÉPREUVE COMMUNE DE TIPE Partie D

Programmation linéaire et Optimisation. Didier Smets

Systèmes de communications numériques 2

Chapitre 2 Le problème de l unicité des solutions

PROBABILITES ET STATISTIQUE I&II

I La théorie de l arbitrage fiscal de la dette (8 points)

Approximation diophantienne uniforme et dimension de Hausdorff

Continuité et dérivabilité d une fonction

Logique. Plan du chapitre

Algorithmes d'apprentissage

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Algorithmique et Programmation, IMA

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Chapitre 7 : Intégration sur un intervalle quelconque

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

I- Définitions des signaux.

Chapitre VI - Méthodes de factorisation

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

CH.6 Propriétés des langages non contextuels

Programmation linéaire

Université Paris-Dauphine DUMI2E 1ère année, Applications

Transcription:

Théorie de l information et codage 200/20 Cours 8février20 Enseignant: Marc Lelarge Scribe: Marc Lelarge Pour information Page webdu cours http://www.di.ens.fr/~lelarge/info.html Notations Pour des variables aléatoires (v.a.) discrètes X et Y à valeurs dansxetyresp., on utilisera lesnotations suivantes pourx Xet y Y: p(x) = P(X=x) p(y) = P(Y= y) p(x,y) = P(X=x,Y= y) p(x y) = P(X=x Y= y)=p(x,y)/p(y). Lorsque cesnotations sont ambigues, on pourra écrire p X (x),p Y (y),p X,Y (x,y),p X Y (x y).. Codage de source et test d hypothèse.. Entropie Une source (discrète) émet une suite de v.a.{u i } à valeurs dans un ensemble finiu i= appelé l alphabet de la source. Si les U i sont indépendants et identiquement distribués (i.i.d.)deloi P,la source estdite sans mémoire dedistribution P. Définition.. Soit U une variable aléatoire à valeurs dans un ensemble fini U, de distribution de probabilité : p(u)=p(u=u),. Son entropie est, par définition, la quantité H(U)= E [ log(p(u)) ] = p(u)logp(u), aveclaconvention 0log0=0. -

Cours 8 février 20 200/20 Le choix de la base du logarithme correspond à un choix d unité. Dans ce premier cours, on choisit la base 2. L entropie s exprime alors en bits. Un(k, n)-codage binaire est une paire de fonctions f :U k {0,} n, etφ :{0,} n U k. Pour une source donnée,la probabilité d erreurdu code (f,φ)est e(f,φ) := P(φ(f(U (k) )) U (k) ), avecu (k) = (U,...,U k )leskpremiers symboles émisparla source. Le but est de trouver des codes avec un ratio n/k petit et une probabilité d erreur petite. Plusprécisément,pourtoutk,soitn(k,ǫ)lepluspetitentierntelqu ilexisteun(k,n)-code satisfaisant e(f,φ) ǫ. Théorème.. Pour une source discrète sans mémoire de distribution P(U=u)=p(u), on a pour toutǫ (0,): n(k, ǫ) lim k = H(U)= p(u) log p(u). Démonstration. L existence d un (k, n)-code binaire avec e( f, φ) ǫ est équivalente à l existence d un ensemble A U k avecp(a) ǫet A 2 n. A est alors l ensembledes suites u (k) U k reproduites de manière exacte, c.a.d.tellesqueφ(f(u (k) ))=u (k). Soit s(k,ǫ) la taille mimimaled un ensemblea U k avecp(a) ǫ, c.a.d s(k,ǫ)=min{ A ; P(A) ǫ}. Pour prouver le théorème, il suffitde montrer que pourǫ (0,), lim logs(k,ǫ) k Pour ceci, on définitl ensembleb(k,δ) U k suivant = H(U). (.) B(k,δ)= { u (k) U k, 2 k(h(u)+δ) p(u (k) ) 2 k(h(u) δ)}. Montrons tout d abord que lim P(B(k,δ)=pourtoutδ>0. Soit la v.a. réelle Y i = logp(u i ), qui est bien définie avec probabilité même s il existe avec p(u)=0. Les Y i sont i.i.d.de moyenne H(U).Par laloi faibledesgrands nombres, on a lim P k Y i H(U) k δ = pourtoutδ>0. i= -2

Cours 8 février 20 200/20 Comme U (k) B(k,δ)ssi k k i= Y i H(U) δ,on abien limp(b(k,δ))=pourtoutδ>0. (.2) La définition de B(k,δ) impliqueque B(k,δ) 2 k(h(u)+δ). Par (.2), on a donc pour tout δ>0 lim sup k logs(k,ǫ) limsup log B(k,δ) H(U)+δ. (.3) k Dansl autresens,pourtouta U k avecp(a) ǫ,(.2)impliquepourksuffisament grand, On adonc pardéfinition de B(k,δ), A A B(k,δ) etdoncpour toutδ>0, P(A B(k,δ)) ǫ 2. u (k) A B(k,δ) p(u (k) )2 k(h(u) δ) ǫ 2 2k(H(U) δ), lim inf Ceci, avec(.3), implique (.). k logs(k,ǫ) H(U) δ. Corollaire.. 0 H(U) log U..2 Information mutuelle Nous généralisons maintenant l approche précédente en donnant des poids différents aux éléments deu k. Plus précisément, nous considérons une suite de fonctions masse à valeurpositive M (u),m 2 (u),... suru eton définit M(u (k) ) := k M i (u i ), pour u (k) = (u,...,u k ), i= etpour A U k, M(A) := u k AM(u k ). On définitalors s(k,ǫ)=min{m(a); A U k, P(A) ǫ}. -3

Cours 8 février 20 200/20 Théorème..2 Si les U i sont indépendants de loi p i et max i [k], logm i (u) c alors pour toutǫ (0,), avec ( lim k) k logs(k,ǫ) E = 0, E k := k k i= p i (u)log M i(u) p i (u). Démonstration. Soit Y i = log M i(u i ). Les Y p i (U i ) i sont indépendants tels que E [ k k i= Y i] = Ek doncl inégalité de Chebyshevdonnepour toutδ>0 P k k Y i E k δ k 2 δ 2 i= k i= Var (Y i ) kδ max 2 i Var (Y i ) Ceci signifie que pour l ensemble { B(k,δ)= u (k) U k, E k δ } k log M(u(k) ) p(u (k) ) E k+δ, on a P(B(k,δ)) η k avecη k = max kδ 2 i Var (Y i ). Par définition, on a M(B(k,δ)) = M(u (k) ) u (k) B(k,δ) u (k) B(k,δ) 2 k(e k+δ). p(u (k) )2 k(e k+δ) On en déduitque logs(k,ǫ) logm(b(k,δ)) E k k k+δ siη k ǫ. Dans l autre sens, pour tout A U k ave P(A) ǫ, on a P(A B(k,δ)) ǫ η k d où M(A) M(A B(k,δ)) p(u (k) )2 k(e k δ) u (k) A B(k,δ) ( ǫ η k )2 k(e k δ). On adonc logs(k,ǫ) log( ǫ η k k k)+e k δ.ceciconclut lapreuve ennotantque l hypothèse max i [k], logm i (u) c implique que max i Var Y i est borné et donc que η k 0 quand. Application: Test d hypothèse. -4

Cours 8 février 20 200/20 Problème :déciderentre deuxdistributions PetQàpartird unéchantillon detaillek, c.a.d. le résultat de k tirages indépendants. Un test est défini parun ensemble A U k : si l échantillon (U,...,U k )appartient àaalors letest retourne l hypothèse P sinon Q. On considère un scénario où les hypothèses ne sont pas symmétriques. On désire une probabilité d erreur au plusǫsi P est la vraie distribution, c.a.d. P(A) ǫ. Le but est alors de minimiser la probabilité d erreur si l hypothèse Q est vraie, c.a.d Corollaire..2 Pour toutǫ (0,), ona β(k,ǫ)=min{q(a), t.q. A U k, P(A) ǫ}. lim k logβ(k,ǫ)= p(u)log p(u) q(u). Démonstration. Si q(u)>0pour tout, il suffit d appliquer le théorème précédent avecp i = P etm i = Q. S il existe un u avec p(u)>q(u)=0 alors la P-probabilité que l échantillon de taille k contienne ce u tend vers etβ(k,ǫ)=0 pour k suffisament grand et dons l assertion est encore valide. Définition..2 L entropie relative ou distance de Kullback-Leibler entre deux distributions p et qestdéfiniepar: [ D(p q)=e p log p(u) ] = p(u)log p(u) q(u) q(u), aveclesconventions 0log 0 0 = 0,0log 0 q = 0 etplog p 0 =. L entropie d une paire (U,V) ne nécessite pas de nouvelle définition! On notera H((U,V))=H(U,V). La différence H(U,V) H(U) mesure la quantité d information supplémentaire sur le couple (U,V) donnée par V si U est déjà connu. Cette différence est appelée l entropie conditionnelle de V sachant U et est notée : H(V U)=H(U,V) H(U) On a donc H(V U)= v V p(u,v)log p(u,v) p(u) avech(v U=u)= v Vp(v u)logp(v u). = p(u)h(v U=u), Lemme.. On a H(V U) H(V) -5

Cours 8 février 20 200/20 Démonstration. H(V) H(V U) = H(V) H(U,V)+H(U) = p(u,v)log p(u,v) p(u)p(v) v V = D(p U,V p U p V ) 0. Définition..3 L information mutuelle entre U et V est définie par I(U;V)=H(V) H(V U)=H(U) H(U V)=H(V)+H(U) H(U,V). L information mutuelle entre U et V correspond à la diminution d incertitude sur V causée par la connaissance de U, c.a.d la quantité d information sur V contenue dans U. Elle est symmétrique enu etv. -6