Théorie et codage de l information

Documents pareils

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Couples de variables aléatoires discrètes

Continuité en un point

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

1.1 Codage de source et test d hypothèse

Espérance conditionnelle

Probabilités conditionnelles Exercices corrigés

TSTI 2D CH X : Exemples de lois à densité 1

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Université Paris-Dauphine DUMI2E 1ère année, Applications

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Moments des variables aléatoires réelles

Représentation des Nombres

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Correction du baccalauréat ES/L Métropole 20 juin 2014

Probabilités sur un univers fini

Développement décimal d un réel

Loi d une variable discrète

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Programmes des classes préparatoires aux Grandes Ecoles

Sur certaines séries entières particulières

M2 IAD UE MODE Notes de cours (3)

PROBABILITES ET STATISTIQUE I&II

Limites finies en un point

Chapitre 2 Le problème de l unicité des solutions

Correction du Baccalauréat S Amérique du Nord mai 2007

Dérivées d ordres supérieurs. Application à l étude d extrema.

Le modèle de Black et Scholes

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

CCP PSI Mathématiques 1 : un corrigé

Les indices à surplus constant

Précision d un résultat et calculs d incertitudes

Correction du baccalauréat S Liban juin 2007

Suites numériques 3. 1 Convergence et limite d une suite

La mesure de Lebesgue sur la droite réelle

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Exercices sur le chapitre «Probabilités»

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Chp. 4. Minimisation d une fonction d une variable

Annexe commune aux séries ES, L et S : boîtes et quantiles

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Théorie et codage de l information

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Introduction à l étude des Corps Finis

Théorie de la Mesure et Intégration

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

La fonction exponentielle

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Théorème du point fixe - Théorème de l inversion locale

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Leçon 01 Exercices d'entraînement

Simulation de variables aléatoires

Continuité et dérivabilité d une fonction

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Optimisation des fonctions de plusieurs variables

Problème 1 : applications du plan affine

Qu est-ce qu une probabilité?

LES TYPES DE DONNÉES DU LANGAGE PASCAL

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Probabilités sur un univers fini

3 Approximation de solutions d équations

ÉPREUVE COMMUNE DE TIPE Partie D

NOTATIONS PRÉLIMINAIRES

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Exercice 3 (5 points) A(x) = 1-e -0039' e- 0,039x A '() -'-,..--,-,--,------:-- X = (l_e-0,039x)2

Texte Agrégation limitée par diffusion interne

Introduction au Calcul des Probabilités

Travaux dirigés d introduction aux Probabilités

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Chapitre 2. Eléments pour comprendre un énoncé

Image d un intervalle par une fonction continue

I. Polynômes de Tchebychev

Probabilités. C. Charignon. I Cours 3

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Logique. Plan du chapitre

Communications numériques

NOTIONS DE PROBABILITÉS

3. Caractéristiques et fonctions d une v.a.

Variables Aléatoires. Chapitre 2

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Partie Agir : Défis du XXI ème siècle CHAP 20-ACT EXP Convertisseur Analogique Numérique (CAN)

La classification automatique de données quantitatives

Représentation d un entier en base b

Exercices - Polynômes : corrigé. Opérations sur les polynômes

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Continuité d une fonction de plusieurs variables

Chapitre 10 Arithmétique réelle

4. Martingales à temps discret

Transcription:

Théorie et codage de l information Mesure quantitative de l information - Chapitre 2 -

Information propre et mutuelle Quantité d information propre d un événement Soit A un événement de probabilité P (A) non-nulle. L information h(a) apportée par la réalisation de A est d autant plus grande qu elle est improbable. Elle peut s exprimer ainsi : ( ) 1 h(a) = f. P (A) La fonction f( ) vérifie les contraintes suivantes : f( ) est croissante info. apportée par 1 événement sûr est nulle : lim p 1 f(p) = 0 info. apportée par 2 événements indépendants : f(p 1 p 2 ) = f(p 1 ) + f(p 2 ) Ceci nous conduit à utiliser la fonction logarithmique pour f( ) 1

Information propre et mutuelle Quantité d information propre d un événement Lemme 1. La fonction f(p) = log b p est la seule qui soit à la fois positive, continue sur ]0, 1], et qui vérifie f(p1 p2) = f(p1) + f(p2). Preuve. La démonstration comporte les étapes suivantes : 1. f (p n ) = n f(p) 2. f ( p 1/n) = 1 n f(p) après avoir remplacer p par p1/n 3. f ( p m/n) = m n f(p) en combinant le deux égalités précédentes 4. f(p q ) = q f(p) où q désigne un nombre rationnel positif quelconque 5. f (p r ) = lim n + f (p q n ) = lim n + q n f(p) = r f(p) Soient p et q appartenant à ]0, 1[. On peut écrire p = q log q p, ce qui entraîne f(p) = f ( q log q p) = f(q) log q p. On aboutit finalement au résultat escompté, soit f(p) = log b p 2

Information propre et mutuelle Quantité d information propre d un événement Définition 1. Soit (Ω, A, P ) un espace probabilisé et A un événement de A de probabilité P (A) non-nulle. On associe à la réalisation de A la quantité d information propre : h(a) = log P (A). Unités. L unité dépend de la base choisie pour le logarithme. log 2 : Shannon, bit (binary unit) log e : logon, nat (natural unit) log 10 : Hartley, decit (decimal unit) Vocabulaire. h( ) est désigné par incertitude ou encore quantité d information. 3

Information propre et mutuelle Quantité d information propre d un événement Quantité d information propre ou incertitude : h(a) = log b P (A) h(a) PSfrag replacements 1 0 0 1/b 0.5 1 P (A) 4

Information propre et mutuelle Quantité d information propre d un événement Exemple 1. Dans le cas d une source binaire {0, 1} telle que P (0) = P (1) = 0.5, l information propre associée à chaque symbole binaire, ou bit au sens informatique du terme, vaut h ( 1 2) = log 2, soit 1 bit ou Shannon. Exemple 2. On considère une source S sélectionnant aléatoirement et indépendamment du passé chaque symbole émis parmi les 16 éléments d un l alphabet {s 0,..., s 15 }, tous équiprobables. L information propre véhiculée par chacun d eux est log 16, soit 4 Shannon. Attention! Le bit informatique (binary digit) et le bit issu de la théorie de l information (binary unit) sont deux notions distinctes. 5

Information propre et mutuelle Quantité d information conditionnelle La définition de la quantité d information propre s applique à la réalisation conjointe de A et B. En remarquant que P (A B) = P (A) P (B A), on obtient : h(a B) = log P (A B) = log P (A) log P (B A) On note que log P (B A) correspond à la quantité d information propre de B que ne fournit pas l observation de A. Définition 2. On appelle information conditionnelle de B sachant A la quantité : h(b A) = log P (B A), soit, en d autres termes : h(b A) = h(a B) h(a). Exercice. Étudier et interpréter le cas A = B, puis indépendance de A et B 6

Information propre et mutuelle Quantité d information mutuelle La définition de l information conditionnelle amène directement une autre définition, celle de l information mutuelle, qui correspond à la part d incertitude commune à deux événements. Définition 3. On appelle information mutuelle entre A et B la quantité : i(a, B) = h(a) h(a B) = h(b) h(b A). Exercice. Étudier les cas A = B, B A, enfin A et B indépendants. 7

Entropie d une variable aléatoire Définition de l entropie Soit une source S d information sans mémoire sélectionnant aléatoirement un symbole parmi les n éléments d un alphabet {s 1,..., s n }. Soit p i la probabilité d apparition de s i. La quantité d information moyenne associée à l apparition de chaque symbole possible est donnée par : H(S) = E{h(s)} = n p i log p i. i=1 L entropie est une quantité d information moyenne. Définition 4. Soit X une variable aléatoire à valeurs dans {x 1,..., x n }. L entropie de X est définie comme suit : H(X) = n P (X = x i ) log P (X = x i ). i=1 8

Entropie d une variable aléatoire Exemple d une variable aléatoire binaire L entropie d une variable aléatoire binaire est donnée par : H(X) = p log p (1 p) log(1 p) H 2 (p). 1 PSfrag replacements entropie H2 (Sh/symb) 0.5 0 0 0.5 probabilité p 1 9

Entropie d une variable aléatoire Notation et propriété préalables Lemme 2 (Inégalité de Gibbs). Étant donné 2 distributions de probabilité discrètes (p 1,..., p n ) et (q 1,..., q n ) sur un même univers fini, l inégalité suivante est satisfaite : n p i log q i 0, p i i=1 l égalité étant obtenue lorsque i : p i = q i. Preuve. On effectue la démonstration dans le cas du logarithme népérien et on note que ln x x 1, l égalité étant obtenue pour x = 1. On pose x = q i p i et on a n i=1 p i ln q i p i n i=1 p i ( q i p i 1) = 1 1 = 0. 10

PSfrag replacements Entropie d une variable aléatoire Notation et propriété préalables Vérification graphique de l inégalité ln x x 1 y 2 y = x 1 1 y = ln x 0 0.5 1 1.5 2 2.5 x 1 2 3 4 11

Entropie d une variable aléatoire Quelques propriétés de l entropie Propriété 1. L entropie vérifie l inégalité suivante H n (p 1,..., p n ) log n, l égalité étant réalisée dans le cas d une loi uniforme, c est-à-dire i : p i = 1 n. Preuve. A partir de l inégalité de Gibbs, on pose q i = 1 n. L incertitude sur le résultat d une expérience est d autant plus grande que tous les résultats possibles sont équiprobables. 12

Entropie d une variable aléatoire Quelques propriétés de l entropie Propriété 2. L entropie augmente lorsque le nombre d états du système augmente. Preuve. Soit X une variable aléatoire discrète à valeurs dans {x 1,..., x n } avec les probabilités (p 1,..., p n ). On suppose que l état x k est scindé en deux sous-états x k1 et x k2, de probabilités respectives p k1 et p k2 non-nulles telles que p k = p k1 + p k2. L entropie de la variable aléatoire résultante X s écrit : H(X ) = H(X) + p k log p k p k1 log p k1 p k2 log p k2 = H(X) + p k1 (log p k log p k1 ) + p k2 (log p k log p k2 ). La fonction logarithmique étant strictement croissante, on a : log p k > log p ki. Il en résulte directement que H(X ) > H(X). Interprétation. Second Principe de la Thermodynamique 13

Entropie d une variable aléatoire Quelques propriétés de l entropie Propriété 3. L entropie H n est une fonction concave de p 1,..., p n. Preuve. Soient 2 distributions de probabilité discrètes (p 1,..., p n ) et (q 1,..., q n ). La concavité de la fonction entropie qu il s agit de démontrer se traduit par le fait que pour tout λ de l intervalle [0, 1], on a : H n (λp 1 + (1 λ)q 1,..., λp n + (1 λ)q n ) λh n (p 1,..., p n ) + (1 λ)h n (q 1,..., q n ). En posant f(x) = x log x, on peut écrire que : H n (λp 1 + (1 λ)q 1,..., λp n + (1 λ)q n ) = n f(λp i + (1 λ)q i ). i=1 Le résultat découle directement de la concavité de f( ). 14

Entropie d une variable aléatoire Quelques propriétés de l entropie Vérification graphique de la concavité de f(x) = x log x 0 PSfrag replacements f(x) 3 5 0 1 2 x 15

Entropie d une variable aléatoire Quelques propriétés de l entropie La convexité de H n peut être généralisée à un nombre quelconque de distributions. Propriété 4. Étant donné {(q 1j,..., q nj )} m j=1 un ensemble fini de distributions de probabilité discrètes, l inégalité suivante est satisfaite : H n ( m λ j q 1j,..., j=1 m λ j q mj ) j=1 m λ j H n (q 1j,..., q mj ), j=1 avec {λ j } m j=1 des éléments de [0, 1] tels que m j=1 λ j = 1. Preuve. Comme dans le cas précédent, la démonstration de cette inégalité repose sur la concavité de la fonction f(x) = x log x. A charge du lecteur de le vérifier. 16

Couple de variables aléatoires Entropie conjointe Définition 5. Soient X et Y des variables aléatoires à valeurs dans {x 1,..., x n } et {y 1,..., y m }, respectivement. L entropie conjointe de X et Y est donnée : H(X, Y ) n m P (X = x i, Y = y j ) log P (X = x i, Y = y j ). i=1 j=1 l entropie conjointe est une grandeur symétrique : H(X, Y ) = H(Y, X) Exemple. Cas de variables aléatoires indépendantes ou strictement liées. 17

Couple de variables aléatoires Entropie conditionnelle Définition 6. Soient X et Y des variables aléatoires à valeurs dans {x 1,..., x n } et {y 1,..., y m }. L entropie conditionnelle de X sachant que Y = y j est donnée : H(X Y = y j ) n P (X = x i Y = y j ) log P (X = x i Y = y j ). i=1 incertitude moyenne sur le résultat de X sachant que celui de Y est y j Définition 7. L entropie conditionnelle moyenne de X sachant Y est donnée par : H(X Y ) m P (Y = y j ) H(X Y = y j ), j=1 Exemple. Cas de variables aléatoires indépendantes ou strictement liées. 18

Couple de variables aléatoires Relations entre les entropies La première relation énoncée lie ainsi les diverses entropies définies précédemment : H(X, Y ) = H(X) + H(Y X) = H(Y ) + H(X Y ). Ces égalités se démontrent aisément en écrivant d abord log P (X = x, Y = y) = log P (X = x Y = y) + log P (Y = y), puis en prenant l espérance mathématique de chacun des membres. Propriété 5 (règle de chaînage). L entropie jointe de de n variables aléatoires peut être évaluée selon la règle de chaînage suivante : H(X 1,..., X n ) = n H(X i X 1... X i 1 ). i=1 19

Couple de variables aléatoires Relations entre les entropies Chaque élément de H(X, Y ) = H(X) + H(Y X) = H(Y ) + H(X Y ) est positif. On en déduit immédiatement que : H(X) H(X, Y ) H(Y ) H(X, Y ) 20

Couple de variables aléatoires Relations entre les entropies A partir de la convexité généralisée de l entropie, en posant q ij = P (X = x i Y = y j ) et λ j = P (Y = y j ), on aboutit à l inégalité fondamentale suivante : H(X Y ) H(X) Le conditionnement d une variable aléatoire diminue son entropie. Sans démonstration, il se généralise ainsi : Propriété 6 (décroissance par conditionnement). L entropie d une variable aléatoire décroît par conditionnements successifs, soit H(X 1 X 2,..., X n )... H(X 1 X 2, X 3 ) H(X 1 X 2 ) H(X 1 ), où X 1,..., X n désignent n variables aléatoires discrètes. 21

Couple de variables aléatoires Relations entre les entropies Soient X et Y des variables aléatoires à valeurs dans {x 1,..., x n } et {y 1,..., y m }, respectivement. Les relations fondamentales vues précédemment se résument ainsi : 0 H(X Y ) H(X) H(X, Y ) H(X) + H(Y ) 2H(X, Y ). 22

Couple de variables aléatoires Information mutuelle moyenne Définition 8. L information mutuelle moyenne de X et Y est définie par ou encore, de façon équivalente, I(X, Y ) H(X) H(X Y ) I(X, Y ) n i=1 m j=1 P (X = x i, Y = y j ) log P (X = x i, Y = y j ) P (X = x i ) P (Y = y j ). L information mutuelle représente l incertitude moyenne sur X diminuée de celle qui subsiste lorsque Y est connue. Exercice. Cas de variables aléatoires indépendantes et strictement liées. 23

Couple de variables aléatoires Information mutuelle moyenne Afin de donner une autre interprétation de l information mutuelle, on rappelle préalablement la définition suivante. Définition 9. On appelle distance de Kullback-Leibler entre deux distributions P 1 et P 2, ici supposées discrètes, la quantité d(p 1, P 2 ) = x X(Ω) P 1 (X = x) log P 1(X = x) P 2 (X = x). L information mutuelle correspond à la distance de Kullback-Leibler entre la loi jointe et le produit des distributions marginales de X et Y. 24

Couple de variables aléatoires Diagramme de Venn Le diagramme de Venn, ici à 2 variables, constitue un moyen mnémotechnique. rag replacements H(X) H(Y ) H(Y ) H(X, Y ) H(X Y ) H(X Y ) H(Y X) I(X, Y ) 25