S. Zozor Information, inégalités et relations d incertitude



Documents pareils
Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Simulation de variables aléatoires

Moments des variables aléatoires réelles

3. Conditionnement P (B)

Loi d une variable discrète

Programmes des classes préparatoires aux Grandes Ecoles

Travaux dirigés d introduction aux Probabilités

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Transmission d informations sur le réseau électrique

Quantification Scalaire et Prédictive

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

Probabilités sur un univers fini

Programmation linéaire

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Cours d introduction à la théorie de la détection

Différentiabilité ; Fonctions de plusieurs variables réelles

Espérance conditionnelle

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

M2 IAD UE MODE Notes de cours (3)

MODELES DE DUREE DE VIE

Image d un intervalle par une fonction continue

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

TSTI 2D CH X : Exemples de lois à densité 1

4 Distributions particulières de probabilités

Principe de symétrisation pour la construction d un test adaptatif

Communications numériques

La mesure de Lebesgue sur la droite réelle

Théorie de l estimation et de la décision statistique

Précision d un résultat et calculs d incertitudes

3. Caractéristiques et fonctions d une v.a.

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Méthodes de Simulation

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Calculs de probabilités

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Modélisation et simulation

Équations non linéaires

Fonctions de plusieurs variables

MA6.06 : Mesure et Probabilités

Qu est-ce qu une probabilité?

1.1 Codage de source et test d hypothèse

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Systèmes de communications numériques 2

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Capes Première épreuve

PROBABILITES ET STATISTIQUE I&II

4. Martingales à temps discret

DYNAMIQUE DE FORMATION DES ÉTOILES

Probabilités sur un univers fini

3 Approximation de solutions d équations

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Texte Agrégation limitée par diffusion interne

Introduction à la Statistique Inférentielle

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Table des matières. I Mise à niveau 11. Préface

MÉTHODE DE MONTE CARLO.

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Arbres binaires de décision

1 TD1 : rappels sur les ensembles et notion de probabilité

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Variables Aléatoires. Chapitre 2

Optimisation des fonctions de plusieurs variables

Théorie de la Mesure et Intégration

PRÉCIS DE SIMULATION

Dualité dans les espaces de Lebesgue et mesures de Radon finies

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

Algorithmes d'apprentissage

Modèles et Méthodes de Réservation

Introduction au pricing d option en finance

La fonction exponentielle

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Le modèle de Black et Scholes

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

FIMA, 7 juillet 2005

Dunod, Paris, 2014 ISBN

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Programmation linéaire

Introduction à la statistique non paramétrique

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Cours d analyse numérique SMI-S4

Calcul fonctionnel holomorphe dans les algèbres de Banach

Amphi 3: Espaces complets - Applications linéaires continues

ÉTUDE DE CRYPTOGRAPHIE ET DE TÉLÉPORTATION QUANTIQUES ET PROPOSITION DE QUELQUES PROTOCOLES QUANTIQUES

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Mesures de dépendance pour la séparation aveugle de sources. Application aux mélanges post non linéaires

Processus aléatoires avec application en finance

Intégrale de Lebesgue

TD1 Signaux, énergie et puissance, signaux aléatoires

Les indices à surplus constant

Université de La Rochelle. Réseaux TD n 6

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Introduction au Data-Mining

Transcription:

Information, inégalités et relations d incertitude Steeve Zozor GIPSA-Lab CNRS Grenoble INP, Grenoble, France 17-21 Mai 2010

Plan du cours 1 Entropie mesure d incertitude Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information 2 Entropie conditionnelle, Information mutuelle Quelques exemples Divergences 3 Inégalités classiques Chaînes de Markov Inégalité de la puissance entropique Estimation relations entre informations 4 Relation d incertitude d Heisenberg et versions entropiques

Plan du cours 1 Entropie mesure d incertitude Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information 2 Entropie conditionnelle, Information mutuelle Quelques exemples Divergences 3 Inégalités classiques Chaînes de Markov Inégalité de la puissance entropique Estimation relations entre informations 4 Relation d incertitude d Heisenberg et versions entropiques

Plan du cours 1 Entropie mesure d incertitude Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information 2 Entropie conditionnelle, Information mutuelle Quelques exemples Divergences 3 Inégalités classiques Chaînes de Markov Inégalité de la puissance entropique Estimation relations entre informations 4 Relation d incertitude d Heisenberg et versions entropiques

Plan du cours 1 Entropie mesure d incertitude Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information 2 Entropie conditionnelle, Information mutuelle Quelques exemples Divergences 3 Inégalités classiques Chaînes de Markov Inégalité de la puissance entropique Estimation relations entre informations 4 Relation d incertitude d Heisenberg et versions entropiques

Plan du cours Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information 1 Entropie mesure d incertitude Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information 2 Entropie conditionnelle, Information mutuelle Quelques exemples Divergences 3 Inégalités classiques Chaînes de Markov Inégalité de la puissance entropique Estimation relations entre informations 4 Relation d incertitude d Heisenberg et versions entropiques

Quelques exemples Quel est le point commun entre les problèmes suivants? Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information On dispose d un dé à 8 faces. On souhaite coder chaque face par une séquence binaire (suite de 0 et 1) suivant les contraintes: à partir d une séquence binaire correspondant à une séquence de lancers, on souhaite retrouver la séquence des faces (décodage), on souhaite, en moyenne, utiliser le moins de bits possible. Une pièce a une probabilité p de tomber sur pile. X est le nombre de lancers nécessaires pour tomber sur face et Vali vient de faire l expérience. En lui posant le moins possible de questions binaires du type X {1, 2, 3} on souhaite deviner X. On dispose d un générateur aléatoire X binaire de ±1 dont on peut régler α = Pr[X = 1]. On émet une séquence à travers un canal qui distord le symbole (l inverse, le bruite... ). Comment fixer α pour commettre le moins d erreurs possible? N particule de gaz parfait occupent un volume Λ avec chacune sa vélocité : quelle la densité de probabilité des n vitesses des particules sachant que l énergie totale P 1 i 2 mv2 i = E est fixe?

Quelques exemples Quel est le point commun entre les problèmes suivants? Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information On dispose d un dé à 8 faces. On souhaite coder chaque face par une séquence binaire (suite de 0 et 1) suivant les contraintes: à partir d une séquence binaire correspondant à une séquence de lancers, on souhaite retrouver la séquence des faces (décodage), on souhaite, en moyenne, utiliser le moins de bits possible. Une pièce a une probabilité p de tomber sur pile. X est le nombre de lancers nécessaires pour tomber sur face et Vali vient de faire l expérience. En lui posant le moins possible de questions binaires du type X {1, 2, 3} on souhaite deviner X. On dispose d un générateur aléatoire X binaire de ±1 dont on peut régler α = Pr[X = 1]. On émet une séquence à travers un canal qui distord le symbole (l inverse, le bruite... ). Comment fixer α pour commettre le moins d erreurs possible? N particule de gaz parfait occupent un volume Λ avec chacune sa vélocité : quelle la densité de probabilité des n vitesses des particules sachant que l énergie totale P 1 i 2 mv2 i = E est fixe?

Quelques exemples Quel est le point commun entre les problèmes suivants? Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information On dispose d un dé à 8 faces. On souhaite coder chaque face par une séquence binaire (suite de 0 et 1) suivant les contraintes: à partir d une séquence binaire correspondant à une séquence de lancers, on souhaite retrouver la séquence des faces (décodage), on souhaite, en moyenne, utiliser le moins de bits possible. Une pièce a une probabilité p de tomber sur pile. X est le nombre de lancers nécessaires pour tomber sur face et Vali vient de faire l expérience. En lui posant le moins possible de questions binaires du type X {1, 2, 3} on souhaite deviner X. On dispose d un générateur aléatoire X binaire de ±1 dont on peut régler α = Pr[X = 1]. On émet une séquence à travers un canal qui distord le symbole (l inverse, le bruite... ). Comment fixer α pour commettre le moins d erreurs possible? N particule de gaz parfait occupent un volume Λ avec chacune sa vélocité : quelle la densité de probabilité des n vitesses des particules sachant que l énergie totale P 1 i 2 mv2 i = E est fixe?

Quelques exemples Quel est le point commun entre les problèmes suivants? Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information On dispose d un dé à 8 faces. On souhaite coder chaque face par une séquence binaire (suite de 0 et 1) suivant les contraintes: à partir d une séquence binaire correspondant à une séquence de lancers, on souhaite retrouver la séquence des faces (décodage), on souhaite, en moyenne, utiliser le moins de bits possible. Une pièce a une probabilité p de tomber sur pile. X est le nombre de lancers nécessaires pour tomber sur face et Vali vient de faire l expérience. En lui posant le moins possible de questions binaires du type X {1, 2, 3} on souhaite deviner X. On dispose d un générateur aléatoire X binaire de ±1 dont on peut régler α = Pr[X = 1]. On émet une séquence à travers un canal qui distord le symbole (l inverse, le bruite... ). Comment fixer α pour commettre le moins d erreurs possible? N particule de gaz parfait occupent un volume Λ avec chacune sa vélocité : quelle la densité de probabilité des n vitesses des particules sachant que l énergie totale P 1 i 2 mv2 i = E est fixe?

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Entropie de Shannon, 1948 Axiomes Variable aléatoire discrète X sur {x 1,..., x n}, de loi {p k = Pr[X = x k ]} k=1,...,n But : construire une mesure d incertitude/d information H(X) = H(p 1,..., p n) pas d incertitude obs. n apporte pas d information incertitude maximum Invariante par permutation, continue selon les p k p k = 1 alors H(n) croissante (incertitude croissante) n Récursivité H = H(p 1 + p 2, p 3,...) + (p 1 + p 2)H p1 p 1 +p 2, x 1 x 2 H p1 p 1 +p 2, p 2 p 1 +p 2 {x 1, x 2} p 2 p 1 +p 2 x 3 x 3 x n x n S. Zozor Information, H(p 1,. inégalités.., p n) et relations H(p d incertitude 1 + p 2,..., p n)

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Entropie de Shannon, 1948 Axiomes équiv. Variable aléatoire discrète X sur {x 1,..., x n}, de loi {p k = Pr[X = x k ]} k=1,...,n But : construire une mesure d incertitude/d information H(X) = H(p 1,..., p n) pas d incertitude obs. n apporte pas d information incertitude maximum Incertitude élémentaire information de Hartley h(p k ), H(X) = P p k h(p k ) continue selon les p k et symétrique X, Y indépendantes, alors H(X, Y ) = H(X) + H(Y )

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Entropie de Shannon, 1948 Définition Variable aléatoire discrète X sur {x 1,..., x n}, de loi {p k = Pr[X = x k ]} k=1,...,n But : construire une mesure d incertitude/d information H(X) = H(p 1,..., p n) pas d incertitude obs. n apporte pas d information incertitude maximum Intuitivement, h(p k q k ) = h(p k ) + h(q k ) impose h(p) = α log(p) Seule possibilité : H(X) = kt X k p k log(p k ) (0 log 0 = 0) S étend au cas k Z, kt def = 1 log b.

Quelques propriétés Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information H 0 p k = δ k,l H = 0 minimum (pas d incertitude) p k = 1 H = log n (incertitude maximum dans le cas fini) n e.g. {p, 1 p} H 1 0.5 0 0 0.5 1 p Concavité : P {p k }, Q {q k } et R {λp k + (1 λ)q k }, λ [0 ; 1] H(R) λh(p ) + (1 λ)h(q) H(aX) = H(X + c) = H(X) : indépendant des valeurs prises par X

Quelques propriétés Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information H 0 p k = δ k,l H = 0 minimum (pas d incertitude) p k = 1 H = log n (incertitude maximum dans le cas fini) n e.g. {p, 1 p} H 1 0.5 0 0 0.5 1 p Concavité : P {p k }, Q {q k } et R {λp k + (1 λ)q k }, λ [0 ; 1] f(moy) H(R) λh(p ) + (1 λ)h(q) moy(f) H(aX) = H(X + c) = H(X) : indépendant des valeurs prises par X

Quelques propriétés Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information H 0 p k = δ k,l H = 0 minimum (pas d incertitude) p k = 1 H = log n (incertitude maximum dans le cas fini) n e.g. {p, 1 p} H 1 0.5 0 0 0.5 1 p Concavité : P {p k }, Q {q k } et R {λp k + (1 λ)q k }, λ [0 ; 1] f(moy) H(R) λh(p ) + (1 λ)h(q) moy(f) H(aX) = H(X + c) = H(X) : indépendant des valeurs prises par X

Un problème de codage Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Soit un dé à 8 faces équiprobables, codage binaire de chaque face : Codage sur 3 bits : (000, 001, 010, 011, 100, 101, 110, 111) En moyenne on a besoin de P 1 3 = 3 bits 8 Entropie H(X) = P p k log 2 (p k ) = P 1 log ` 1 8 2 8 = 3 bits Supposons cette fois le dé pipé, ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64 : Comme avant : codage sur 3 bits, & 3 bits en moyenne 0 forte proba. d apparition codage sur peu de bits 7 faible proba. d apparition codage sur plus de bits séquences décodable... on a besoin de... 6 bits! mais en moyenne 1 1 + 1 2 + 1 3 + 1 4 + 4 6 = 2 bits 2 4 8 16 64 Entropie H(X) = P p k log 2 (p k ) = 2 bits Code optimum de taille moyenne L : H(X) L < H(X) + 1

Un problème de codage Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Soit un dé à 8 faces équiprobables, codage binaire de chaque face : Codage sur 3 bits : (000, 001, 010, 011, 100, 101, 110, 111) En moyenne on a besoin de P 1 3 = 3 bits 8 Entropie H(X) = P p k log 2 (p k ) = P 1 log ` 1 8 2 8 = 3 bits Supposons cette fois le dé pipé, ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64 : Comme avant : codage sur 3 bits, & 3 bits en moyenne 0 forte proba. d apparition codage sur peu de bits 7 faible proba. d apparition codage sur plus de bits séquences décodable... on a besoin de... 6 bits! mais en moyenne 1 1 + 1 2 + 1 3 + 1 4 + 4 6 = 2 bits 2 4 8 16 64 Entropie H(X) = P p k log 2 (p k ) = 2 bits Code optimum de taille moyenne L : H(X) L < H(X) + 1

Un problème de codage Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Soit un dé à 8 faces équiprobables, codage binaire de chaque face : Codage sur 3 bits : (000, 001, 010, 011, 100, 101, 110, 111) En moyenne on a besoin de P 1 3 = 3 bits 8 Entropie H(X) = P p k log 2 (p k ) = P 1 log ` 1 8 2 8 = 3 bits Supposons cette fois le dé pipé, ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64 : Comme avant : codage sur 3 bits, & 3 bits en moyenne 0 forte proba. d apparition codage sur peu de bits 7 faible proba. d apparition codage sur plus de bits séquences décodable... on a besoin de... 6 bits! mais en moyenne 1 1 + 1 2 + 1 3 + 1 4 + 4 6 = 2 bits 2 4 8 16 64 Entropie H(X) = P p k log 2 (p k ) = 2 bits Code optimum de taille moyenne L : H(X) L < H(X) + 1

Un problème de codage Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Soit un dé à 8 faces équiprobables, codage binaire de chaque face : Codage sur 3 bits : (000, 001, 010, 011, 100, 101, 110, 111) En moyenne on a besoin de P 1 3 = 3 bits 8 Entropie H(X) = P p k log 2 (p k ) = P 1 log ` 1 8 2 8 = 3 bits Supposons cette fois le dé pipé, ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64 : Comme avant : codage sur 3 bits, & 3 bits en moyenne 0 forte proba. d apparition codage sur peu de bits 7 faible proba. d apparition codage sur plus de bits séquences décodable... on a besoin de... 6 bits! mais en moyenne 1 1 + 1 2 + 1 3 + 1 4 + 4 6 = 2 bits 2 4 8 16 64 Entropie H(X) = P p k log 2 (p k ) = 2 bits Code optimum de taille moyenne L : H(X) L < H(X) + 1

Un problème de codage Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Soit un dé à 8 faces équiprobables, codage binaire de chaque face : Codage sur 3 bits : (000, 001, 010, 011, 100, 101, 110, 111) En moyenne on a besoin de P 1 3 = 3 bits 8 Entropie H(X) = P p k log 2 (p k ) = P 1 log ` 1 8 2 8 = 3 bits Supposons cette fois le dé pipé, ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64 : Comme avant : codage sur 3 bits, & 3 bits en moyenne 0 forte proba. d apparition codage sur peu de bits 7 faible proba. d apparition codage sur plus de bits séquences décodable... on a besoin de... 6 bits! mais en moyenne 1 1 + 1 2 + 1 3 + 1 4 + 4 6 = 2 bits 2 4 8 16 64 Entropie H(X) = P p k log 2 (p k ) = 2 bits Code optimum de taille moyenne L : H(X) L < H(X) + 1

Un problème de codage Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Soit un dé à 8 faces équiprobables, codage binaire de chaque face : Codage sur 3 bits : (000, 001, 010, 011, 100, 101, 110, 111) En moyenne on a besoin de P 1 3 = 3 bits 8 Entropie H(X) = P p k log 2 (p k ) = P 1 log ` 1 8 2 8 = 3 bits Supposons cette fois le dé pipé, ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64 : Comme avant : codage sur 3 bits, & 3 bits en moyenne 0 forte proba. d apparition codage sur peu de bits 7 faible proba. d apparition codage sur plus de bits choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) séquences décodable... on a besoin de... 6 bits! mais en moyenne 1 1 + 1 2 + 1 3 + 1 4 + 4 6 = 2 bits 2 4 8 16 64 Entropie H(X) = P p k log 2 (p k ) = 2 bits Code optimum de taille moyenne L : H(X) L < H(X) + 1

Un problème de codage Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Soit un dé à 8 faces équiprobables, codage binaire de chaque face : Codage sur 3 bits : (000, 001, 010, 011, 100, 101, 110, 111) En moyenne on a besoin de P 1 3 = 3 bits 8 Entropie H(X) = P p k log 2 (p k ) = P 1 log ` 1 8 2 8 = 3 bits Supposons cette fois le dé pipé, ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64 : Comme avant : codage sur 3 bits, & 3 bits en moyenne 0 forte proba. d apparition codage sur peu de bits 7 faible proba. d apparition codage sur plus de bits choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) séquences décodable... on a besoin de... 6 bits! mais en moyenne 1 1 + 1 2 + 1 3 + 1 4 + 4 6 = 2 bits 2 4 8 16 64 Entropie H(X) = P p k log 2 (p k ) = 2 bits Code optimum de taille moyenne L : H(X) L < H(X) + 1

Un problème de codage Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Soit un dé à 8 faces équiprobables, codage binaire de chaque face : Codage sur 3 bits : (000, 001, 010, 011, 100, 101, 110, 111) En moyenne on a besoin de P 1 3 = 3 bits 8 Entropie H(X) = P p k log 2 (p k ) = P 1 log ` 1 8 2 8 = 3 bits Supposons cette fois le dé pipé, ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64 : Comme avant : codage sur 3 bits, & 3 bits en moyenne 0 forte proba. d apparition codage sur peu de bits 7 faible proba. d apparition codage sur plus de bits choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) séquences décodable... on a besoin de... 6 bits! mais en moyenne 1 1 + 1 2 + 1 3 + 1 4 + 4 6 = 2 bits 2 4 8 16 64 Entropie H(X) = P p k log 2 (p k ) = 2 bits Code optimum de taille moyenne L : H(X) L < H(X) + 1

Un problème de codage Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Soit un dé à 8 faces équiprobables, codage binaire de chaque face : Codage sur 3 bits : (000, 001, 010, 011, 100, 101, 110, 111) En moyenne on a besoin de P 1 3 = 3 bits 8 Entropie H(X) = P p k log 2 (p k ) = P 1 log ` 1 8 2 8 = 3 bits Supposons cette fois le dé pipé, ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64 : Comme avant : codage sur 3 bits, & 3 bits en moyenne 0 forte proba. d apparition codage sur peu de bits 7 faible proba. d apparition codage sur plus de bits choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) séquences décodable... on a besoin de... 6 bits! mais en moyenne 1 1 + 1 2 + 1 3 + 1 4 + 4 6 = 2 bits 2 4 8 16 64 Entropie H(X) = P p k log 2 (p k ) = 2 bits Code optimum de taille moyenne L : H(X) L < H(X) + 1

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Application à un problème de pile ou face Une pièce a une probabilité p de tomber sur le coté pile. Soit X le nombre de lancers successifs nécessaires pour tomber sur face. Déterminer p k = Pr[X = k] puis l entropie H(X) = f(p) de X. Quelle séquence naive de questions permettrait de deviner x? Quel est le nombre moyen N de questions à poser pour trouver x? Comparer N et H(X) dans les cas p = 1 2 et p = 2 2. Peut-on trouver une séquence de questions plus courte (en moyenne)? Si oui, quel est le nombre moyen N de questions? Conclure.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Application à un problème de pile ou face Une pièce a une probabilité p de tomber sur le coté pile. Soit X le nombre de lancers successifs nécessaires pour tomber sur face. Déterminer p k = Pr[X = k] puis l entropie H(X) = f(p) de X. Vali vient de faire x lancers pour tomber enfin sur face. On veut deviner x en lui posant une suite de questions binaires x {x 1,... x k }? Quelle séquence naive de questions permettrait de deviner x? Quel est le nombre moyen N de questions à poser pour trouver x? Comparer N et H(X) dans les cas p = 1 2 et p = 2 2. Peut-on trouver une séquence de questions plus courte (en moyenne)? Si oui, quel est le nombre moyen N de questions? Conclure.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Application à un problème de pile ou face Une pièce a une probabilité p de tomber sur le coté pile. Soit X le nombre de lancers successifs nécessaires pour tomber sur face. Déterminer p k = Pr[X = k] puis l entropie H(X) = f(p) de X. Vali vient de faire x lancers pour tomber enfin sur face. On veut deviner x en lui posant une suite de questions binaires x {x 1,... x k }? Quelle séquence naive de questions permettrait de deviner x? Quel est le nombre moyen N de questions à poser pour trouver x? Comparer N et H(X) dans les cas p = 1 2 et p = 2 2. Peut-on trouver une séquence de questions plus courte (en moyenne)? Si oui, quel est le nombre moyen N de questions? Conclure.

Extension au cas continu Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Pour X variable aléatoire continue, par analogie : Z H(X) = p(x) log p(x) dx (entropie différentielle) Pas d approche axiomatique (à ma connaissance)

Extension au cas continu Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Pour X variable aléatoire continue, par analogie : Z H(X) = p(x) log p(x) dx (entropie différentielle) Pas d approche axiomatique (à ma connaissance) Lien avec l entropie discrète : p(x) Soit x k tel que p k = p(x k ) = Z (k+1) k p(x) dx X = x k sur [k ; (k + 1) ), X {p k } p k x k x

Extension au cas continu Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Pour X variable aléatoire continue, par analogie : Z H(X) = p(x) log p(x) dx (entropie différentielle) Pas d approche axiomatique (à ma connaissance) Lien avec l entropie discrète : p(x) Soit x k tel que p k = p(x k ) = Z (k+1) k p(x) dx X = x k sur [k ; (k + 1) ), X {p k } p k x k x H X = X p k log p k = X p(x k ) log(p(x k ) ) = log X p(x k ) log p(x k )

Extension au cas continu Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Pour X variable aléatoire continue, par analogie : Z H(X) = p(x) log p(x) dx (entropie différentielle) Pas d approche axiomatique (à ma connaissance) Lien avec l entropie discrète : p(x) Soit x k tel que p k = p(x k ) = Z (k+1) k p(x) dx X = x k sur [k ; (k + 1) ), X {p k } p k x k x H X = X p k log p k = X p(x k ) log(p(x k ) ) = log X p(x k ) log p(x k ) lim H X + log = H(X) 0

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés du cas continu X définie sur [a ; b] borné, maximum H = log(b a) X uniforme H peut être négative et pour b a (pas d incertitude) Concavité : H(λp + (1 λ)q) λh(p) + (1 λ)h(q) Support R, variance/puissance fixée σ 2, maximum H(X) = 1 1 log(2πe) + log σ p(x) = 2 2π σ exp x2 2σ 2 en Gaussien, σ 2 contient toute l information/incertitude sur X H(X + c) = H(X), mais H(aX) = H(X) + log( a ) : dépend des valeurs prises par X Puissance entropique N(X) = 1 exp (2H(X)) 2πe N(X) 0 Uniforme N(X) = (b a)2 2πe 0 si b a 0 Gaussien N(X) = σ 2 0 si σ 2 0

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés du cas continu X définie sur [a ; b] borné, maximum H = log(b a) X uniforme H peut être négative et pour b a (pas d incertitude) Concavité : H(λp + (1 λ)q) λh(p) + (1 λ)h(q) Support R, variance/puissance fixée σ 2, maximum H(X) = 1 1 log(2πe) + log σ p(x) = 2 2π σ exp x2 2σ 2 en Gaussien, σ 2 contient toute l information/incertitude sur X H(X + c) = H(X), mais H(aX) = H(X) + log( a ) : dépend des valeurs prises par X Puissance entropique N(X) = 1 exp (2H(X)) 2πe N(X) 0 Uniforme N(X) = (b a)2 2πe 0 si b a 0 Gaussien N(X) = σ 2 0 si σ 2 0

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés du cas continu X définie sur [a ; b] borné, maximum H = log(b a) X uniforme H peut être négative et pour b a (pas d incertitude) Concavité : H(λp + (1 λ)q) λh(p) + (1 λ)h(q) Support R, variance/puissance fixée σ 2, maximum H(X) = 1 1 log(2πe) + log σ p(x) = 2 2π σ exp x2 2σ 2 en Gaussien, σ 2 contient toute l information/incertitude sur X H(X + c) = H(X), mais H(aX) = H(X) + log( a ) : dépend des valeurs prises par X Puissance entropique N(X) = 1 exp (2H(X)) 2πe N(X) 0 Uniforme N(X) = (b a)2 2πe 0 si b a 0 Gaussien N(X) = σ 2 0 si σ 2 0

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés du cas continu X définie sur [a ; b] borné, maximum H = log(b a) X uniforme H peut être négative et pour b a (pas d incertitude) Concavité : H(λp + (1 λ)q) λh(p) + (1 λ)h(q) Support R, variance/puissance fixée σ 2, maximum H(X) = 1 1 log(2πe) + log σ p(x) = 2 2π σ exp x2 2σ 2 en Gaussien, σ 2 contient toute l information/incertitude sur X H(X + c) = H(X), mais H(aX) = H(X) + log( a ) : dépend des valeurs prises par X Puissance entropique N(X) = 1 exp (2H(X)) 2πe N(X) 0 Uniforme N(X) = (b a)2 2πe 0 si b a 0 Gaussien N(X) = σ 2 0 si σ 2 0

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés du cas continu X définie sur [a ; b] borné, maximum H = log(b a) X uniforme H peut être négative et pour b a (pas d incertitude) Concavité : H(λp + (1 λ)q) λh(p) + (1 λ)h(q) Support R, variance/puissance fixée σ 2, maximum H(X) = 1 1 log(2πe) + log σ p(x) = 2 2π σ exp x2 2σ 2 en Gaussien, σ 2 contient toute l information/incertitude sur X H(X + c) = H(X), mais H(aX) = H(X) + log( a ) : dépend des valeurs prises par X Puissance entropique N(X) = 1 exp (2H(X)) 2πe N(X) 0 Uniforme N(X) = (b a)2 2πe 0 si b a 0 Gaussien N(X) = σ 2 0 si σ 2 0

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Entropie d un vecteur aléatoire Vecteur aléatoire X p(x) sur un domaine D de R d ou Z d, entropie de X Z H(X) = p(x) log p(x)dx ou X p k1,...,k d log p k1,...,k d D D aussi appelée entropie conjointe des X i et notée H(X 1,..., X d ) X défini sur un support D de R d de volume fini vol D H max(x) = log vol D X uniforme sur D support R d, matrice de covariance R donnée H max(x) = d log(2πe) + 1 log R X N (, R) 2 2 Puissance fixée P = Trace(R), l entropie décroit avec la corrélation Puissance entropique N(X) = 1 exp ` H(X) 2 2πe d

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Entropie d un vecteur aléatoire Vecteur aléatoire X p(x) sur un domaine D de R d ou Z d, entropie de X Z H(X) = p(x) log p(x)dx ou X p k1,...,k d log p k1,...,k d D D aussi appelée entropie conjointe des X i et notée H(X 1,..., X d ) X défini sur un support D de R d de volume fini vol D H max(x) = log vol D X uniforme sur D support R d, matrice de covariance R donnée H max(x) = d log(2πe) + 1 log R X N (, R) 2 2 Puissance fixée P = Trace(R), l entropie décroit avec la corrélation Puissance entropique N(X) = 1 exp ` H(X) 2 2πe d

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Entropie d un vecteur aléatoire Vecteur aléatoire X p(x) sur un domaine D de R d ou Z d, entropie de X Z H(X) = p(x) log p(x)dx ou X p k1,...,k d log p k1,...,k d D D aussi appelée entropie conjointe des X i et notée H(X 1,..., X d ) X défini sur un support D de R d de volume fini vol D H max(x) = log vol D X uniforme sur D support R d, matrice de covariance R donnée H max(x) = d log(2πe) + 1 log R X N (, R) 2 2 Puissance fixée P = Trace(R), l entropie décroit avec la corrélation Puissance entropique N(X) = 1 exp ` H(X) 2 2πe d

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Entropie d un vecteur aléatoire Vecteur aléatoire X p(x) sur un domaine D de R d ou Z d, entropie de X Z H(X) = p(x) log p(x)dx ou X p k1,...,k d log p k1,...,k d D D aussi appelée entropie conjointe des X i et notée H(X 1,..., X d ) X défini sur un support D de R d de volume fini vol D H max(x) = log vol D X uniforme sur D support R d, matrice de covariance R donnée H max(x) = d log(2πe) + 1 log R X N (, R) 2 2 Puissance fixée P = Trace(R), l entropie décroit avec la corrélation Puissance entropique N(X) = 1 exp ` H(X) 2 2πe d Taux d entropie : H(X) = 1 H(X) ; iid H(X ) = H(X1) d

D autres mesure d incertitude Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information (Co)variance : l incertitude est nulle si σ 2 = 0 et augmente avec σ 2 Z ( p) ( p) t Matrice/information de Fisher : et sa trace p Entropie de Rényi : H λ = 1 1 λ log R p λ (phys. stat., détec.) `R Entropie de Havrda et Charvat 67 : T q = 1 q 1 p q 1 (phys.) Entropies d ordre (r, s) (Varma 66) : H s,r = 1 R log p r R s r p s R Entropies de degré (r, s) (Kapur 67) : T s,r = 1 s r (p r p s ) f-entropies (Arimoto 71) : H f = inf p R pf ( p) f convexe, continuement dérivable ; A t = 1 t 1 R «1 t p t 1

D autres mesure d incertitude Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information (Co)variance : l incertitude est nulle si σ 2 = 0 et augmente avec σ 2 Z ( p) ( p) t Matrice/information de Fisher : et sa trace p Entropie de Rényi : H λ = 1 1 λ log R p λ (phys. stat., détec.) `R Entropie de Havrda et Charvat 67 : T q = 1 q 1 p q 1 (phys.) Entropies d ordre (r, s) (Varma 66) : H s,r = 1 R log p r R s r p s R Entropies de degré (r, s) (Kapur 67) : T s,r = 1 s r (p r p s ) f-entropies (Arimoto 71) : H f = inf p R pf ( p) f convexe, continuement dérivable ; A t = 1 t 1 R «1 t p t 1

D autres mesure d incertitude Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information (Co)variance : l incertitude est nulle si σ 2 = 0 et augmente avec σ 2 Z ( p) ( p) t Matrice/information de Fisher : et sa trace p Entropie de Rényi : H λ = 1 1 λ log R p λ (phys. stat., détec.) `R Entropie de Havrda et Charvat 67 : T q = 1 q 1 p q 1 (phys.) Entropies d ordre (r, s) (Varma 66) : H s,r = 1 R log p r R s r p s R Entropies de degré (r, s) (Kapur 67) : T s,r = 1 s r (p r p s ) f-entropies (Arimoto 71) : H f = inf p R pf ( p) f convexe, continuement dérivable ; A t = 1 t 1 R «1 t p t 1

Entropie de Rényi, 1961 Généralisation de Shannon : Continuité ; information élémentaire h(p k ) Indépendance H r(x, Y ) = H r(x) + H r(y ) h(p k q l ) = h(p k ) + h(q l ) implique h(p) = log(p) Moyenne quasi-linéaire (exponentielle) : Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information H r(x) = ϕ 1 ( P p k ϕ(h(p k )) ) avec ϕ continue croissante (KN) ϕ(x) = ax + b, conduisant à Shannon ϕ(x) = a e (1 λ)x + b avec λ 0, 1 conduisant à Rényi : H λ (X) = 1 1 λ log X Z p λ 1 k 1 λ log p λ (x) dx k

Entropie de Rényi, 1961 Généralisation de Shannon : Continuité ; information élémentaire h(p k ) Indépendance H r(x, Y ) = H r(x) + H r(y ) h(p k q l ) = h(p k ) + h(q l ) implique h(p) = log(p) Moyenne quasi-linéaire (exponentielle) : Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information H r(x) = ϕ 1 ( P p k ϕ(h(p k )) ) avec ϕ continue croissante (KN) ϕ(x) = ax + b, conduisant à Shannon ϕ(x) = a e (1 λ)x + b avec λ 0, 1 conduisant à Rényi : H λ (X) = 1 1 λ log X Z p λ 1 k 1 λ log p λ (x) dx k

Entropie de Rényi, 1961 Généralisation de Shannon : Continuité ; information élémentaire h(p k ) Indépendance H r(x, Y ) = H r(x) + H r(y ) h(p k q l ) = h(p k ) + h(q l ) implique h(p) = log(p) Moyenne quasi-linéaire (exponentielle) : Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information H r(x) = ϕ 1 ( P p k ϕ(h(p k )) ) avec ϕ continue croissante (KN) Seules solutions admissibles : ϕ(x) = ax + b, conduisant à Shannon ϕ(x) = a e (1 λ)x + b avec λ 0, 1 conduisant à Rényi : H λ (X) = 1 1 λ log X Z p λ 1 k 1 λ log p λ (x) dx k

Entropie de Rényi, 1961 Généralisation de Shannon : Continuité ; information élémentaire h(p k ) Indépendance H r(x, Y ) = H r(x) + H r(y ) h(p k q l ) = h(p k ) + h(q l ) implique h(p) = log(p) Moyenne quasi-linéaire (exponentielle) : Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information H r(x) = ϕ 1 ( P p k ϕ(h(p k )) ) avec ϕ continue croissante (KN) Seules solutions admissibles : ϕ(x) = ax + b, conduisant à Shannon ϕ(x) = a e (1 λ)x + b avec λ 0, 1 conduisant à Rényi : H λ (X) = 1 1 λ log X Z p λ 1 k 1 λ log p λ (x) dx k

Entropie de Rényi, 1961 Généralisation de Shannon : Continuité ; information élémentaire h(p k ) Indépendance H r(x, Y ) = H r(x) + H r(y ) h(p k q l ) = h(p k ) + h(q l ) implique h(p) = log(p) Moyenne quasi-linéaire (exponentielle) : Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information H r(x) = ϕ 1 ( P p k ϕ(h(p k )) ) avec ϕ continue croissante (KN) Seules solutions admissibles : ϕ(x) = ax + b, conduisant à Shannon ϕ(x) = a e (1 λ)x + b avec λ 0, 1 conduisant à Rényi : H λ (X) = 1 1 λ log X Z p λ 1 k 1 λ log p λ (x) dx k λ 1 donne H λ H λ joue un rôle de loupe

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés des entropies de Rényi Concavité pour λ 1 H λ décroît avec λ de H 0 = log vol D à H = log sup p p k = δ k,l H λ = 0 minimum X Q i {1,..., ni} et p k = Qi 1 H n λ = log( Q n i i) maximum Discret H λ 0 continu N λ exp 2 Hλ d Continu, support fini, maximum en uniforme H λ = log(vol D) Contrainte de (co)variance, maximisantes : λ>1 : f(x) `1 x t R 1 x 1 λ 1 + 1 2 d <λ<1 : f(x) `1 + x t R 1 x 1 λ 1 Student-r Student-t λ 1 λ 1 N N

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés des entropies de Rényi Concavité pour λ 1 H λ décroît avec λ de H 0 = log vol D à H = log sup p p k = δ k,l H λ = 0 minimum X Q i {1,..., ni} et p k = Qi 1 H n λ = log( Q n i i) maximum Discret H λ 0 continu N λ exp 2 Hλ d Continu, support fini, maximum en uniforme H λ = log(vol D) Contrainte de (co)variance, maximisantes : λ>1 : f(x) `1 x t R 1 x 1 λ 1 + 1 2 d <λ<1 : f(x) `1 + x t R 1 x 1 λ 1 Student-r Student-t λ 1 λ 1 N N

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés des entropies de Rényi Concavité pour λ 1 H λ décroît avec λ de H 0 = log vol D à H = log sup p p k = δ k,l H λ = 0 minimum X Q i {1,..., ni} et p k = Qi 1 H n λ = log( Q n i i) maximum Discret H λ 0 continu N λ exp 2 Hλ d Continu, support fini, maximum en uniforme H λ = log(vol D) Contrainte de (co)variance, maximisantes : λ>1 : f(x) `1 x t R 1 x 1 λ 1 + 1 2 d <λ<1 : f(x) `1 + x t R 1 x 1 λ 1 Student-r Student-t λ 1 λ 1 N N

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés des entropies de Rényi Concavité pour λ 1 H λ décroît avec λ de H 0 = log vol D à H = log sup p p k = δ k,l H λ = 0 minimum X Q i {1,..., ni} et p k = Qi 1 H n λ = log( Q n i i) maximum Discret H λ 0 continu N λ exp 2 Hλ d Continu, support fini, maximum en uniforme H λ = log(vol D) Contrainte de (co)variance, maximisantes : λ>1 : f(x) `1 x t R 1 x 1 λ 1 + 1 2 d <λ<1 : f(x) `1 + x t R 1 x 1 λ 1 Student-r Student-t λ 1 λ 1 N N

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Quelques propriétés des entropies de Rényi Concavité pour λ 1 H λ décroît avec λ de H 0 = log vol D à H = log sup p p k = δ k,l H λ = 0 minimum X Q i {1,..., ni} et p k = Qi 1 H n λ = log( Q n i i) maximum Discret H λ 0 continu N λ exp 2 Hλ d Continu, support fini, maximum en uniforme H λ = log(vol D) Contrainte de (co)variance, maximisantes : λ>1 : f(x) `1 x t R 1 x 1 λ 1 + 1 2 d <λ<1 : f(x) `1 + x t R 1 x 1 λ 1 Rappel : λ joue un rôle de loupe Student-r Student-t λ 1 λ 1 N N

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) Choix (00, 01, 100, 101, 1100, 1101, 1110, 1111) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) Choix (00, 01, 100, 101, 1100, 1101, 1110, 1111) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information Exemple de codage Campbell 65, Bercher 09 Codage binaire des faces du dé à 8 faces pipé de loi ` 1 2, 1 4, 1 8, 1 16, 1 64, 1 64, 1 64, 1 64. Code instantanné (mot non préfixe d un autre) Kraft P i 2 l i 1 de longueur moyenne: L = P i pili minimale l i = log 2 p i et L = H(X) (l i = log p i et L H(X)) choix (0, 10, 110, 1110, 111100, 111101, 111110, 111111) L = 2 = H(X) mais malgré tout, besoin de 6 bits Pénalisation des mots longs : minimisation de C λ = 1 log α 2 C 0 = L et C = max i l i P i pi2αl i l i = log 2 ep i et C α = H λ (X), avec λ = 1 et 1+α epi = P pλ i k pλ k Pénalisation M λ = P i epili et code / distrib. compagne {epi}i α = 1, ( 10 2 12 7, 10 6 2 7, 5 2 6 7, 5 3 2 7, 5 3 2 14, 5 3 2 14, 5 3 2 14, 5 3 2 14 ) Choix (00, 01, 100, 101, 1100, 1101, 1110, 1111) L = 2.31 > L, mais besoin de 4 bits H.5(X) = 2.42 et C 1 = 2.46 ; H( e X) = 1.85 et M.5 = 2.69.

Un peu de physique Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information i=1 Gaz parfait : N particules, volume Λ, ( N ) Ω Λ,N,E = (v 1,..., v N ) H = X 1 2 mv2 i = E (hypersphère) répartition uniforme sur la surface Ω Λ,N,E (entropie maximum)

Un peu de physique Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information i=1 Gaz parfait : N particules, volume Λ, ( N ) Ω Λ,N,E = (v 1,..., v N ) H = X 1 2 mv2 i = E (hypersphère) répartition uniforme sur la surface Ω Λ,N,E (entropie maximum) Sous-ensemble Λ 0 Λ de N 0 < N particules : p(v 1,..., v N0 ) 1 m 2E vt 0v 0 3 (N N 0 ) 2 2

Un peu de physique Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information i=1 Gaz parfait : N particules, volume Λ, ( N ) Ω Λ,N,E = (v 1,..., v N ) H = X 1 2 mv2 i = E (hypersphère) répartition uniforme sur la surface Ω Λ,N,E (entropie maximum) Sous-ensemble Λ 0 Λ de N 0 < N particules : p(v 1,..., v N0 ) 1 m 2E vt 0v 0 3 (N N 0 ) 2 2 Limite thermodynamique : Λ R 3 N, ρ et E e Λ Λ p(v 1,..., v N0 ) exp 3mρ «4e vt 0v 0 (Boltzmann)

Un peu de physique Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information i=1 Gaz parfait : N particules, volume Λ, ( N ) Ω Λ,N,E = (v 1,..., v N ) H = X 1 2 mv2 i = E (hypersphère) répartition uniforme sur la surface Ω Λ,N,E (entropie maximum) Sous-ensemble Λ 0 Λ de N 0 < N particules : p(v 1,..., v N0 ) 1 m 2E vt 0v 0 3 (N N 0 ) 2 2 Limite thermodynamique : Λ R 3 N, ρ et E e Λ Λ p(v 1,..., v N0 ) exp 3mρ «4e vt 0v 0 (Boltzmann) Shannon

Un peu de physique Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information i=1 Gaz parfait : N particules, volume Λ, ( N ) Ω Λ,N,E = (v 1,..., v N ) H = X 1 2 mv2 i = E (hypersphère) répartition uniforme sur la surface Ω Λ,N,E (entropie maximum) Sous-ensemble Λ 0 Λ de N 0 < N particules : p(v 1,..., v N0 ) 1 m 2E vt 0v 0 3 (N N 0 ) 2 2 Rényi, α = 3N 3N0 3N 3N 0 2 > 1 Limite thermodynamique : Λ R 3 N, ρ et E e Λ Λ p(v 1,..., v N0 ) exp 3mρ «4e vt 0v 0 (Boltzmann) Shannon

Plan du cours Entropie conditionnelle, Information mutuelle Quelques exemples Divergences 1 Entropie mesure d incertitude Axiomes, entropie de Shannon et ses propriétés Entropie différentielle cas vectoriel D autres mesures d information 2 Entropie conditionnelle, Information mutuelle Quelques exemples Divergences 3 Inégalités classiques Chaînes de Markov Inégalité de la puissance entropique Estimation relations entre informations 4 Relation d incertitude d Heisenberg et versions entropiques

Entropie conditionnelle Soient X et Y : degré d incertitude H(X) et H(Y ) Entropie conditionnelle, Information mutuelle Quelques exemples Divergences Quelle information/incertitude commune X et Y partagent-ils?