UV Théorie de l Information. Introduction

Cours n 1 2 UV Théorie de l Information Introduction à la théorie de l information Caractérisation des sources d information Notions de probabilité (Rappel) Entropie et Information Entropie des sources discrètes sans mémoire composées avec mémoire q ième extension d une source Entropie limite, efficacité et redondance 1 Introduction Théorie de l information <=> Processus de transmission numérique Message émis Source d information Signal émis Signal reçu Émetteur Canal Récepteur Destinataire Bruit et distorsions Sources de perturbations Message reçu 2

Introduction Théorie de l information Théorie stochastique, fondée sur les propriétés statistiques, de messages Notions fondamentales de probabilité, entropie, information mutuelle 3 Introduction Théorie de l information => Limites de performances d un système de transmission numérique Mode de représentation de l information => quantité d information associée à chaque signe émis Cadence théorique maximale de transmission de l information => capacité d un système de transmission 4

Introduction Théorie de l information => Résultats Codage de source (ou compression des données) Augmenter la compacité des signaux (sans ou avec distorsion) Éliminer la redondance inutile Codage de canal Accroître (autant que l on veut) la sécurité de la transmission en présence de bruit Ajouter de la redondance pour la détection, voire la correction, de principales erreurs 5 Introduction Théorie de l information! " $# "%! & &"" ' (") *+",-.*+. ),- ( + ("/0/1 2 Objectif de recherche Optimiser conjointement le codeur de source et de canal 6

Introduction Théorie de l information => Extension Cryptographie Assurer le secret de la communication Encryptage à clé publique Signature digitale Générateurs d encryptage pseudo aléatoires 7 Sources d information Définition Systèmes capables de sélectionner et d émettre des séquences de signes (ou messages) appartenant à un ensemble (ou alphabet) donné Ex. de signes lettres, chiffres, échantillons Ex. de sources système à 2 niveaux logiques, texte 8

Sources d information discrètes Caractéristique alphabet utilisé fini Exemples Sources d information alphanumériques, de symboles binaires, d information numérique(e.g. signaux quantifiés en amplitude, en fréquence ou en phase) Classification Sources sans mémoire signes générés indépendamment les uns des autres => modèle de Bernoulli Sources avec mémoire prise en compte de la dépendance entre un signe émis et les signes précédents => modèle de Markov 9 Sources d information discrètes Classification Sources sans mémoire quand les signes générés sont indépendants => modèle de Bernoulli Sources avec mémoire prise en compte de la dépendance entre un signe émis et les signes précédents => modèle de Markov 10

Sources d information discrètes Classification des sources de Markov Source du 1 er ordre = la mémoire se limite au dernier signe émis Ex modélisation du processus de réalisation d un phonème Source d ordre m = la mémoire tient compte des m signes émis Ex description statistique des langues écrites usuelles 11 Sources d information continues Caractéristique nombre théorique de signes croît à l infini Remarque Limite pratique fixée par la précision limitée des observations Exemples Sources de signaux analogiques Parole, Musique, Images, Mesures 12

5 Modélisation de sources d information 13 Mécanisme statistique d émission des signes Source discrète une loi de probabilité donnée associée à une variable aléatoire discrète Source continue une loi de densité de probabilité associée à une variable aléatoire continue Exemples TEXTE = succession des réalisations de la variable aléatoire "caractère sortant du clavier" IMAGE_NB = succession de "niveaux de gris" mesurés sur une image Notions de probabilité (Rappel) 14 Source discrète variable aléatoire discrète choisissant un signe dans un alphabet de taille finie avec les probabilité qui K satisfont la condition p i7 1 Notations S 7 s i P S7 s i 7 P A i Propriétés S3 s 1, s 2,..., s K P S4 s i 4 p i P A 9 1 i6 1 Événement aléatoire Ai 08 P A 8 1 Proba. de l événement aléatoire A i qd. A est certain P A 9 0 qd. A est impossible

< Notions de probabilité (Rappel) Propriétés Événements s excluant mutuellement A et A => P A = 1> P?A Quand l événement A entraîne B A B => P A @ P B Somme des événements Événements A et B incompatibles k événements 2 à 2 incompatibles ; Cas particulier pour K événements s excluant mutuellement 15 P A A B = P A A P B P A 1B A 2B...B A k C P A 1 B P A 2 B...B P A k P A 1 B P A 2 B...B P A K C 1 Notions de probabilité (Rappel) Propriétés Somme des événements Événements A et B compatibles Produit des événements A et B Événements A et B indépendants P AB 9 P A P B Événements A et B dépendants 16 P AD B 8 P A D P B P AD B 9 P A D P B E P AB P AB 8 P A et P AB 8 P B

Notions de probabilité (Rappel) Probabilité conditionnelle de B sachant A F P BG A Propriétés P BG A > H P B Événements A et B indépendants P AB 9 P A P BG A 9 P B P AG B 08 P BG A 8 1 P BG A 9 1 B B 1 => P BG A 9 0 17 quand A B P BI A J P B 1 I A P BG A 9 P B quand A et B incompatibles Notions de probabilité Propriétés de la probabilité conditionnelle P BD CG A 9 P BG A D P CG A qd. B et C incompatibles Généralisation pour k événements Bk 2 à 2 incompatibles P < BG A 9 1E P BG A Probabilité totale d un événement B l expérience A a exactement K issues A k 2 à 2 incompatibles P B K P A 1 P BI A 1 L P A 2 P BI A 2 L...L P A K P BI A K 18

Quantité d information propre Signal = Information + Redondance Objectif Coder seulement l information et éliminer la redondance Besoin d évaluation objective de la quantité d information propre 19 Entropie et Information Information => effet de surprise ; Entropie => degré d incertitude Source S pouvant émettre N signes s i équiprobables degré d incertitude f N 7 log N 7SR log P S7 s i (selon Hartley) sh Source S pouvant émettre N signes s i non équiprobables N H S M$N O P SM s ip i log P SM s i shq signe 1 20 (selon Shannon)

Entropie des sources discrètes sans mémoire H 0 N S 9$E O P S9 s ip i log P S9 s i sht signe 1 Quantité d information associée en moyenne à chaque signe s i d une source S pouvant émettre N signes statistiquement indépendants les uns des autres Quantité moyenne d information nécessaire pour spécifier quel signe a été émis par la source séquence de signes émise par une source discrète d entropie H => séquence de bits avec en moyenne H bits/signe (1er th. de Shannon) 21 22 Entropie des sources discrètes sans mémoire Unité de mesure de la quantité d information => dépend de la base du log utilisé hartley ou dit pour une base 10 nit pour une base e shannon (sh) pour une base 2 U Remarque Ne pas confondre le shannon avec le bit!!! Un bit variable binaire transporte un shannon d information ssi ses 2 états sont équiprobables. Nombre symboles binaires bits VXW alors que Entropie sh Y Z

a Entropie des sources discrètes sans mémoire Propriétés de l entropie Continuité car l entropie H(S) est une fonction continue et convexe de p i. Montrer ceci pour N=2. Symétrie par ex. source binaire. H S\ 0,1 \ H S\ 1, 0 pour une Propriétés extrémales MAX H S ] log N quand p i =1/N MIN H S ^ 0 quand p i =1 et les autres sont nulles [ Monter que H S _ 0 p i logp i` 0 p i ] 0 23 quand Entropie des sources composées Soit S une source pouvant être décomposée en une source X (à K signes) et une source Y (à J signes) qui émettent simultanément Entropie de la source composée S (notée XY) H XY M H X b H Y H XY c H X b H Y quand X et Y sont indépendantes quand X et Y sont liées H XY d H X e H Yf X 24

Entropie conditionnelle moyenne de sources discrètes sans mémoire H YG X entropie conditionnelle moyenne de la source Y liée à la source X N H Yg x entropie H YG X 9 O p x conditionnelle de la ip i H YG i x i 1 source Y quand la source X produit le signe x i Propriétés 0h H Yi X h H Y H X j H Yk X ] H Y j H Xk Y, car H XY ] H YX H Yl X m H Xl Y 25 Entropie et Information Information sur une source => diminution du degré d incertitude ; Quantité d information = DDE (Diminution D Entropie) Cas particulier Source complètement prévisible; Quantité d information acquise lorsque l état d un système physique devient entièrement connu = Entropie du système Cas général Soit X la source à étudier et soit Y une source pouvant être observée afin fournir de renseignements sur X I Y p X n H X o H Xl Y I Y p X n I X p Y n I X; Y, information mutuelle moyenne contenue dans les sources X et Y 26 I X n H X o 0

Entropie et Information Information mutuelle moyenne Définition I X;Y n H X q H Y o H XY Diagramme de Venn Propriétés H(X) sources X et Y indépendantes I X;Y n 0 sources X et Y équivalentes I X;Y n I X n I Y n H X n H Y 27 I(X;Y) H(Y) H(XY) Entropie et Information Débit d information moyen (ou taux d emission de la source) Définition H X sht s T où T représente la durée moyenne d émission d un signe Remarque r H X s Débit d information moyen, exprimé en shu s Cadence d émission, exprimée en bitsu s seulement pour une source de symboles binaires équiprobables ou exprimée en bauds qd. celle ci coïncide à la vitesse de modulation de la voie. 28

Entropie et Information Conclusion L entropie dépend des probabilités p i des signes s i émis par la source S, mais ne dépend nullement de la nature de ces signes Entropie = mesure quantitative de l information contenue dans un message Entropie mesure qualitative de l information ou du contenu réel du message 29 Sources discrètes avec mémoire Soit X une source de Markov homogène d ordre m, dont l alphabet comporte N signes Comportement stationnaire, Émission d un signe en fonction des m signes précédents. Sachant qu une séquence seq donnée de m signes SEQ (ensemble comportant N m séquences distinctes), alors l entropie de la source X, conditionnelle à une séquence seq donnée, vaut N H XI seq Kwv x iy 1 30 P x i I seq log P x i I seq

Sources discrètes avec mémoire L entropie d une source de Markov homogène d ordre m, dont l alphabet comporte N signes, vaut Particularisation de la formule de l entropie d une expérience composée XY N m H m X 3 H Xz SEQ 3{x seqy 1 H XY s H YX s H X H Y } X au calcul de l entropie conjointe P seq H Xz seq H SEQ, X s H SEQ H X} SEQ H m X ~ H SEQ, X H SEQ sh signe 31 Entropie de la q ième extension d une source S S q Source générant des groupes de q signes, c est à dire des vecteurs x 1, x 2,...,x q Entropie de la q ième extension S q H S q 9 H X 1, X 2,..., X q H S q 9 H X 1, X 2,..., X q 1 D H X q G X 1, X 2,..., X q 1... H S q 9 H X 1 D H X 2 G X 1 D...D H X q G X 1...X q 1 32

7 33 Entropie de la q ième extension d une source S Extension d une source sans mémoire Vecteur émis Vecteur émis x 1, x 2,...,x q = Suite I.I.D. de signes q H S q 3 x H iy 0 X i 3 qh 0 X shƒ séq. de q signes 1 H S q q ~ i 1 x 1, x 2,...,x q = Suite I.N.D. de signes H 0 X i sh séq. de q signes Entropie de la q ième extension d une source S Extension d une source avec mémoire de Markov d ordre m sur un alphabet de N signes m S q Source de Markov d ordre générant q séquences (ou mots) distincts de q signes N q H S q qh m X shˆ mot de q signes 34

35 Entropie limite d un processus stochastique Source S émettant q signes liés Variation de l entropie de la séquence émise, x 1, x 2,...,x q avec sa longueur q ; Valeur de l Entropie Limite si la limite existe 1ère déf. 08 H X q G X 1...X q 1 8 H X q 1G X 1...X q 2 8...8 H X 1 2ème déf. C Š C Š C Š i 1 HŠ lim q q H X, X,..., X 1 2 q lim q H Š lim H X q q X 1... X q 1 shœ signe 1 q H S q shœ signe 36 Entropie limite d un processus stochastique Exemples et Propriétés Séquence I.I.D. de q signes Séquences de q lettres ( alphabet de N lettres équiprobables) cas de la dactylographe Séquence I.N.D. de q signes Processus stochastique stationnaire peut ne pas exister Source de Markov homogène d ordre m=q 1 HŽ!^ lim q Ž H X q X 1... X q 1 HŽ ^ H X 1 HŽ HŽ ^ log N HŽ ^ H Ž existe tjr. ^ lim q Ž H X q X q 1 ^ H X 2 X 1

Efficacité et redondance d une source Efficacité informationnelle de la source S S9 H S H MAX S 8 1 r S K 1vX SK H MAX S v H S H MAX S 37 S 1 Redondance relative de la source S Si alors plus de signes que le minimum nécessaire utilisés pour émettre un message donné ( => il y a des signes redondants ) J 1 Mesure de l adéquation de son alphabet aux messages délivrés Pourquoi le codage de source? pour améliorer l efficacité informationnelle d une source S, notée s, en introduisant un codage préalable des signes. pour réduire la redondance des messages émis par cette source S, notée. r s 38