Compression et Transmission des Signaux Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette 1
De Shannon à Mac Donalds Mac Donalds 1955 Claude Elwood Shannon 1916 2001 Monsieur X 1951 2
Où sommes-nous sur la carte des STIC? Théorie de Shannon Théorèmes de codage Théorie de l Information Théorie de l Information Quantique Sciences de l Information Informatique Théorie de l Estimation Interaction? Codages pratiques (normes) Technologies de l Information Composants 3
Une classification des signaux La dimension temps Signaux à temps continu (TC) Signaux à temps discret (TD) La dimension amplitude Signaux continus Signaux discrets 4
Théorème d échantillonnage Théorème 1 [Shannon Nyquist Küpfmüller] Hyp: signaux à support spectral fini, continus ou discrets. Concl: signaux à temps continus signaux à temps discrets, pourvu que Dém: [Shannon1949], Communication in the presence of noise. 5
A propos des théorèmes de codage Ce qu offre un théorème de codage Partie atteignabilité (démonstration souvent constructive): existence d un bon code, idées et concepts de codage Partie réciproque: performances ultimes du système de compression/transmission Démonstration Quasi-totalité des théorèmes pour les signaux à temps discret Plus difficile pour les signaux discrets Si le cas discret est disponible, on peut généralement en déduire le cas continu (au moins gaussien) Constante de temps! 6
Compression sans Pertes 7
Deux types de compression Signaux discrets Signaux continus (ex: gaussiens) toujours des pertes 8
Débit critique? Entropie d une variable aléatoire discrète et scalaire Remarque: approche de l ingénieur (sémantique, affectif, ). 9
Définitions Source et taux de codage (source) Message binaire de longueur 10
Théorème CS sans pertes (CSSP) Théorème 2 [Shannon1948 Cover1991] Hyp: source discrète X d alphabet et sans mémoire, soit ε>0. Concl: (i) il existe un code sans préfixe dont le taux de codage est aussi proche du taux critique (l entropie) que l on veut: (ii) tout code dont le taux de codage excède le taux critique ne peut avoir une erreur de reconstruction évanescente Dém: [Shannon1948], A mathematical theory of communications, [Cover1991], Elements of information theory. Idée fondamentale: séquences typiques. LGN x souvent typique 11
Grandes lignes de la démonstration Démonstration de l atteignabilité Idée 1: n grand Idée 2: séquence très probable mot court 12
CSSP: à la recherche du Graal (1) Codage de Huffman [Huffman1952] Normes: fax, JPEG, HDTV, MP3, Idée du codage (cas scalaire) Propriétés Code sans préfixe Le taux de codage converge vers l entropie FIN DE LA QUETE??? hyperbolique Inconvénients Il faut connaître la distribution de la source Cas des sources binaires Complexité exponentielle en n Remarque: Idées 1 et 2 exploitées 13
CSSP: à la recherche du Graal (2) Codage arithmétique [Rissanen1979] Normes: JPEG, H263, Idée du codage (cas scalaire) Représenter une séquence par un réel Associer à ce réel un intervalle de [0,1] dont la longueur est proportionnelle à la probabilité de la séquence Faire une partition de [0,1] à partir de la distribution de la source Caractéristiques Le taux de codage converge vers l entropie Adaptatif (peut apprendre en ligne la distribution de la source et accommoder une source variable). Codage incrémental. Facile à prendre en compte la mémoire de la source. En pratique, meilleures performances que le codage de Huffman Source binaire: OK, particulièrement simple à faire Inconvénients: Complexité Brevets 14
CSSP: à la recherche du Graal (3) Plus généralement: autres codages universels [LZ77, LZ78, LZW] Normes: les fameux.zip But: pouvoir être utilisé pour toutes les sources Représenter une séquence par un réel Associer à ce réel un intervalle de [0,1] dont la longueur est proportionnelle à la probabilité de la séquence Faire une partition de [0,1] à partir de la distribution de la source Principe Mettre des séparateurs dans les chaînes de données Remplacer une chaîne par un pointeur Propriété Le taux de codage converge vers l entropie Dictionnaire adaptatif Inconvénients Ignore d éventuels a priori sur la source Optimum pour une classe de machine à états (ex: stationnaire et ergodique) 15
Transmission des Signaux 16
Rappel du contexte (avant 1948) Codage à répétition Probabilité d erreur Rendement informatif Codage de Hamming Rendement informatif: Probabilité d erreur: ne tend pas vers 0 car elle est déterminée par la distribution des distances de Hamming entre mots, dominée par la distance minimale. Or d min = 3 donc le décodeur ne peut pas corriger plus d une erreur par mot. 17
Définitions Canal et taux de codage [Shannon1948] BLER sans mémoire sans retour d info 18
Information mutuelle Définition (variables discrètes et scalaires) Lien avec l entropie 19
Théorème du codage canal Théorème 3 [Shannon1948 Cover1991] Hyp: canal discret sans mémoire et sans retour d information. On définit Concl: (i) il existe un code de taux de codage R < C dont la probabilité d erreur est évanescente; (ii) le taux de codage de tout code dont la probabilité d erreur est évanescente vérifie nécessairement R C. Dém: [Shannon1949], Communication in the presence of noise, [Cover1991], Elements of information theory. Atteignabilité par typicité conjointe, réciproque par Fano. Idée 1: mettre de la redondance Idée 2: mots longs Idée 3: codage aléatoire (iid et dico variable, la structure importe peu!). 20
Retrouvons la capacité du CBS (1/2) Canal binaire symétrique Observation sur le codage à répétition (cas du rendement 1/3) 000 001 010 100 011 Contenu de la boule 101 000 de centre 000 et de 111 rayon 1. 110 111 NB: pas d intersection entre les boules Contenu de la boule de centre 111 et de rayon 1. 21
Retrouvons la capacité du CBS (2/2) Empilement de sphères Visualisation Volume d une boule dans {0,1} n Approximation du terme dominant pour n grand Rayon d une boule de bruit Nombre maximal de message distincts (M) 22
Capacité de canal pour des modèles très usités Canal binaire symétrique (CBS) Canal à effacement binaire (CEB) Canal gaussien (BBAG) 23
Turbo-codage et turbo-décodage [Berrou93] Principaux ingrédients * Mots de code longs * Echange d information souple au décodeur * Complexité maîtrisée (2 codeurs simples au lieu d un compliqué). 24
Performances des turbo-codes BER Hypothèses Modulation BPSK Rendement du codeur: ½ Limite de Shannon à 0 db Canal gaussien 0.7 db Un concept générateur d idées Turbo-estimation Turbo-détection Turbo-égalisation Réveil des LDPC SNR 25
Codes de contrôle de parité à faible densité LDPC Inventeurs Gallager 1962 Redécouverts par MacKay 1995 Ingrédients Mots longs Immitent le codage aléatoire Information souple Turbo vs LDPC? Out of scope Voir par exemple: http://www.josephboutros.org/ldpc_vs_turbo/ 26
Compression avec Pertes 27
Théorèmes de CS avec pertes Théorème pour les sources discrètes [Shannon1959] Hyp: soit X une source discrète i.i.d et sa représentation approchée Concl: la fonction taux distorsion est donnée par Théorème pour les sources gaussiennes [Shannon1959] Hyp: et 1959 1974 Théorie Modèle source Critère (plus arbitraire) Concl: 28
Étude (hypercompressée!) du cas JPEG 29
Principales étapes Etapes Transformée DCT sur des blocs Quantification Codage RLE Codage entropique 30
Zoom sur un bloc Théorie taux distorsion: quantification scalaire vs vectorielle 0,255 bit/symbole 1,53 db «Vide» Pb: sensibilité aux erreurs théorème de séparation! 31
Meilleure amie et pire ennemie Uniformité spatiale Uniformité fréquentielle 32
Ouverture (fermeture) 1/2 Codage de source canal conjoint Compression robuste aux erreurs de transmission Analogique vs numérique Multi-terminal Capacité pour d autres modèles de canaux point à point Canaux variables dans le temps (sélectivité temporelle) Canaux sélectifs en fréquence Canaux à entrées et sorties vectorielles Connaissance imparfaite du canal au récepteur et/ou l émetteur Autres problèmes Capacité zéro-erreur [Shannon1956] 33
Ouverture (fermeture) 2/2 Canaux multi-terminaux: problèmes ouverts! Canal de diffusion [Cover1972] Canal à relais [Cover1979] Canal à interférence Une théorie de l information pour les réseaux unifiée Sécurité de l information [Shannon1949]: une nouvelle forme de cryptographie Evolution des approches Approche classique: lien entre l énergie et l information Nouvelle approches: limite ultime de la quantité d information par élément de volume de matière? Théorie de l information quantique 34
Quelques références passionnantes Articles et livres Articles de C. Shannon T. Cover and J. Thomas, Elements of information theory S. Mallat, A wavelet tour of signal processing S. Verdú and S. McLaughlin, Information theory: 50 years of discovery ET BIEN SÛR: R. MacDonald, Compresser, transporter et retrouver vos boeufs avec un nombre de cornes perdues arbitrairement petit 35