Théorie de l information : historique



Documents pareils
Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Systèmes de communications numériques 2

Transmission d informations sur le réseau électrique

Chapitre 2 : communications numériques.

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

GPA770 Microélectronique appliquée Exercices série A

Transmission de données. A) Principaux éléments intervenant dans la transmission

1.1 Codage de source et test d hypothèse

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Chaine de transmission

Loi d une variable discrète

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

Chapitre 13 Numérisation de l information

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

Correction du Baccalauréat S Amérique du Nord mai 2007

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Programmation linéaire

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

CRYPTOGRAPHIE. Signature électronique. E. Bresson. SGDN/DCSSI Laboratoire de cryptographie

Traitement bas-niveau

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

Master 1 Informatique MIF11 - Réseau Codage et éléments de théorie de l'information

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Correction du baccalauréat ES/L Métropole 20 juin 2014

Couples de variables aléatoires discrètes

Fonctions de la couche physique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Les indices à surplus constant

Texte Agrégation limitée par diffusion interne

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Une introduction aux codes correcteurs quantiques

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

!-.!#- $'( 1&) &) (,' &*- %,!

Quantification Scalaire et Prédictive

Compression Compression par dictionnaires

Université de La Rochelle. Réseaux TD n 6

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Chapitre 18 : Transmettre et stocker de l information

Python - introduction à la programmation et calcul scientifique

Introduction à l étude des Corps Finis

Modélisation et Simulation

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Chapitre I La fonction transmission

ISO/CEI NORME INTERNATIONALE

Apprentissage Automatique

Rupture et plasticité

La classification automatique de données quantitatives

Systèmes de transmission

Lois de probabilité. Anita Burgun

Modélisation et simulation

Raisonnement probabiliste

TD : Codage des images

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Programmes des classes préparatoires aux Grandes Ecoles

Simulation de variables aléatoires

Cryptographie Quantique

Expérience 3 Formats de signalisation binaire

IFT1215 Introduction aux systèmes informatiques

Codage hiérarchique et multirésolution (JPEG 2000) Codage Vidéo. Représentation de la couleur. Codage canal et codes correcteurs d erreur

Cours d initiation à la programmation en C++ Johann Cuenin

ÉPREUVE COMMUNE DE TIPE Partie D

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Codage d information. Codage d information : -Définition-

I. TRANSMISSION DE DONNEES

CHAPITRE VI ALEAS. 6.1.Généralités.

Cryptologie. Algorithmes à clé publique. Jean-Marc Robert. Génie logiciel et des TI

Probabilités. I - Expérience aléatoire. II - Evénements

L information sera transmise selon des signaux de nature et de fréquences différentes (sons, ultrasons, électromagnétiques, électriques).

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Le concept cellulaire

Communications numériques

16H Cours / 18H TD / 20H TP

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Théorie et codage de l information

Architecture des ordinateurs TD1 - Portes logiques et premiers circuits

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Le codage informatique

Fonctions de plusieurs variables

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

3. Caractéristiques et fonctions d une v.a.

Model checking temporisé

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

M2 IAD UE MODE Notes de cours (3)

Probabilités. C. Charignon. I Cours 3

Numérisation du signal

Simulation centrée individus

Moments des variables aléatoires réelles

données en connaissance et en actions?

Projet Matlab : un logiciel de cryptage

Chapitre 2. Eléments pour comprendre un énoncé

LA COUCHE PHYSIQUE EST LA COUCHE par laquelle l information est effectivemnt transmise.

Formats d images. 1 Introduction

Joueur B Pierre Feuille Ciseaux Pierre (0,0) (-1,1) (1,-1) Feuille (1,-1) (0,0) (-1,1) Ciseaux (-1,1) (1,-1) (0.0)

Algorithmique des Systèmes Répartis Protocoles de Communications

Transcription:

Théorie de l information : historique Développée dans les années quarante par Claude Shannon. Objectif : maximiser la quantité d information pouvant être transmise par un canal de communication imparfait. Shannon voulait déterminer les maxima théoriques de : la compression de données (l entropie) le taux de transmission du canal (la capacité du canal) Shannon a montré que l on pouvait transmettre de l information à travers un canal bruité avec une probabilité d erreur nulle tant que l on ne dépasse pas la capacité du canal. Méthodes probabilistes - Théorie de l information p./42

Liens avec le TAL La théorie de l information a servi de cadre théorique aux premiers travaux de TAL probabiliste dans les années 70. Plusieurs applications de TAL peuvent être modélisées à l aide des outils de la théorie de l information en particulier la reconnaissance de la parole et la traduction automatique. Les mesures développées dans le cadre de la théorie de l information (entropie et information mutuelle) sont utiles pour de nombreux aspects du TAL. Méthodes probabilistes - Théorie de l information p.2/42

Plan Entropie Le théorème du canal sans bruit. Information mutuelle Le théorème du canal bruité Application du modèle du canal bruité au TAL Méthodes probabilistes - Théorie de l information p.3/42

Surprise Soit E, l un des événements pouvant survenir à la suite d une expérience. A quel point serions-nous surpris d apprendre que E a effectivement eu lieu? La surprise liée à E est liée à la probabilité de E. Elle est d autant plus élevée que la probabilité est faible. Méthodes probabilistes - Théorie de l information p.4/42

Suprise La surprise est formalisée sous la forme d une fonction S(p), où p est une probabilité différente de 0. On désire que cette fonction réponde aux conditions suivantes :. S() = 0 il n y a pas de surprise à apprendre qu un événement certain est effectivement arrivé. 2. S est une fonction strictement décroissante de p. (si p < q alors S(p) > S(q)). Plus un événement est improbable plus grande sera notre surprise. 3. S(pq) = S(p) + S(q) Méthodes probabilistes - Théorie de l information p.5/42

Suprise S(pq) = S(p) + S(q) Soient deux événement indépendants E et F de probabilités respectives p et q. Comme P(EF) = pq, la surprise correspondant à l apparition simultanée de E et F est S(pq). On apprend que E est survenu, puis, plus tard, que F est survenu lui aussi. La surprise additionnelle créée par le fait que F survienne vaut : S(pq) S(p) F étant indépendant de E, l information sur E ne change pas la probabilité de F, la surprise conditionnelle doit donc être S(q), d où la condition : S(pq) = S(p) + S(q) Méthodes probabilistes - Théorie de l information p.6/42

Suprise Une fonction vérifiant les conditions précédentes est la fonction suivante : S(p) = log 2 (p) La surprise est mesurée en bits binary digits. Un bit est la quantité d information correspondant à une probabilité de /2. Exemple : on tire une carte d un jeu de 52 cartes. Soit E l événement la carte tirée est l as de pique. P(E) = 52 S( 52 ) = log 2( 52 ) = log 2(52) = 5.7bits 6 bits : 2 pour la couleur et 4 pour la valeur. Méthodes probabilistes - Théorie de l information p.7/42

Entropie d une variable aléatoire Soit X une variable aléatoire qui prend ses valeurs dans l ensemble {x,x 2,...x n } avec les probabilités correspondantes p,p 2,...p n (P(X = x i ) = p i ). La grandeur log 2 (p i ) représentant la mesure de la surprise associée à l événement X = x i, la surprise moyenne créée lorsqu on apprend quelle valeur X a prise est : H(X) = n p i log 2 (p i ) i= Cette quantité est appelée entropie de la variable aléatoire X (par convention, si l un des p i vaut 0, on déclare que 0 log 2 (0) vaut 0). Méthodes probabilistes - Théorie de l information p.8/42

Entropie d une variable aléatoire On peut montrer que H(X) est maximale lorsque tous les p i sont égaux. Méthodes probabilistes - Théorie de l information p.9/42

Exemple de la pièce P(X = pile) = p P(X = face) = p 0.9 0.8 0.7 0.6 H(X) 0.5 0.4 0.3 0.2 0. 0 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 p Méthodes probabilistes - Théorie de l information p.0/42

Entropie d une variable aléatoire H(X) représente la surprise moyenne associée à la découverte de la valeur de X. On peut aussi l assimiler à la quantité d incertitude relative à cette variable aléatoire. La théorie de l information considère H(X) comme l information liée à l observation de X. On peut donc dire que : la surprise moyenne causée par X, l incertitude liée à X l information moyenne recelée par X, représentent en fait le même concept abordé par des points de vue un peu différents. Méthodes probabilistes - Théorie de l information p./42

Théorie du codage et entropie On désire transmettre la valeur prise par une variable aléatoire discrète X d un point A où on l observe, jusqu à un point B, ceci grâce à un système de communication ne véhiculant que des 0 ou des. On code les diverses valeurs que X peut prendre pour les transformer en chaînes de 0 et de. Pour éviter toute ambiguïté, on exige normalement qu il soit impossible de former un code simplement en ajoutant une séquence de 0 et de à un code existant. Méthodes probabilistes - Théorie de l information p.2/42

Théorie du codage et entropie Supposons que X puisse prendre l une des quatre valeurs x,x 2,x 3,x 4. Un code possible est : x 00 x 2 0 x 3 0 x 4 Méthodes probabilistes - Théorie de l information p.3/42

Théorie du codage et entropie On peut aussi utiliser le code suivant : x 0 x 2 0 x 3 0 x 4 Ce dernier code a ceci de particulier que tous les codes n ont pas la même longueur. L un des objectifs ordinairement assignés au codage est de minimiser la longueur moyenne des messages à transmettre de A à B, la longueur d un message étant le nombre de bits qui le compose. Méthodes probabilistes - Théorie de l information p.4/42

Théorie du codage et entropie Si l on suppose que la loi de probabilité de la variable X est la suivante : P(X = x ) = 2 P(X = x 2 ) = 4 P(X = x 3 ) = 8 P(X = x 4 ) = 8 Le second code utilisera en moyenne : + 2 + 3 + 3 =, 75 bits pour transmettre 2 4 8 8 une des 4 valeurs x,x 2,x 3,x 4. Alors que le premier code nécessite 2 bits en moyenne. Méthodes probabilistes - Théorie de l information p.5/42

Théorie du codage et entropie Etant donné une variable aléatoire X, quel est l efficacité maximale que puisse atteindre un codage? La réponse à cette question est donnée par le théorème du codage sans bruit qui dit que pour tout codage, il faudra transmettre un nombre de bits moyen au moins égal à l entropie de X. Méthodes probabilistes - Théorie de l information p.6/42

Théorème du codage sans bruit Soit X une variable aléatoire pouvant prendre les valeurs x,...x N avec pour probabilités respectives p(x )...p(x N ). Tout codage de X traduisant x i grâce à n i bits utilisera un nombre moyen de bits supérieur ou égal à l entropie de X. N n i p(x i ) H(X) = N p(x i ) log 2 (p(x i )) i= i= Méthodes probabilistes - Théorie de l information p.7/42

Entropie conjointe L entropie conjointe d une paire de variables aléatoires discretes X,Y de loi de probabilité conjointe p(x,y) est la quantité d information nécessaire en moyenne pour spécifier leurs deux valeurs. Soient deux variables aléatoires X et Y prenant leurs valeurs respectivement dans {x,x 2,...x n } et {y,y 2,...y n }, leur loi de probabilité conjointe étant : p(x i,y j ) = P(X = x i,y = y j ) On calcule grâce à cette loi conjointe l entropie H(X,Y ) attachée au vecteur aléatoire (X,Y ) : H(X,Y ) = i,j p(x i,y j ) log 2 p(x i,y j ) Méthodes probabilistes - Théorie de l information p.8/42

Entropie conditionnelle Admettons maintenant que l on ait observé que Y = y j. La quantité restante d incertitude sur X est : H(X Y = y j ) = i p(x i y j ) log 2 (p(x i y j )) où : p(x i y j ) = P(X = x i Y = y j ) Aussi écrira-t-on comme suit l incertitude moyenne associée à X après observation de Y : H(X Y ) = j H(X Y = y j )P(Y = y j ) Méthodes probabilistes - Théorie de l information p.9/42

Calcul de l entropie conditionnelle H(X Y ) = j p(y j )H(X Y = y j ) = j p(y j ) i p(x i y j ) log 2 p(x i y j ) = i,j p(y j,x i ) log 2 p(x i y j ) Méthodes probabilistes - Théorie de l information p.20/42

Entropie conjointe et entropie conditionnelle Relation entre l entropie conjointe et l entropie conditionnelle : H(Y,X) = H(Y X) + H(X) H(X,Y ) = i,j p(x i,y j ) log 2 p(x i,y j ) = i,j p(x i,y j ) log 2 p(y j x i )p(x i ) = i,j p(x i,y j ) log 2 p(y j x i ) i,j p(x i,y j ) log 2 p(x i ) = i,j p(x i,y j ) log 2 p(y j x i ) i p(x i ) log 2 p(x i ) = H(Y X) + H(X) Méthodes probabilistes - Théorie de l information p.2/42

Information mutuelle On appelle information mutuelle entre deux variables aléatoires X et Y la diminution de l incertitude associée à une variable aléatoire due à notre connaissance (observation) de l autre variable aléatoire : I(X;Y ) = H(X) H(X Y ) = H(Y ) H(Y X) L information mutuelle est une mesure symétrique de l information commune de deux variables. I(X;Y ) 0 I(X;Y ) = 0 si X et Y sont indépendantes Elle croît en fonction de la dépendance de deux variables ainsi que de leur entropie. I(X;X) = H(X) Méthodes probabilistes - Théorie de l information p.22/42

Calcul de l information mutuelle I(X; Y ) = H(X) H(X Y ) = H(X) + H(Y ) H(X, Y ) = X i p(x i )log 2 p(x i ) X j p(y j )log 2 p(y j ) + X i,j p(x i, y j )log 2 p(x i, y j ) = X i p(x i )log 2 p(x i ) + X j p(y j )log 2 p(y j ) + X i,j p(x i, y j ) log 2 p(x i, y j ) = X i,j p(x i, y j ) log 2 p(x i ) + X i,j p(x i, y j )log 2 p(y j ) X i,j p(x i, y j ) log 2 p(x i, y j ) = X i,j p(x i, y j ) log 2 p(x i, y j ) p(x i )p(y j ) Méthodes probabilistes - Théorie de l information p.23/42

Exemple On dispose d objets caractérisés par leur forme et leur couleur. trois formes (carré (C), triangle(t), rectangle (R)) trois couleurs (vert (V), noir (N), bleu (B)) on définit deux variables aléatoires : C pour la couleur F pour la forme on dispose de la loi de probabilité conjointe p(c, F) Méthodes probabilistes - Théorie de l information p.24/42

Exemple V N B C 0 0 3 3 T 0 0 3 3 R 0 0 3 3 3 3 3 I(C; F) = 3 3 log 2 = log 2 3 =.58 bits 3 9 H(C) = H(F) = 3 ( 3 log 2 3) =.58 bits! Méthodes probabilistes - Théorie de l information p.25/42

Exemple 2 C 3 8 T 8 R 2 8 3 V N B 2 8 3 8 8 3 8 2 8 3 8 3 3 3 3 I(C; F) = 3 ( 3 8 log 3 2 2 + 8 log 2 = 3 (3 0.584 + 2 0) 8 = 0.25 bits 2 + 2 8 log 2 ) Méthodes probabilistes - Théorie de l information p.26/42

Exemple 3 C 9 T 9 R 9 3 V N B 9 9 9 3 9 9 9 3 3 3 3 I(C; F) = 9 ( 9 log 2 = 0 bits 9 9 ) C et F sont indépendantes. Méthodes probabilistes - Théorie de l information p.27/42

Relations entre l information mutuelle et l entropie H(X,Y) H(X Y) H(Y X) I(X;Y) H(X) H(Y) Méthodes probabilistes - Théorie de l information p.28/42

Modèle du canal bruité W X n canal encodeur message p(y x) Y n decodeur Ŵ estimation du message Les symboles d une source sont traduits en symboles du canal (encodeur) Le canal produit une séquence de symboles en sortie Le canal est bruité : pour un symbole en entrée, il produit une distribution de probabilités sur les symboles possibles en sortie. La séquence de symboles en sortie est utilisée pour reconstruire le message (décodeur) Méthodes probabilistes - Théorie de l information p.29/42

Modèle du canal bruité Toute séquence d entrée définit une distribution de probabilité sur les séquences de sortie. Deux séquences d entrée différentes peuvent produire la même séquence de sortie, deux entrées peuvent donc être confondues. Méthodes probabilistes - Théorie de l information p.30/42

Canal discret Un canal discret est un système composé d un alphabet d entrée X, d un alphabet de sortie Y et d une matrice de probabilité de transition p(y x) qui exprime la probabilité d observer le symbole y en sortie si l on a le symbole x en entrée. Un canal est dit sans mémoire si la distribution de probabilité en sortie ne dépend que de l entrée au même instant, et qu elle est indépendante des entrées et sorties du canal précédentes. Méthodes probabilistes - Théorie de l information p.3/42

Exemple : le canal binaire symetrique p 0 0 p p p La probabilité d erreur est égale à p pour chacun des deux symboles. Méthodes probabilistes - Théorie de l information p.32/42

Qualité d un canal Soit X une variable aléatoire définie sur X décrivant le symbole en entrée du canal Soit Y une variable aléatoire définie sur Y décrivant le symbole en sortie du canal. Quelle information Y nous donne-t-elle sur X? On calcule I(X;Y ) Pour cela il faut fixer une distribution p(x) Méthodes probabilistes - Théorie de l information p.33/42

Evolution de l information mutuelle 0.9 0.8 0.7 p=0.0 p=0. p=0.2 p=0.3 p=0.4 p=0.5 I(X;Y) 0.6 0.5 0.4 0.3 0.2 0. 0 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 P(X=) Méthodes probabilistes - Théorie de l information p.34/42

Interprétation pour p = 0 et pour p X uniforme, I(X;Y ) vaut bit. cela veut dire que l observation de Y nous permet de déterminer avec certitude la valeur de X. lorsque I(X;Y ) <, l observation de Y ne nous permet plus de déterminer avec certitude la valeur de X, une partie de l information a été perdue dans le canal. Méthodes probabilistes - Théorie de l information p.35/42

Capacité d un canal On appelle capacité d un canal discret sans mémoire l information mutuelle maximale entre la sortie et l entrée qu il permet d atteindre : C = max p(x) I(X;Y ) Méthodes probabilistes - Théorie de l information p.36/42

Interprétation de la notion de capacité Supposons que le canal permette de transmettre bit/sec et que la capacité du canal soit de 0.5 bit. Bien que la vitesse de transmission soit de bit/sec. la vitesse de transmission d information est inférieure à cette valeur. Pour réaliser une transmission fiable, il faut ajouter de la redondance et, par conséquent, diminuer la vitesse de transmission d information. Le canal ne pourra transmettre de l information à une vitesse supérieure à 0.5 bit/sec sans commettre d erreurs. Méthodes probabilistes - Théorie de l information p.37/42

Le théorème du canal bruité Etant donné un canal de capacité C, il est possible de transmettre de l information à une vitesse V < C avec un taux d erreur arbitrairement faible. En d autres termes, il existe un encodage qui permet de réaliser une vitesse de transmission de l information égale à la capacité. Le théorème du canal bruité n est pas constructif, il ne dit pas comment réaliser un tel encodage. Méthodes probabilistes - Théorie de l information p.38/42

Relation avec le TAL Le modèle du canal bruité (MCB) a servi de modèle aux premiers travaux de TAL probabiliste dans les années 70 Des chercheurs du centre de recherche Watson de IBM ont modélisé la reconnaissance de la parole et la traduction automatique à l aide du canal bruité. Dans l application du MCB au TAL, on ne contrôle pas la phase d encodage, on cherche à décoder la sortie pour retrouver l entrée la plus probable. Méthodes probabilistes - Théorie de l information p.39/42

Relation avec le TAL De nombreuses applications de TAL peuvent être vues comme une tentative de construire l entrée la plus probable étant donné une sortie. Ê = arg max E P(E S) = arg max E = arg max E = arg max E P(ES) P(S) P(E)P(S E) P(S) P(E)P(S E) Méthodes probabilistes - Théorie de l information p.40/42

Relation avec le TAL Deux probabilités doivent être calculées : P(E) probabilité d une séquence d entrée, elle est calculée à l aide d un modèle de langage P(S E) probabilité d une sortie étant donné une entrée, elle est calculée à l aide d un modèle du canal. Méthodes probabilistes - Théorie de l information p.4/42

Application du MCB au TAL Application Entrée Sortie P(E) P(S E) Traduction séquence de séquence de proba. de seq. modèle Automatique mots de L mots de L 2 de mots de L traducti Correction séquence séquence proba. de seq. modèle Automatique de mots de mots de mots erreurs Etiquetage morpho séquence de séqence de proba. de seq. p(m c) syntaxique catégories mots de catégories Reconnaissance de séquence signal proba. de seq. modèle la parole de mots acoustique de mots acousti Méthodes probabilistes - Théorie de l information p.42/42