Théorie de l information : historique Développée dans les années quarante par Claude Shannon. Objectif : maximiser la quantité d information pouvant être transmise par un canal de communication imparfait. Shannon voulait déterminer les maxima théoriques de : la compression de données (l entropie) le taux de transmission du canal (la capacité du canal) Shannon a montré que l on pouvait transmettre de l information à travers un canal bruité avec une probabilité d erreur nulle tant que l on ne dépasse pas la capacité du canal. Méthodes probabilistes - Théorie de l information p./42
Liens avec le TAL La théorie de l information a servi de cadre théorique aux premiers travaux de TAL probabiliste dans les années 70. Plusieurs applications de TAL peuvent être modélisées à l aide des outils de la théorie de l information en particulier la reconnaissance de la parole et la traduction automatique. Les mesures développées dans le cadre de la théorie de l information (entropie et information mutuelle) sont utiles pour de nombreux aspects du TAL. Méthodes probabilistes - Théorie de l information p.2/42
Plan Entropie Le théorème du canal sans bruit. Information mutuelle Le théorème du canal bruité Application du modèle du canal bruité au TAL Méthodes probabilistes - Théorie de l information p.3/42
Surprise Soit E, l un des événements pouvant survenir à la suite d une expérience. A quel point serions-nous surpris d apprendre que E a effectivement eu lieu? La surprise liée à E est liée à la probabilité de E. Elle est d autant plus élevée que la probabilité est faible. Méthodes probabilistes - Théorie de l information p.4/42
Suprise La surprise est formalisée sous la forme d une fonction S(p), où p est une probabilité différente de 0. On désire que cette fonction réponde aux conditions suivantes :. S() = 0 il n y a pas de surprise à apprendre qu un événement certain est effectivement arrivé. 2. S est une fonction strictement décroissante de p. (si p < q alors S(p) > S(q)). Plus un événement est improbable plus grande sera notre surprise. 3. S(pq) = S(p) + S(q) Méthodes probabilistes - Théorie de l information p.5/42
Suprise S(pq) = S(p) + S(q) Soient deux événement indépendants E et F de probabilités respectives p et q. Comme P(EF) = pq, la surprise correspondant à l apparition simultanée de E et F est S(pq). On apprend que E est survenu, puis, plus tard, que F est survenu lui aussi. La surprise additionnelle créée par le fait que F survienne vaut : S(pq) S(p) F étant indépendant de E, l information sur E ne change pas la probabilité de F, la surprise conditionnelle doit donc être S(q), d où la condition : S(pq) = S(p) + S(q) Méthodes probabilistes - Théorie de l information p.6/42
Suprise Une fonction vérifiant les conditions précédentes est la fonction suivante : S(p) = log 2 (p) La surprise est mesurée en bits binary digits. Un bit est la quantité d information correspondant à une probabilité de /2. Exemple : on tire une carte d un jeu de 52 cartes. Soit E l événement la carte tirée est l as de pique. P(E) = 52 S( 52 ) = log 2( 52 ) = log 2(52) = 5.7bits 6 bits : 2 pour la couleur et 4 pour la valeur. Méthodes probabilistes - Théorie de l information p.7/42
Entropie d une variable aléatoire Soit X une variable aléatoire qui prend ses valeurs dans l ensemble {x,x 2,...x n } avec les probabilités correspondantes p,p 2,...p n (P(X = x i ) = p i ). La grandeur log 2 (p i ) représentant la mesure de la surprise associée à l événement X = x i, la surprise moyenne créée lorsqu on apprend quelle valeur X a prise est : H(X) = n p i log 2 (p i ) i= Cette quantité est appelée entropie de la variable aléatoire X (par convention, si l un des p i vaut 0, on déclare que 0 log 2 (0) vaut 0). Méthodes probabilistes - Théorie de l information p.8/42
Entropie d une variable aléatoire On peut montrer que H(X) est maximale lorsque tous les p i sont égaux. Méthodes probabilistes - Théorie de l information p.9/42
Exemple de la pièce P(X = pile) = p P(X = face) = p 0.9 0.8 0.7 0.6 H(X) 0.5 0.4 0.3 0.2 0. 0 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 p Méthodes probabilistes - Théorie de l information p.0/42
Entropie d une variable aléatoire H(X) représente la surprise moyenne associée à la découverte de la valeur de X. On peut aussi l assimiler à la quantité d incertitude relative à cette variable aléatoire. La théorie de l information considère H(X) comme l information liée à l observation de X. On peut donc dire que : la surprise moyenne causée par X, l incertitude liée à X l information moyenne recelée par X, représentent en fait le même concept abordé par des points de vue un peu différents. Méthodes probabilistes - Théorie de l information p./42
Théorie du codage et entropie On désire transmettre la valeur prise par une variable aléatoire discrète X d un point A où on l observe, jusqu à un point B, ceci grâce à un système de communication ne véhiculant que des 0 ou des. On code les diverses valeurs que X peut prendre pour les transformer en chaînes de 0 et de. Pour éviter toute ambiguïté, on exige normalement qu il soit impossible de former un code simplement en ajoutant une séquence de 0 et de à un code existant. Méthodes probabilistes - Théorie de l information p.2/42
Théorie du codage et entropie Supposons que X puisse prendre l une des quatre valeurs x,x 2,x 3,x 4. Un code possible est : x 00 x 2 0 x 3 0 x 4 Méthodes probabilistes - Théorie de l information p.3/42
Théorie du codage et entropie On peut aussi utiliser le code suivant : x 0 x 2 0 x 3 0 x 4 Ce dernier code a ceci de particulier que tous les codes n ont pas la même longueur. L un des objectifs ordinairement assignés au codage est de minimiser la longueur moyenne des messages à transmettre de A à B, la longueur d un message étant le nombre de bits qui le compose. Méthodes probabilistes - Théorie de l information p.4/42
Théorie du codage et entropie Si l on suppose que la loi de probabilité de la variable X est la suivante : P(X = x ) = 2 P(X = x 2 ) = 4 P(X = x 3 ) = 8 P(X = x 4 ) = 8 Le second code utilisera en moyenne : + 2 + 3 + 3 =, 75 bits pour transmettre 2 4 8 8 une des 4 valeurs x,x 2,x 3,x 4. Alors que le premier code nécessite 2 bits en moyenne. Méthodes probabilistes - Théorie de l information p.5/42
Théorie du codage et entropie Etant donné une variable aléatoire X, quel est l efficacité maximale que puisse atteindre un codage? La réponse à cette question est donnée par le théorème du codage sans bruit qui dit que pour tout codage, il faudra transmettre un nombre de bits moyen au moins égal à l entropie de X. Méthodes probabilistes - Théorie de l information p.6/42
Théorème du codage sans bruit Soit X une variable aléatoire pouvant prendre les valeurs x,...x N avec pour probabilités respectives p(x )...p(x N ). Tout codage de X traduisant x i grâce à n i bits utilisera un nombre moyen de bits supérieur ou égal à l entropie de X. N n i p(x i ) H(X) = N p(x i ) log 2 (p(x i )) i= i= Méthodes probabilistes - Théorie de l information p.7/42
Entropie conjointe L entropie conjointe d une paire de variables aléatoires discretes X,Y de loi de probabilité conjointe p(x,y) est la quantité d information nécessaire en moyenne pour spécifier leurs deux valeurs. Soient deux variables aléatoires X et Y prenant leurs valeurs respectivement dans {x,x 2,...x n } et {y,y 2,...y n }, leur loi de probabilité conjointe étant : p(x i,y j ) = P(X = x i,y = y j ) On calcule grâce à cette loi conjointe l entropie H(X,Y ) attachée au vecteur aléatoire (X,Y ) : H(X,Y ) = i,j p(x i,y j ) log 2 p(x i,y j ) Méthodes probabilistes - Théorie de l information p.8/42
Entropie conditionnelle Admettons maintenant que l on ait observé que Y = y j. La quantité restante d incertitude sur X est : H(X Y = y j ) = i p(x i y j ) log 2 (p(x i y j )) où : p(x i y j ) = P(X = x i Y = y j ) Aussi écrira-t-on comme suit l incertitude moyenne associée à X après observation de Y : H(X Y ) = j H(X Y = y j )P(Y = y j ) Méthodes probabilistes - Théorie de l information p.9/42
Calcul de l entropie conditionnelle H(X Y ) = j p(y j )H(X Y = y j ) = j p(y j ) i p(x i y j ) log 2 p(x i y j ) = i,j p(y j,x i ) log 2 p(x i y j ) Méthodes probabilistes - Théorie de l information p.20/42
Entropie conjointe et entropie conditionnelle Relation entre l entropie conjointe et l entropie conditionnelle : H(Y,X) = H(Y X) + H(X) H(X,Y ) = i,j p(x i,y j ) log 2 p(x i,y j ) = i,j p(x i,y j ) log 2 p(y j x i )p(x i ) = i,j p(x i,y j ) log 2 p(y j x i ) i,j p(x i,y j ) log 2 p(x i ) = i,j p(x i,y j ) log 2 p(y j x i ) i p(x i ) log 2 p(x i ) = H(Y X) + H(X) Méthodes probabilistes - Théorie de l information p.2/42
Information mutuelle On appelle information mutuelle entre deux variables aléatoires X et Y la diminution de l incertitude associée à une variable aléatoire due à notre connaissance (observation) de l autre variable aléatoire : I(X;Y ) = H(X) H(X Y ) = H(Y ) H(Y X) L information mutuelle est une mesure symétrique de l information commune de deux variables. I(X;Y ) 0 I(X;Y ) = 0 si X et Y sont indépendantes Elle croît en fonction de la dépendance de deux variables ainsi que de leur entropie. I(X;X) = H(X) Méthodes probabilistes - Théorie de l information p.22/42
Calcul de l information mutuelle I(X; Y ) = H(X) H(X Y ) = H(X) + H(Y ) H(X, Y ) = X i p(x i )log 2 p(x i ) X j p(y j )log 2 p(y j ) + X i,j p(x i, y j )log 2 p(x i, y j ) = X i p(x i )log 2 p(x i ) + X j p(y j )log 2 p(y j ) + X i,j p(x i, y j ) log 2 p(x i, y j ) = X i,j p(x i, y j ) log 2 p(x i ) + X i,j p(x i, y j )log 2 p(y j ) X i,j p(x i, y j ) log 2 p(x i, y j ) = X i,j p(x i, y j ) log 2 p(x i, y j ) p(x i )p(y j ) Méthodes probabilistes - Théorie de l information p.23/42
Exemple On dispose d objets caractérisés par leur forme et leur couleur. trois formes (carré (C), triangle(t), rectangle (R)) trois couleurs (vert (V), noir (N), bleu (B)) on définit deux variables aléatoires : C pour la couleur F pour la forme on dispose de la loi de probabilité conjointe p(c, F) Méthodes probabilistes - Théorie de l information p.24/42
Exemple V N B C 0 0 3 3 T 0 0 3 3 R 0 0 3 3 3 3 3 I(C; F) = 3 3 log 2 = log 2 3 =.58 bits 3 9 H(C) = H(F) = 3 ( 3 log 2 3) =.58 bits! Méthodes probabilistes - Théorie de l information p.25/42
Exemple 2 C 3 8 T 8 R 2 8 3 V N B 2 8 3 8 8 3 8 2 8 3 8 3 3 3 3 I(C; F) = 3 ( 3 8 log 3 2 2 + 8 log 2 = 3 (3 0.584 + 2 0) 8 = 0.25 bits 2 + 2 8 log 2 ) Méthodes probabilistes - Théorie de l information p.26/42
Exemple 3 C 9 T 9 R 9 3 V N B 9 9 9 3 9 9 9 3 3 3 3 I(C; F) = 9 ( 9 log 2 = 0 bits 9 9 ) C et F sont indépendantes. Méthodes probabilistes - Théorie de l information p.27/42
Relations entre l information mutuelle et l entropie H(X,Y) H(X Y) H(Y X) I(X;Y) H(X) H(Y) Méthodes probabilistes - Théorie de l information p.28/42
Modèle du canal bruité W X n canal encodeur message p(y x) Y n decodeur Ŵ estimation du message Les symboles d une source sont traduits en symboles du canal (encodeur) Le canal produit une séquence de symboles en sortie Le canal est bruité : pour un symbole en entrée, il produit une distribution de probabilités sur les symboles possibles en sortie. La séquence de symboles en sortie est utilisée pour reconstruire le message (décodeur) Méthodes probabilistes - Théorie de l information p.29/42
Modèle du canal bruité Toute séquence d entrée définit une distribution de probabilité sur les séquences de sortie. Deux séquences d entrée différentes peuvent produire la même séquence de sortie, deux entrées peuvent donc être confondues. Méthodes probabilistes - Théorie de l information p.30/42
Canal discret Un canal discret est un système composé d un alphabet d entrée X, d un alphabet de sortie Y et d une matrice de probabilité de transition p(y x) qui exprime la probabilité d observer le symbole y en sortie si l on a le symbole x en entrée. Un canal est dit sans mémoire si la distribution de probabilité en sortie ne dépend que de l entrée au même instant, et qu elle est indépendante des entrées et sorties du canal précédentes. Méthodes probabilistes - Théorie de l information p.3/42
Exemple : le canal binaire symetrique p 0 0 p p p La probabilité d erreur est égale à p pour chacun des deux symboles. Méthodes probabilistes - Théorie de l information p.32/42
Qualité d un canal Soit X une variable aléatoire définie sur X décrivant le symbole en entrée du canal Soit Y une variable aléatoire définie sur Y décrivant le symbole en sortie du canal. Quelle information Y nous donne-t-elle sur X? On calcule I(X;Y ) Pour cela il faut fixer une distribution p(x) Méthodes probabilistes - Théorie de l information p.33/42
Evolution de l information mutuelle 0.9 0.8 0.7 p=0.0 p=0. p=0.2 p=0.3 p=0.4 p=0.5 I(X;Y) 0.6 0.5 0.4 0.3 0.2 0. 0 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 P(X=) Méthodes probabilistes - Théorie de l information p.34/42
Interprétation pour p = 0 et pour p X uniforme, I(X;Y ) vaut bit. cela veut dire que l observation de Y nous permet de déterminer avec certitude la valeur de X. lorsque I(X;Y ) <, l observation de Y ne nous permet plus de déterminer avec certitude la valeur de X, une partie de l information a été perdue dans le canal. Méthodes probabilistes - Théorie de l information p.35/42
Capacité d un canal On appelle capacité d un canal discret sans mémoire l information mutuelle maximale entre la sortie et l entrée qu il permet d atteindre : C = max p(x) I(X;Y ) Méthodes probabilistes - Théorie de l information p.36/42
Interprétation de la notion de capacité Supposons que le canal permette de transmettre bit/sec et que la capacité du canal soit de 0.5 bit. Bien que la vitesse de transmission soit de bit/sec. la vitesse de transmission d information est inférieure à cette valeur. Pour réaliser une transmission fiable, il faut ajouter de la redondance et, par conséquent, diminuer la vitesse de transmission d information. Le canal ne pourra transmettre de l information à une vitesse supérieure à 0.5 bit/sec sans commettre d erreurs. Méthodes probabilistes - Théorie de l information p.37/42
Le théorème du canal bruité Etant donné un canal de capacité C, il est possible de transmettre de l information à une vitesse V < C avec un taux d erreur arbitrairement faible. En d autres termes, il existe un encodage qui permet de réaliser une vitesse de transmission de l information égale à la capacité. Le théorème du canal bruité n est pas constructif, il ne dit pas comment réaliser un tel encodage. Méthodes probabilistes - Théorie de l information p.38/42
Relation avec le TAL Le modèle du canal bruité (MCB) a servi de modèle aux premiers travaux de TAL probabiliste dans les années 70 Des chercheurs du centre de recherche Watson de IBM ont modélisé la reconnaissance de la parole et la traduction automatique à l aide du canal bruité. Dans l application du MCB au TAL, on ne contrôle pas la phase d encodage, on cherche à décoder la sortie pour retrouver l entrée la plus probable. Méthodes probabilistes - Théorie de l information p.39/42
Relation avec le TAL De nombreuses applications de TAL peuvent être vues comme une tentative de construire l entrée la plus probable étant donné une sortie. Ê = arg max E P(E S) = arg max E = arg max E = arg max E P(ES) P(S) P(E)P(S E) P(S) P(E)P(S E) Méthodes probabilistes - Théorie de l information p.40/42
Relation avec le TAL Deux probabilités doivent être calculées : P(E) probabilité d une séquence d entrée, elle est calculée à l aide d un modèle de langage P(S E) probabilité d une sortie étant donné une entrée, elle est calculée à l aide d un modèle du canal. Méthodes probabilistes - Théorie de l information p.4/42
Application du MCB au TAL Application Entrée Sortie P(E) P(S E) Traduction séquence de séquence de proba. de seq. modèle Automatique mots de L mots de L 2 de mots de L traducti Correction séquence séquence proba. de seq. modèle Automatique de mots de mots de mots erreurs Etiquetage morpho séquence de séqence de proba. de seq. p(m c) syntaxique catégories mots de catégories Reconnaissance de séquence signal proba. de seq. modèle la parole de mots acoustique de mots acousti Méthodes probabilistes - Théorie de l information p.42/42