La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.



Documents pareils
Remboursement d un emprunt par annuités constantes

Les jeunes économistes

Mesure avec une règle

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

STATISTIQUE AVEC EXCEL

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Editions ENI. Project Collection Référence Bureautique. Extrait

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Montage émetteur commun

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Terminal numérique TM 13 raccordé aux installations Integral 33

Grandeur physique, chiffres significatifs

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Exercices d Électrocinétique

TD 1. Statistiques à une variable.

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Dirigeant de SAS : Laisser le choix du statut social

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Interface OneNote 2013

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Généralités sur les fonctions 1ES

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

santé Les arrêts de travail des séniors en emploi

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

Système solaire combiné Estimation des besoins énergétiques

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

COMPARAISON DE MÉTHODES POUR LA CORRECTION

INTERNET. Initiation à

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

Paquets. Paquets nationaux 1. Paquets internationaux 11

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

hal , version 1-14 Aug 2009

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Le Prêt Efficience Fioul

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Prêt de groupe et sanction sociale Group lending and social fine

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Pour plus d'informations, veuillez nous contacter au ou à

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

Page 5 TABLE DES MATIÈRES

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

P R I S E E N M A I N R A P I D E O L I V E 4 H D

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Avez-vous vous aperçu cette drôle de trogne? Entre nature et histoire autour de Mondoubleau

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

Professionnel de santé équipé de Médiclick!

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

Pro2030 GUIDE D UTILISATION. Français

Projet de fin d études

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Corrigé du problème de Mathématiques générales Partie I

Analyse des Performances et Modélisation d un Serveur Web

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Des solutions globales fi ables et innovantes.

1. Les enjeux de la prévision du risque de défaut de paiement

LICENCE DE SCIENCES PHYSIQUES UV 3LSPH50. Année MODÉLISATION. Recherche des paramètres d'une représentation analytique J.P.

- Acquisition de signaux en sismologie large bande. - Acquisition de signaux lents, magnétisme, MT.

Stéganographie Adaptative par Oracle (ASO)

Dynamique du point matériel

Les méthodes numériques de la dynamique moléculaire

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

La Quantification du Risque Opérationnel des Institutions Bancaires

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Calcul de tableaux d amortissement

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

L ABC du traitement cognitivo-comportemental de l insomnie primaire

Guide d installation. Système d alarme bidirectionnel sans-fil. Modèles:

Le guide pratique pour y parvenir

Mots-clés : Système multicapteurs, Réseau local, Réseaux de neurones, Supervision, Domotique. xigences système d'une nouvelle

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

THESE. Khalid LEKOUCH

Transcription:

La théore classque de l nformaton. ère parte : le pont de vue de Kolmogorov.

La sute de caractères comme outl de descrpton des systèmes. La scence peut être vue comme l art de compresser les données quelles qu en soent la provenance et la sgnfcaton du contenu. Ces données, ssues le plus souvent d un ensemble de mesures expérmentales, peuvent très généralement être encodées dans de grands fchers assmlables à de longues sutes de caractères. Voc quelques exemples choss : ) Sute de nucléotdes, longue de 66495 bases (Adénne, Cytosne, Guanne, Thymne), au début de la séquence contenant les gènes d hormone de crossance et d hormone choronque humane (extrat de : O. Delgrange, La Compresson Informatque) ) Sute de trages bnares (ex. ple = 0 ou face = ) : 0000000000000000000 3) Sute de nombres, dgtalsant sur 8 ou 6 bts un sgnal sonore ou graphque, un texte écrt dans n mporte quelle langue, une conversaton téléphonque, : 00 00 0 0 4) Sute de nombres, {x, y}, extrats d un tableau de «mesures», peu mporte pour l nstant ce qu elles représentent mas on y revendra à la fn de l exposé : 883.00000, 0<, 8.89056, 0.987899<, 8.58063,.9085<, 8.504,.76<, 8.5450, 3.39<, 80.943, 3.9380<, 80.55055, 4.36503<, 8 0.40933, 4.68749<, 8.06946, 4.9983<, 8.750, 5.0749<, 8.3343, 5.6379<, 8.9585, 5.9576<, 8 3.4974, 5.7860<, 8 4.030, 5.886<, 8 4.5407, 5.004<, 8 5.0008, 4.8980<, 8 5.47086, 4.7350<, 8 5.8976, 4.5536<, 8 6.86, 4.34754<, 8 6.653, 4.3<, 8 6.98876, 3.8866<< 5) Sute étquetée des stes vstés par un pont matérel qu décrt une trajectore dans l espace des phases. Cet espace est préalablement parttonné en N cellules auxquelles on colle une étquette codée dans un alphabet à N symboles. La dmenson des cellules dépend de la précson vsée. On capture l essentel de l nformaton concernant l évoluton du pont matérel en écrvant la sute des codes des cellules vstées à ntervalles de temps régulers suffsamment rapprochés. Voc l exemple d un pont qu décrt une courbe de Lssajous :

0 0.5.5 0 0.5.5 start St Echantllonnée aux temps dscrets, t = /0, /0,, la trajectore peut être encodée par la sute suvante : DDDDDDDDCCCAAAAAAAAAABDDDDDDDDDDBBBAAAAAACCCCCCCCD On peut naturellement amélorer la précson de l encodage en parttonnant l espace plus fnement mas cela allonge l alphabet. L étude des sutes dans le cadre d une théore classque de l nformaton. Les exemples qu précèdent ont en commun de consgner l nformaton dans des sutes de caractères prélevés dans un alphabet qu en comporte C, {a, a,, a C }. La dmenson de l alphabet n a pas réellement d mportance et l est toujours possble de réencoder la sute sous forme bnare en n utlsant que les caractères, '0' et '', appelés bts dans ce cas précs. Le fat que la sute sot l outl de prédlecton pour l encodage des données amène à poser un ensemble de questons fondamentales parm lesquelles nous en retendrons quatre : Comment encoder une sute sur un support en sorte qu elle sot décodable sans ambguïté? Comment effectuer cet encodage le plus économquement possble? Comment transmettre économquement le contenu d une sute à un correspondant lontan? Comment formalser et quantfer le contenu nformatonnel d une sute? La théore classque de l nformaton a notamment pour objet de répondre à ces questons. Applquée à des systèmes physques macroscopques qu encodent et manpulent les caractères de l alphabet, elle est à la base de la révoluton nformatque. La théore de l nformaton étude ben d autres questons : reconstructon d un sgnal échantllonné, protecton contre le brut de l encodage ou de la transmsson d un fcher, correctons d erreurs, compresson avec pertes,, qu relèvent davantage du domane de l ngéneur et qu ne concernent pas drectement la physque. Sgnalons encore l exstence d une théore quantque de l nformaton. La premère dfférence se stue au nveau du support physque qu réalse l encodage de l nformaton, support classque donc macroscopque dans le cas qu nous occupe c et quantque donc à l échelle atomque dans la théore quantque. D autres dfférences essentelles surgssent dues aux los qu régssent le monde quantque, très dfférentes de celles qu nous sont famlères. La théore quantque de l nformaton fat l objet d exposés séparés. 3

Encodage et mémorsaton d une sute : le problème du délmteur «endoffle». Il exste C N sutes dstnctes, de longueur N, écrtes dans un alphabet comprenant C caractères. Par exemple, l exste 4 = 6 sutes bnares de longueur, N=4 : 0000, 000, 000, 00, 000, 00, 00, 0, 000, 00, 00, 0, 00, 0, 0,. La mémorsaton d une sute partculère à l état brut, c est-à-dre caractère après N caractère, exge un emplacement en mémore égal à sa longueur, sot, l g C ( C ) = N, exprmé dans une unté qu on pourrat baptser C-bt (bt s C=, trt s C=3, etc ). Il est d usage de n utlser que le bt comme unté d nformaton, d où toute sute occupe, N l g( C ) = Nlg( C ) bts, en mémore ( l g, sans ndce, désgne le logarthme en base ). En partculer, s la sute est bnare, C=, N bts sont nécessares. L nventare complet des sutes, quelles qu en sot la longueur, est facle à dresser dans un ordre canonque : Λ={ε={},{0},{},{00},{0},{0},{},{000},{00},{00},{0},{00},{0},{0},{},{0000},{000},{000}, } Sot l une quelconque de ces sutes, de longueur, N, que l on cherche à mémorser au début d un support quelconque, conventonnellement appelé dsque dur (DD). Dans l exemple qu sut, cette sute est bnare pour smplfer : s = 00000000000 N * Sans précautons partculères, sa mémorsaton à l état brut, au début du DD, fat crandre qu elle se trouve noyée dans l ensemble des caractères déjà écrts sur le DD (éventuellement un paquet de '0') sans qu l sot possble de reconnaître l endrot exact où elle se termne. L dée qu vent mmédatement à l esprt d utlser un séparateur, une vrgule ou n mporte quel sgne dstnctf, #, ne convent pas car elle sgnfe l ntroducton d un caractère ntrus dans l alphabet bnare. On peut régler ce problème de pluseurs façons plus ou mons élégantes en recourant à une technque de délmtaton externe. Réencodage double. S on duplque chaque bt de la sute, conformément aux règles, 0 00 et, on récupère les doublets, 0 ou 0, pour l encodage du symbole termnal, #, (en gras dans l exemple) : # 0 (ou 0). Avec cette stratége, la sute s N se réécrrat : s 0000000000000000000000 0 N On vot que la sute est devenue parfatement décodable grâce au doublet 0 termnal. Toutefos sa longueur a plus que doublé ce qu représente un gaspllage nacceptable. Codage préfxe varable. Un codage varable ne consomme pas le même nombre de bts pour l'encodage de tous les symboles du message d'orgne. On comprend ntutvement qu un codage varable pusse être ntéressant pour encoder économquement une sute toutes les fos que les symboles alphabétques n y apparassent pas avec des fréquences égales : l sufft de réserver les codes courts aux symboles fréquents. Toutefos la varablté du codage ne garantt pas qu l sot unquement décodable. De fat, le codage varable suvant est ambgu : 4

0 0, 0, # 0. On vot que '0' étant préfxe de '0', jamas le décodeur qu commence à lre '000 ' ne saura s l dot comprendre '00#' ou '00 '. Pour être unquement décodable, un codage varable dot oblgatorement être (lbre de tout) préfxe. Un codage est préfxe s aucun des codes qu le consttuent n est le préfxe d un autre code. De plus, l est dt complet s aucune adjoncton de code n est possble sans brser le caractère préfxe de l ensemble. Par exemple le codage suvant est préfxe complet : 0 0, 0, # Il est complet parce que tout symbole supplémentare commencerat fatalement par 0, 0 ou. Ce codage préfxe permet l encodage unquement décodable de la sute, s, sous la forme : s = 00000000000 00000000000000000 ** * Il semblerat que ce codage préfxe sot coûteux pusque dans le cas d'une sute aléatore, on passe, en moyenne, de bt/symbole (en abrégé b/s) à : ()/ =.5 b/s (on néglge provsorement les deux bts qu encodent le symbole termnal, #, qu n apparaît qu une seule fos en fn de sute). Toutefos, on amélorerat la stuaton en lsant la sute par blocs de deux caractères comme s elle avat été écrte dans un alphabet comprenant quatre caractères, les blocs, 00, 0, 0 et. Voc un codage préfxe complet valable pour un alphabet à quatre symboles plus un séparateur : 00 00, 0 0, 0 0, 0, # Remarque : l convendrat tout auss ben à l encodage d une séquence ADN : A 00, C 0, G 0, T 0, #. La sute de départ s encode cette fos comme sut : s = 00000000000 000000000000 S la sute est aléatore, l encodage moyen ne consomme plus que : (/) (3x3)/4 =.5 b/s. On amélorerat encore la stuaton en lsant la sute par blocs successfs de tros bts et en utlsant le code : 000 000, 00 00, 00 00, 0 0, 00 00, 0 0, 0 0, 0, #, pour une longueur moyenne d'encodage tombant à : (/3) (7x34)/8 =.04 b/s. Le codage préfxe moyen semble tendre vers b/s à mesure que la dmenson, n, des blocs augmente mas c'est sans compter qu'l faut ncorporer la valeur de n quelque part dans l'encodage de la sute ans que le détal des codes partculers utlsés. Sans cela le décodeur sera ncapable d'effectuer son traval. Ces détals de décodablté ont un prx que l'on peut 5

estmer avec précson : on trouve que l encodage préfxe varable d'une sute quelconque de longueur, N, consomme, en moyenne un nombre de bts qu est de l'ordre de : * N l g( N ) lg( lg( N )) lg( lg( lg( N ))) L N lg ( N ) * où on a ntrodut la notaton condensée, l g ( n ) = lglgllg( n ). k = k fos L'encodage varable est couramment utlsé en nformatque mas l n'est pas le plus avantageux du pont de vue théorque qu nous ntéresse c. En partculer, le découpage de la sute d'orgne en blocs de longueurs constantes, n, ntrodut une dffculté qu réclame des aménagements toutes les fos que N n'est pas un multple de n. Une méthode, théorquement déale, exste qu est basée sur l'auto délmtaton. Sutes préfxes auto délmtées. On peut se passer du symbole termnal, #, en procédant comme sut. On préfxe la sute bnare par une étquette, en fat un enter bnare, qu dcte sa longueur. Comme l n'exste aucun moyen de savor où l'étquette se termne et où la sute commence, on fat parel avec l'étquette. On poursut tératvement jusqu'à rencontrer l'une ou l'autre des étquettes à deux bts, 0 ou, ce qu ne peut manquer de se produre. A ce stade, l ne reste plus qu'à préfxer le tout par le nombre total d'étquettes utlsées, en notaton unare n'utlsant que le chffre 0. Une économe est possble à tous les stades de l'tératon du fat que toute étquette bnare commençant nécessarement par le chffre, celu-c peut être oms ( l est ms entre parenthèses dans l'exemple qu sut). Seules les étquettes termnales, 0 ou, dovent être écrtes n extenso. Nous llustrons la méthode en encodant la sute, 000, de longueur, 5. 5 se note '0' en bnare où le '' ntal peut être sous-entendu ce qu lasse subsster, '0'. '0' est de longueur,, sot '0' en bnare. '0' est donc l'étquette termnale, écrte n extenso. On préfxe le tout par un double '0' pusque deux étquettes ont été nécessares au total. 000 000 = 0 5= ( )0 00 0 ()0 000 0000000 Le programme Mathematca suvant automatse l'encodage : l={,0,0,0,};longet=length[l];=0;whle[longet>3,{et=rest[integerdg ts[longet,]];l=jon[et,l],longet=length[et]};];jon[table[0,{} ],IntegerDgts[longet,],l] {0,0,,0,0,,,0,0,0,} Le décodage s'effectue comme sut. Sot à décoder, 0000000 noyée à drote dans une mer de 0 et de qu polluent éventuellement le DD. On commence par compter comben de 0 préfxent le message, en fat,. Deux étquettes sont donc nécessares. La premère étquette est toujours 0 ou, c c'est 0. Elle mpose la longueur de la deuxème étquette à la valeur (=0 en bnare). Celle-c vaut '0', en fat '0' car le '' ntal a été oms à l'encodage, sot le nombre 5. Il convent donc de lre les 5 bts suvants qu consttuent la sute cherchée, en l'occurrence, 000. 6

Cette procédure échoue pour la sute vde et les sutes à un seul élément, {0} et {}. On les encode séparément sous les formes suvantes, {,0}, {,,0} et {,,}, ce qu ne mène à aucune ambguïté pusqu'elles sont les seules à commencer par le chffre. Voc le détal des encodages des premères sutes, en commençant par la sute vde : ε {,0} {0} {,,0} {} {,,} {0,0} {0,,0,0,0} {0,} {0,,0,0,} {,0} {0,,0,,0} {,} {0,,0,,} {0,0,0} {0,,,0,0,0} {0,0,} {0,,,0,0,} {0,,0} {0,,,0,,0} {0,,} {0,,,0,,} {,0,0} {0,,,,0,0} {,0,} {0,,,,0,} {,,0} {0,,,,,0} {,,} {0,,,,,} {0,0,0,0} {0,0,,0,0,0,0,0,0,0} {0,0,0,} {0,0,,0,0,0,0,0,0,} Voc, en résumé, la lste des sutes préfxes écrte dans l ordre canonque : Λ pref ={{0},{0},{},{0000},{000},{000},{00},{0000},{000},{0 00},{00},{000},{00},{00},{0},{000000000},{00000000 }, } Toutes les sutes de longueurs, N, sont encodées par une sute de longueur, l(n)>n, ou l'allongement, l(n)-n, est le prx que l'on paye pour la décodablté. La foncton, l(n), croît de façon plus ou mons régulère, on trouve pour, N =0,,, 3, 4, : l(n)={,3,5,6,0,,,3,5,6,7,8,9,0,,,7,8,9,30,3,3,33,34,35,36,37,38,39,40,4,4,44, } La sute, l(n), se comporte asymptotquement comme : * l( N ) N l g( N ) lg( lg( N )) lg( lg( lg( N ))) L N lg ( N ). On trouve ce comportement en observant que l'encodage consste à préfxer tératvement la sute d'orgne par des étquettes de plus en plus courtes qu ont typquement pour longueur le logarthme en base deux de la sute qu'elles étquettent. L (n)égalté de Kraft. Tous les codages préfxes partagent une proprété qu s avère essentelle pour la sute : ls obéssent à l (n)égalté de Kraft, l où les l représentent les longueurs des codes et où le cas d égalté à correspond aux codages complets. Illustrons cette relaton sur le codage fn préfxe et complet, 000 000, 00 00, 00 00, 0 0, 00 00, 0 0, 0 0, 0, #. 7

On y dénombre sept codes de longueur 3 et deux codes de longueur 4. On vérfe que l on a effectvement, 7 3 4 = et que l égalté se transforme en une négalté s l on ampute ce code complet,. Contentons-nous de donner une «démonstraton graphque» de cette négalté mportante. A partr d un nœud ntal stué au sommet, dessnons un arbre bnare descendant. A chaque dédoublement, les branches nassantes sont étquetées '0' et ''. Affectons les pods -k aux génératons successves (k=,,...) et sélectonnons un nombre fn de nœuds de telle manère qu aucun nœud ne possède un nœud déjà chos parm ses ascendants. Ces nœuds défnssent un code préfxe à condton de lre les symboles en partant du sommet et en descendant vers chaque nœud séparément. Le code obtenu est complet s l n y a plus moyen d ajouter un nœud qu respecte la condton préfxe. On constate qu un code complet est toujours tel qu l satsfat l égalté l = alors qu un code ncomplet satsfat l négalté correspondante. Dans la fgure c-dessus, les nœuds roses défnssent un code préfxe ncomplet, 00, 0 et 00, que les deux nœuds verts vennent compléter par 0 et. T Compresson des sutes. La compresson des sutes obét certanement à des motvatons utltares : en effet une sute compressée occupe un espace mémore rédut sur un DD. De même, l envo d une sute compressée à un correspondant lontan, va un canal quelconque, économse les ressources de transmsson. Nous revendrons sur ces aspects pratques dans l'exposé consacré à la théore de Shannon. Ic nous nous préoccupons unquement de l'étude théorque relatve à la compresson des sutes. Il revent à Kolmogorov d avor comprs en premer que compresser une sute c est comprendre sa logque nterne et par conséquent que c est pénétrer l organsaton du système que cette sute décrt. L dée de base apparaît clarement lorsqu on consdère la sute suvante, partculèrement régulère : 8

s = '000000000000000000000000000000000 ' N qu répète N/ fos le motf '0'. On est en drot de penser que consommer N bts pour la mémorser sur un DD représente un fameux gaspllage. De même, s l on veut communquer son contenu à un correspondant lontan, l serat du plus haut rdcule de la transmettre telle quelle alors qu l suffrat d envoyer un programme nettement plus court, du style «Répéter N/ fos le motf '0'». Dans l optque de Kolmogorov, compresser une sute revent à substtuer la «recette» de la sute à la sute elle-même. Par défnton, on dt qu une sute, s, de longueur, N, est compressble s l exste un programme, p, de longueur, M, nféreure à N, qu est capable de la reconsttuer sans perte, Output[p] = s. S ce programme n exste pas, la sute est ncompressble. Dans cette défnton, l faut comprendre, une fos pour toutes, que tant la sute que le programme qu la compresse dovent être unquement décodables. La sute s est compressble : en effet, le programme suvant la compresse sans perte d nformaton (peu mporte le langage de programmaton utlsé) : p(s) = Do[Prnt['0'],{k,,N/}] La longueur de p(s) correspond en gros, c est-à-dre à des termes constants nessentels près, à l encodage de la valeur de N sot, l gn bts, ce qu est ben nféreur à N. Les termes constants sont nessentels dans la mesure où l on ne s ntéresse qu à de très longues sutes (N>>) d où l résulte que seuls les termes asymptotquement crossants comptent. On peut remplacer la noton de programme par celle du plus pett numéro, dans la notaton de Wolfram, de la machne de Turng qu, travallant sur une bande ntalement verge, s arrête après avor mprmé la sute. Meux, on peut se mettre d accord sur une machne de Turng unverselle et rechercher le plus court fcher auto délmté à nscrre préalablement sur la bande de lecture de cette MTU afn qu elle s arrête après avor écrt la sute donnée sur la bande d'écrture. Rappelons que l auto délmtaton est mportante car on dot pouvor dstnguer, sur la bande de lecture de la MTU, où se termne le programme qu provoque le calcul de la sute consdérée. L'étude des MTU est détallée par alleurs. 9

Dans cet exposé, nous utlsons une varante de MTU à tros bandes. La bande de lecture est fne et héberge le programme décodable. La bande d écrture, potentellement sem nfne, reçot les résultats, c'est-à-dre la sute vsée, également décodable. Enfn, la bande de traval, potentellement doublement nfne, sert aux calculs ntermédares. Comme dans toute MTU, l unté centrale peut se trouver dans un nombre fn d état dont l un, S, est l état de départ et l autre, H, est l état sur lequel la MTU arrête son calcul pour autant qu elle y parvenne un jour. Imagnons un observateur qu désre envoyer une sute, s, à un correspondant lontan et qu tente, pour ce fare, de la compresser par un programme plus court qu elle. Pour le receveur tout est smple : l reçot la sute compressée sous la forme d un programme qu l n a qu à nscrre sur la bande de lecture de sa MTU. Une fos le calcul lancé, l arrêt de la MTU est certan car l encodeur ne promet que des programmes ben formés et le résultat sera la sute, s, nscrte n extenso dans un format unquement décodable sur la bande d écrture. La stuaton de l expédteur est beaucoup mons confortable car c est à lu qu ncombe la tâche de trouver un programme court qu est capable de reconstrure la sute sans perte. Or l n exste pas de procédure algorthmque donc de programme qu effectuerat à tout coup la tâche de lre n mporte quelle sute, s, et de s arrêter en écrvant un de ses programmes compresseurs s l en exste au mons un ou de répondre «mpossble» s l n en n exste pas. En bref, l n est pas garant de pouvor trouver un programme compresseur d une sute quelconque et encore mons de trouver le plus court de tous. Complexté algorthmque d une sute. S on connaît un programme compresseur d'une sute, on sat que celle-c est compressble et ren n empêche a pror qu on pusse en trouver d autres. Parm l ensemble des programmes compresseurs, l y en a forcément un qu est le plus court de tous. On défnt précsément la complexté algorthmque d une sute comme la longueur du plus court programme (auto délmté) capable de la reconsttuer sans perte : K( s ) = mn p:mtu ( p ) = s l( p ) On peut montrer que le chox de la MTU n a pas vrament d mportance. Certes, deux MTU dstnctes lvreront des complextés dfférentes mas la dfférence ne portera que sur un nombre fn et constant de bts, précsément la longueur du programme capable d émuler une MTU à partr de l autre. Cette constante addtve ne joue aucun rôle sgnfcatf pour les très N longues sutes consdérées en pratque du fat que Ks ( ) croît au mnmum comme l gn. Reprenons l'exemple de la sute s : s = 000000000000000000000000000000000. Le programme, Prnt[s], qu mprme la sute n extenso requert, en gros, N bts : une machne à écrre ne ferat pas plus mal! Nous connassons une compresson possble de s qu consomme l gn bts : 0

Do[Prnt['0'],{k,,N/}] En voc une autre, équvalente en ressources consommées, qu calcule, en base deux, le développement fractonnare de /3 : Prnt[Frac[/3],base,N] Ces deux programmes sont optmaux car l n'y a pas moyen de fare meux. En effet, tout programme compresseur dot au mnmum spécfer la longueur de la sute qu l entend compresser d où l résulte que, à une constante nessentelle près, sa complexté ne peut descendre en dessous de l gn bts. Pusque à l opposé, la complexté ne peut excéder la longueur, N, de l encodage n extenso, on a que la complexté d une sute est, en gros, comprse entre deux lmtes extrêmes : l N gn K( s ) c N Compresson maxmum Incompressblté = Sute aléatore Ramenée à un symbole bnare, l entrope algorthmque d une sute est donc comprse entre l gn ( )/ Net, sot entre 0 et bt/symb, à la lmte des sutes nfnes. Etudons de plus près les deux extrêmes. Incompressble aléatore! Une sute ncompressble n obét à aucune logque nterne qu pourrat être mse à proft pour la compresser : l se fat qu l n exste pas de melleure défnton du caractère aléatore d une sute. Les fondements modernes du calcul des probabltés, dus à Kolmogorov, posent précsément que la sute ncompressble défnt la sute aléatore et nversement donc que ces deux notons se recouvrent exactement. Il est ntéressant de confronter cette défnton à l ntuton. En supposant que nous voulons transmettre à un correspondant lontan la sute des N trages successfs d un processus bnare complètement aléatore, 000000000000000000000000000, on ne vot, de fat, pas comment on pourrat travaller autrement que bt par bt, sans espor de compresson. A cet égard, l est satsfasant qu une sute aléatore sot ncompressble.

Exemples de systèmes fortement compressbles. La sute des chffres dans l écrture bnare du nombre π-3 est fortement compressble car l exste de nombreux algorthmes courts qu calculent ce nombre : 0000000000000000000000000000000000000000000000000000000000 De même la sute des chffres du dx mllardème nombre premer, 00000000000000000, l ensemble fractal de Mandelbrot ou un tableau de Mondran : L mmense majorté des sutes de longueur N sont ncompressbles tout smplement parce qu l est mpossble qu l en sot autrement. Déjà, l exste N sutes bnares de N longueur N alors qu l n exste que k N = programmes bnares dstncts plus courts. k = 0 On vot qu une sute au mons ne sera pas comprmée. Plus généralement, suvant le même argument, seule une pette fracton, / n, pourrat être compressée de n bts, /000 s n=0! La réalté est ben pre que cela car la plupart des sutes (courtes ou non) ne consttuent pas un programme générque de sute. En effet, tout programme de compresson, p(s), d une sute, s, de longueur, N, peut être vu comme la sute bnare qu almente la bande de lecture d une MTU afn qu après exécuton, celle-c s arrête en mprmant la sute donnée s. S on almente cette MTU successvement par chacune des N - sutes courtes, on constate rapdement que la plupart du temps, la MTU boucle ou se retrouve bloquée du fat que le programme correspondant est syntaxquement ncorrect. Même lorsqu'l n'y a aucune faute de programmaton, on sat que la MTU peut calculer sans répt sans qu'on sot capable de prédre son arrêt éventuel. Au blan, l n y a qu un très pett nombre de programmes qu répondent à la queston posée sans parler de ceux qu mprment une sute déjà trouvée. On peut comprendre autrement l extrême rareté des sutes compressbles. Le fat qu'un programme valable est nécessarement de longueur fne et que l ensemble des sutes fnes est dénombrable a pour conséquence que l ensemble des sutes compressbles est, lu auss, dénombrable. Par contre, l ensemble de toutes les sutes exstantes, fnes ou nfnes, n est pas dénombrable. On en conclut que l mmense majorté des sutes sont ncompressbles donc aléatores! Dt encore autrement, toute sute bnare est équvalente à la lmte nfne à un réel comprs entre 0 et et on sat que l ensemble de ces réels n est pas dénombrable. Or comme l ensemble des machnes de Turng est dénombrable, on en conclut à nouveau qu l y a nfnment plus de sutes que de programmes compresseurs.

Génératon des sutes aléatores. Les sutes aléatores étant ncompressbles, elles sont nfnment plus nombreuses que les sutes régulères essentellement parce que, rappelons-le, l y a beaucoup plus de sutes que d algorthmes compresseurs. Paradoxalement, l est dffcle de produre une sute aléatore. C est même, par défnton, une tâche quasment mpossble pour le cerveau human qu tôt ou tard se traht par un recours souterran à un algorthme nconscent. Le test classque consstant à demander à un sujet de placer 400 ponts au hasard dans un carré révèle nvarablement une compressblté ndésrable. 0.8 0.8 0.6 0.6 0.4 0.4 0. 0. 0 0 0. 0.4 0.6 0.8 0 0 0. 0.4 0.6 0.8 Test : quel motf est aléatore? Pour engendrer une sute vértablement aléatore, une expérence quantque devrat pouvor fare l affare. Un dspostf envsageable consste à réalser de façon répétée l expérence des deux fentes d Young avec un seul photon. Deux détecteurs placés en postons symétrques se voent affecter les symboles 0 et respectvement. Chaque fos qu un détecteur enregstre l arrvée d un photon, la sute est complétée du symbole correspondant. Dans la pratque courante, on se contente souvent du lancer d une pèce de monnae non basée ou de dspostfs équvalents telle la roulette de casno. On pourrat penser que de telles procédures ne devraent pas pouvor lvrer de sutes aléatores du fat que la trajectore de la pèce ou de la roulette est en prncpe prédctble à partr des los de la mécanque et des condtons ntales qu, ensemble, fonctonnent comme un algorthme plus ou mons court. Ce qu sauve la méthode, c est le fat que la dynamque en queston est chaotque. Elle fonctonne donc à condton d agter la pèce dans un cornet un temps suffsant en sorte qu on pusse être sûr que l encodage de sa poston ntale consomme un nombre de chffres bnares sgnfcatfs égal à la longueur de la sute que l on veut construre. Non calculablté de la complexté algorthmque. S sédusante et naturelle que pusse paraître la défnton de la complexté d une sute, elle souffre d un handcap profond et rrémédable : l n exste pas d algorthme général permettant de répondre, dans tous les cas, par ou ou par non, à la queston de savor s une sute donnée est compressble ou s elle ne l est pas. A fortor, l est mpossble de proposer un algorthme unversel capable de compresser au maxmum une sute s elle est compressble et de la resttuer telle quelle snon, en un mot de calculer K(s) : ces problèmes sont 3

ndécdables au sens de Turng. Il en résulte que la défnton de l entrope algorthmque n est pas effectve ou s l on préfère que la foncton K(s) n est pas calculable. Ce résultat négatf dot être tempéré par l observaton que ren n empêche le problème de la compresson algorthmque d être soluble dans un très grand nombre de cas partculers. En général, plus un observateur est sagace, plus l a de chance d amélorer la compresson d une sute compressble et de se rapprocher de la valeur optmale de sa complexté algorthmque, K(s). Sauf cas partculer plutôt exceptonnel, tel celu de la sute s, qu est compressble à l optmum, K( s) lgn, de façon partculèrement évdente, cet observateur n aura cependant pas souvent la certtude d avor attent l optmum. Dans cette optque, l y a leu de penser que la théore ultme qu serat capable de compresser au maxmum théorque l ensemble des données expérmentales de la physque a toutes les chances d être une quête sans fn : ce problème serat lu auss ndécdable au sens de Turng. Arguments Kolmogorovens. La double négalté qu caractérse la complexté algorthmque d une sute fournt un ensemble d arguments heurstques qu éclarent quelques problèmes classques de la théore des nombres. Nous en avons retenu quatre. ) Il exste une nfnté de nombres premers. Procédons par l absurde et posons qu un nombre premer, p k, serat plus grand que tous les autres. On sat que tout enter, n, admet la décomposton en facteurs premers : n p p p k e e e = k L (où p =, p =3, est la sute des nombres premers) Certans exposants peuvent éventuellement être nuls sgne que le facteur correspondant est absent. La sute des exposants, {e, e, e 3,, e k } = code(n) fournt un codage possble de l enter n. Par exemple le nombre n=63=3 7 serat codé par la sute {0,, 0, }. On a de façon évdente que : lgn = e lgp e lgp L e l gp k k Il résulte de cette égalté que : e l gn. Cette négalté sgnfe que chaque exposant peut s écrre en bnare avec un maxmum de kg l ( lgn)) chffres. On aurat dès lors trouvé le moyen d encoder n mporte quel enter, n, s grand sot-l, avec un maxmum de kg l ( l gn)) chffres. Or cela est mpossble car l faut en général l gn chffres bnares pour encoder un enter quelconque. ) Comment trouver smplement une borne supéreure pour le ème nombre premer noté, p? Tout nombre, n, qu est multple de p peut trvalement s écrre : 4

n= n p p Un codage possble pour n serat donc de coder l ndce sous forme préfxe (car un séparateur est nécessare) pus la valeur du quotent n/p. Il n y a aucune rason pour que ce codage coïncde avec la complexté du nombre mas quo qu l en sot, on aura toujours : Kn ( ) Kn (, / p ) lgn K( n) K(, n / p ) lg lg( lg)) L lgn l gp lgp lg lg( lg)) L p l g On retrouve un résultat ben connu de la théore des nombres. 3) A comben de 0 (ou de ) consécutfs peut-on s attendre dans une sute aléatore de longueur, N? Précsons la queston posée. S un grand nombre de lanceurs de pèces de monnae construsent chacun une sute bnare aléatore de longueur, N, et qu ls notent la dmenson de la plus longue sute de bts consécutfs dentques quel sera la valeur la plus souvent observée? La réponse, l gn, serat dérasonnable car elle sgnferat qu on observerat fréquemment une sute du type, s = u00l0 lgn v Dans ce cas, on devrat pouvor mettre à proft l abondance de 0 consécutfs pour compresser cette sute ce qu contredrat le fat qu elle est aléatore. En effet, on, aurat successvement : N K( s ) ( K( u ) K( v )) lg u lg( lg u ) L ( N lgn ) lgn lglgn L On remarque que la contradcton dsparaît dès qu on se montre mons gourmand quant au nombre de 0 consécutfs, en l occurrence, l gn. Lors de N=0 9 lancers consécutfs, on observera très probablement quelque part une trentane de 0 (ou de '') qu se suvent. 4) Complexté d un système formel. C est en suvant la même démarche que l on trouve que la complexté d'un théorème énoncé dans le cadre d'un système formel, ne peut dépasser celles combnées des axomes de base de ce système, des règles de productons logques et de l'archvage du chemn le plus court qu permet de dédure le théorème des axomes. Selon une formule chère à Chatn, dans un système formel, un klo d axomes ne donnera jamas une tonne de théorèmes pusque les énoncés de ceux-c sont largement comprs dans les prémces. Nous revendrons plus en détal sur cet argument dans l'exposé consacré à l'unversalté au sens de Gödel. 5

L nférence d un modèle à partr des données. La compresson des données n est pas qu une préoccupaton utltare vsant à alléger le stockage et la transmsson des données. C est auss l affare de tous les scentfques à la recherche du melleur modèle qu rend compte de leurs données expérmentales. Souvenons-nous des premers astronomes qu consgnaent, jours après jours, dans de grands regstres, les postons des astres dans le cel. Des années d observatons représentaent une somme d nformatons qu se serat rapdement avérée ngérable sans la découverte d un fl conducteur révélant que cette somme est, en fat, largement redondante. C est précsément un des objets de la scence de découvrr des procédés algorthmques courts capables de condenser l nformaton expérmentale dans un modèle cohérent. Inversement, celu-c dot pouvor reconstrure le fcher des valeurs expérmentales vore déalement l extrapoler. Etudons le problème suvant et demandons-nous s l est ben posé. Compléter la sute :,,4,8,6,? Au vu de ce qu sut, l semblerat que la réponse sot négatve. On trouve, sans grande surprse, autant de solutons que l on veut! TableA k, 8k, 6<E 8,, 4, 8, 6, 3< TableA 4 I4 8 k 3 k 6k 3 k 4 M, 8k, 6<E 8,, 4, 8, 6, 3< 384 TableA 384 348 k 544 k 37 k 3 44 k 4, 8k, 6<E 3 k5 8,, 4, 8, 6, < On pourrat être tenté de rejeter ce type de problème en prétextant qu l est mal formulé mas ce serat gnorer que la démarche scentfque procède fréquemment de la sorte : devant un tableau de mesures, l serat faux de prétendre qu l n exste qu un seul modèle qu les explque. C est tout le problème de l nférence du melleur modèle qu rend compte des données. Pluseurs phlosophes ont vu le jour à cet égard : Le prncpe d ndfférence prescrt de n écarter aucune hypothèse et d attendre que les mesures ultéreures s affnent et tranchent en défaveur d un ensemble de modèles que l on écartera pour ne garder que ceux qu restent. Le prncpe du rasor d Occam prescrt d opter pour l explcaton la plus smple c est-à-dre celle dont la complexté est la plus pette. Dans l exemple présenté, ce serat la premère qu correspond au programme le plus court. La thèse SKC (Solomonoff-Kolmogorov-Chatn), adopte un pont de vue ntermédare : elle p*) n écarte aucune hypothèse mas elle lu attrbue une probablté de vrasemblance, l(, où l( p*) est la longueur du programme préfxe qu reprodut les données sans pertes. 6

Solomonoff Kolmogorov Chatn Thèse SKC. En scences, toutes les hypothèses compatbles avec les données ne sont pas équprobables : elles ont une probablté de vrasemblance a pror égale à p*) l(. Probablté unverselle d une sute. Pour comprendre le contenu de la thèse SKC, l convent de se poser une queston préalable. Quel sens peut-on donner un sens à l nterrogaton suvante : quelle est la probablté de trer au hasard une sute bnare partculère? S on se restregnat aux sutes de longueur, N, la réponse serat clare. Comme elles sont en nombre fn, sot N, on pourrat les mettre toutes dans un chapeau et on aurat une chance sur N d'en trer une. La somme des probabltés vaudrat ben. Par contre, la queston se complque s on autorse toutes les sutes sans restrcton de longueur. Il est clar qu'l n'est plus possble de les mettre toutes dans un chapeau afn d'en extrare une au hasard! Il faut donc trouver autre chose et, en partculer, l faut abandonner l'dée que toutes les sutes pussent être équprobables pusque la somme des probabltés serat nfne. C'est précsément ce que fat la thèse SKC lorsqu'elle assoce à toute sute une densté de probablté proportonnelle à (/) exposant la longueur de son encodage préfxe. La vablté de cette procédure repose sur ce fat que trer progressvement à ple ou face une sute de '0' et de '' engendre tôt ou tard une sute fne qu fat parte une et une seule fos de l'ensemble préfxe canonque, Λ pref = {{0},{0},{},{0000},{000},{000},{00},{0000},{000},{000 },{00},{000},{00},{00},{0},{000000000},{00000000}, } La thèse SKC attrbue donc une probablté d'occurrence -l(n) à toute sute comportant N bts. Par exemple, la sute, {0,0,0,}, est encodée par, {0,0,,0,0,0,0,0,0,}, d'où une probablté d'occurrence égale à -0. Il est essentel de prendre l'encodage préfxe comme base de calcul. Poser la probablté de la sute, {0,0,0,}, proportonnelle à -4, sous le prétexte qu'elle ne consomme que 4 bts ne fonctonne pas. Il exste, en effet, une sute vde, deux sutes à bt, 4 sutes à deux bts, etc, et la somme des probabltés affectées à chacune dvergerat : 7

0 4 8 3 L = L =. Cette méthode d'attrbuton des probabltés a pror peut paraître ben complquée mas c'est la seule qu n'ntrodut aucun bas. On pourrat penser procéder plus smplement pour sélectonner aléatorement une sute parm l'ensemble, Λ, Λ = {ε, 0,, 00, 0, 0,, 000, 00, 00, 0, 00, 0, 0,, 0000, }. La procédure suvante semblerat équtable. On lancerat une pèce de monnae en fasant la dstncton suvante entre lancers mpars et pars. Les lancers mpars servraent unquement à permettre une nterrupton de la procédure selon le code suvant : un trage, "ple"='', sgnferat 'contnue' et un trage 'face'='0' sgnferat "arrête". Les lancers pars feraent quant à eux parte ntégrante de la sute cherchée auss longtemps qu'aucune nstructon d'arrêt n'a pas nterrompu la procédure. De cette manère, la sute vde, ε, aurat une chance sur deux de se produre, les séquences à un bt auraent une chance sur quatre de se produre et plus généralement, les N séquences à N bts auraent chacune une probablté d'occurrence égale à -N. Au blan on aurat que la somme des probabltés vaudrat. Ce que la thèse SKC reproche à cette méthode c'est de ne pas être mpartale, elle favorse trop les sutes courtes. De fat, elle correspond en gros à un schéma de délmtaton des sutes basé sur le doublement de leur longueur ce que nous savons excessf. L'encodage préfxe lu est mpartal : toute sute orgnellement de longueur, N, est n'allongée que d'un facteur, l(n), asymptotquement égal à l g * ( N ) et cet allongement est précsément tout juste ce qu'l faut pour fare converger la somme des probabltés. De plus, la convergence se fat automatquement vers, en vertu de l'égalté de Kraft, pusque l'ensemble, Λ pref, est complet. Voc les probabltés unverselles des sutes les plus smples : P( ε ) =, P(0 ) = P() =, P(00 ) = P(0) = P(0 ) = P() =, 3 5 P(000 ) = P(00) = L =,P(0000 ) = P(000) = L =, L 6 0 On vérfe asément que la somme de ces probabltés vaut comme l se dot. On a en effet, en regroupant toutes les sutes de longueurs, N : N l( N ) P = =... = N = 0 4 4 8 8 64 64 64 64 8 Toutefos, la convergence de cette sute est extrêmement lente du fat du comportement asymptotque de ses termes. La sére, ( l( N ) N ) l N ) = g*( = N N N N( lgn )( lglgn )( lglglgn ) L se stue, en effet, très exactement à la frontère entre la convergence et la dvergence. Le crtère de convergence de l'ntégrale assocée permet de démontrer que les séres suvantes dvergent toutes de plus en plus lentement : 8

n n n n( lgn ) n n( lgn )( lglgn ) n n( lgn )( lglgn )( lglglgn ) Par contre, les séres suvantes convergent de plus en plus lentement : n n n( lgn ) n( lgn )( lglgn ) n n n n( lgn )( lglgn )( lglglgn ) On peut d'alleurs se fare une dée de la lenteur de la convergence en observant comment la sére tend effectvement vers = 0.Lbn. On calcule les premers termes de cette sére en regroupant comme l a été dt les contrbutons provenant des sutes non préfxes de longueurs égales. Il exste k programmes de longueurs, k (=0,,, ), dont l'encodage préfxe consomme respectvement, {,3,5,6,0,,,3,5,6,7,8,9,0,,, } bts. Le programme vde, ε, de longueur préfxe,, contrbue pour, / = 0.0bn, à la valeur de S. Les deux programmes de longueur,, de longueur préfxe, 3, contrbuent ensemble pour, / 8 = 0. 0, sot au total partel, / 4 / 4 = / = 0.bn. A ce stade, 3 =, programmes ont été comptablsés et le premer chffre de S après la vrgule est stablsé à sa valeur défntve. On montre de la même manère que pour stablser le deuxème après la vrgule, l faut comptablser les, 5 =, premers programmes pus qu'l en faut, = 65535, pour stablser le trosème, etc. On réalse la lenteur de la convergence. Cette lenteur est essentelle dans la phlosophe SKC car c'est elle qu garantt que l'on ne trche pas dans l'nventare des modèles possbles. Procéder autrement revendrat à prvléger ndûment les programmes courts c'est-à-dre revendrat à coller de trop près et sans justfcaton à la théore d'occam. En résumé, pour en revenr à la queston posée au début de ce paragraphe, le trage aléatore d'une sute quelconque se conçot comme sut. On lance une pèce de monnae un nombre suffsant de fos et on compte comben de fos on commence par trer "face" = "0". S ce nombre vaut zéro, c'est qu'on est dans l'un des tros cas suvants, facles à dstnguer au vu des trages suvants, {,0} ε {,,0} {0} {,,} {} S ce nombre vaut, c'est qu'on est dans l'un des dx cas suvants, facles à dstnguer, {0,,0,0,0} {0,0} {0,,0,0,} {0,} {0,,0,,0} {,0} {0,,0,,} {,} {0,,,0,0,0} {0,0,0} {0,,,0,0,} {0,0,} {0,,,0,,0} {0,,0} {0,,,0,,} {0,,} {0,,,,0,0} {,0,0} {0,,,,0,} {,0,} {0,,,,,0} {,,0} {0,,,,,} {,,} et ans de sute. On arrête les lancers lorsque la sute de bts obtenue coïncde avec un code de l'ensemble préfxe, Λ pref, ce qu ne peut manquer de se produre pusque c'est la défnton d'un ensemble préfxe de ne pas tolérer qu'un code sot le préfxe d'un autre. 9

L'nférence du modèle dans le cadre du modèle SKC. On appelle modèle d'une sute, s, de données tout programme préfxe, p*, qu prénscrt sur la bande d'une MTU provoque l'arrêt de celle-c en mprmant cette sute s. le programme qu almente la MTU dot être préfxe afn qu'on sache où l se termne sur la bande. De plus, l dot ncorporer les données éventuelles, ce qu ne pose jamas de problème de prncpe. Il peut exster pluseurs vore une nfnté de programmes dstncts qu effectuent cette tâche partculère et tous sont recevables au ttre de modèle des données, s. Tous les programmes n'ont cependant pas le même degré de vrasemblance et c'est précsément l'objet de la thèse SKC que de quantfer cette propenson à la vrasemblance, P(s). La quantté, P(s), peut être vue comme la probablté unverselle «a pror» d occurrence de la sute s. Les programmes courts contrbuent majortarement à P(s) d'où l en résulte qu'une sute qu n est engendrée par aucun programme court n a que très peu de chances d apparaître un jour à un expérmentateur. S le programme le plus court fournssat, à lu seul, le terme domnant de P(s), on K( s ) écrrat, P( s ). En réalté et afn de tenr compte de programmes concurrents, on peut démontrer (c est lon d être trval!) que l on dot écrre qu l exste une constante, c, ndépendante de s, telle que l on a : K( s ) P( s ) c K( s ) K( s ) c' l g P( s ) K( s ) Il y a donc un rapport drect entre la complexté d une sute et sa probablté unverselle d occurrence. Tout se passe comme s la nature favorsat l occurrence des sutes de fables complextés. Inversement les programmes courts garantssent des sutes non aléatores qu structurent nos mesures. Dans un sens l est heureux qu on parvenne à cette concluson sans laquelle la quête scentfque serat sans espor éternellement confrontée à des données aléatores mpossbles à exploter. Il est amusant de comparer la probablté pour qu'un bonobo mprme une verson explotable des 0 6 bts d une œuvre de Shakespeare selon qu'l tapote le claver d'une machne à écrre ou celu d'un ordnateur unversel : dans le premer cas, la probablté est de l'ordre de -N = -000000 tands que dans le second cas, elle est de l'ordre de -K(N) = -330000, s l on adopte l dée d un taux de compresson de la langue anglase approxmatvement égal à 3! Il n y a ren de mystéreux là-dessous : smplement, pour répondre à la queston qu lu est posée, le bonobo n a pas beson de taper le texte mmédatement lsble, sa compresson sufft dans le cadre du modèle reconnu optmal pour ce qu concerne la langue anglase. Noton de complexté calculatore. La complexté calculatore d un programme est une noton relatvement nformelle quantfée par le «temps» que met le programme décompresseur à calculer les termes de la sute avant de les mprmer. Pour des rasons évdentes d ndépendance vs-à-vs d une machne partculère, ce temps se mesure en nombre de transtons subes par la MTU plutôt qu en secondes. La complexté calculatore du programme de compresson maxmale d une sute s appelle la profondeur logque de cette sute. Les sutes aléatores sont ncompressbles et de complexté maxmale : elles sont caractérsées par une profondeur logque nulle pusque le programme mnmum qu les décrt 0

se note «Prnt[s]», qu se contente de mémorser la sute et de l mprmer telle quelle sans effectuer le mondre calcul. A l opposé, les sutes de fable complexté sont habtuellement compressées en mettant en jeu les ressources du calcul arthmétque. C est, par exemple, ce qu se passe dans le cas des deux programmes élémentares, «Do[Prnt['0'],{k,,N/}]» et «Prnt[N[/3,0 N ]», le premer recourant à un compteur de boucle et le deuxème effectuant une dvson bnare. Leur décompresson mplque le détrcotage correspondant ce qu augmente leur profondeur logque. Complexté et profondeur logque évoluent généralement en sens contrares. La thèse SKC ensegne que les sutes peu compressbles donc de profondeur logque très fable sont peu probables au contrare des sutes complexes qu possèdent une profondeur logque mportante. On peut montrer, sur cette base, que la profondeur calculatore moyenne d un algorthme applqué à une sute, s, ne s écarte pas de sa valeur maxmum! Cette concluson est famlère aux usagers des algorthmes de tr. Il est connu qu un tr ordnare applqué à un fcher de longueur, n, requert un nombre d étapes de l ordre de n. Il exste une verson rapde (QuckSort) qu n en n exge généralement que nl gn mas elle échoue toutefos lorsque le fcher est déjà presque tré, ce qu est hélas la majorté des cas rencontrés dans une pratque ordnare, en conformté avec la thèse SKC. La parade est ben connue des nformatcens : ls commencent par brouller le fcher avant de le trer, cette manœuvre ne coûtant que n étapes (Randomzed QuckSort). L nférence du modèle : une lube sans ntérêt n applcaton? S les problèmes d nférence sont le pan quotden des statstcens, l exemple qu sut montre qu ls concernent également le physcen. Reprenons le tableau de «mesures» évoqué un peu mystéreusement au début de cet exposé : l présente les relevés des postons d une planète autour de son solel, dans le plan de la trajectore. 883.00000, 0<, 8.89056, 0.987899<, 8.58063,.9085<, 8.504,.76<, 8.5450, 3.39<, 80.943, 3.9380<, 80.55055, 4.36503<, 8 0.40933, 4.68749<, 8.06946, 4.9983<, 8.750, 5.0749<, 8.3343, 5.6379<, 8.9585, 5.9576<, 8 3.4974, 5.7860<, 8 4.030, 5.886<, 8 4.5407, 5.004<, 8 5.0008, 4.8980<, 8 5.47086, 4.7350<, 8 5.8976, 4.5536<, 8 6.86, 4.34754<, 8 6.653, 4.3<, 8 6.98876, 3.8866<<

La représentaton graphque, dans le plan, (x, y), est ben telle qu on l magne et l est ben connu que c est Newton, le premer, qu a trouvé un programme court capable de resttuer ces données sans pertes apparentes, aux erreurs de mesure près : ce programme fat appel à un ensemble d équatons dfférentelles. t (x, y) = 0 (x 0 = 3;y 0 8 (x (x, y) y = 0;x' = 0;y' = 0 0 0 3/ ) 4 ;m = ) Ce tour de force a tellement mpressonné ses contemporans qu'l a condtonné l évoluton de la physque en termes de forces et de calcul dfférentel. Il n est pas queston de déner au modèle newtonen le mérte qu l a d explquer ces données et beaucoup d autres mas smplement de fare remarquer que l atttude est dangereuse de crore qu un modèle qu marche «s ben du premer coup» ne peut qu être «vra». On sat ce qu l est advenu de la noton de vérté en mathématque et les mêmes réserves s applquent c sur un terran dfférent. Nous pensons, mas cela n engage que nous, que la probablté pour que la physque se sot développée comme la nôtre, sur une planète lontane, est proche de zéro. Non que les données du problème soent fondamentalement dfférentes c et là-bas, personne ne souscrrat à cette dée, mas parce que d autres modèles exstent qu asymptotquement se valent pour explquer ces données. Par asymptotquement, on veut dre que dvers modèles exstent dont les prédctons se recouvrent tant qu on ne les pousse pas dans leurs derners retranchements. Mas précsément c est quand on pousse aux extrêmes la théore de Newton ou d alleurs n mporte quelle autre théore que les lmtes de valdté apparassent. Voc un modèle dscret qu resttue tout auss fdèlement les données de base. Par fdèlement, nous voulons dre que les valeurs calculées ne dffèrent pas des mesures entachées de l erreur expérmentale. Les valeurs prédtes par le modèle dscret ne dffèrent d alleurs des valeurs du modèle Newtonen que vers la 7 ème décmale : ls sont donc ben asymptotquement équvalents. r r rˆ rˆ λ p = m rˆ m m p r rˆ ˆ r r r r rˆ rˆ λ p = m rˆ m m p r rˆ ˆ r r t t = r r ( x = 3; y = 0; δ = 0 / 3; p = 0; p = 0 )( λ = 0 ; m = ) 8 4 8 0 0 0 x,0 y,0

Aucun argument expérmental ne permet de trancher entre les deux modèles. Peutêtre la thèse SKC le pourrat-elle? Sur le paper le système des équatons dfférentelles paraît plus concs que le système dscret mas c est probablement une lluson d optque : magnons que nous voulons envoyer le fcher complet des mesures à un correspondant lontan, l ne sufft pas de lu fare parvenr le système dfférentel, l faut, en réalté, lu envoyer un programme entèrement prêt à l emplo, y comprs les routnes qu calculent la soluton par une méthode de Runge-Kutta par exemple. En comparason le système dscret semble très économque! Imagnons, à présent, que ce système at vu le jour avant 687, date de paruton du traté de Newton : on n aurat pas manqué de trouver mraculeux d explquer ans des données qu semblaent résster à toute analyse antéreure. L évoluton de la physque auratelle été dfférente, prvlégant la noton d écart de masse (défaut de masse dans le cas attractf et excès de masse dans le cas répulsf) au leu de la noton de force? Personne ne peut répondre à une telle queston et le fat est que personne ne se la pose séreusement parce que cela n aurat tout smplement plus de sens de se la poser. La scence a clarement opté pour un développement qu ne résout pas tous les problèmes mas qu donne satsfacton. Cependant, le pège est à évter d écarter dédagneusement toute alternatve sous le prétexte que nous «savons ben», depus Newton, que les choses ne se passent pas autrement : on ne juge pas une théore à la lumère d une autre mas plutôt à la lumère des fats expérmentaux Pour la pette hstore, on montre comment on peut habller ce modèle dscret en lu écrvant un scénaro plausble. Le solel est fxé au centre des axes de coordonnées (on pourrat le fare bouger comme l sed au problème à deux corps mas c est nutle à ce stade élémentare de l exposé où l on consdère que le solel est nfnment lourd). La planète, de masse propre, m, est stuée ntalement en (x 0, y 0 ) et sa quantté de mouvement vaut (p x,0, p y,0 ). Le prncpe du modèle exploré repose sur quelques hypothèses smples : - la masse de la planète, en t = 0, dffère la masse propre d une quantté égale à δ 0 /c où δ 0 (<0) représente un «défaut de masse» dû à l nteracton, - l énerge ntale de la planète est donnée par l expresson, 4 ( m ) c c δ, 0 p0 - la planète se débarrasse, en t = 0, de ce défaut de masse en émettant, dans la drecton du centre, un «boson ntermédare» d énerge négatve, hν, et de vtesse, c, tout en respectant les los de conservaton de l énerge et de la quantté de mouvement, - le solel, supposé nfnment lourd dans ce cas smple, réflécht le boson et le renvoe vers la poston de la planète où celle-c se trouvera prête à le réabsorber. Le cycle recommence sans fn. La fgure détalle les premères étapes de l'évoluton d'un tel système. A l'nstant, t = t 0, la partcule possède un défaut de masse δ 0. Sa quantté de mouvement est, p r, et sa poston, par rapport au centre attracteur, C, est 0 r 0. A l'nstant, t 0 ε, la partcule change de quantté de mouvement, p r 0 r π, en émettant un boson d'énerge négatve, hν, dans la drecton du centre. Celu-c le renvoe ausstôt afn qu'l sot réabsorbé à l'nstant ultéreur, t, dans la nouvelle poston, r, de la planète. La partcule possède alors un nouveau défaut de masse, δ, une nouvelle quantté de mouvement, p r, et le processus recommence sans fn. Ce scénaro n'a strctement ren d'oblgatore : l n'est qu'une nterprétaton sémantque possble du modèle syntaxque que nous lvrons c-après. Nous revendrons sur cette dstncton essentelle dans l'exposé consacré à l'étude Gödélenne des systèmes formels. 3

4 Les équatons de conservaton et d évoluton revêtent la forme suvante (=0,,,...) : [ ] [ ] = = / / rˆ p m p ) ( m ν π ν π δ r r [ ] [ ] = = / / rˆ p p ) ( m m ν π δ ν π r r [ ] = = / t t r r ) ( m ) / t ( t r r π π r r r où â est untare et où on a posé, c=. Un peu d algèbre permet d soler les seules varables pertnentes, de poston et de quantté de mouvement et d écrre le système récurrent annoncé (on y a posé c=). Ce n est pas l objet de cet exposé d étuder plus en détals les mplcatons d un tel modèle qu renonce à la noton de force et supprme l nteracton nstantanée à dstance.