Théorie de l information et mesures d entropie

Documents pareils
Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Loi d une variable discrète

.. CSS. Damien Nouvel. Damien Nouvel (Inalco) CSS 1 / 15

Spécifications techniques

1.1 Codage de source et test d hypothèse

TD : Codage des images

Identite. Free Reporting Software

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

energy BOX WEB Automates de GTB

Sommaire. AIDAUCLIC BACKUP : Solution de sauvegarde en ligne 3. Quelles problématiques résout la solution? 3. Fonctionnement de la solution 4

SOLUTION DE GESTION COMMERCIALE POUR IMPRIMEURS

Guide pour l Installation des Disques Durs SATA et la Configuration RAID

Achats Industriels Efficacité et Sécurité

Votre Prestataire. Nom : CRM. Activité : Elaboration de menus, fabrication, vente et livraison de repas pour. collectivités.

SQL Server 2008 solutions de sauvegarde et de continuité

Comparatif entre Matrox RT.X2 et Adobe Premiere Pro CS3 (logiciel seul)

Le contrat SID-Hébergement

Cours d algorithmique pour la classe de 2nde

SERIE 1 Statistique descriptive - Graphiques

DROUHIN Bernard. Le chauffe-eau solaire

CAHIER DES CLAUSES TECHNIQUES PARTICULIERES

Arbres binaires de décision

Chimie et physique informatiques

Comment aborder l Optimisation énergétique de salles anciennes et hétérogènes?

Cours 6. Sécurisation d un SGBD. DBA - M1ASR - Université Evry 1

2.0. Ballon de stockage : Marque : Modèle : Capacité : L. Lien vers la documentation technique :

Big Data et Graphes : Quelques pistes de recherche

Le poids et la taille des fichiers

ILT. Interfacultair Instituut voor Levende Talen. Actes de communication. Serge Verlinde Evelyn Goris. Katholieke Universiteit Leuven

Fonction réciproque. Christelle MELODELIMA. Chapitre 2 :

LES IMPACTS SUR VOTRE SYSTEME DE FACTURATION DE LA SIGNATURE ELECTRONIQUE COMME OUTIL DE SECURISATION DE VOS ECHANGES DEMATERIALISES

Equipement. électronique

Déploiement d un serveur courriel dédié pour entreprise

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

SARM: Simulation of Absorption Refrigeration Machine

first STD PME PRO Pocket TryEat Fonctionnalités CLYO Restaurant / CLYO Resto Interface 100% tactile Installation en multipostes (Réseaux)

Correction du baccalauréat ES/L Métropole 20 juin 2014

CA ARCserve Backup. Avantages. Vue d'ensemble. Pourquoi choisir CA

L offre DualSun pour l eau chaude et le chauffage (SSC)

QUEL HEBERGEMENT POUR MON SITE WEB?

Formations au centre ou sur site : . Travailler avec les produits de la mer La Méthode HACCP et le guide des bonnes pratiques

Réduction de la pollution d un moteur diesel

Introduction au datamining

Compression Compression par dictionnaires

Forum annuel Plan Climat des Alpes-Maritimes

Et la ventilation créa l eau chaude

en version SAN ou NAS

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

ISO/CEI NORME INTERNATIONALE

Systèmes de transmission

L équipement choisit devra être nomade, il servira aux visiteurs en déplacements et sera donc sujets à des limitations de tailles et de poids.

1. Introduction Avantages, fonctionnalités, limitations et configuration requise Avantages... 2

d. Tendances du marché...22 e. Une vision européenne...22 III. La distribution en France... 23

vbladecenter S! tout-en-un en version SAN ou NAS

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Économie d énergie dans les centrales frigorifiques : La haute pression flottante

IN SYSTEM. Préconisations techniques pour Sage 100 Windows, MAC/OS, et pour Sage 100 pour SQL Server V16. Objectif :

L énergie de l air extérieur pour une eau chaude sanitaire naturellement moins chère

IPHONE BANNIÈRE CLASSIQUE DIMENSIONS. Standard : 320 x 53 (portrait) 20Ko Jpeg/Gif/Png. HD : 640 x 106 (portrait) 20Ko Jpeg/Gif/Png DESCRIPTION

Architecture Technique

STI2D : Enseignements Technologiques Transversaux

36% T.Flow VMC hygroréglable & chauffe eau thermodynamique QUAND LA VENTILATION RÉINVENTE L EAU CHAUDE. BÉNÉFICIEZ DE

L importance du suivi du dioxyde de carbone (CO 2. ) dans la production de dindes

FORMATION HYGIENE. (D après méthode HACCP) EN INDUSTRIE AGROALIMENTAIRE

Batterie Li-ion Evolion. La solution éprouvée ultracompacte de Saft pour les applications télécoms

(Third-Man Attack) PASCAL BONHEUR PASCAL 4/07/2001. Introduction. 1 Domain Name Server. 2 Commandes DNS. 3 Hacking des serveurs DNS

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

Guide de correction et d optimisation des images en vue de leur publication sous Marcomedia Contribute. Logiciel utilisé : Adobe PhotoShop 7

1, rue Viau Rezé Tél : Fax :

Exercice 1. Exercice n 1 : Déséquilibre mécanique

Big Data et Graphes : Quelques pistes de recherche

TP Sauvegarde et restauration avec le logiciel Cobian Backup. Etape 1 :

Windows 2000: W2K: Architecture. Introduction. W2K: amélioration du noyau. Gamme windows W2K pro: configuration.

Remarque : notre dernière étude sur Memopal datant de l an dernier est disponible ici

INENTECH nos expertises. Automatisation / informatique industrielle. Systèmes de conduite automatisée. Informatique de production.

Annonces internes SONATRACH RECHERCHE POUR SA DIRECTION CENTRALE INFORMATIQUE ET SYSTÈME D INFORMATION :

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Guide pour l Installation des Disques Durs SATA et la Configuration RAID

Pré-requis installation

Régler les paramètres de mesure en choisissant un intervalle de mesure 10µs et 200 mesures.

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

1 Recherche en table par balayage

Aquitaine Thermographie

CHAPITRE V SELECTION DES CONSULTANTS ET D AUTRES PRESTATAIRES DE SERVICES

M&S Automation. Analyse Statistiques Qualité. Ingénierie de l information. acquisition et stockage des données. analyse des données

«Cours Statistique et logiciel R»

FORMATS DE FICHIERS. Quels sont les différents types d informations numériques dans un document multimédia?

ÉTUDE DE CRYPTOGRAPHIE ET DE TÉLÉPORTATION QUANTIQUES ET PROPOSITION DE QUELQUES PROTOCOLES QUANTIQUES

NOTIONS FONDAMENTALES SUR LES ENERGIES

JPEG, PNG, PDF, CMJN, HTML, Préparez-vous à communiquer!

Accumuler la chaleur avec des ballons système individuels.

GAMME UVILINE 9100 & 9400

Evaluation des émissions

Codage d information. Codage d information : -Définition-

Annexe 3 Captation d énergie

Soudal Panel System SPS. La force extrême derrière vos panneaux de façade. SOUDAL PANEL SYSTEM. Soudal Panel System 1 SPS SOUDAL PANEL

Chaine de transmission

Transcription:

Théorie de l information et mesures d entropie Damien Nouvel Damien Nouvel (Inalco) Entropie 1 / 15

Quantification de données Plan 1. Quantification de données 2. Calculs d entropie 3. Arbres de décision Damien Nouvel (Inalco) Entropie 2 / 15

Quantification de données Mesures sur des corpus Taille pour stocker un corpus : Nombre de fichiers (80jours : 1) Nombre de mots (80jours : 85K) Espace disque requis (80jours : 776Ko) ñ Quelles mesures pour l «information»? Information contenue dans un corpus : Compression de fichier (80jours : zip 192 Ko, bz2 117 Ko...) Nombre de mots distincts (80jours : 9412)...? ñ Nombreuses mesures pour quantifier un corpus Lien entre taille et information : Comment stocker un document de manière optimale? Combien de temps pour lire et comprendre un texte? ñ Compromis entre stockage et accessibilité Damien Nouvel (Inalco) Entropie 3 / 15

Calculs d entropie Plan 1. Quantification de données 2. Calculs d entropie 3. Arbres de décision Damien Nouvel (Inalco) Entropie 4 / 15

Calculs d entropie Claude Shannon : entropie, théorie de l information Damien (1948) Nouvel (Inalco) Entropie 5 / 15 Théorie de l information de Shannon

Calculs d entropie Entropie de Shannon Mesure thermodynamique adaptée aux télécoms Répandue en sciences (néguentropie) Définition : Formule : H(X) = ř P(X = x) log(p(x = x)) xpx Propriétés : Positive : H(X) ě 0 Entropie jointe : H(X, Y) ď H(X) + H(Y) Entropie conditionnelle : H(X, Y) = H(X) + H(Y X) Comportement : Augmente avec le nombre d évènements équiprobables : Deux évènements (P(X = i) = 0.5) : H(X) = 1 Quatre évènements (P(X = i) = 0.25) : H(X) = 2 Augmente avec l équilibre des probabilités : Déséquilibrée (P(X = 1) = 0.1, P(X = 2) = 0.9) : H(X) = 0.47 Équilibrée (P(X = 1) = 0.4, P(X = 2) = 0.6) : H(X) = 0.97 Damien Nouvel (Inalco) Entropie 6 / 15

Calculs d entropie Fonction d entropie 0.5 0.4 -x*ln(x) 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 x Damien Nouvel (Inalco) Entropie 7 / 15

Calculs d entropie Interprétation de l entropie ñ L entropie comme mesure de... Incertitude... Indécidabilité?! Désorganisation #! :/ Chaos :s Information? ñ difficile à interpéter... Intérêt de l entropie Mesure la quantité d information : Un signal peu informatif est redondant Un signal informatif est très diversifié et peu prédictible ñ En télécommunications : quelle bande passante est nécessaire? ñ Relation entre données et modèle statistique Se mesure en nombre de bits (logarithme base 2) Damien Nouvel (Inalco) Entropie 8 / 15

Calculs d entropie Calcul de l entropie en python ñ Utilisation de la fonction log de la librairie math import math probas = [0.2, 0.3, 0.5] entropie = 0 for proba in probas: entropie -= proba*math.log(proba, 2) print 'Entropie:', entropie Damien Nouvel (Inalco) Entropie 9 / 15

Calculs d entropie Information mutuelle ñ Mesure de la corrélation entre deux variables Définition : Formule : I(X, Y) = ř P(X = x, Y = xpx,ypy ( ) P(X = x, Y = y) y) log P(X = x) P(Y = y) Propriétés : Positive : I(X, Y) ě 0 En cas d indépendance : I(X, Y) = 0 Lien avec l entropie : H(X, Y) = H(X) + H(Y) + I(X, Y) Lien avec l entropie conditionnelle : I(X, Y) = H(X) H(X Y) Damien Nouvel (Inalco) Entropie 10 / 15

Calculs d entropie Divergence de Kullback-Leibler ñ Mesure la perte d information par approximation d une loi Définition : Formule : D KL (P Q) = ř xpx P(X = x) log ( ) P(X = x) Q(X = x) Propriétés : Positive : D KL (P, Q) ě 0 Les lois ne divergent pas si D KL (P Q) = 0 Avec cette formulation, comparaison sur les mêmes données ñ Aussi appelée gain d information ou entropie relative Damien Nouvel (Inalco) Entropie 11 / 15

Arbres de décision Plan 1. Quantification de données 2. Calculs d entropie 3. Arbres de décision Damien Nouvel (Inalco) Entropie 12 / 15

Arbres de décision Critères sur des données Tâche de classification : Recueil et examen des données Recherche de critères «utiles» Focalisation sur les sous-ensembles de données ñ Quelle importance accorder à chaque critère ñ Prise de décision jour température pluie travail sortir lundi 27 non oui oui jeudi 15 oui non non samedi 10 oui non non mercredi 23 non oui non lundi 27 non non oui mercredi 15 oui non oui Damien Nouvel (Inalco) Entropie 13 / 15

Arbres de décision Critères sur des données ñ L arbre de décision évalue les critères pour classifier Structure de l arbre : Les nœuds contiennent les variables Les arcs contiennent une décision sur les valeurs Les feuilles contiennent les données Évaluation de l apport d une décision par entropie : Pour chaque feuille, pour chaque critère différence entre : Entropie du nœud n ř P(X = x n) log(p(x = x n)) xpx Somme pondérée des entropie des nœuds enfants e P child(n) ř e ř P(X = x e) log(p(x = x e)) epenfant(n) n xpx ñ Choix du critère qui diminue le plus l entropie ñ Séquence de décisions guidées par l entropie ñ Possibilité de visualiser les décisions sous forme d arbre Damien Nouvel (Inalco) Entropie 14 / 15

Arbres de décision Exemple weekend temp. pluie travail sortir non chaud non oui oui non froid oui non non oui froid oui oui oui non chaud non oui non non chaud oui non oui non doux oui non oui H(sortir) = 4/6 log(4/6) 2/6 log(2/6) = 0.91 Damien Nouvel (Inalco) Entropie 15 / 15

Arbres de décision Exemple weekend temp. pluie travail sortir non chaud non oui oui non froid oui non non oui froid oui oui oui non chaud non oui non non chaud oui non oui non doux oui non oui oui weekend non H(sortir) = 1/6 ( 1 log(1)) + 5/6 ( 3/5 log(3/5) 2/5 log(2/5)) = 0.80 non=0 oui=3 non=2 Damien Nouvel (Inalco) Entropie 15 / 15

Arbres de décision Exemple weekend temp. pluie travail sortir non chaud non oui oui non froid oui non non oui froid oui oui oui non chaud non oui non non chaud oui non oui non doux oui non oui oui non=0 chaud non temp. doux non=0 froid H(sortir) = 3/6 ( 2/3 log(2/3) 1/3 log(1/3)) + 1/6 ( 1 log(1)) + 2/6 ( 1/2 log(1/2) 1/2 log(1/2)) = 0.79 Damien Nouvel (Inalco) Entropie 15 / 15

Arbres de décision Exemple weekend temp. pluie travail sortir non chaud non oui oui non froid oui non non oui froid oui oui oui non chaud non oui non non chaud oui non oui non doux oui non oui oui pluie non H(sortir) = 4/6 ( 3/4 log(3/4) 1/4 log(1/4)) + 2/6 ( 1/2 log(1/2) 1/2 log(1/2)) = 0.87 oui=3 Damien Nouvel (Inalco) Entropie 15 / 15

Arbres de décision Exemple weekend temp. pluie travail sortir non chaud non oui oui non froid oui non non oui froid oui oui oui non chaud non oui non non chaud oui non oui non doux oui non oui oui travail non H(sortir) = 3/6 ( 2/3 log(2/3) 1/3 log(1/3)) + 3/6 ( 2/3 log(2/3) 1/3 log(1/3)) = 0.91 oui=2 oui=2 Damien Nouvel (Inalco) Entropie 15 / 15

Arbres de décision Exemple weekend temp. pluie travail sortir non chaud non oui oui non froid oui non non oui froid oui oui oui non chaud non oui non non chaud oui non oui non doux oui non oui chaud temp. doux froid H(sortir temp = chaud) = 2/3 log(2/3) 1/3 log(1/3) = 0.63 oui=2 non=0 oui non=0 non Damien Nouvel (Inalco) Entropie 15 / 15

Arbres de décision Exemple weekend temp. pluie travail sortir non chaud non oui oui non froid oui non non oui froid oui oui oui non chaud non oui non non chaud oui non oui non doux oui non oui chaud temp. doux froid H(sortir temp = chaud) = 2/3 ( 1 log(1)) + 1/3 ( 1/2 log(1/2) 1/2 log(1/2)) = 0.46 oui non=0 pluie non non=0 H(sortir) = 3/6 H(sortir temp = chaud) + 1/6 ( 1 log(1)) + 2/6 ( 1/2 log(1/2) 1/2 log(1/2)) = 0.46 Damien Nouvel (Inalco) Entropie 15 / 15