Théorie de l estimation et de la décision statistique

Documents pareils

Méthodes de Simulation

Simulation de variables aléatoires

Espérance conditionnelle

Soutenance de stage Laboratoire des Signaux et Systèmes

Cours d introduction à la théorie de la détection

TABLE DES MATIERES. C Exercices complémentaires 42

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Modélisation et simulation

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

choisir H 1 quand H 0 est vraie - fausse alarme

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Moments des variables aléatoires réelles

Quantification Scalaire et Prédictive

Filtrage stochastique non linéaire par la théorie de représentation des martingales

M2 IAD UE MODE Notes de cours (3)

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

MCMC et approximations en champ moyen pour les modèles de Markov

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Probabilités III Introduction à l évaluation d options

Modèles et Méthodes de Réservation

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

3 Approximation de solutions d équations

Programmes des classes préparatoires aux Grandes Ecoles

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Cours de méthodes de scoring

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Chapitre 2 Le problème de l unicité des solutions

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Correction du Baccalauréat S Amérique du Nord mai 2007

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Théorème du point fixe - Théorème de l inversion locale

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

PROBABILITES ET STATISTIQUE I&II

Théorie et codage de l information

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Probabilités sur un univers fini

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Cours d Analyse. Fonctions de plusieurs variables

Intérêt du découpage en sous-bandes pour l analyse spectrale

Continuité en un point

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Table des matières. I Mise à niveau 11. Préface

Limites finies en un point

Précision d un résultat et calculs d incertitudes

NOMBRES COMPLEXES. Exercice 1 :

Correction du baccalauréat ES/L Métropole 20 juin 2014

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Fonctions de plusieurs variables

Introduction à la statistique non paramétrique

Le modèle de Black et Scholes

Programmation linéaire

Résolution de systèmes linéaires par des méthodes directes

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Calcul fonctionnel holomorphe dans les algèbres de Banach

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Pierre Thérond Année universitaire

Probabilités sur un univers fini

La classification automatique de données quantitatives

Chapitre 3. Les distributions à deux variables

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Le Modèle Linéaire par l exemple :

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Les indices à surplus constant

Principe de symétrisation pour la construction d un test adaptatif

Calcul différentiel sur R n Première partie

NON-LINEARITE ET RESEAUX NEURONAUX

4. Martingales à temps discret

Introduction à la Statistique Inférentielle

Rappels sur les suites - Algorithme

Économetrie non paramétrique I. Estimation d une densité

Echantillonnage Non uniforme

La fonction exponentielle

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Communications numériques

Introduction à l étude des Corps Finis

MA6.06 : Mesure et Probabilités

Estimation et tests statistiques, TD 5. Solutions

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Analyse de la variance Comparaison de plusieurs moyennes

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

3. Conditionnement P (B)

Température corporelle d un castor (une petite introduction aux séries temporelles)

Chp. 4. Minimisation d une fonction d une variable

Exercice : la frontière des portefeuilles optimaux sans actif certain

Chapitre VI - Méthodes de factorisation

Résolution d équations non linéaires

Introduction à l approche bootstrap

Université Paris-Dauphine DUMI2E 1ère année, Applications

Transcription:

Théorie de l estimation et de la décision statistique Paul Honeine en collaboration avec Régis Lengellé Université de technologie de Troyes 2013-2014

Quelques références Decision and estimation theory Décision en traitement du signal Statistical signal processing : Detection, estimation, and time series analysis Signaux aléatoires (3 tomes) Fundamentals of statistical signal processing : Estimation theory (1993), Detection theory (1998) Signal : detection and estimation J.L. Melsa, D.L. Cohn éd. McGraw-Hill (1978) P.Y. Arques éd. Masson (1982) L.L. Scharf éd. Addison-Wesley (1990) B. Picinbono éd. Dunod (1994) S.M. Kay éd. Prentice Hall M. Barkat éd. Artech-House (2005)

Théorie de l estimation et de la décision statistique Motivations Estimation de paramètres de signaux/images (et prédiction) Détection Classification

Théorie de l estimation et de la décision statistique Structure du cours 1 Théorie de l estimation Problématique Estimateur sans biais a variance minimum Borne de Cramer Rao Recherche de l estimateur sans biais à variance minimum Méthode du maximum de vraisemblance Méthode des moments Approche Bayésienne 2 Théorie de la décision Introduction Formulation du problème Les principaux critères de décision Critère de Bayes Critère minimax Critère de Neyman Pearson Notion de statistique suffisante Caractéristique opérationnelle d un récepteur (Définition, Propriétés, Intérêt) Le problème Gaussien Généralisation aux mesures multiples Cas des hypothèses composites Eléments de détection séquentielle 3 Détection à structure imposée Eléments de théorie de l apprentissage Machines à vecteurs supports

Théorie de l estimation

Problématique Estimation ponctuelle Densité de probabilité : (Z 1,Z 2,...,Z N) p(z 1,z 2,...,z N,θ) En théorie des probabilités, θ est déterministe En statistique, θ est une variable aléatoire ˆθ : estimateur de θ (v. a. fonction des v. a. de l échantillon) ˆθ = g(z 1,Z 2,...,Z N) Loi de vraisemblance : L(Z 1,Z 2,...,Z N) = p(z 1,z 2,...,z N,θ) z1 =Z 1,z 2 =Z 2,...,z N =Z N = p(z 1,Z 2,...,Z N,θ) Example 0 :... 6 /60

Problématique Estimation par intervalle de confiance ˆθ = g(z 1,Z 2,...,Z N) p(g,θ) p(g, θ) 1 α p(a(θ) ˆθ B(θ)) = 1 α α/2 α/2 ou encore p(a 1 (ˆθ) θ B 1 (ˆθ)) = 1 α A(θ) θ B(θ) g Exemple 1 : Z i = B i +θ, avec B i N(0,σ 2 ), σ étant connu. ˆθ 1 = 1 N N i=1 Zi et ˆθ 2 = Z 1 Un estimateur est une variable aléatoire. Ses performances ne peuvent être décrites que statistiquement 7 /60

Estimateur sans biais à variance minimale = Minimum variance unbiased (MVU) estimator 8 /60

Estimateur sans biais à variance minimale = Minimum variance unbiased (MVU) estimator Biais : b(ˆθ) = E(ˆθ) θ Estimateur sans biais : E(ˆθ) = θ ˆθ = g(z 1,Z 2,...,Z N) E(ˆθ) = E(g(Z 1,Z 2,...,Z N)) = g(z 1,z 2,...,z N)p(z 1,z 2,...,z N,θ)dz 1dz 2...dz N = gp(g,θ)dg Exemple : ˆθ 3 = 1 2N N i=1 Zi 9 /60

Estimateur sans biais à variance minimale Motivation : critère d erreur quadratique moyenne minimale Definition (Erreur quadratique moyenne) mse(ˆθ) = E ((ˆθ θ) 2) mse(ˆθ) = E ((ˆθ θ) 2) ( ) ) 2 = E (ˆθ E(ˆθ)+E(ˆθ) θ = var(ˆθ)+b 2 (ˆθ) Exemple : ˆθ 4 = a N N i=1 Zi L estimateur MVU existe t il? et, si oui, comment le trouver? 10/60

Estimateur sans biais à variance minimale : estimateur efficace et borne de Cramer-Rao Retour sur la loi de vraisemblance : p(z,θ) = p(z 1,Z 2,...,Z N,θ) est fonction de θ à Z = [Z 1 Z 2 Z N] fixé. Exemple 1 :... Remarque : La loi de vraisemblance porte l information sur le paramètre à estimer. Plus les variations de celles-ci sont importantes par rapport au paramètre, et plus celui-ci est aisé à estimer. Exemple : La loi uniforme U(0,a) 11/60

Estimateur sans biais à variance minimale Estimateur efficace et borne de Cramer-Rao Theorem (Estimateur efficace et borne de Cramer-Rao) Soit ˆθ un estimateur sans biais de θ. Si p(z,θ) vérifie, pour tout θ, ( ) lnp(z,θ) 1 E = 0, alors var(ˆθ) ( ). θ E 2 lnp(z,θ) θ 2 De plus, si et seulement s il existe g( ) et I(N,θ) telles que lnp(z,θ) θ = I(N,θ)(g(Z) θ), alors g(z) est un estimateur sans biais dont la variance atteint la borne. L estimateur ˆθ est dit efficace. Exemple 1 : ˆθ eff = 1 N N i=1 Zi, et var(ˆθ eff ) = σ 2 /N 12/60

Estimateur sans biais à variance minimale Estimateur efficace et borne de Cramer-Rao : démonstration Démonstration (1/3) : Soit ˆθ un estimateur sans biais de θ. D une part, la condition permet d écrire ( ) lnp(z,θ) lnp(z,θ) 0 = E = p(z,θ)dz 1 = θ θ p(z,θ) dz 2 = θ θ p(z, θ)dz, où 1 = est due à la relation u(θ) θ = u(θ) lnu(θ) θ car lnu(θ) θ = u(θ) θ et 2 = vraie si les bornes ne dépendent pas de θ, donc les supports de p 1 u(θ) D autre part, l estimateur est sans biais, c est-à-dire E(ˆθ) = θ, soit en dérivant 1 = f(z)p(z, θ)dz = f(z) θ θ p(z,θ)dz = f(z) lnp(z,θ) p(z, θ)dz θ = (f(z) θ ) lnp(z,θ) p(z, θ)dz θ où on peut introduire θ car θ lnp(z,θ) p(z,θ)dz = θe θ ( ) lnp(z,θ) = 0 θ 13/60

Estimateur sans biais à variance minimale Estimateur efficace et borne de Cramer-Rao : démonstration Démonstration (2/3) : Rappel : inégalité de Cauchy-Schwarz : pour tout w(z) 0, on a w(z)k(z)h(z)dz 2 w(z)k 2 (z)dz avec égalité si il existe un c tel que k(z) = ch(z). w(z)h 2 (z)dz, Posons w(z) = p(z,θ), k(z) = f(z) θ, et h(z) = lnp(z,θ), alors θ 1 p(z,θ) ( f(z) θ )2 ) 2dz dz p(z,θ)( θ lnp(z,θ) ( (f(z) θ ) ) (( 2 ) 2 ) Le premier terme vaut E = var(ˆθ), et le second E θ lnp(z,θ) 1 var(ˆθ) ( ( ) ) 2 E lnp(z,θ) θ 14/60

Estimateur sans biais à variance minimale Estimateur efficace et borne de Cramer-Rao : démonstration Démonstration (3/3) : Par ailleurs, ( ) lnp(z,θ) lnp(z,θ) 0 = E = p(z, θ)dz θ θ On dérive à nouveau ( ) lnp(z,θ) 2 lnp(z,θ) 0 = p(z, θ) dz = θ θ θ 2 ( ( lnp(z,θ) ) ) 2 Or, le second terme vaut E car p(z,θ) θ θ Donc ( ) ( 2 lnp(z,θ) ( lnp(z,θ) ) ) 2 E = E θ 2 θ p(z,θ)+ lnp(z,θ) θ p(z, θ) dz θ = lnp(z,θ) p(z,θ). θ 1 var(ˆθ) ( ) E 2 lnp(z,θ) θ 2 15/60

Estimateur sans biais à variance minimale Estimateur efficace et borne de Cramer-Rao : démonstration Démonstration (3 + /3) : La borne est atteinte lorsque l inégalité de Cauchy-Schwarz devient égalité, c est-à-dire lorsque h(z) = I(θ)k(z). En dérivant, on obtient lnp(z,θ) θ 2 lnp(z,θ) θ 2 = I(θ) ( f(z) θ ) = I(θ)+ I(θ) ( ) f(z) θ θ et en considérant l espérance de cette expression, on obtient ( 2 lnp(z,θ) ) E = I(θ)+ ( E(ˆθ) θ ) θ 2 où le dernier terme est nul car ˆθ est sans biais. ( 2 lnp(z,θ) ) I(θ) = E θ 2 16/60

Estimateur sans biais à variance minimale Estimateur efficace et borne de Cramer Rao Theorem (Estimateur efficace et borne de Cramer-Rao, extension au cas vectoriel) Soit ˆθ un estimateur ) sans biais de θ = [θ 1 θ 2 θ p]. Si p(z,θ) vérifie, pour tout θ, E = 0, alors la matrice de covariance Cˆθ de ˆθ vérifie : ( lnp(z,θ) θ ( ) 2 lnp(z,θ) Cˆθ I 1 (ˆθ) 0, où [I(ˆθ)] i,j = E. θ i θ j De plus, si et seulement s il existe une fonction vectorielle g( ) et une matrice I(N,θ), de taille p p, telles que lnp(z,θ) θ = I(N,θ)(g(Z) θ), alors g(z) est un estimateur sans biais dont la variance atteint la borne. L estimateur ˆθ est dit efficace, avec Cˆθ = I 1 (ˆθ). 17/60

Recherche de l estimateur sans biais à variance minimale L estimateur efficace ˆθ eff n existe pas toujours... Comment faire pour trouver l estimateur sans biais à variance minimale ˆθ? var(ˆθ i ) ˆθ 1 ˆθ 2 ˆθ ˆθ eff, s il existe Borne de Cramer-Rao ˆθ 18/60

Recherche de l estimateur sans biais à variance minimale Notion de statistique suffisante Example 1 : ˆθ1 = 1 N N i=1 Zi Quelles sont les données utiles pour estimer θ? Z 1,Z 2,...,Z N Z 1 +Z 2,Z 3,...,Z N N i=1 Zi Chacune de ces statistiques est suffisante pour estimer θ. Toutefois, N i=1zi est de dimension minimale. Definition (statistique suffisante) Une statistique T(z 1,z 2,...,z N) est suffisante pour un paramètre θ si p(z 1,z 2,...,z N T(z 1,z 2,...,z N),θ) est indépendant de θ. 19/60

Recherche de l estimateur sans biais à variance minimale Notion de statistique suffisante Theorem (factorisation de Neyman Fisher) Si p(z 1,...,Z N,θ) = g(t(z 1,...,Z N),θ)h(Z 1,...,Z N), alors T(Z 1,Z 2,...,Z N) est une statistique suffisante pour θ Exemple 1 Theorem (Rao Blackwell Lehmann Scheffé) Soit ˆθ un estimateur sans biais de θ et T(Z 1,Z 2,...,Z N) une statistique suffisante. Alors E(ˆθ T(Z 1,Z 2,...,Z N)) est un estimateur sans biais de variance plus faible que celle de ˆθ. De plus, si la statistique est complète, alors E(ˆθ T(Z 1,Z 2,...,Z N)) est l estimateur à variance minimale Definition (statistique complète) Une statistique est dite complète s il existe une seule fonction de celle-ci qui est sans biais. 20/60

Recherche de l estimateur sans biais à variance minimale Application : θ = E(ˆθ T(Z 1,Z 2,...,Z N)) est un estimateur sans biais de θ de variance plus faible que ˆθ. Mais θ = E(ˆθ T(Z 1,Z 2,...,Z N)) est une fonction g(t(z 1,Z 2,...,Z N)). Si la statistique est complète alors g est unique. θ est donc unique (indépendant du choix initial de ˆθ). C est donc l estimateur sans biais de variance minimale (s il existe). De manière duale, si la statistique est complète, il suffit de trouver la fonction g(t(z 1,Z 2,...,Z N)) qui soit sans biais. Exemple 1 : 21/60

Méthode du maximum de vraisemblance Si l estimateur efficace n existe pas le calcul de E(ˆθ ˆθ suff ) est très difficile on ne peut trouver de fonction g(ˆθ suff ) qui soit sans biais (et unique...) alors on cherche un estimateur asymptotiquement efficace (attention à la taille de l échantillon...) Definition (estimateur du maximum de vraisemblance) L estimateur du maximum de vraisemblance est celui qui maximise la loi de vraisemblance ˆθ MV = argmaxp(z, θ) θ En général, on maximise plutôt ln(p(z,θ)) lnp(z,θ) θ = 0, et 2 lnp(z,θ) θ 2 < 0. Exemple 1 : Appliquer la méthode du maximum de vraisemblance revient à retenir la valeur de θ qui maximise la densité de probabilité des donnés observés. 22/60

Méthode du maximum de vraisemblance Exemple 1 : Appliquer la méthode du maximum de vraisemblance revient à retenir la valeur de θ qui maximise la densité de probabilité des donnés observés. Exemple 1 : ˆθ MV = 1 N N i=1 Zi, sur cet exemple, on constate que ˆθ MV est efficace. En effet, si l estimateur efficace existe, alors lnp(z,θ) θ alors lnp(z,θ) = 0 pour θ = ˆθ θ MV = ˆθ eff. = I(θ)(ˆθ eff θ). On a Conclusion : Si l estimateur efficace existe, il est donné de manière unique par la méthode du maximum de vraisemblance. Attention, la réciproque n est pas vraie. 23/60

Méthode du maximum de vraisemblance Theorem Si les dérivées première et seconde de lnp(z,θ) existent, et si ( ) lnp(z,θ) E = 0 θ pour tout θ, alors ˆθ N(θ,I 1 (θ)) lorsque N Theorem Si g( ) est bijective, alors l estimateur du maximum de vraisemblance de g(θ) est g(ˆθ MV), soit (g(θ)) MV = g(ˆθ MV). 24/60

Méthode des moments Méthode des moments Supposons qu il existe une fonction b(θ) = E(g(Z)) = g(z)p(z,θ)dz, où la fonction b( ) est continue et monotone, alors θ = b 1 (E(g(Z))). La méthode des moments consiste à remplacer le moment théorique E(g(Z)) par le moment empirique correspondant 1 N N i=1g(zi). On en déduit alors un estimateur de θ : ( ) θ = b 1 1 N g(z i). N Si la fonction b 1 ( ) est continue, alors l estimateur obtenu est convergent. i=1 Exemple 1 : E(Z) = θ, alors ˆθ mom = 1 N N i=1 Zi 25/60

Approche Bayésienne θ est supposé aléatoire de loi de probabilité a priori p(θ). On a alors p(θ) = p(z,θ)dz p(z,θ) = p(θ Z)p(Z) Par exemple : mse(ˆθ) = (ˆθ θ) 2 p(z,θ)dzdθ ( ) = (ˆθ θ) 2 p(θ Z)dθ p(z)dz L estimateur qui minimise la mse est : ˆθ = E(θ Z) On peut aussi imaginer d autres fonctions coût C(ˆθ θ) : C(ˆθ θ) = ˆθ θ, qui donne la médiane de p(θ Z) { 0 si ˆθ θ < δ C(ˆθ θ) = 1 si ˆθ θ δ, qui correspond au mode de p(θ Z) 26/60

Approche Bayésienne Exemple : Alors { θexp( θzk ) si z p(z k θ) = k 0 0 sinon { λexp( λθ) si θ 0 p(θ) = 0 sinon ˆθ MAP = 1 1 N N i=1 Zi + λ N 27/60

Théorie de la décision binaire

Théorie de la décision binaire 1 Introduction 2 Formulation du problème Etude d une règle de décision Hypothèses et notations 3 Les principaux critères de décision Critère de Bayes Critère minimax Critère de Neyman Pearson Notion de statistique suffisante 4 Caractéristique opérationnelle d un récepteur Définition Propriétés Intérêt 5 Le problème Gaussien 29/60

Introduction Exemple introductif 1 EXEMPLE INTRODUCTIF 1 Problème : Reconnaître à l aide d une caméra deux types de pièces plates Méthode : Extraction d un paramètre de l image (i.e., surface ) Classer les pièces en fonction du paramètre choisi Difficulté : Pour un type de pièces données, la mesure est aléatoire (fabrication, mesure,...) m 2 paramètre mesuré z m 1 Quelle décision? 30/60

Introduction Exemple introductif 2 EXEMPLE INTRODUCTIF 2 : Communication binaire synchrone Principe : signal échantillonnage conversion analogique-numérique Emission (suite 0 1) Réception Décision : A-t-on reçu 0 ou 1? 31/60

Formulation du problème M 1 S 1 Z 1 D 1 M 2 S 2 Z 2 D 2 M S Z D M : espace des messages, source (les 2 pièces) S : espace des signaux (les images) Z : espace des observations (les mesures z IR) D : espace des décisions (quelle pièce?) Comment passer de Z à D? Quelle partition de Z? 32/60

Formulation du problème Hypothèses et notations Messages : Probabilité des messages : P(M 1),P(M 2), avec P(M 1)+P(M 2) = 1 Signaux : Probabilité des signaux : P(S i) = P(M i), pour i = 1,2 Probabilités a priori : P(S i),p(m i) Observations (mesures) : Le vecteur des mesures z est la réalisation d un vecteur aléatoire Z Probabilités conditionnelles des mesures : p(z S i), pour i = 1,2 Probabilité des mesures : p(z) = p(z S 1)P(S 1)+p(z S 2)P(S 2) Remarque : Z est un vecteur aléatoire discret ou continue Si Z est continu, alors p(z S i) et p(z) sont des densités de probabilités, avec p(z)dz = 1 et p(z Si)dz = 1 Z Z 33/60

Formulation du problème De l observation à la décision : Partition de l espace des observations, Z 1 et Z 2, avec Z 1 Z 2 = Z et Z 1 Z 2 = Z 2 Z 1 Décision : Décision D 1 si z Z 1 Décision D 2 si z Z 2 34/60

Formulation du problème Probabilités de décision : Conditionnelle P(D i S j) = p(z S j)dz Z i P(D 1 S j)+p(d 2 S j) = 1 Totale P(D i) = p(z)dz Z i P(D i) = P(D i S 1)P(S 1)+P(D i S 2)P(S 2) Bonnes décisions : S i D i, pour i = 1,2 P BD = P(D 1 S 1)P(S 1)+P(D 2 S 2)P(S 2) Mauvaises décisions : S i D j, pour i j P MD = P(D 2 S 1)P(S 1)+P(D 1 S 2)P(S 2) 35/60

Formulation du problème Etude d une règle de décision Principe : Les mesures étant connues, on choisit l hypothèse qui a la probabilité maximum Décision D 1 si p(s 1 z) > p(s 2 z) Décision D 2 si p(s 1 z) < p(s 2 z) p(s 2 z) D 2 1 p(s 1 z) D 1 Critère du maximum de probabilité a postériori Règle : p(z S 2) D 2 p(s 1) p(z S 1) D 1 p(s 2) ceci correspond à comparer le rapport de vraisemblance à un seuil : Λ(z) D 2 D 1 λ 36/60

Formulation du problème Etude d un problème (classification de pièces) Hypothèses : Paramètres : m 1,m 2, avec m 1 < m 2 Mesures bruitées z = m j +v, avec v une variable aléatoire Gaussienne N(0,σ 2 ). Probabilités a priori : P(S 1),P(S 2) Solution : p(s 2 z) D 2 D 1 p(s 1 z) z D 2 m 2 +m 1 σ 2 + ln P(S1) D 1 2 m 2 m 1 P(S 2) 37/60

Formulation du problème Etude d un problème (classification de pièces) P(z S 1) P(z S 2) P(D 1 S 2) P(D 2 S 1) z m 1 m 2 D 1 D2 z s 38/60

Formulation du problème Etude d un problème (classification de pièces) P(z S 1)P(S 1) P mauvaise décision P(z S 2)P(S 2) D 1 P(z S 1)P(S 1) z s D 2 P bonne décision P(z S 2)P(S 2) z D 1 z s D 2 z 39/60

Formulation du problème Etude d un problème (classification de pièces) Les probabilités de décision : avec P(D 2 S i) = P(D 1 S i) = ( zs m ) i p(z S i)dz = 1 erf z s σ ( zs m ) i p(z S i)dz = erf σ zs erf(x) = 1 2π x exp ) ( u2 du 2 40/60

Formulation du problème Etude du rapport de vraisemblance z mesure réalisation de la variable aléatoire Z Λ(z) réalisation de la variable aléatoire Λ(Z) Lois de Λ(Z) : Lois conditionnelles p(λ S i) p(λ) = p(λ S 1)P(S 1)+p(Λ S 2)P(S 2)... se déduisent des lois de z Λ(z) 0, pour tout z Probabilités de décision : Décision D 1 si Λ(z) < λ Décision D 2 si Λ(z) λ P(D 1 S j) = P(D 2 S j) = λ 0 λ p Λ(λ S j)dλ p Λ(λ S j)dλ 41/60

Critère de Bayes Hypothèses de base : Toutes les décisions ne sont pas équivalentes Exemples : détection d un défaut dans une pièce, détection radar,... On associe un coût à toute décision conditionnelle : C ij le coût associé à D i pour S j P(S i) et P(z S i) sont connues, pour i = 1,2 On définit un coût moyen de Bayes C = 2 i=1 j=1 2 C ijp(d i S j) Objectif : Recherche d une partition de Z qui rende C minimum 42/60

Critère de Bayes Solution : Pourquoi? p(z S 2) D 2 (C 11 C 21)p(S 1) p(z S 1) D 1 (C 22 C 12)p(S 2) C = C 21p(S 1)+C 22p(S 2)+ I(z)dz coût fixé coût contrôlé I(z) = (C 11 C 21)p(z S 1)P(S1)+(C 12 C 22)p(z S 2)P(S 2) Z 1 = {z I(z) 0} Z 2 = {z I(z) > 0} FIGURE 43/60

Critère minimax Hypothèses de base : Les mêmes que celles du critère de Bayes, mais les P(S i) sont inconnus Objectif : Se placer dans le cas le plus défavorable du critère de Bayes max C(P(S 2)) P(S 2 ) Solution : p(z S 2) D 2 (C 11 C 21)p(S 1) p(z S 1) D 1 (C 22 C 12)p(S 2) où P(S 2) est solution de l équation caractéristique (C 22 C 11)+(C 12 C 22)P(D 1 S 2) (C 21 C 11)P(D 2 S 1) = 0 44/60

Critère minimax Coût moyen : C(P(S 2)) = C 21P(D 2 S 1)+C 11(1 P(D 2 S 1)) ( ) +P(S 2) (C 22 C 11)+(C 12 C 22)P(D 1 S 2) (C 21 C 11)P(D 2 S 1) Coût minimum : Dépend de P(S 2) (P 2) de façon explicite P(S 2) de façon implicite λ P(D i S j) Fixons P 2 = P 2, alors λ, P(D 1 S 2) et P(D 2 S 1) déterminés Variation explicite C e(p 2) de C(P 2) en fonction de P 2 C variation linéaire par rapport à P 2 passe par C(P 2) FIGURE 45/60

Critère minimax Etude de C(P(S 2)) : C(P(S 2)) = C 21P(D 2 S 1)+C 11(1 P(D 2 S 1)) ( ) +P(S 2) (C 22 C 11)+(C 12 C 22)P(D 1 S 2) (C 21 C 11)P(D 2 S 1) FIGURE FIGURE 46/60

Critère minimax Cas possibles : FIGURE FIGURE 47/60

Critère minimax La valeur seuil λ est déterminée par l équation caractéristique, (C 22 C 11)+(C 12 C 22)P(D 1 S 2) (C 21 C 11)P(D 2 S 1) = 0 avec P(D 1 S 2) = λ 0 pλ(λ S 2)dλ et P(D 2 S 1) = λ pλ(λ S 1)dλ Règle de décision p(z S 2) D 2 λ p(z S 1) D 1 Cas particulier : C ij = 1 δ ij P(D 1 S 2) = P(D 2 S 1) et C = P(D 2 S 1) = P MD 48/60

Critère de Neyman-Pearson Hypothèses de base : Les C ij et les P(S i) sont inconnus Seules les p(z S i) sont connus Objectif : P(D 2 S 1) = α étant imposée maxp(d 2 S 2) Solution : Recherche d une partition de Z telle que J est maximum, avec J = P(D 2 S 2) λ ( P(D 2 S 1) α ) où λ est le multiplicateur de Lagrange. On a alors où α = λ pλ(λ S 1)dλ Règle de décision : Z 2 = {z p(z S 2) λp(z S 1) > 0} Λ(z) D 2 D 1 λ 49/60

Critère de Neyman-Pearson Rappel : optimization avec contraintes Objectif : Solution : minimiser C = f(x, y) sous la contrainte g(x, y) = 0 Minimisation sans contrainte : f(x,y) x indépendants Minimisation avec contrainte FIGURE = 0 et f(x,y) y = 0, avec x et y Contrainte : gradgdr = 0 minimisation : gradfdr = 0 gradf(x, y) = λgradg(x, y), avec λ le multiplicateur de Lagrange Grandeur à minimiser : f(x,y)+λg(x,y) 50/60

Critère de Neyman-Pearson Application : communication binaire synchrone Hypothèse : S 1 : signal d amplitude 0 ; S 2 : signal d amplitude m Bruit additif Gaussien N(0,σv) 2 Contrainte P(D 2 S 1) = α Solution : ( Λ(z) = exp m ) D2 (m 2z) λ 2σv 2 D 1 P(D 2 S 1) = 1 erf(z s/σ v) = α 0 z s = σ verf 1 (1 α ( 0) ) z P(D 2 S 2) = 1 erf s m σ v z D 2 D 1 z s, z s =? 51/60

Critère de Neyman-Pearson Application : communication binaire synchrone (suite) Application numérique : m = 1 et σ = 1 FIGURE P(D 2 S 1) z s λ P(D 2 S 2) 0.25 0.675 1.19 0.63 0.2 0.842 1.41 0.60 0.1 1.28 2.18 0.39 0.05 1.645 3.14 0.26 0.01 2.326 6.2 0.09 52/60

Statistique suffisante FIGURE Si toute l information nécessaire à la prise de décision est dans Λ, alors Λ est dite statistique suffisante Definition (Statistique suffisante) On appelle statistique suffisante toute variable aléatoire ou ensemble de variables aléatoires qui contient toute l information nécessaire à la prise de décision. 53/60

Statistique suffisante Application : communication binaire synchrone Détection d un signal binaire d amplitude m noyé dans un bruit blanc Gaussien. Sur une période, N échantillons sont prélevés. S 2 : z n = m+v n S 2 : z n = v n où n = 1,2,...,N, E(v n) = 0, and E(v nv n ) = σ 2 vδ nn Solution : Bruit blanc Echantillons indépendants ( Λ(z) = exp 1 ( m z 1 σv 2 2 m m )) Λ(z) D 2 D 1 λ z = 1 N N n=1 z est une statistique suffisante. z n D 2 D 1 σ 2 v Nm lnλ+ m 2 = zs 54/60

Caractéristique opérationnelle d un récepteur Definition (Caractéristique Opérationnelle d un Récepteur (COR)) C est la représentation de P(D 2 S 2) en fonction de P(D 2 S 1) P(D 2 S 2) 1 Neyman-Pearson Courbe COR 0 P(D 2 S 1) 0 α 1 55/60

Caractéristique opérationnelle d un récepteur Propriétés des courbes COR : P(D 2 S j) sont des fonctions décroissantes de λ, avec P(D 2 S j) = λ pλ(λ S j)dλ. La courbe COR passe par les valeurs (0,0) et (1,1) P(D 2 S 2) > P(D 2 S 1) dp D dp F = λ La concavité est toujours négative 56/60

Caractéristique opérationnelle d un récepteur Application : communication binaire synchrone Règle de décision : z D 2 D 1 z s z = 1 N N n=1 zn statistique suffisante (suit une loi N(m,σ2 v/n)) Probabilité de décision conditionnelle (à partir de z) ( ) ( ) zs P(D 2 S 1) = 1 erf σ zs m P(D 2 S 2) = 1 erf v/ N σ v/ N Courbes COR : FIGURE 57/60

Caractéristique opérationnelle d un récepteur Critère minimax : FIGURE Cas particulier : C ij = 1 δ ij FIGURE Critère de Neyman-Pearson : Les courbes COR permettent de choisir P(D 2 S 1) 58/60

Caractéristique opérationnelle d un récepteur Le problème Gaussien : Mesures multiples : hypothèses binaires : S 1 : p(z S 1) N(m 1,Σ 1) S 2 : p(z S 2) N(m 2,Σ 2) Identification de signaux dans un bruit Gaussien coloré Tri de pièces mécaniques (plusieurs paramètres) ( detσ1 Λ(z) = exp 1 ( ) ) (z m 2) Σ 1 2 (z m 2) (z m 1) Σ 1 1 (z m 1) detσ 2 2 Règle de décision : ( ) (z m 1) Σ 1 1 (z m 1) (z m 2) Σ 1 2 (z m D 2 detσ1 2) ln λ D 1 detσ 2 Surface de décision : conique dans Z Cas particuliers : Bruit identique : Σ 1 = Σ 2 Mesures indépendantes : Σ i identiques 59/60

60/60