Cours d introduction à la théorie de la détection



Documents pareils
choisir H 1 quand H 0 est vraie - fausse alarme

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Méthodes de Simulation

Théorie de l estimation et de la décision statistique

Simulation de variables aléatoires

Moments des variables aléatoires réelles

Probabilités sur un univers fini

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Fonctions de plusieurs variables

La fonction exponentielle

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Programmation linéaire

Espérance conditionnelle

3 Approximation de solutions d équations

Programmes des classes préparatoires aux Grandes Ecoles

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Résolution d équations non linéaires

La classification automatique de données quantitatives

Précision d un résultat et calculs d incertitudes

Soutenance de stage Laboratoire des Signaux et Systèmes

Image d un intervalle par une fonction continue

Continuité et dérivabilité d une fonction

Probabilités sur un univers fini

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Différentiabilité ; Fonctions de plusieurs variables réelles

Les indices à surplus constant

Calcul différentiel. Chapitre Différentiabilité

Introduction à l étude des Corps Finis

Programmation linéaire

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Continuité en un point

I. Polynômes de Tchebychev

PROBABILITES ET STATISTIQUE I&II

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Calcul différentiel sur R n Première partie

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Quantification Scalaire et Prédictive

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Chapitre 2 Le problème de l unicité des solutions

Principe de symétrisation pour la construction d un test adaptatif

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Théorème du point fixe - Théorème de l inversion locale

3. Conditionnement P (B)

Modèles et Méthodes de Réservation

OM 1 Outils mathématiques : fonction de plusieurs variables

Approximations variationelles des EDP Notes du Cours de M2

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Calcul fonctionnel holomorphe dans les algèbres de Banach

Loi binomiale Lois normales

Le modèle de Black et Scholes

Cours d Analyse. Fonctions de plusieurs variables

M2 IAD UE MODE Notes de cours (3)

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Introduction à la Statistique Inférentielle

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

CAPTEURS - CHAINES DE MESURES

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

LES MÉTHODES DE POINT INTÉRIEUR 1

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Suites numériques 3. 1 Convergence et limite d une suite

Théorie et codage de l information

Amphi 3: Espaces complets - Applications linéaires continues

4 Distributions particulières de probabilités

Chapitre 0 Introduction à la cinématique

Dérivées d ordres supérieurs. Application à l étude d extrema.

Cours de méthodes de scoring

Probabilités III Introduction à l évaluation d options

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Table des matières. I Mise à niveau 11. Préface

MCMC et approximations en champ moyen pour les modèles de Markov

Correction du baccalauréat ES/L Métropole 20 juin 2014

TSTI 2D CH X : Exemples de lois à densité 1

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

1 Complément sur la projection du nuage des individus

Classification non supervisée

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

TABLE DES MATIERES. C Exercices complémentaires 42

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Texte Agrégation limitée par diffusion interne

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Commun à tous les candidats

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Projet de Traitement du Signal Segmentation d images SAR

Qu est-ce qu une probabilité?

Transcription:

Olivier J.J. MICHEL Département EEA, UNSA v1.mars 06 olivier.michel@unice.fr Laboratoire LUAN UMR6525-CNRS Cours d introduction à la théorie de la détection L ensemble du document s appuie très largement sur les notes de cours dispensés d une part à l Université du Michigan (Ann Arbor, département EECS) par A.O.Hero et d autre part à l Université de Nice-Sophia Antipolis (ED.SFA, 2004) par O.Michel. Contents 1 Contexte, définitions 2 2 Formulation générale du problème de test d hypothèse binaire 2 3 Approches bayesiennes, hypothèses simples 5 3.1 Règle de Bayes et règle du max. a posteriori (MAP)..................... 5 3.2 Stratégie de Bayes, notion de coût............................... 6 3.3 Le détecteur MiniMax de Bayes................................. 8 3.4 Test à hypothèses multiples................................... 9 4 L approche de Neyman Pearson (NP) 12 5 Tests de rapport de vraisemblance 14 5.1 Observations multiples : interprétation du LRT........................ 14 5.2 Courbes CORe.......................................... 16 5.3 Evaluation de la possibilité de détection d un signal...................... 18 6 Test d hypothèses composées 21 6.1 Stratégie bayesienne pour le test d hypothèses composées.................. 22 6.2 UMP Test : definition et existence............................... 24 6.3 Stratégie de détection dans le cas d hypothèses composées.................. 27 6.3.1 Test unilatéral, localement le plus puissant...................... 27 6.3.2 Test bilatéral, localement le plus puissant....................... 28 6.3.3 Test MinMax-Neyman Pearson............................. 30 6.4 Méthode du rapport de Vraisemblance Généralisé (GLRT).................. 30 1

1 Contexte, définitions Le problème le plus simple relevant de la théorie de la décision est le problème qui consiste à devoir choisir entre plusieurs hypothèses (notées H i ) qui permettent chacune d expliquer ou d interpréter des données observées : il s agit donc de décider à partir d un ensemble d observations collectées, quelle est l hypothèse qui est vraie, ou qui semble vraie. Sous chacune des hypothèses, les données collectées sont supposées de nature aléatoire. Les observations ont une fonction de densité de probabilité (cas continu) ou une loi de probabilité (cas discret) qui dépend de l hypothèse H i qui est réalisée. Chaque fonction de densité (fdp) ou chaque loi de probabilité est totalement (hypothèses simples) ou partiellement (hypothèses composées) connue sous chacune des hypothèses possibles H i. A chaque hypothèse est donc associée une fdp ou une loi de probabilité sur l espace de mesure. Considérons un système de communication par exemple; l émetteur envoie une suite de symboles représentés chacun par un signal de forme particulière (l opération de modulation qui réalise la correspondance entre un symbole et une forme déterminée de signal). Le récepteur doit donc détecter si un symbole a été émis et sélectionner ce symbole parmi un alphabet de symboles possibles. La séquence de ces symboles constitue un message. Ce dernier se propage dans un canal de transmission (ligne électrique, fibre optique, atmosphère,...) imparfait, et subit des modifications ou des altérations lors de sa propagation. Ces modifications sont le plus souvent dues à la nature dispersive et fluctuante du milieu dans lequel se propage le signal, à des atténuations, voire plus simplement à des effets d interférences en présence de signaux parasites (d autres émetteurs utilisent le même canal de transmission). Le signal capté par le récepteur est donc différent du signal émis et les fluctuations subies par ce dernier sont de nature aléatoire. Il se peut par ailleurs que l appareil de réception lui même introduise un bruit parasite non négligeable. La tâche du détecteur est donc de retrouver le symbole émis à partir d observations noyées dans un bruit, ou de prendre toute autre décision sur la nature du signal observé, en faisant un minimum d erreurs de décision par exemple. L objectif de la théorie de la détection est d étudier comment de telles erreurs peuvent être rendues aussi rares ou aussi peu coûteuses que que possible. Notons que quel que soit le type de signal auquel on s intéresse, de nature déterministe ou bien de nature aléatoire, la présence de bruit au niveau du récepteur ne peut être prise en compte que dans le cadre d une approche probabiliste. Le signal à l entrée du récepteur sera donc un processus stochastique ne pouvant être décrit qu à l aide de sa fonction de densité de probabilité. La forme de cette fdp résume l ensemble des connaissances disponibles sur la nature physique des perturbations ou du signal lui-même. Dans la presque totalité de ce chapitre nous nous intéresserons au problème de décision binaire, le récepteur ayant à choisir entre deux hypothèses notées H 0 (le signal est de type T 0 ) et H 1 (le signal reçu est de type T 1 ) respectivement. Dans ce contexte, la notion d hypothèse porte sur le type (T 0 ou T 1 ) du signal émis qui n est observé qu à travers un canal de transmission imparfait. Cette démarche se généralise aisément au problème de test d hypothèses multiples, dans lequel les signaux peuvent être de plus de deux types différents, et auquel nous consacrerons un bref paragraphe. 2 Formulation générale du problème de test d hypothèse binaire Considérons x X une mesure ou une observation d un signal et θ Θ un ensemble de paramètres de cette observation. Bien que θ soit indéterminé, l ensemble Θ est connu et les formes des fonctions de densité de probabilité (p(x θ)) de l observation x en fonction des paramètres θ sont connues. Une expérience, notée (X, P Θ ), est donc composée d une réalisation x X ayant pour fdp p θ (x), θ Θ. L observation x considérée peut être de nature quelconque, numérique ou symbolique, scalaire ou vectorielle. 2

Les hypothèses qui doivent être considérées dans la suite sont donc: H 0 : θ Θ 0 [x p(x θ) θ Θ 0 ] H 1 : θ Θ 1 [x p(x θ) θ Θ 1 ] expression dans laquelle {Θ 0, Θ 1 } est une partition de l ensemble Θ 1. L égalité x p(x θ) signifie que la variable aléatoire x a pour fdp, conditionnellement à θ, la fonction p(x θ). Le choix opéré par le récepteur est donc exclusif et le récepteur choisit toujours l un ou l autre des hypothèses. L hypothèse H 0 est souvent appelée hypothèse nulle ou hypothèse de bruit seul alors que H 1 est qualifiée d alternative ou d hypothèse de présence de signal, selon le contexte. La synthèse d un détecteur se résume donc à la définition d une fonction de décision φ qui ne dépend que des observations x X, et qui définit une partition de l espace des réalisations X en deux régions de décisions : X 0 = {x : φ(x) = 0 : décider H 0 } (1) X 1 = {x : φ(x) = 1 : décider H 1 } Les erreurs faites par le récepteur (prise de mauvaises décisions) construit à l aide de la fonction de décision φ peuvent être de deux types Le détecteur choisit l hypothèse H 1 alors que la fdp du signal émis est de type T 0 : p(x θ), θ Θ 0 (hypothèse H 0 ); cette erreur est qualifiée de Fausse Alarme (FA). P FA est parfois qualifiée aussi de niveau du test. Le détecteur choisit l hypothèse H 0 alors que le signal émis est de type T 1 : cette erreur est une Non Détection (ND), ou détection Manquée (M) Les probabilités de chacune de ces erreurs s expriment à l aide de la fonction de décision et des fdp des observations x P FA (θ) = X 1 p θ (x)dx = E θ [φ] θ Θ 0 (2) P M (θ) = X 0 p θ (x)dx = 1 X 1 p θ (x)dx = E θ [1 φ] θ Θ 1 (3) La probabilité de fausse alarme est ici une fonction de θ Θ 0. Si la fonction de densité de probabilité p(θ) est connue, on peut exprimer la probabilité de fausse alarme moyenne (par rapport à θ Θ 0 P FA = P FA (θ)p(θ θ Θ 0 )dθ = Θ 0 P FA (θ)p(θ H 0 )dθ Θ 0 où p(θ) = p(h 0 )p(θ H 0 ) et où la probabilité de réalisation de l hypothèse H 0 est p(h 0 ) = p(θ)dθ (4) θ 0 De même, P M = P M (θ)p(θ H 1 )dθ = Θ 1 1 {Θ 0,Θ 1 } est une partition de l ensemble Θ si Θ 0 S Θ1 = Θ et Θ 0 T Θ1 = / Θ 1 X 0 p θ (x)p(θ H 1 )dθdx 3

La probabilité d erreur totale se déduit des expressions précédentes : P E = p(h 0 )P FA + p(h 1 )P M = i (0,1) p(h i) Θ i X j p θ (x)p(θ H i )dθdx On introduit parfois d autres probabilités caractéristiques du détecteur : La probabilité de détection, définie sous H 1, P D = 1 P M Cette probabilité est aussi appelée puissance du test. La probabilité de décision ou de classification correcte, P C Remarques : P C = 1 P E = p(h 0 )(1 P FA ) + p(h 1 )(1 P M ) = i=0,1 p(h i) Θ i X i p θ (x)p(θ H i )dθdx (5) La probabilité P C est une fonction de la densité de probabilité du paramètre θ sur lequel porte le test et de la forme des régions de décision X i. La valeur des probabilités {p(h i ), i = 0, 1} est calculée à partir de la fdp de θ. La fdp marginale des observations p X (x) s exprime p X (x) = P(H i ) p θ (x)dθ Θ i i=0,1 La fdp de θ, et par conséquent les probabilités p(h i ) ne sont pas nécessairement connues a priori; la forme des solutions qui seront proposées dans les paragraphes suivants dépend en particulier du fait que l on dispose ou non de cette connaissance. Le cas pour lequel θ prend ses valeurs sur un ensemble discret se déduit directement des équations précédentes, en remplaçant les opérateurs d intégration Θ i (.)p(θ)dθ par les opérateurs de somme discrète θ Θ i (.)p(θ) où Θ i est un ensemble discret et où p(θ) est cette fois une loi de probabilité et non une fdp. Exemple Soit x une variable aléatoire gaussienne; sous les hypothèses H 1 et H 0 respectivement, x a pour fdp p(x θ 1 ) et p(x θ 0 ) : { p(x θ0 ) = 1 σ 2π exp( (x θ0)2 2σ ) sous H 2 0 (6) p(x θ 1 ) = 1 σ 2π exp( (x θ1)2 2σ ) sous H 2 1 Ces fdp sont représentées sur la figure 1, dans le cas θ 0 = 0, θ 1 = 3, σ 2 = 2. Nous établirons que le problème de décision binaire (x est une variable aléatoire dont la fdp est associée à l hypothèse H 1 ou à l hypothèse H 0 ) conduit simplement à comparer x à un seuil η. Alors X 0 =], η] et X 1 =]η, [; P FA et P M correspondent aux surfaces hachurées à droite et à gauche de la droite d équation x = η respectivement. 4

0.3 0.25 P 0 (x) P 1 (x) 0.2 pdf(x) 0.15 0.1 0.05 0-0.05-6 -4-2 0 2 4 6 8 x η Figure 1: Un exemple de test d hypothèse binaire: x a une distribution gaussienne avec σ 2 = 2 sous chacune des hypothèses. Sous H 1, x a une moyenne connue θ = 3 alors que sous H 0, x est une variable aléatoire centrée. Comparer une valeur observée de x au seuil η permet d évaluer les probabilités de non détection ou de fausse alarme, représentées par les surfaces hachurées. 3 Approches bayesiennes, hypothèses simples 3.1 Règle de Bayes et règle du max. a posteriori (MAP) On suppose dans cette section que les fdp sur les paramètres θ sont connues; en conséquence, les probabilités de réalisation de chacune des hypothèses sont elles aussi déterminées (cf eq. 4). La probabilité a posteriori, i.e. après avoir observé x, que l hypothèse H i : (θ Θ i ) soit réalisée est obtenue par la formule de Bayes sur les probabilités conditionnelles p(h i x) = P(H i).p(x H i ) p X (x) Ces probabilités sont calculées pour chacune des hypothèses. La règle de détection Bayesienne dite de Maximum a posteriori consiste alors à sélectionner l hypothèse ayant la plus forte probabilité a posteriori, étant données les observations de x, exploitant l égalité (7). Cette méthode conduit au minimum d erreur de classification (P E ) et donc maximise P C = 1 P E : l équation (5) peut en effet s exprimer P C = i (0,1) p(h i) [ ] X i Θ i p θ (x)p(θ H i ) dθ = i (0,1) p(h i) X i p(x H i )dx Le choix des zones de décision X i au sens du MAP est tel que le terme sous l intégrale est toujours maximal. En conséquence P C est maximal et P E minimal. Un tel récepteur est dit optimal au sens de Bayes. Il a été déjà souligné que dans l approche bayesienne, les probabilités de réalisation de chacune des hypothèses (ou les pdf a priori pour θ) sont supposées connues. Les informations fournies par l expérience (7) 5

consistent alors uniquement en la mesure ou l observation de réalisations de x. Les régions de décision sont entièrement déterminées par l évaluation des quantités p(x H i ) dans l équation (7), et les probabilités a priori des hypothèses. L approche du MAP peut alors être formulée de la manière suivante : si p(h 1 )p(x H 1 ) > p(h 0 )p(x H 0 ) alors choisir H 1, sinon choisir H 0. Dans une formulation équivalente utilisant le rapport de vraisemblance L(x) = p(x H 1) (8) p(x H 0 ) on obtient Remarque L(x) = p(x H H 1) 1 p(h 0 ) p(x H 0 ) H 0 p(h 1 ) Le terme p X (x) n agit que comme une constante de normalisation et disparaît donc dans la formulation du test. Si p(h 0 ) = p(h 1 ) = 1 2, le choix de l hypothèse à retenir se fait au sens du maximum de vraisemblance : L(x) H1 1 H 0 Exemple Le test de maximum a posteriori (MAP) pour le test d hypothèse décrit par l équation (6), conduit à L(x) = p(x H (x θ 1 ) 2 1) p(x H 0 ) = e 2σ 2 e (x θ 1 )2 2σ 2 H 1 p(h 0 ) H 0 p(h 1 ) soit, en exprimant le critère de décision en fonction de l observation x. x H1 η = θ 1 + θ 0 + σ2 log( p(h 0) H 0 2 θ 1 θ 0 p(h 1 ) ) 3.2 Stratégie de Bayes, notion de coût Nous avons établi dans le paragraphe précédent que le test d hypothèse binaire conduit à comparer le rapport de vraisemblance à un seuil. Dans le cadre de l approche MAP, ce seuil est fonction des lois de probabilités a priori sous chacune des hypothèses. Il y a cependant de nombreux cas pour lesquels les deux types d erreurs n impliquent pas les mêmes conséquences, ni surtout les mêmes coûts. Il est alors nécessaire de proposer une stratégie dont la finalité soit de minimiser le coût moyen des décisions qui seront prises par le détecteur. C est exactement ce à quoi le stratégie bayesienne apporte une réponse. Soit p(ĥi H j ) la probabilité qu a le détecteur de choisir l hypothèse Ĥi quand c est H j qui est l hypothèse correcte et C ij le coût associé à une telle décision. Le coût associé au choix de l hypothèse Ĥi à partir de l observation x vaut C(Ĥi) = C ij p(ĥi H j )p(h j ) = C ij p(ĥj x) j j Le coût moyen pour le détecteur est alors obtenu par la règle de Bayes C = i X i p X (x)c(ĥi)dx = i j p(h j)c ij X i Θ j p θ (x)p(θ H j )dθdx (10) 6 (9)

Le coût moyen est donc minimal lorsque la région de décision X i ne contient que les observations pour lesquelles C(Ĥi) est minimal. Bien que les équations précédentes s appliquent en toute généralité au problème de test d hypothèses multiples, les éléments suivant ne sont exposés que dans le cas du test d hypothèses binaire permettant de mettre en évidence l importance du rôle joué par le rapport de vraisemblance (8). L équation (10) prend alors la formulation suivante : C = C 00 p(h 0 ) + C 11 p(h 1 ) + X 1 ([C 10 C 00 ]p(h 0 )p(x H 0 ) [C 01 C 11 ]p(h 1 )p(x H 1 )dx = p(h 0 )[(C 10 P FA + C 00 (1 P FA )] + p(h 1 )[C 01 (1 P D ) + C 11 P D ] (11) Les deux premiers termes de cette équation sont indépendants des observations et de la fonction de test retenue; l intégrale est minimale si l intégrande est toujours négatif, ce qui conduit à la règle de décision suivante : une observation x est associée à la région de décision X 1 si [C 10 C 00 ]p(h 0 )p(x H 0 ) < [C 01 C 11 ]p(h 1 )p(x H 1 ) (12) Remarque : Le coût, c est à dire la pénalité, associé à une détection correcte étant logiquement plus faible que le coût associé à une erreur de décision, les inégalités suivantes sont imposées : C 10 C 00 C 01 C 11 (13) Une formulation équivalente de (12) à l aide du rapport de vraisemblance est 2 L(x) = p(x H 1) H 1 [C 10 C 00 ]p(h 0 ) p(x H 0 ) H 0 [C 01 C 11 ]p(h 1 ) Ces approches sont optimales au sens où elles minimisent le coût moyen, mais s appuient sur une connaissance a priori des lois de probabilités (ou des fdp) du paramètre θ, ou plus simplement de p(h i ) 3 ; de plus, elles supposent qu il est possible d associer a priori un coût à chacune des décisions que peut prendre le détecteur. Dans le cas où aucun a priori n est possible ou simplement disponible sur θ, mais où définir les coûts de chaque décision est possible, l approche minimax développée dans un paragraphe ultérieur est optimale. Notons seulement pour l instant que le test revient à nouveau à comparer le rapport de vraisemblance à un seuil. Remarque : Si C 10 = C 01 = 1 et C 11 = C 00 = 0, le coût moyen de Bayes se confond avec la probabilité d erreur de décision P E. On retrouve la règle de décision obtenue au paragraphe précédent(eq. (9). Exemple Le calcul du détecteur de Bayes pour le test d hypothèse décrit par l équation (6) se déduit des résultats précédents et conduit à la fonction de décision suivante x H1 η = θ 1 + θ 0 + σ2 log H 0 2 θ 1 θ 0 ( [C10 C 00 ]p(h 0 ) [C 01 C 11 ]p(h 1 ) Le seuil η étant fixé, les probabilités de fausse alarme et de détection sont déterminées (eq. (11)). Le coût de bayes peut donc s écrire comme fonction de η. Les courbes exprimant le coût C(η) en fonction de η sont représentées sur la figure (2), pour différentes valeurs des paramètres C ij. Les minima correspondent aux valeurs optimale de η exprimées par l équation (15). 2 C est ici que les inégalités exprimées par l équation (13) sont importantes, car si elles ne changent pas la valeur du seuil auquel est comparé le rapport de vraisemblance, elles déterminent la décision à prendre. 3 De fait, l équation(14) montre que seule la connaissance des probabilités p(h i ) est nécessaire; la connaissance de la fdp de θ conduit à la détermination des p(h i ) par l équation (4). ) (14) (15) 7

1.5 1 Coût bayesien, C(η) 0.5 0-4 -3-2 -1 0 1 2 3 4 5 6 seuil η Figure 2: Coût bayesien associé au détecteur x H1 H 0 η pour le test d hypothèse décrit par l équation (6), en fonction du seuil η. Les courbes en trait plein sont obtenues pour p(h1) =.5, C 00 = C 11 = 0,C 10 = 1, et C 01 = 1 et C 01 = 3 respectivement. Les courbes en pointillés reprennent les mêmes valeurs de C ij mais pour p(h 1 ) =.2. Les seuils théoriques optimaux obtenus à partir de l équation (15) sont indiqués par les lignes verticales. L inconvénient majeur de l approche bayesienne reste la difficulté à définir des valeurs raisonnables de C ij, le plus souvent à partir de considérations subjectives. De plus, l approche bayesienne ne permet pas de garantir une valeur maximale de la probabilité de fausse alarme et n est optimale qu au regard des divers a priori qui ont pu être formulés. 3.3 Le détecteur MiniMax de Bayes On considère cette fois les situations dans lesquelles les coûts C ij sont connus ou peuvent être déterminés, sans que les a priori sur les probabilités des hypothèses soient connus. L approche minimax permet de palier l indétermination de p(h 0 ), en minimisant le coût moyen associé au test obtenu pour la valeur de p(h 0 ) la plus défavorable. Soit un seuil η quelconque, auquel est comparé le rapport de vraisemblance L(x) 4 : l ensemble des tests rencontrés permettent de déterminer η à partir de critères d optimalité (erreur moyenne de décision minimale (MAP), risque minimal (Bayes),...) en fonction de p(h 0 ). p(h 0 ) étant inconnue, il peut tout au plus être envisagé de l estimer, ce qui permet alors de fixer η, à partir de l équation (14). La détermination de η détermine à son tour parfaitement les probabilités de non détection ou de fausse alarme, et donc aussi le coût moyen (risque) dans la stratégie de Bayes. Le risque C s écrit en fonction de p = p(h 0 ) et η (cf eq. 11) C(η, p) = p[c 10 P FA (η) + C 00 (1 P FA (η))] + (1 p)[c 01 P M (η) + C 11 (1 P M (η))] 4 Dans le paragraphe précédent, η représente le seuil appliqué aux observations x, et non à L(x); ces deux seuils sont évidemment réliés bijectivement, c est pourquoi on a gardé les mêmes notations 8

Le risque calculé pour une valeur de η donnée, est une fonction linéaire de p; cette fonction est tangente à la courbe Ĉ(η opt(p), p)) en fonction de p, où η opt (p) est le seuil calculé pour minimiser le risque bayesien quand p est connu. La courbe Ĉ(η opt(p), p)) pour 0 p 1 délimite dans le plan (C, p) une zone de performance non accessible, représentée sur la figure (3). Sur la figure (3), il apparaît que si la valeur choisie pour η est proche de la valeur optimale (qui suppose p connue), le coût moyen obtenu reste proche du coût minimal; par contre, si η est très différent de η opt, le coût résultant peut être très largement supérieur au coût optimal accessible, du fait de la croissance linéaire du coût en fonction de p. Cette situation est susceptible de se produire dès que le choix (arbitraire si p est totalement inconnu) de η s écarte de la valeur η opt (p). Cet effet peut être évité si la courbe Ĉ(η, p) est de pente nulle en fonction de p, ce qui donne un coût moyen constant et indépendant de p. On cherche donc la solution vérifiant ce qui conduit à et à l expression du coût moyen : C(η, p) p = 0 [C 10 P FA (η) + C 00 (1 P FA (η))] = [C 01 P M (η) + C 11 (1 P M (η))] (16) C (η) = [C 01 P M (η) + C 11 (1 P M (η))] (17) La première de ces deux équations exprime une contrainte d égalité entre les coûts de décisions sous chacune des hypothèses, la seconde donne l expression du coût moyen, indépendant de p, obtenu quand cette contrainte est vérifiée. La valeur (notée η ) du seuil η est alors déterminé de sorte à minimiser la valeur du coût moyen C (η): η = ArgMin η C (η) Soit p 0 la valeur de p pour laquelle cette valeur du coût moyen est la plus faible (l optimale), le test minimax s écrit alors en fonction de p 0 : Remarques : L(x) H1 η [C 10 C 00 ]p 0 = η opt (p 0 ) = H 0 [C 10 C 11 ](1 p 0 ) Le test minimax est le test de Bayes de seuil η(p 0 ), pour lequel la fonction C(p, eta 0 ) est une droite horizontale, tangente à la courbe C(η opt (p), p) fonction de p = p(h 0 ). Si C 00 = C 11 = 0 et C 10 = C 01 = 1, le coût moyen est la probabilité d erreur du détecteur et la condition d égalité des coûts sous chacune des hypothèse s écrit P FA = P M. 3.4 Test à hypothèses multiples Les hypothèses à tester sont dites multiples si le problème de décision s écrit H 0 : θ Θ 0 [x p(x θ), θ Θ 0 ]. H M : θ Θ M [x p(x θ), θ Θ M ] 9

0.7 0.6 C(η=0.2,p) risque=coût moyen, fonction de p 0.5 0.4 0.3 0.2 C(η(p),p) C(η=3,p) C Minimax 0.1 zone de performance non accessible 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p=p(h 0 ) Figure 3: Coût moyen de Bayes en fonction de p = p(h 0 ), pour C 00 = C 11 = 0 et C 01 = C 10 = 1. Les statistiques d entrées, pour cet exemple, sont normales de variance σ 2 =.5 et de moyenne θ 1 = 1 sous H 1 et θ 0 = 0 sous H 0. Les droites représentent les coûts obtenus pour une valeur fixée de η (respectivement 0.2, 1,.3); la courbe en pointillé représente le coût minimal de Bayes (η = η opt ) est alors fixé en fonction de p. Cette courbe fixe la limite des performances (en terme de faible coût moyen) que peut atteindre le détecteur. Le test MiniMax est obtenu dans ce cas particulier pour p = p 0 = 1/2 et η opt = η(1/2) = 1. 10

pour M > 2; {Θ 0,..., Θ M } forme une partition de l ensemble Θ. La fonction de décision devient φ(x) = [φ 1 (x),..., φ M (x)] T et vérifie φ(x) {0, 1} x X M i=1 φ i(x) = 1 x X φ définit ainsi une partition de l espace des observations X en M sous-espaces X i. Les probabilités a priori de chacune des hypothèses H i s exprime comme précédemment, à partir de la fdp de θ supposée connue, notée p(θ) p(h i ) = p(θ)dθ, Θ i M p(h i ) = 1 Soit C i j(θ) le coût associé au choix de la décision H i : θ Θ i alors que c est H j : θ Θ j qui est vérifiée. La probabilité d une telle décision est notée p(ĥi H j ). On introduit alors la matrice de coût C(θ) = i=1 C 11 (θ)... C 1M (θ). C M1 (θ).... C MM (θ) Le choix optimal au sens de la stratégie de Bayes conduit à déterminer la fonction de décision φ qui minimise le risque (coût moyen) M C = C ij p(ĥi H j )p(h j ) i,j=1 Cette expression ne conduit pas à des formulations simples du test optimal dans le cas général. On s intéresse plus particulièrement au cas suivant : C ii = 0 i {1,..., M} C ij = 1, i j, i, j {1,...,M} Le risque de Bayes est alors égal à la probabilité d erreur de décision, et s exprime où p(x H i ) = R p Θ θ (x)dθ i p(h i) C = M i j=1 C ijp(ĥi H j )p(h j ) = 1 M i=1 C iip(ĥi H i )p(h i ) = 1 M i=1 p(h i) X i p(x H i )dx est la probabilité de l observation conditionnellement à l hypothèse H i. Il apparaît que C est minimal si pour tout i {1,...,M}, les régions de décisions X i sont telles que Le règle de décision peut donc se résumer ainsi : x X i p(h i )p(x H i ) p(h j )p(x H j ) j i Ĥ i = ArgMax Hj [p(h j )p(x H j )] = ArgMax Hj [p(h j x)] 11

où Ĥi signifie le détecteur retient l hypothèse H i. La seconde égalité est obtenue à partir de l égalité de Bayes, en notant que la fdp globale des observations n intervient que comme une constante de normalisation (cf paragraphe 3.1). On retrouve ainsi le test de maximum a posteriori (MAP). Remarque Les règles de décision ne sont en général pas transitives, ce qui interdit de traiter le problème en considérant les différentes hypothèses par paires. Il se peut en effet que à partir de l observation x X, les décisions soient les suivantes H 1 vsh 2 Ĥ2 H 2 vsh 3 Ĥ3 H 1 vsh 3 Ĥ1 Tester H i contre H j amène à considérer le test optimal défini pour le problème de test d hypothèses binaires (équation (14)). Soit L ij = p(x Hi) p(x H le rapport de vraisemblance dans le test d hypothèse H j) i vs H j, et η ij le seuil optimal au sens de Bayes. Considérons un ensemble de 3 hypothèses H i, H j, et H k. L égalité L ik (x) = L ij (x)l jk (x) et les règles de décisions pour les tests d hypothèses binaires L ij (x) Hi ζ ij, permettent de mettre en H j évidence une condition suffisante pour la transitivité des règles de décisions : ζ ik = ζ ij ζ jk (C ji C ii ) (C kj C jj ) (C ij C jj ) (C jk C kk ) = (C ki C ii ) (C ik C kk ) Cette contrainte exprimée sur la matrice des coûts bayesiens est vérifiée dans le cas étudié précédemment; la considération des hypothèses deux par deux aurait, dans ces cas particuliers, donc conduit à la même règle de décision. Exemple Considérons trois hypothèses équiprobables (p(h i ) = 1 3, i = 1, 2, 3), sous lesquelles les fdp des observations sont normales, de même variance σ 2 mais de moyennes respectives θ 1 = 1, θ 2 = 0, θ 3 = 1 (voir figure (3.4). Les coûts de décisions sont C 12 = C 21 = C 23 = C 32 = 1. Les tests d hypothèses (H 1 vs H 2 ) et (H 2 vs H 3 )conduisent à comparer les observations aux seuils respectifs η 12 = 1 2 et η 23 = 1 2, d après l équation (15). Si le rapport des coûts C31 C 13 est tel que η 13 = σ2 2 log ( C31 C 13 ) η 23, il apparaît que la transitivé du test d hypothèses peut être violée pour toute observation x ]η 13, η 23 [. 4 L approche de Neyman Pearson (NP) Cette fois, aucune connaissance a priori sur la loi de probabilité ou sur la fdp de θ n est supposée. L approche bayesienne ne peut donc pas être développée. Neyman et Pearson ont proposé de calculer le détecteur de niveau P FA (θ) au moins égal à α, qui maximise la puissance P D (θ) du test, i.e. P D (θ) θ Θ1 maximal sous la contrainte max θ Θ0 P FA (θ) α Important : Dans la suite nous ne considérons que le cas simple dans lequel θ 0 et θ 1 ne peuvent prendre qu une valeur chacun (Θ 0 et Θ 1 sont des singletons). Quelques éléments supplémentaires sur la cas le plus général seront donnés dans le paragraphe consacré à l étude des tests à hypothèse composite. 12

1.4 1.2 η 23 η 12 1 η 13 0.8 0.6 0.4 0.2 0 2.5 2 1.5 1 0.5 0 0.5 1 1.5 2 2.5 θ 3 θ 2 θ 1 Figure 4: Fdps et seuils de décision optimaux au sens de Bayes pour le test d hypothèses triple, non transitif (voir texte). σ 2 =.5, C 12 = C 21 = C 23 = C 32 = C 31 = 1, C 13 = 11 La stratégie de NP consiste à recherche le test le plus puissant compte tenu d une contrainte de valeur maximum sur la probabilité de fausse alarme. Neyman et Pearson ont établi que cette stratégie conduit à nouveau à tester le rapport de vraisemblance : Lemme Neymann Pearson Le test le plus puissant de niveau α [0, 1] est le test aléatoire suivant, portant sur le rapport de vraisemblance : 1, p(x θ 1 ) > ηp(x θ 0 ) φ(x) = q, p(x θ 1 ) = ηp(x θ 0 ) (18) 0, p(x θ 1 ) < ηp(x θ 0 ) Dans ce test, les paramètres η et q sont choisis de manière à satisfaire la contrainte E θ0 [φ] = α Remarque : l équation impliquant le paramètre q n est nécessaire que lorsque la fdp P θ0 (L(x) > η) présente des discontinuités, ou lorsque x est une variable à valeurs discrètes comme cela peut par exemple se produire dans les tests sur les processus poissonniens. Dans toutes les autres situations, q = 0. Le problème de maximisation sous contrainte exprimée sur le niveau puissance α du test peut être résolu par la méthode des multiplicateurs de Lagrange, en maximisant la fonction objectif L(φ) exprimée à l aide des équations (2,3) et en introduisant le multiplicateur η : L(φ) = E θ1 [φ(x)] + η(α E θ0 [φ(x)]) (19) La définition du rapport de vraisemblance L(x) (équation (9)) permet de re-exprimer l espérance conditionnelle E θ1 : E θ1 [φ(x)] = E θ0 [φ(x)l(x)] soit L(φ) = E θ0 [(φ(x)(l(x) η)] ηα 13

On voit alors que la fonction de décision φ définie par (18) maximises L(φ) : il suffit en effet d avoir φ(x) = 0 pour toute valeur de x vérifiant L(x) < η pour maximiser L(φ); ce qui établit le lemme. Remarque : Soient φ(x) et φ (x) deux fonctions de décision vérifiant α < α, et η le seuil associé du test de vraisemblance associé à la fonction de décision φ(x). Par construction : d où on déduit, soit p(x θ 1 ) > ηp(x θ 0 ) φ(x) φ (x) 0 p(x θ 1 ) < ηp(x θ 0 ) φ(x) φ (x) 0 X (p(x θ 1 ) ηp(x θ 0 ))(φ(x) φ (x))dx > 0 P D P D > η(α α ) > 0 et finalement, puisque η > 0 (le seuil sur le rapport de vraisemblance est nécessairement positif) α > α P D > P D Si φ est une fonction de décision permettant d obtenir une probabilité de fausse alarme plus faible que celui obtenu par φ, alors sa puissance est moindre. 5 Tests de rapport de vraisemblance (LRT pour la dénomination anglaise Likelihood Ratio Tests) Nous avons insisté dans les paragraphes précédents sur le fait que tous les tests étudiés conduisaient à comparer le rapport de vraisemblance à un seuil. La détermination de ce dernier dépend des a priori et de la possibilité de définir des coûts associés à chaque type de décision dans le cadre Bayesien. Lorsque de telles connaissances a priori ne sont pas disponibles, l approche de NP permet de construire un test optimal (maximum de puissance) tout en exerçant un contrôle sur le niveau du test. L objet de cette section est de fournir quelques éléments sur la caractérisation des performances de ces tests de rapport de vraisemblance. 5.1 Observations multiples : interprétation du LRT Soit x = {x 1,..., x N } X un ensemble de N observations indépendantes et identiquement distribuées (i.i.d.), de fonction de probabilité conjointe p(x, θ j ) sous l hypothèse H j. Les hypothèses imposent p(x) = N i=1 p(x i), p(.) étant la fdp d une seule observation. Le log-rapport de vraisemblance de cet ensemble d observations pour le test d hypothèse H 1 versus H 0 s écrit en fonction des log-rapports de vraisemblance pour chacune des observations qui constituent X : log p(x, θ 1) p(x, θ 0 ) = log N i=1 p(x i, θ 1 ) N p(x i, θ 0 ) = i=1 log (x i, θ 1 ) p(x i, θ 0 ) Considérons d abord par soucis de simplification un espace de réalisations X de nature discrète; on a donc plus des fonctions de densité de probabilité mais des lois de probabilités sous chacune des hypothèses. 14

Pour toute fonction g(x) de la variable aléatoire x, N g(x i ) = N P xi (x)g(x i ) (20) x X i=1 où P xi (x) est la loi de probabilité empirique des observations x obtenue à partir de N observations : P xi (x) = N i=1 δ(x x i ) N où { δ(x) = 1 six = 0 δ(x) = 0 six 0 P xi apparaît comme l histogramme empirique normalisé (par N) obtenu à partir des observations. En substituant à la fonction g(x) le log-rapport de vraisemblance log(l(x)) dans l équation (20), N p(xi,θ1) i=1 log p(x i,θ 0) = N x X P x i (x)log p(x,θ1) p(x,θ 0) = N x X P x i (x)log p(x,θ1)px i (x) p(x,θ 0)P xi (x) = N x X P x i (x)log p(x,θ1) P xi (x) N x X P x i (x)log p(x,θ0) P xi (x) = ND(P xi (x) p(x, θ 0 )) ND(P xi (x) p(x, θ 1 )) Le test de rapport de vraisemblance admet donc une formulation équivalente dans l espace des lois de probabilité, D(P xi (x) p(x, θ 0 )) D(P xi (x) p(x, θ 1 )) H1 1 H 0 N log η où D(P Q) = x X P(x)log Q(x) P(x) est la divergence informationnelle de Kullback-Leibler (KL) 5. Le test formulé dans ce nouvel espace conduit donc à retenir l hypothèse H i pour laquelle la loi conditionnelle sous H i est la plus proche (au sens de la divergence de KL) de la loi empirique obtenue à partir des N observations. Dans le cas où X est un espace continu, les résultats précédents sont généralisés par l introduction de mesures de résolution finies x définissant une partition de X et conduisant à ne plus considérer que les probabilités P x = p(x) x. La nature continue de X conduit à étudier les propriétés précédentes lorsque la résolution tend vers l infini, i.e. x. L ensemble des résultats se généralisent sans difficulté; les divergences informationnelles de KL s expriment alors sous la forme d une f-divergence de Csizàr. 5 La divergence de KL D(P Q) entre deux lois de probabilité P et Q(définies sur le même espace de réalisations) est une quantité toujours positive ou nulle. D(P Q) est minimale si P et Q sont identiques. Cette distance se généralise sans difficultés au cas de fdp, le minimum étant alors obtenu si P(x) = Q(x) presque partout (P diffère de Q sur une ensemble de mesure nulle). 15

5.2 Courbes CORe Les performances d un test d hypothèse ou d un détecteur sont caractérisées par les probabilités de détection P D et de fausse alarme P FA auxquels il conduit : un test performant est par conséquent un test pour lequel la probabilité de détection P D est importante tout en garantissant un niveau moindre pour la probabilité de fausse alarme P FA. Ces deux quantités ne sont fonctions que du seuil η du test de rapport de vraisemblance introduit dans les paragraphes précédents, et éventuellement de q (cf eq. (18)). La caractéristique opérationnelle de réception (CORe en abrégé) est la courbe paramétrique exprimant P D (η, q) en fonction de P FA (η, q). Les courbes CORe présentent quelques propriétés intéressantes pour l analyse des performances d un test, que nous allons rapidement décrire. Dans le cas limite η, P D = 0 and P FA = 0 (point A) alors que si η, P D = 1 et P FA = 1 (point B). Le test consistant à tirer à pile ou face l hypothèse à retenir, indépendamment des observations (φ(x) = cste = q), conduit à P FA = P D, η, et donc la courbe CORe est la diagonale d équation P FA = P D. Cette droite est appelée ligne de hasard. La courbe CORe d un détecteur à seuil doit toujours être au dessus de la ligne de hasard; dans le cas contraire, tirer à pile ou face pour prendre la décision donnerait de meilleurs résultats. Remarque :Un test conduisant à une probabilité de fausse alarme supérieure à la probabilité de détection est dit biaisé. La courbe CORe obtenue pour tout test de rapport de vraisemblance est concave. Soient P FA1, P D1 et P FA2, P D2 2 points de la courbe CORe, associés aux fonctions de décision φ 1 et φ 2 respectivement 6. Considérons le test qui consiste à utiliser aléatoirement les fonctions de décisions φ 1 ou φ 2 avec les probabilités respectives p et (1 p) ; soit φ 12 ce nouveau test. On calcule alors facilement P FA12 = pp FA1 + (1 p)p FA2 et P D12 = pp D1 + (1 p)p D2. Pour toute valeur de p, p [0, 1], La coure CORe associée à φ 12 es le segment de droite qui connecte entre eux les points P FA1, P D1 et P FA2, P D2. Par conséquent, il apparaît que si la courbe CORe était convexe, le test randomisé aurait de meilleures performances. Quand la coure CORe P D (P FA ) est dérivable, le test de rapport de vraisemblance le plus puissant (MP-LRT) pour une probabilité de fausse alarme donnée (test de Neyman-Pearson) P FA (η), P D (η) est obtenu pour la valeur suivante du seuil η dans le test η = d dp FA P D (P FA ) Le test Minimax de Bayes est obtenu lorsque les coûts sous chacune des hypothèses sont égaux (cf paragraphe 3.3) ; dans le cas C 11 = C 00 = 0 et C 10 = C 01, cela conduit à P FA = P D. Les valeurs de P FA, P D et η pour le test Minimax de Bayes sont donc déterminées par l intersection de la 6 Chaque point de la courbe CORe est associé à une valeur différente du test LRT, et par conséquent à des fonctions de décisions différentes par la valeur de η qui leur est associée. 16

1 ROC (m0=0) 0.9 m1=3 0.8 m1=2 detection probability 0.7 0.6 0.5 0.4 m1=1 chance line 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 False alarm probability Figure 5: CORe : Probabilité de détection (ou de choix d hypothèse correct) en fonction de la probabilité de fausse alarme (choix de H 1 quand l hypothèse correcte est H 0 ). Les courbes illustrent l amélioration des performances du détecteur lorsque les moyennes de H 1 et H 0 s écartent l une de l autre. courbe CORe avec la droite d équation P D = 1 P M = 1 P FA. C est aussi le point dans le plan (P FA, P D ) pour lequel le minimum d erreur de décision est atteint. Exemples : Pour le problème décision introduit précédemment (eq. (6)), P FA et P D peuvent être calculés aisément : on obtient [ ] P FA (η) = 1 2 1 erf( η [ σ ) 2 ] P D (η) = 1 2 1 erf( η m σ ) 2 où erf(x) = 2 π x 0 exp(t2 )dt. La courbe CORe obtenue à partir de ces équations est représentée sur la figure (5.2). Il apparaît clairement que plus la différence entre les moyennes des fdp normales sous H 0 et H 1 respectivement sont différentes, meilleure est la courbe CORe. Il apparaît aussi dans les équations précédentes qu une augmentation de σ 2 conduit à une dégradation des performances du récepteur. Des résultats identiques sont obtenus lorsque un ensemble de N observations indépendantes est pris en compte pour construire le test. Le logarithme du rapport de vraisemblance utilisé comme statistique de test conduit à comparer la moyenne empirique des observations ( 1 N N i=1 x i) à un seuil déterminé. La moyenne empirique étant elle même une variable aléatoire normale de moyenne m et de variance σ2 N, l analyse précédente garde toute sa validité, mais avec ces nouvelles valeurs de moyenne et variance. La diminution de variance (réduction d un facteur N) conduit à une meilleure courbe CORe. Un second exemple simple : il s agit de tester une augmentation de moyenne d une variable aléatoire poissonienne. L objectif est donc de tester l hypothèse H 1 : la moyenne est λ 1 contre H 0 : la 17

moyenne est λ 0. Sans restreindre la généralité du problème, on supposera λ 1 > λ 0. Le rapport de vraisemblance s obtient facilement et s exprime ( ) x λ1 L(x) = exp(λ 0 λ 1 ) λ 0 Cette fois encore, en utilisant le logarithme du rapport de vraisemblance comme statistique de test, une expression très simple peut est obtenue : x H1 H 0 η Dans cet exemple x est un nombre entier. P FA et P D prennent les expression suivantes { η 1 λ P FA (η) = 1 λ x 0 0 x=0 P D (η) = 1 λ 1 η 1 x=0 La courbe CORe complète peut être obtenue dans le cas présent en rendant aléatoire la fonction test, comme dans l équation (18). Le comportement et les performances de ce test sont représentés sur la figure 6. Sur la vignette de gauche sont représentées les fdps des variables aléatoires poissonniennes sous chacune des hypothèses H 0 : λ 0 = 3 et H 1 : λ 1 = 5 respectivement. Les CORes obtenues pour différentes valeurs de λ 1 sont représentées sur la vignette de droite. Comme attendu, les CORes obtenues sont meilleures (plus proches P FA = 0, P D = 1, quelles que soient les valeurs de seuil η considérées) lorsque la différence entre moyennes des lois de Poisson augmente. 5.3 Evaluation de la possibilité de détection d un signal Dans ce paragraphe (comme dans la suite) on supposera que la statistique de détection (log-rapport de vraisemblance) est construite à partir d un ensemble de N observations x i indépendantes et par conséquent s exprime comme la somme des statistiques construites à partir d une observation unique. Par exemple N G = log L(x i ) i=1 où L(x i ) est le rapport de vraisemblance formé à partir de la i ème observation. Les performances de détection d un récepteur donné sont parfaitement caractérisées par la CORe. Ceci impose cependant d évaluer pour toute valeur possible du seuil η les quantités P FA = η p G (g, θ 0 )dg and P D = x! λ x 1 x! η p G (g, θ 1 )dg (21) Dans cette équation, p G,θi (g)dg représente la fdp conditionnelle de la statistique de test G sous l hypothèse H i. Il est le plus souvent très difficile (quand ça n est pas impossible) de résoudre analytiquement cette intégrale. Une première approche consiste à recourir à des développements limités de la statistique obtenue autour de la statistique gaussienne (développements de Edgeworth ou de Gram-Charlier), développements d autant plus précis que N est grand. La qualité de ces développements et leur convergence s appuient sur le théorème central limite et une précision correcte des approximations qui en résultent ne peut donc 18

0.25 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 16 18 20 1 ROC, λ 0 =3 0.9 0.8 λ 1 =8 0.7 λ 1 =5 PD 0.6 0.5 Chance line 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 PFA Figure 6: En haut : Fdps des variable poissonniennes de moyenne λ 0 = 3 (H 0 ) et λ 1 = 5 (H 1 ). Les valeurs des observations associées à de fausses alarmes ou à des détections manquées sont indiquées par les zones hachurées de part et d autre de la ligne de seuil η. En bas : CORe de ce problème de détection, pour deux valeurs différentes de la moyenne sous H 1. Dans le cas présenté ici, la fonction de décision a été randomisée (cf eq. (18)). 19

être attendue que si le seuil η est proche de le la valeur moyenne de la statistique G. Une alternative est d utiliser des méthodes d intégration numérique, qui peuvent conduire à de bonnes approximations de l intégrale (21); il n est pas possible de donner une méthode de résolution générale dans ce cas, les calculs et développements nécessaires étant très largement dépendants de la forme analytique prise par les fonctions d espérance conditionnelle. Les bornes de Chernoff, développées au paragraphe suivant, permettent de préciser des caractéristiques limites pour la détéctabilité. Si ces bornes sont d un grand intérêt dans un contexte de théorie de l information, elles ne peuvent que donner des valeurs supérieures pour les probabilités P FA et P D ; en ce sens elles caractérisent la limite inférieure de la zone du plan (P FA, P D ) dans laquelle se trouve la CORe, et peuvent être interprétées comme une performance minimale assurée pour un détecteur donné. Bornes de Chernoff, exposant de décroissance de l erreur de détection. Soit G la statistique de test utilisée, et f G,i (g) les fdp de la statistique de test sous chacune des hypothèses H i. Considérons l expression suivante pour la probabilité de fausse alarme : P FA (η) = η f G,0 (g)dg = U(g η)f G,0 (g)dg dans laqelle U(.) est l échelon de Heaviside. Pour s 0, U(g η) exp((g η)s) et donc P FA exp((g η)s)f G,0 (g)dg = exp( ηs)h 0 (s) (22) où h 0 (s) = E G,0 [exp(gs)] est la fonction génératrice des moments (première fonction caractéristique) de la fdp f G,0 (g). La fonction exp( ηs)h 0 (s) est une fonction convexe et ne possède par conséquent qu un minimum à l intérieur de la bande de convergence de h 0 (s) dans la plan complexe. Minimiser exp( ηs)h(s) étant équivalent à minimiser son logarithme, η = h 0 (s) h 0 (s) où h dh0(s) 0 (s) =. Si s 0 est solution de l équation (23), on peut donc écrire s P FA exp( ηs 0 )h(s 0 ) Cette borne est appelée borne de Chernoff pour la P FA. Il est souvent intéressant d en développer une expression équivalente : Soit µ 0 (s) = log(h 0 (s)); l équation (23) devient alors η = dµ(s) ds = µ (s), d où P FA exp(µ(s) sµ (s)) Un raisonnement identique permet de mettre en évidence l existence d une borne supérieure pour P D, ou une borne inférieure pour P M dont l expression est (23) (1 P D ) = P M exp(µ 1 (s) ηs), s 0 (24) On s intéresse dans la suite au cas où la statistique de test est la log-vraisemblance des observations. Alors µ 0 (s) = log(h 0 (s)) = log exp(sg)f G,0 (g)dg µ 1 (s) = log(h 1 (s)) = log exp(sg)f G,1(g)dg 20

Or, on sait par ailleurs 7 que g étant la log-vraisemblance des observations, ce qui conduit à f G,1 (g) = exp(g)f G,0 (g) µ 0 (s) = log(h 0 (s)) = log µ 1 (s) = log(h 1 (s)) = log = log En conséquence, l équation (24) s écrit ( s fg,1(g) f G,0(g)) fg,0 (g)dg ( s fg,1(g) f G,0(g)) fg,1 (g)dg ( s+1 fg,1(g) f G,1(g)) fg,0 (g)dg = µ 0 (s + 1) P M exp(µ 0 (s) + η(1 s)), s 1 (25) Les inégalités exprimées par les bornes de Chernoff surp FA et P M permettent de construire une borne sur la probabilité d erreur de décision P E, pour 0 s 1 : P E = p(h 0 )P FA + p(h 1 )P M p(h 0 )exp(µ 0 (s) ηs) + p(h 1 )exp(µ 0 (s) + η(1 s)) = [p(h 0 ) + p(h 1 )exp(η)] (exp(µ 0 ηs)) Si on s intéresse au problème ) de détection conduisant au minimum d erreur de décision (voir paragraphe précédents), η = log. Par substitution dans les équations précédentes : ( p(h0) p(h 1) P E 2p(H 0 ) ( ) s p(h0 ) exp(µ 0 ) = 2p(H 0 ) 1 s p(h 1 ) s exp(µ 0 ) p(h 1 ) Dans le cas où l observation est constituée de N échantillons i.i.d. de fdp p θi, sous H i, on obtient, 0 s 1, ( ) s p(x θ1 ) µ 0 (s) = N log p(x, θ 0 ) s dx = N(1 s)d s (p θ1 p θ0) (26) p(x θ 0 ) Dans cette équation D s (p θ1 p θ0 ) n est autre que la divergence informationnelle de Rényi entre les fdp conditionnelles 8. La probabilité d erreur de décision décroît donc exponentiellement avec N, l exposant de décroissance étant donné par la divergence de Rényi d ordre s entre les statistiques d entrées associées à chacune des hypothèses. Il est intéressant de souligner ici que les quantités exp(µ 0 (s)) et exp(µ 1 (s)), ne sont rien d autre que l espérance de la fonction de vraisemblance du test à la puissance s, sous chacune des hypothèses respectivement. 6 Test d hypothèses composées Jusqu à présent, chacune des hypothèses envisagées dépendait de paramètres inconnus (θ i Θ i ) ne prenant sous une hypothèse donnée, qu une seule valeur. Ces tests ont été qualifiés de test d hypothèses 7éléments de démonstration en annexe 8 D s(p q) est une quantité positive qui s annule sip = q(pesquepartout.) égale à l entropy de Rényi de la distribution p si q est la distribution uniforme.l existence de cette divergence suppose que q domine p (si q = 0 alorsp = 0). 21

binaires simples. Dans ce contexte, la fdp des observations est, toujours pour ne hypothèse donnée, parfaitement déterminée. Dans de nombreuses applications du problème de détection, la fdp des observations n est pas si précisément connue. Le problème de détection de présence ou d absence d un signal sinusoïdal de phase inconnue en constitue l un des exemples les plus classiques. La détermination précise des paramètres inconnus (la phase dans l exemple ci-avant) peut être négligée dans la mesure par exemple où il s agit de décider de la présence ou de l absence du signal. L idée développée consiste par conséquent à inclure ces paramètres inconnus (considérés comme aléatoires) dans la formulation du test. Afin de mettre en évidence le rôle particulier joué par les paramètres indéterminés dans les fdp des observations sous chacune des hypothèses, les notations suivantes sont utilisées : H 0 : f(x H 0 ) = f 0 (x θ) = f θ0 (x), θ Θ 0 H 1 : f(x H 1 ) = f 1 (x θ) = f θ1 (x), θ Θ 1 (27) θ 0 et θ 1 sont des vecteurs de paramètres scalaires inconnus, pouvant avoir des composantes en commun (c est le cas si un paramètre indéterminé du problème de détection doit être pris en compte dans les définitions de f θ0 (x) et de f θ1 (x)). 6.1 Stratégie bayesienne pour le test d hypothèses composées Les fdp des variables indéterminées sont supposées connues pour chacune des hypothèses, et sont notées p 0 (θ) et p 1 (θ) respectivement. Les fonctions de coût sont introduites comme dans le problème de détection d hypothèses simples, mais dépendent des valeurs des paramètres θ indéterminés. Cependant C 10 et C 00 étant associés aux situations dans lesquelles les données observées correspondent à l hypothèse H 0, il n est nécessaire de définir ces coûts qu en fonction de θ Θ 0. De même, C 01 et C 11 ne sont fonctions que de θ Θ 1. Les inégalités sur les coûts, équation (13), sont imposées pour toute valeur de θ. Pour les régions de décision (équation (1)) X 0 et X 1, le coût moyen s exprime par C = p(h 0 ) X 0 Θ 0 f θ0 (x)p 0 (θ 1 )C 00 (θ)dθdx +p(h 0 ) X 1 Θ 0 f θ0 (x)p 0 (θ)c 10 (θ)dθdx +p(h 1 ) X 0 Θ 1 f θ1 (x)p 1 (θ)c 01 (θ)dθdx +p(h 1 ) X 1 Θ 1 f θ1 (x)p 1 (θ)c 11 (θ)dθdx D autre part, par construction des régions de décision X 1 f θ0 (x)dx = 1 X 0 f θ0 (x)dx X 1 f θ1 (x)dx = 1 X 0 f θ1 (x)dx puis par substitution de (29) dans (28), après quelques calculs C = p(h 0 ) Θ 0 p 0 (θ)c 10 (θ)dθ + p(h 1 ) Θ 1 p 1 (θ)c 11 (θ)dθ + X 0 [p(h 1 ) Θ 1 f θ1 (x)p 1 (θ)[c 01 (θ) C 11 (θ)] dθ p(h 0 ) ] Θ 0 f θ0 (x)p 0 (θ)[c 10 (θ) C 00 (θ)] dθ dx C est minimal si l expression sous le signe intégral est toujours négative (cf. section 3.2), ce qui donne l expression du test Θ f θ1 (x)p 1 (θ)[c 01 (θ) C 11 (θ)] dθ H 1 p(h 1 0 ) (31) Θ 0 f θ0 (x)p 0 (θ)[c 10 (θ) C 00 (θ)] dθ H 0 p(h 1 ) 22 (28) (29) (30)

Remarque Si les coûts sont indépendants des paramètres θ 0 et θ 1, en notant que f θ1 (x)p 1 (θ) = f 1 (x θ)p 1 (θ) = f 1 (x, θ) et f θ0 (x)p 0 (θ) = f 0 (x θ)p 0 (θ) = f 0 (x, θ) on retrouve exactement l équation (14). Exemple Test de détection de moyenne non nulle (de valeur inconnue) pour un processus gaussien de variance déterminée σ 2 ; l observation x X est constituée de N échantillons scalaires x i indépendants, x = [x 1,...,x N ]. Les hypothèses à tester sont : H 0 : f(x H 0 ) = P Ni=1 (x 1 i ) 2 f 0 (x) = (σ 2π) N e 2σ 2 (32) H 1 : f(x H 1 ) = P Ni=1 (x 1 i θ 1 ) 2 f θ1 (x) = (σ 2π) N e 2σ 2 (33) où θ 1 est la valeur de la moyenne, non nulle et inconnue. Seule l hypothèse alternative est composée, l hypothèse nulle est simple. Pour ce problème, x = 1 N N i=1 x i est la statistique de test utilisée 9. x est par construction une variable gaussienne, de variance σ2 N et de moyenne θ 1 sous H 1, nulle sous H 0. On souhaite déterminer le détecteur Bayesien optimal pour les fonctions de coût suivantes Les connaissances a priori sur θ 1 sont données par C 00 = C 11 = 0, C 01 (θ 1 ) = 1, C 10 (θ 1 ) = k, θ 1 p 1 (θ 1 ) = 1 m, m θ 1 m et par ailleurs les probabilités de chacune des hypothèses sont égales : p(h 0 ) = p(h 1 ) = 1/2. La mise en oeuvre du test Bayesien conduit à Θ 1 N (σ 2π) N(xi θ1) 2 e 2σ 2 1 m dθ k Nx2 N (σ i e 2σ 2π) 2 soit en résolvant les intégrales, après quelques calculs : ( ) N(m x) N(m + x) L(x) = e x2 H 1 2 F( ) F( ) k (34) σ σ H 0 où F(x) est la loi de Laplace-Gauss définie par F(x) = 1 2π x e t2 2 dt Lorsque les fonctions de coût peuvent être identifiées et que les lois de probabilités sur les paramètres sont connues, il est assez immédiat de déterminer le test optimal au sens de Bayes. Il ne faut cependant pas perdre de vue que cette situation n est pas la plus générale et il faut en pratique envisager d autres approches, d autres stratégies. C est l objet des deux paragraphes suivant. 9 On montre que c est une statistique suffisante. H 1 H 0 1 23

6 5 4 L(x) 3 2 1 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2 moyenne empirique normalisée Figure 7: Rapport de vraisemblance pour le test optimal de Bayes décrit par l équation 34. (σ 2 = 2; N = 8,C 10 = 2). La zone grisée correspond à la région de décision θ 1 = 0. Pour ce problème, le test de minimum de probabilité d erreur de décision (k = 1) conduit à ne retenir H 0 que si x = 0. 6.2 UMP Test : definition et existence Une fonction de décision φ est dite fonction de test Uniformément Plus Puissant (on gardera ici l abréviation anglaise UMP, pour Uniformly Most powerful) de niveau α si pour tout autre test φ de niveau α la puissance du test vérifie, quel que soit θ Θ 1, X 1 p(x θ)dx = β (θ) = E θ [φ ] E θ [φ] = β(θ), θ Θ 1 Cela signifie que si le test maximise la probabilité de détection (ou la puissance) indépendamment de la valeur de θ, alors il doit être optimal pour toute fdp a priori de θ et peut donc être qualifié de test UMP. L existence d un tel test n est malheureusement pas garantie. Considérons par exemple le test suivant, appliqué à des observations gaussiennes de variance connue sous chacune des hypothèses : H 0 : µ = 0 vs H 1 : µ 0, où µ est la moyenne de la pdf gaussienne. Un bref calcul permet d exprimer log-rapport de vraisemblance comme une fonction de µ et des observations dans laquelle le signe de µ ne peut être absorbé sans que cela affecte le sens de l inégalité qui exprime le test. Le test dépend donc du signe de la moyenne (qui est ici considéré comme un paramètre) et il ne peut par conséquent pas exister de test UMP. Il existe des résultats sur les conditions d existence des tests UMP; en particulier, il est nécessaire que le log-rapport de vraisemblance soit monotone par rapport à une statistique de test suffisante (??). T 10. Remarque :Dans le cas où un test UMP n existe pas (ou plus simplement dans le cas où nous ne savons pas le calculer), une stratégie possible peut être de déterminer la distribution a priori la plus défavorable 10 ******Definition of a sufficient statistics here*******. 24

pour θ. La puissance du test construit sur le rapport de log-vraisemblance dépend de θ (cf paragraphe (2) : β(w) = p(x θ)w(θ H 1 )dθdx X 1 Θ 1 La fdp w(θ H 1 ) qui minimise β(w) est la distribution la plus défavorable. Cette dernière peut être elle aussi très difficile à déterminer, quand elle existe... Exemple On reprend le problème décrit précédemment par les équations (32) et (33). Cette fois, aucun a priori n est disponible sur θ 1. Pour ce problème de détection, le test construit sur le log-rapport de vraisemblance s exprime σ 2 N 1 log L(x) = θ 1 N N i=1 x i θ2 1 2 où η est déterminée par la stratégie retenue pour construire le test. Une formulation équivalente de cette équation est θ 1 x H1 H 0 η avec x = 1 N N i=1 x i, où on reconnait un estimateur de moyenne, qui est une variable gaussienne, de variance σ2 N et de moyenne θ 1 sous H 1, nulle sous H 0. Cas 1 : Test unilatéral, θ 1 > 0. Ce test est développé dans le cas où θ 1 > 0 sous H 1. Le facteur θ 1 peut être pris en compte dans l expression du seuil sans modifier le sens des inégalités. Ce test s écrit donc en introduisant la variable normalisée (de variance unité) Nx σ : Nx H 1 T = γ (35) σ H 0 Le calcul du test le plus puissant, de niveau au plus α = P FA, conduit à déterminer le seuil γ. Pour une valeur donnée de θ 1, la solution est donnée par le lemme de Neyman-Pearson (section 4). Nx P FA = α = P 0 ( > γ) σ d où α = 1 F(γ), H 1 H 0 η γ = F 1 (1 α), où F(x) est la loi de Laplace-Gauss introduite précédemment. Le test d hypothèse prend la forme finale Nx H 1 F 1 (1 α) σ H 0 La fonction de décision est indépendante de θ 1, ce test est donc uniformément le plus puissant (UMP), pour θ 1 > 0. La puissance P D de ce test est une fonction de θ 1 (moyenne de valeur inconnue), représentée sur la figure 8. P D est maximale par construction : Nx P D (θ 1 ) = P 1 ( > γ) = F(γ θ 1 N ) σ σ 25

Remarque : La quantité d = θ1 N σ qui apparaît dans l équation précédente comme terme correctif au seuil γ pour le test normalisé (eq. (35)) est appelée indice de détectabilité, et s exprime d = E [T H 1] E [T H 0 ] var0 (T) où var 0 (T) est la variance de la statistique de test sous H 0. Un test est d autant plus performant que d est grand. Remarque : La puissance du test est calculée sous l hypothèse θ 1 > 0. Cette hypothèse peut cependant ne pas être correcte : on obtient alors un test biaisé. En effet, la probabilité de fausse alarme (α) pour ce test est égale à la puissance de test calculée en θ 1 = 0. Pour toute valeur de θ 1 < 0, la puissance obtenue est inférieure à α, comme on le voit sur la figure (8). Cas 2 : Test unilatéral, θ 1 < 0. Les développements sont parfaitement identiques aux développements précédents, mais la prise en compte de la valeur inconnue (négative cette fois) de θ 1 dans le seuil retourne le sens des inégalités et inverse donc les régions de décisions. La forme finale du test obtenu est Nx H 0 F 1 (1 α) σ H 1 Le test obtenu est le test unilatéral (θ 1 < 0) UMP de niveau α = P FA, dont la puissance en fonction de la valeur de θ 1 est représentée sur la figure 8. Le test unilatéral obtenu est biaisé. Cas 3 :Test bilatéral, θ 0. Le paramètre θ 1 ne peut plus être pris en compte dans le calcul du seuil sans que cela ne pose un problème d indétermination du sens des inégalités. Les régions de décisions dépendent de θ 1 (du signe de θ 1 ), et il n existe pas de test UMP. L application d un des tests unilatéraux précédents conduit à une fonction de décision biaisée (ne permettant de détecter H 1 que pour certaines valeurs de θ 1 ). Une alternative raisonnable pour cet exemple est de proposer le test suivant Nx σ H1 γ (36) H 0 Pour ce test, P FA = α = 2(1 F(γ)). Pour un test de niveau α, le seuil γ doit alors être γ = F 1 (1 α 2 ) (37) ce qui, après quelques calculs, donne l expression de la puissance de ce test en fonction de θ 1 ( ( P D (θ 1 ) = 1 F γ θ ) ( 1 N F γ θ )) 1 N σ σ La puissance de ce test, représentée en traits pointillées sur la figure 8, est toujours inférieure aux puissances associées aux test UMP unilatéraux quand l hypothèse sur le signe de θ 1 est correcte. Par contre, elle est très supérieure à la puissance de ces tests quand cette hypothèse sur le signe de θ 1 est mauvaise. 26

1 0.9 P D (θ 1 ), θ 1 <0 P D (θ 1 ), θ 1 >0 0.8 0.7 Probabilité de détection 0.6 0.5 0.4 test bilatéral 0.3 0.2 0.1 α 0-2.5-2 -1.5-1 -0.5 0 0.5 1 1.5 2 2.5 θ 1 Figure 8: Puissance des tests pour le problème de détection de moyenne θ 1 non nulle d un processus normal de variance connue. Les courbes en trait continu sont obtenues pour les tests UMP monolatéraux pour chaque hypothèse sur le signe de θ 1. La courbe en trait pointillé est la puissance du test bilatéral, sous optimal pour P FA fixée, mais ne nécessitant aucune hypothèse sur le signe de θ 1. (σ 2 = 2; N = 8). 6.3 Stratégie de détection dans le cas d hypothèses composées Les contraintes à vérifier pour l existence d un test UMP sont telles, qu il n existe pas toujours de solution. Il peut parfois être intéressant de restreindre l ensemble des solutions possibles (dans l ensemble des tests) à un sous ensemble dans lequel un critère d optimalité peut être défini, en écartant des solutions non admissibles, ou non raisonnables. Cette démarche est par exemple celle qui consiste à ne chercher à construire une solution que parmi les tests non biaisés. Les tests unilatéraux du paragraphe précédent ne sont à ce titre pas des solutions raisonnables (car biaisées) dans la cas où le signe du paramètre θ 1 est inconnu. 6.3.1 Test unilatéral, localement le plus puissant Le problème considéré est le suivant : la fdp des observations x X est f(x, θ); les hypothèses à tester sont H 0 : θ = θ 0 H 1 : θ > θ 0 Dans la plupart des situations, la situation la plus intéressante (la plus délicate aussi) est celle où θ θ 0. La puissance du test de fonction de décision φ s exprime en fonction de θ P D (φ, θ) = f(x, θ)φ(x)dx P D (φ, θ 0 ) + (θ θ 0 ) P D(φ, θ) X 1 θ θ0 27

où P D (φ, θ 0 ) n est autre que P FA. Maximiser la puissance du test de niveau au plus P FA = α revient donc à maximiser P D(φ,θ) θ. D autre part, θ0 P D (φ, θ) θ = θ0 X 1 φ(x)f(x, θ)dx θ = φ(x) X 1 θ0 f(x, θ) θ dx θ0 La méthode des multiplicateurs de Lagrange conduit donc à chercher les extrema de L(φ) = X 1 φ(x) f(x,θ) θ dx η(1 θ0 X 1 φ(x)f(x, θ 0 )dx α) = [ ] X 1 φ(x) dx ηf(x, θ 0 ) dx ηα θ0 f(x,θ) θ Le second terme de la première égalité exprime la contrainte P FA = α avec le multiplicateur η. L(φ) est maximale si le terme entre crochets est toujours positif, d où l expression du test de décision : f(x,θ) θ H 1 θ0 η (38) f 0 (x) H 0 Le seuil η, qui permet de définir la fonction de décision φ est choisi pour vérifier la contrainte sur P FA. Remarque : Le test (38) peut s écrire log f(x, θ) θ H 1 η θ0 H 0 L hypothèse H 0 est retenue si la log-vraisemblance de θ 0 est proche d un point stationnaire, c est à dire proche de la valeur estimée au sens du maximum de vraisemblance de θ 0. On pourra vérifier que le test LMP ainsi obtenu pour le problème traité en exemple (équations (32),(33), cas 1), est aussi le tes UMP unilatéral. 6.3.2 Test bilatéral, localement le plus puissant La fdp des observations est f(x, θ), le test porte sur les hypothèses suivantes: H 0 : θ = θ 0 H 1 : θ θ 0 Si le test de niveau α associé à la fonction de décision φ recherchée est non biaisé, alors la puissance du test P D (φ, θ) présente un minimum global en θ = θ 11 0. La contrainte de non-biais s écrit donc E 1 [φ] θ = X 1 φ(x)f(x, θ)dx = 0 (39) θ0 θ θ0 11 En θ = θ 0, P D est égale à P F A. Si en ce point on n a pas un minimum global, alors il existe une valeur de θ pour laquelle P D < P F A 28

D autre part, pour avoir P D (φ, θ) maximale quand θ varie, on impose la contrainte suivante sur la concavité de P D en fonction de θ : 2 E 1 [φ] θ 2 = 2 X 1 φ(x)f(x, θ)dx θ0 θ 2 Max (40) θ0 La fonction de Lagrange pour ce problème est donc, en faisant passer les dérivations sous le signe intégrale, L(φ) = X 1 φ(x) 2 f(x,θ) θ0 θ dx ( 2 λ 1 ) X 1 φ(x)f(x, θ)dx α η f(x,θ) X 1 θ dx [ θ0 = X 1 φ(x) 2 f(x,θ) θ0 θ λf(x, θ 2 0 ) η f(x,θ) θ ]dx + λα λ θ0 L(φ) est maximale si l expression entre crochets est positive, soit θ0 f(x,θ) θ 2 f(x,θ) θ 2 + ρf(x, θ) θ0 H 1 H 0 η (41) où les multiplicateurs de Lagrange, et par conséquent η et ρ = λ/η sont déterminés par les contraintes. Exemple : On considère à nouveau le problème de décision décrit par les équations (32),(33), dans le cas où on ne dispose d aucune hypothèse sur le signe de la moyenne θ 1. En substituant f(x, θ) = N 2πσ e N(x θ)2 2σ 2 dans l équation (41) le test bilatéral localement le plus puissant devient x 2 σ 2 /N H 1 σ 2 η /N ρx H 0 Pour ρ = 0, le test se réduit, en introduisant la variable γ, à x H1 H 0 σ η + 1/ N = γσ/ N qui est exactement le test bilatéral (eq. (36) obtenu dans le paragraphe précédent. La contrainte sur le niveau du test conduit à exprimer γ en fonction de α (eq. (37). La puissance de ce test, en fonction de la valeur de θ 1 est représentée sur la figure 8. Remarque : L approche développée pour trouver le test bilatéral non biaisé localement le plus puissant se généralise sans difficulté au cas où il existe de multiples paramètres inconnus regroupés sous le vecteur θ. Les contraintes exprimées par les équations (39) et (40) sont alors E θ [φ] θ0 = 0 et tr 2 E θ [φ] θ0 Max 29

La prise en compte de la contrainte de niveau α sur le test et la maximisation de la fonction Lagrange se développe comme dans le cas à paramètres scalaires (paragraphe précédent); le test obtenu est 6.3.3 Test MinMax-Neyman Pearson tr 2 f(x, θ) θ0 ρf(x, θ 0 )+ f(x, θ) θ0 Le problème de détection considéré est décrit par l équation (27). Le lemme de Neymann et Pearson ne s applique plus de manière générale, et des tests UMP ou LMP n existent pas toujours. Une stratégie alternative est de formuler le problème de maximisation de la puissance du test (probabilité de détection) pour une contrainte de fausse alarme bornée, pour la situation a priori la moins favorable (une démarche analogue dans le principe a conduit à proposer le test bayesien minimax). Les probabilités de fausse alarme et de détection s expriment en fonctions des densités de probabilité sur les paramètres inconnus θ : P FA (p 0 (.)) = f 0 (x θ)p 0 (θ)dθ Θ 0 X 1 P D (p 1 (.)) = f 1 (x θ)p 1 (θ)dθ X 1 Θ 1 on recherche la paire de distributions p 0 (θ) et p 1 (θ) qui maximisent P FA et minimisent P D. L objectif du test NP minimax s exprime alors Maximiser f 1 (x θ)p 1 (θ)dθ X 1 sous la contrainte Θ 1 f 0 (x θ)p 0(θ)dθ α Θ 0 X 1 Cette approche n est cependant pas sans problème : les résultats obtenus peuvent être de puissance très faible, en particulier si p 0 (θ) est concentrée sur des valeurs rares ou atypiques de θ; par ailleurs, la détermination des distributions p 0(θ) et p 1(θ) peut être très difficile. Il existe cependant quelques résultats (*******voir ref Hero*******) permettant d aider à la détermination de ces densités. En particulier les densités p i (θ) ne peuvent prendre chacune que deux valeurs sur Θ i (les densités sont donc constantes par morceaux) : { p qi, θ Θ + i (θ) = i 0, θ Θ i Θ +, i {0, 1}, q i = p i (θ)dθ i H 1 H 0 η 6.4 Méthode du rapport de Vraisemblance Généralisé (GLRT) La méthode du rapport de vraisemblance généralisé (Generalized likelihood Ratio Test) est intéressante quand il n existe pas de test UMP et qu il est difficile ou simplement impossible de d évaluer une distribution a priori du paramètre θ. Cette méthode consiste à remplacer θ par sa valeur estimée au sens du maximum de vraisemblance, à partir des observations. Cette approche pragmatique ne conduit pas en général au test optimal. Le test prend alors la forme suivante : L GLR = max θ Θ 1 p(x, θ) p(x θ 0 ) 30 Θ + i H 1 H 0 η (42)

Remarque : dans la situation envisagée ici, H 0 étant un hypothèse simple, il n y a aucun paramètre à pré-estimer sous cette hypothèse. L intérêt et la popularité de cet estimateur tient aux propriétés suivantes : Quand le nombre N d observations indépendantes disponibles pour construire le test tend vers l infini ( N ), l estimateur au sens de maximum de vraisemblance de θ, noté θ MLE est une estimateur consistant, et le test du rapport de vraisemblance généralisé est asymptotiquement UMP. La statistique du rapport de vraisemblance généralisé est asymptotiquement une statistique de chi carré : si p(x θ 0 ) est continue dérivable sous l hypothèse H 0, on établit (paragraphe suivant) que pour de grandes valeurs de N (nombre d observations indépendantes) 2 log L GLR X p où p est le nombre de composantes pertinentes du vecteur de paramètres inconnus θ pour ce test; il se peut en effet que certains des paramètres non connus prennent des valeurs identiques sous chacune des hypothèses, et sont par conséquent parfaitement non pertinents pour ce problème. Comportement asymptotique du GLRT quand N : Par soucis de simplification, le comportement du test de vraisemblance généralisé n est étudié ici que dans le cas où H 0 est une hypothèse simple, et où l hypothèse H 1 ne fait intervenir qu un unique paramètre inconnu θ 1 scalaire (le principe de la démonstration reste le même dans le cas général). Sous l hypothèse H 0, θ 1 = θ 0. On considère la situation pour laquelle l hypothèse vraie est H 0 (c est sous cette hypothèse que la loi asymptotique est nécessaire pour le calcul du seuil optimal au sens de Neyman-Pearson). Soient ˆθ 1 une estimée au sens du maximum de vraisemblance de θ 1 obtenue à partir d un ensemble X de N observations i.i.d. (ˆθ 1 = max θ Θ f(x, θ)), et L(X, ˆθ 1 ) le rapport de vraisemblance obtenu pour cette valeur de l estimée ˆθ 1 : L(X, ˆθ 1 ) = f(x, ˆθ 1 ) f(x, θ 0 ) Un développement de Taylor-Young autour de la valeur θ 0 permet d écrire log L(x, θ 0 ) = log L(x, ˆθ 1 ) +(θ 0 ˆθ 1 ) θ log L(x, ˆθ 0 ) + 1 2 (θ 0 ˆθ 1 ) 2 2 θ 2 log L(x, θ ) où θ [θ 0, ˆθ 1 ]. ˆθ 1 étant une estimée au sens du maximum de vraisemblance donc θ log L(x, ˆθ 1 ) = 0 C est une estimée consistante, par conséquent lorsque N ˆθ 1 θ 0 ˆθ θ 0 31

D autre part, la consistance de l estimée ˆθ 1 et la loi des grands nombres assurent la convergence avec une probabilité égale à un quand N 1 [ ] N N i=1 2 θ log f(x 2 i, θ ) E 2 θ0 θ log f(x, θ 2 0 ) = I 0 où I 0 est l information de Fisher de cet ensemble d observations pour l estimation de θ 1. Un résultat classique en théorie de l estimation permet d écrire que pour un estimateur consistant non biaisé, NI0 (ˆθ 1 θ 0 ) N(0, 1) et par conséquent NI 0 (ˆθ 1 θ 0 ) 2 X 2 1 L insertion de ce résultat dans le développement de Taylor-Young de la fonction de log-vraisemblance permet d obtenir 2 log L(x, θ 0 ) X 2 1 Remarque Si L n est pas une fonction de classe C 2 en θ 0, le résultat précédent ne peut être établi. On utilisera alors des statistique approchées de la fonction de vraisemblance, par exemple les développement asymptotiques de Gram-Charlier ou d Edgeworth. 32

ANNEXE Soit M i,k+1 le moment d ordre k + 1 du rapport de vraisemblance v(x) des observations x, sous H i : M 0,k+1 = f 0 (x)v k+1 (x)dx = ( f 0 (x) f1(x) f 0(x)) k+1 dx = f 1 (x) ( f1(x) f 0(x)) k dx = M1,k Soit G(x) = log(v(x)), v(x) = exp(g(x)) E 0 [exp((k + 1)G)] = E 1 [exp(kg)] Soit Φ i (u) la fonction génératrice des moments de l Φ i (k + 1) = f G,0 (g)exp((k + 1)g)dg = E 0 [exp((k + 1)G)] D où, en utilisant les transformées de Laplace inverse : = E 1 [exp(kg)] = f G,1 (g)exp(kg)dg f G,1 (g) = exp(g)f G,0 (g) où g est par construction une variable aléatoire égale au log-rapport de vraisemblance des observations, f G,i (g) étant la fdp de g sous H i. Soit f V,i la fdp du rapport de vraisemblance v, il vient d où f V,i (v) = f G,i (g) dg dv f V,1 (v) f V,0 (v) = f G,1(g) f G,0 (g) = exp(g) = v Le rapport de vraisemblance du rapport de vraisemblance est le rapport de vraisemblance. 33

Ouvrages de référence P.J.Bickel, K.A.Docksum, Mathématical Statistics vol.1, Prentice Hall, 2001 T. Cover, J.A.Thomas, Information Theory, Wiley Series in Telecommunications, 1991. C.Fourgeaud, A. Fuchs, Statistique, Collection Universitaire de Mathématiques Dunod, vol.24, 1967. C.W.Helstrom, Elements of Signal Detection and Estimation,Prentice Hall, Englewood Cliffs, 1995. S.M.Kay, Fundamentals of Statistical Signal Processing, vol.2, Prentice Hall, 1998. A.Papoulis, Probability, random variables and stochastic processes, McGraw Hill International, 1991. H.V.Poor, An introduction to Signal Detection and Estimation, Springer, 1994. L.L.Scharf, Statistical Signal Processing : Detection, estimation and time series, Addison Wesley, 1991 H.L.Van Trees, Detection, Estimation and Modulation Theory, Wiley and Sons, 1968. 34