Cours d introduction à la théorie de la détection

Transcription

1 Olivier J.J. MICHEL Département EEA, UNSA v1.mars 06 Laboratoire LUAN UMR6525-CNRS Cours d introduction à la théorie de la détection L ensemble du document s appuie très largement sur les notes de cours dispensés d une part à l Université du Michigan (Ann Arbor, département EECS) par A.O.Hero et d autre part à l Université de Nice-Sophia Antipolis (ED.SFA, 2004) par O.Michel. Contents 1 Contexte, définitions 2 2 Formulation générale du problème de test d hypothèse binaire 2 3 Approches bayesiennes, hypothèses simples Règle de Bayes et règle du max. a posteriori (MAP) Stratégie de Bayes, notion de coût Le détecteur MiniMax de Bayes Test à hypothèses multiples L approche de Neyman Pearson (NP) 12 5 Tests de rapport de vraisemblance Observations multiples : interprétation du LRT Courbes CORe Evaluation de la possibilité de détection d un signal Test d hypothèses composées Stratégie bayesienne pour le test d hypothèses composées UMP Test : definition et existence Stratégie de détection dans le cas d hypothèses composées Test unilatéral, localement le plus puissant Test bilatéral, localement le plus puissant Test MinMax-Neyman Pearson Méthode du rapport de Vraisemblance Généralisé (GLRT)

2 1 Contexte, définitions Le problème le plus simple relevant de la théorie de la décision est le problème qui consiste à devoir choisir entre plusieurs hypothèses (notées H i ) qui permettent chacune d expliquer ou d interpréter des données observées : il s agit donc de décider à partir d un ensemble d observations collectées, quelle est l hypothèse qui est vraie, ou qui semble vraie. Sous chacune des hypothèses, les données collectées sont supposées de nature aléatoire. Les observations ont une fonction de densité de probabilité (cas continu) ou une loi de probabilité (cas discret) qui dépend de l hypothèse H i qui est réalisée. Chaque fonction de densité (fdp) ou chaque loi de probabilité est totalement (hypothèses simples) ou partiellement (hypothèses composées) connue sous chacune des hypothèses possibles H i. A chaque hypothèse est donc associée une fdp ou une loi de probabilité sur l espace de mesure. Considérons un système de communication par exemple; l émetteur envoie une suite de symboles représentés chacun par un signal de forme particulière (l opération de modulation qui réalise la correspondance entre un symbole et une forme déterminée de signal). Le récepteur doit donc détecter si un symbole a été émis et sélectionner ce symbole parmi un alphabet de symboles possibles. La séquence de ces symboles constitue un message. Ce dernier se propage dans un canal de transmission (ligne électrique, fibre optique, atmosphère,...) imparfait, et subit des modifications ou des altérations lors de sa propagation. Ces modifications sont le plus souvent dues à la nature dispersive et fluctuante du milieu dans lequel se propage le signal, à des atténuations, voire plus simplement à des effets d interférences en présence de signaux parasites (d autres émetteurs utilisent le même canal de transmission). Le signal capté par le récepteur est donc différent du signal émis et les fluctuations subies par ce dernier sont de nature aléatoire. Il se peut par ailleurs que l appareil de réception lui même introduise un bruit parasite non négligeable. La tâche du détecteur est donc de retrouver le symbole émis à partir d observations noyées dans un bruit, ou de prendre toute autre décision sur la nature du signal observé, en faisant un minimum d erreurs de décision par exemple. L objectif de la théorie de la détection est d étudier comment de telles erreurs peuvent être rendues aussi rares ou aussi peu coûteuses que que possible. Notons que quel que soit le type de signal auquel on s intéresse, de nature déterministe ou bien de nature aléatoire, la présence de bruit au niveau du récepteur ne peut être prise en compte que dans le cadre d une approche probabiliste. Le signal à l entrée du récepteur sera donc un processus stochastique ne pouvant être décrit qu à l aide de sa fonction de densité de probabilité. La forme de cette fdp résume l ensemble des connaissances disponibles sur la nature physique des perturbations ou du signal lui-même. Dans la presque totalité de ce chapitre nous nous intéresserons au problème de décision binaire, le récepteur ayant à choisir entre deux hypothèses notées H 0 (le signal est de type T 0 ) et H 1 (le signal reçu est de type T 1 ) respectivement. Dans ce contexte, la notion d hypothèse porte sur le type (T 0 ou T 1 ) du signal émis qui n est observé qu à travers un canal de transmission imparfait. Cette démarche se généralise aisément au problème de test d hypothèses multiples, dans lequel les signaux peuvent être de plus de deux types différents, et auquel nous consacrerons un bref paragraphe. 2 Formulation générale du problème de test d hypothèse binaire Considérons x X une mesure ou une observation d un signal et θ Θ un ensemble de paramètres de cette observation. Bien que θ soit indéterminé, l ensemble Θ est connu et les formes des fonctions de densité de probabilité (p(x θ)) de l observation x en fonction des paramètres θ sont connues. Une expérience, notée (X, P Θ ), est donc composée d une réalisation x X ayant pour fdp p θ (x), θ Θ. L observation x considérée peut être de nature quelconque, numérique ou symbolique, scalaire ou vectorielle. 2

3 Les hypothèses qui doivent être considérées dans la suite sont donc: H 0 : θ Θ 0 [x p(x θ) θ Θ 0 ] H 1 : θ Θ 1 [x p(x θ) θ Θ 1 ] expression dans laquelle {Θ 0, Θ 1 } est une partition de l ensemble Θ 1. L égalité x p(x θ) signifie que la variable aléatoire x a pour fdp, conditionnellement à θ, la fonction p(x θ). Le choix opéré par le récepteur est donc exclusif et le récepteur choisit toujours l un ou l autre des hypothèses. L hypothèse H 0 est souvent appelée hypothèse nulle ou hypothèse de bruit seul alors que H 1 est qualifiée d alternative ou d hypothèse de présence de signal, selon le contexte. La synthèse d un détecteur se résume donc à la définition d une fonction de décision φ qui ne dépend que des observations x X, et qui définit une partition de l espace des réalisations X en deux régions de décisions : X 0 = {x : φ(x) = 0 : décider H 0 } (1) X 1 = {x : φ(x) = 1 : décider H 1 } Les erreurs faites par le récepteur (prise de mauvaises décisions) construit à l aide de la fonction de décision φ peuvent être de deux types Le détecteur choisit l hypothèse H 1 alors que la fdp du signal émis est de type T 0 : p(x θ), θ Θ 0 (hypothèse H 0 ); cette erreur est qualifiée de Fausse Alarme (FA). P FA est parfois qualifiée aussi de niveau du test. Le détecteur choisit l hypothèse H 0 alors que le signal émis est de type T 1 : cette erreur est une Non Détection (ND), ou détection Manquée (M) Les probabilités de chacune de ces erreurs s expriment à l aide de la fonction de décision et des fdp des observations x P FA (θ) = X 1 p θ (x)dx = E θ [φ] θ Θ 0 (2) P M (θ) = X 0 p θ (x)dx = 1 X 1 p θ (x)dx = E θ [1 φ] θ Θ 1 (3) La probabilité de fausse alarme est ici une fonction de θ Θ 0. Si la fonction de densité de probabilité p(θ) est connue, on peut exprimer la probabilité de fausse alarme moyenne (par rapport à θ Θ 0 P FA = P FA (θ)p(θ θ Θ 0 )dθ = Θ 0 P FA (θ)p(θ H 0 )dθ Θ 0 où p(θ) = p(h 0 )p(θ H 0 ) et où la probabilité de réalisation de l hypothèse H 0 est p(h 0 ) = p(θ)dθ (4) θ 0 De même, P M = P M (θ)p(θ H 1 )dθ = Θ 1 1 {Θ 0,Θ 1 } est une partition de l ensemble Θ si Θ 0 S Θ1 = Θ et Θ 0 T Θ1 = / Θ 1 X 0 p θ (x)p(θ H 1 )dθdx 3

4 La probabilité d erreur totale se déduit des expressions précédentes : P E = p(h 0 )P FA + p(h 1 )P M = i (0,1) p(h i) Θ i X j p θ (x)p(θ H i )dθdx On introduit parfois d autres probabilités caractéristiques du détecteur : La probabilité de détection, définie sous H 1, P D = 1 P M Cette probabilité est aussi appelée puissance du test. La probabilité de décision ou de classification correcte, P C Remarques : P C = 1 P E = p(h 0 )(1 P FA ) + p(h 1 )(1 P M ) = i=0,1 p(h i) Θ i X i p θ (x)p(θ H i )dθdx (5) La probabilité P C est une fonction de la densité de probabilité du paramètre θ sur lequel porte le test et de la forme des régions de décision X i. La valeur des probabilités {p(h i ), i = 0, 1} est calculée à partir de la fdp de θ. La fdp marginale des observations p X (x) s exprime p X (x) = P(H i ) p θ (x)dθ Θ i i=0,1 La fdp de θ, et par conséquent les probabilités p(h i ) ne sont pas nécessairement connues a priori; la forme des solutions qui seront proposées dans les paragraphes suivants dépend en particulier du fait que l on dispose ou non de cette connaissance. Le cas pour lequel θ prend ses valeurs sur un ensemble discret se déduit directement des équations précédentes, en remplaçant les opérateurs d intégration Θ i (.)p(θ)dθ par les opérateurs de somme discrète θ Θ i (.)p(θ) où Θ i est un ensemble discret et où p(θ) est cette fois une loi de probabilité et non une fdp. Exemple Soit x une variable aléatoire gaussienne; sous les hypothèses H 1 et H 0 respectivement, x a pour fdp p(x θ 1 ) et p(x θ 0 ) : { p(x θ0 ) = 1 σ 2π exp( (x θ0)2 2σ ) sous H 2 0 (6) p(x θ 1 ) = 1 σ 2π exp( (x θ1)2 2σ ) sous H 2 1 Ces fdp sont représentées sur la figure 1, dans le cas θ 0 = 0, θ 1 = 3, σ 2 = 2. Nous établirons que le problème de décision binaire (x est une variable aléatoire dont la fdp est associée à l hypothèse H 1 ou à l hypothèse H 0 ) conduit simplement à comparer x à un seuil η. Alors X 0 =], η] et X 1 =]η, [; P FA et P M correspondent aux surfaces hachurées à droite et à gauche de la droite d équation x = η respectivement. 4

5 P 0 (x) P 1 (x) 0.2 pdf(x) x η Figure 1: Un exemple de test d hypothèse binaire: x a une distribution gaussienne avec σ 2 = 2 sous chacune des hypothèses. Sous H 1, x a une moyenne connue θ = 3 alors que sous H 0, x est une variable aléatoire centrée. Comparer une valeur observée de x au seuil η permet d évaluer les probabilités de non détection ou de fausse alarme, représentées par les surfaces hachurées. 3 Approches bayesiennes, hypothèses simples 3.1 Règle de Bayes et règle du max. a posteriori (MAP) On suppose dans cette section que les fdp sur les paramètres θ sont connues; en conséquence, les probabilités de réalisation de chacune des hypothèses sont elles aussi déterminées (cf eq. 4). La probabilité a posteriori, i.e. après avoir observé x, que l hypothèse H i : (θ Θ i ) soit réalisée est obtenue par la formule de Bayes sur les probabilités conditionnelles p(h i x) = P(H i).p(x H i ) p X (x) Ces probabilités sont calculées pour chacune des hypothèses. La règle de détection Bayesienne dite de Maximum a posteriori consiste alors à sélectionner l hypothèse ayant la plus forte probabilité a posteriori, étant données les observations de x, exploitant l égalité (7). Cette méthode conduit au minimum d erreur de classification (P E ) et donc maximise P C = 1 P E : l équation (5) peut en effet s exprimer P C = i (0,1) p(h i) [ ] X i Θ i p θ (x)p(θ H i ) dθ = i (0,1) p(h i) X i p(x H i )dx Le choix des zones de décision X i au sens du MAP est tel que le terme sous l intégrale est toujours maximal. En conséquence P C est maximal et P E minimal. Un tel récepteur est dit optimal au sens de Bayes. Il a été déjà souligné que dans l approche bayesienne, les probabilités de réalisation de chacune des hypothèses (ou les pdf a priori pour θ) sont supposées connues. Les informations fournies par l expérience (7) 5

6 consistent alors uniquement en la mesure ou l observation de réalisations de x. Les régions de décision sont entièrement déterminées par l évaluation des quantités p(x H i ) dans l équation (7), et les probabilités a priori des hypothèses. L approche du MAP peut alors être formulée de la manière suivante : si p(h 1 )p(x H 1 ) > p(h 0 )p(x H 0 ) alors choisir H 1, sinon choisir H 0. Dans une formulation équivalente utilisant le rapport de vraisemblance L(x) = p(x H 1) (8) p(x H 0 ) on obtient Remarque L(x) = p(x H H 1) 1 p(h 0 ) p(x H 0 ) H 0 p(h 1 ) Le terme p X (x) n agit que comme une constante de normalisation et disparaît donc dans la formulation du test. Si p(h 0 ) = p(h 1 ) = 1 2, le choix de l hypothèse à retenir se fait au sens du maximum de vraisemblance : L(x) H1 1 H 0 Exemple Le test de maximum a posteriori (MAP) pour le test d hypothèse décrit par l équation (6), conduit à L(x) = p(x H (x θ 1 ) 2 1) p(x H 0 ) = e 2σ 2 e (x θ 1 )2 2σ 2 H 1 p(h 0 ) H 0 p(h 1 ) soit, en exprimant le critère de décision en fonction de l observation x. x H1 η = θ 1 + θ 0 + σ2 log( p(h 0) H 0 2 θ 1 θ 0 p(h 1 ) ) 3.2 Stratégie de Bayes, notion de coût Nous avons établi dans le paragraphe précédent que le test d hypothèse binaire conduit à comparer le rapport de vraisemblance à un seuil. Dans le cadre de l approche MAP, ce seuil est fonction des lois de probabilités a priori sous chacune des hypothèses. Il y a cependant de nombreux cas pour lesquels les deux types d erreurs n impliquent pas les mêmes conséquences, ni surtout les mêmes coûts. Il est alors nécessaire de proposer une stratégie dont la finalité soit de minimiser le coût moyen des décisions qui seront prises par le détecteur. C est exactement ce à quoi le stratégie bayesienne apporte une réponse. Soit p(ĥi H j ) la probabilité qu a le détecteur de choisir l hypothèse Ĥi quand c est H j qui est l hypothèse correcte et C ij le coût associé à une telle décision. Le coût associé au choix de l hypothèse Ĥi à partir de l observation x vaut C(Ĥi) = C ij p(ĥi H j )p(h j ) = C ij p(ĥj x) j j Le coût moyen pour le détecteur est alors obtenu par la règle de Bayes C = i X i p X (x)c(ĥi)dx = i j p(h j)c ij X i Θ j p θ (x)p(θ H j )dθdx (10) 6 (9)

7 Le coût moyen est donc minimal lorsque la région de décision X i ne contient que les observations pour lesquelles C(Ĥi) est minimal. Bien que les équations précédentes s appliquent en toute généralité au problème de test d hypothèses multiples, les éléments suivant ne sont exposés que dans le cas du test d hypothèses binaire permettant de mettre en évidence l importance du rôle joué par le rapport de vraisemblance (8). L équation (10) prend alors la formulation suivante : C = C 00 p(h 0 ) + C 11 p(h 1 ) + X 1 ([C 10 C 00 ]p(h 0 )p(x H 0 ) [C 01 C 11 ]p(h 1 )p(x H 1 )dx = p(h 0 )[(C 10 P FA + C 00 (1 P FA )] + p(h 1 )[C 01 (1 P D ) + C 11 P D ] (11) Les deux premiers termes de cette équation sont indépendants des observations et de la fonction de test retenue; l intégrale est minimale si l intégrande est toujours négatif, ce qui conduit à la règle de décision suivante : une observation x est associée à la région de décision X 1 si [C 10 C 00 ]p(h 0 )p(x H 0 ) < [C 01 C 11 ]p(h 1 )p(x H 1 ) (12) Remarque : Le coût, c est à dire la pénalité, associé à une détection correcte étant logiquement plus faible que le coût associé à une erreur de décision, les inégalités suivantes sont imposées : C 10 C 00 C 01 C 11 (13) Une formulation équivalente de (12) à l aide du rapport de vraisemblance est 2 L(x) = p(x H 1) H 1 [C 10 C 00 ]p(h 0 ) p(x H 0 ) H 0 [C 01 C 11 ]p(h 1 ) Ces approches sont optimales au sens où elles minimisent le coût moyen, mais s appuient sur une connaissance a priori des lois de probabilités (ou des fdp) du paramètre θ, ou plus simplement de p(h i ) 3 ; de plus, elles supposent qu il est possible d associer a priori un coût à chacune des décisions que peut prendre le détecteur. Dans le cas où aucun a priori n est possible ou simplement disponible sur θ, mais où définir les coûts de chaque décision est possible, l approche minimax développée dans un paragraphe ultérieur est optimale. Notons seulement pour l instant que le test revient à nouveau à comparer le rapport de vraisemblance à un seuil. Remarque : Si C 10 = C 01 = 1 et C 11 = C 00 = 0, le coût moyen de Bayes se confond avec la probabilité d erreur de décision P E. On retrouve la règle de décision obtenue au paragraphe précédent(eq. (9). Exemple Le calcul du détecteur de Bayes pour le test d hypothèse décrit par l équation (6) se déduit des résultats précédents et conduit à la fonction de décision suivante x H1 η = θ 1 + θ 0 + σ2 log H 0 2 θ 1 θ 0 ( [C10 C 00 ]p(h 0 ) [C 01 C 11 ]p(h 1 ) Le seuil η étant fixé, les probabilités de fausse alarme et de détection sont déterminées (eq. (11)). Le coût de bayes peut donc s écrire comme fonction de η. Les courbes exprimant le coût C(η) en fonction de η sont représentées sur la figure (2), pour différentes valeurs des paramètres C ij. Les minima correspondent aux valeurs optimale de η exprimées par l équation (15). 2 C est ici que les inégalités exprimées par l équation (13) sont importantes, car si elles ne changent pas la valeur du seuil auquel est comparé le rapport de vraisemblance, elles déterminent la décision à prendre. 3 De fait, l équation(14) montre que seule la connaissance des probabilités p(h i ) est nécessaire; la connaissance de la fdp de θ conduit à la détermination des p(h i ) par l équation (4). ) (14) (15) 7

8 1.5 1 Coût bayesien, C(η) seuil η Figure 2: Coût bayesien associé au détecteur x H1 H 0 η pour le test d hypothèse décrit par l équation (6), en fonction du seuil η. Les courbes en trait plein sont obtenues pour p(h1) =.5, C 00 = C 11 = 0,C 10 = 1, et C 01 = 1 et C 01 = 3 respectivement. Les courbes en pointillés reprennent les mêmes valeurs de C ij mais pour p(h 1 ) =.2. Les seuils théoriques optimaux obtenus à partir de l équation (15) sont indiqués par les lignes verticales. L inconvénient majeur de l approche bayesienne reste la difficulté à définir des valeurs raisonnables de C ij, le plus souvent à partir de considérations subjectives. De plus, l approche bayesienne ne permet pas de garantir une valeur maximale de la probabilité de fausse alarme et n est optimale qu au regard des divers a priori qui ont pu être formulés. 3.3 Le détecteur MiniMax de Bayes On considère cette fois les situations dans lesquelles les coûts C ij sont connus ou peuvent être déterminés, sans que les a priori sur les probabilités des hypothèses soient connus. L approche minimax permet de palier l indétermination de p(h 0 ), en minimisant le coût moyen associé au test obtenu pour la valeur de p(h 0 ) la plus défavorable. Soit un seuil η quelconque, auquel est comparé le rapport de vraisemblance L(x) 4 : l ensemble des tests rencontrés permettent de déterminer η à partir de critères d optimalité (erreur moyenne de décision minimale (MAP), risque minimal (Bayes),...) en fonction de p(h 0 ). p(h 0 ) étant inconnue, il peut tout au plus être envisagé de l estimer, ce qui permet alors de fixer η, à partir de l équation (14). La détermination de η détermine à son tour parfaitement les probabilités de non détection ou de fausse alarme, et donc aussi le coût moyen (risque) dans la stratégie de Bayes. Le risque C s écrit en fonction de p = p(h 0 ) et η (cf eq. 11) C(η, p) = p[c 10 P FA (η) + C 00 (1 P FA (η))] + (1 p)[c 01 P M (η) + C 11 (1 P M (η))] 4 Dans le paragraphe précédent, η représente le seuil appliqué aux observations x, et non à L(x); ces deux seuils sont évidemment réliés bijectivement, c est pourquoi on a gardé les mêmes notations 8

9 Le risque calculé pour une valeur de η donnée, est une fonction linéaire de p; cette fonction est tangente à la courbe Ĉ(η opt(p), p)) en fonction de p, où η opt (p) est le seuil calculé pour minimiser le risque bayesien quand p est connu. La courbe Ĉ(η opt(p), p)) pour 0 p 1 délimite dans le plan (C, p) une zone de performance non accessible, représentée sur la figure (3). Sur la figure (3), il apparaît que si la valeur choisie pour η est proche de la valeur optimale (qui suppose p connue), le coût moyen obtenu reste proche du coût minimal; par contre, si η est très différent de η opt, le coût résultant peut être très largement supérieur au coût optimal accessible, du fait de la croissance linéaire du coût en fonction de p. Cette situation est susceptible de se produire dès que le choix (arbitraire si p est totalement inconnu) de η s écarte de la valeur η opt (p). Cet effet peut être évité si la courbe Ĉ(η, p) est de pente nulle en fonction de p, ce qui donne un coût moyen constant et indépendant de p. On cherche donc la solution vérifiant ce qui conduit à et à l expression du coût moyen : C(η, p) p = 0 [C 10 P FA (η) + C 00 (1 P FA (η))] = [C 01 P M (η) + C 11 (1 P M (η))] (16) C (η) = [C 01 P M (η) + C 11 (1 P M (η))] (17) La première de ces deux équations exprime une contrainte d égalité entre les coûts de décisions sous chacune des hypothèses, la seconde donne l expression du coût moyen, indépendant de p, obtenu quand cette contrainte est vérifiée. La valeur (notée η ) du seuil η est alors déterminé de sorte à minimiser la valeur du coût moyen C (η): η = ArgMin η C (η) Soit p 0 la valeur de p pour laquelle cette valeur du coût moyen est la plus faible (l optimale), le test minimax s écrit alors en fonction de p 0 : Remarques : L(x) H1 η [C 10 C 00 ]p 0 = η opt (p 0 ) = H 0 [C 10 C 11 ](1 p 0 ) Le test minimax est le test de Bayes de seuil η(p 0 ), pour lequel la fonction C(p, eta 0 ) est une droite horizontale, tangente à la courbe C(η opt (p), p) fonction de p = p(h 0 ). Si C 00 = C 11 = 0 et C 10 = C 01 = 1, le coût moyen est la probabilité d erreur du détecteur et la condition d égalité des coûts sous chacune des hypothèse s écrit P FA = P M. 3.4 Test à hypothèses multiples Les hypothèses à tester sont dites multiples si le problème de décision s écrit H 0 : θ Θ 0 [x p(x θ), θ Θ 0 ]. H M : θ Θ M [x p(x θ), θ Θ M ] 9

10 C(η=0.2,p) risque=coût moyen, fonction de p C(η(p),p) C(η=3,p) C Minimax 0.1 zone de performance non accessible p=p(h 0 ) Figure 3: Coût moyen de Bayes en fonction de p = p(h 0 ), pour C 00 = C 11 = 0 et C 01 = C 10 = 1. Les statistiques d entrées, pour cet exemple, sont normales de variance σ 2 =.5 et de moyenne θ 1 = 1 sous H 1 et θ 0 = 0 sous H 0. Les droites représentent les coûts obtenus pour une valeur fixée de η (respectivement 0.2, 1,.3); la courbe en pointillé représente le coût minimal de Bayes (η = η opt ) est alors fixé en fonction de p. Cette courbe fixe la limite des performances (en terme de faible coût moyen) que peut atteindre le détecteur. Le test MiniMax est obtenu dans ce cas particulier pour p = p 0 = 1/2 et η opt = η(1/2) = 1. 10

11 pour M > 2; {Θ 0,..., Θ M } forme une partition de l ensemble Θ. La fonction de décision devient φ(x) = [φ 1 (x),..., φ M (x)] T et vérifie φ(x) {0, 1} x X M i=1 φ i(x) = 1 x X φ définit ainsi une partition de l espace des observations X en M sous-espaces X i. Les probabilités a priori de chacune des hypothèses H i s exprime comme précédemment, à partir de la fdp de θ supposée connue, notée p(θ) p(h i ) = p(θ)dθ, Θ i M p(h i ) = 1 Soit C i j(θ) le coût associé au choix de la décision H i : θ Θ i alors que c est H j : θ Θ j qui est vérifiée. La probabilité d une telle décision est notée p(ĥi H j ). On introduit alors la matrice de coût C(θ) = i=1 C 11 (θ)... C 1M (θ). C M1 (θ).... C MM (θ) Le choix optimal au sens de la stratégie de Bayes conduit à déterminer la fonction de décision φ qui minimise le risque (coût moyen) M C = C ij p(ĥi H j )p(h j ) i,j=1 Cette expression ne conduit pas à des formulations simples du test optimal dans le cas général. On s intéresse plus particulièrement au cas suivant : C ii = 0 i {1,..., M} C ij = 1, i j, i, j {1,...,M} Le risque de Bayes est alors égal à la probabilité d erreur de décision, et s exprime où p(x H i ) = R p Θ θ (x)dθ i p(h i) C = M i j=1 C ijp(ĥi H j )p(h j ) = 1 M i=1 C iip(ĥi H i )p(h i ) = 1 M i=1 p(h i) X i p(x H i )dx est la probabilité de l observation conditionnellement à l hypothèse H i. Il apparaît que C est minimal si pour tout i {1,...,M}, les régions de décisions X i sont telles que Le règle de décision peut donc se résumer ainsi : x X i p(h i )p(x H i ) p(h j )p(x H j ) j i Ĥ i = ArgMax Hj [p(h j )p(x H j )] = ArgMax Hj [p(h j x)] 11

12 où Ĥi signifie le détecteur retient l hypothèse H i. La seconde égalité est obtenue à partir de l égalité de Bayes, en notant que la fdp globale des observations n intervient que comme une constante de normalisation (cf paragraphe 3.1). On retrouve ainsi le test de maximum a posteriori (MAP). Remarque Les règles de décision ne sont en général pas transitives, ce qui interdit de traiter le problème en considérant les différentes hypothèses par paires. Il se peut en effet que à partir de l observation x X, les décisions soient les suivantes H 1 vsh 2 Ĥ2 H 2 vsh 3 Ĥ3 H 1 vsh 3 Ĥ1 Tester H i contre H j amène à considérer le test optimal défini pour le problème de test d hypothèses binaires (équation (14)). Soit L ij = p(x Hi) p(x H le rapport de vraisemblance dans le test d hypothèse H j) i vs H j, et η ij le seuil optimal au sens de Bayes. Considérons un ensemble de 3 hypothèses H i, H j, et H k. L égalité L ik (x) = L ij (x)l jk (x) et les règles de décisions pour les tests d hypothèses binaires L ij (x) Hi ζ ij, permettent de mettre en H j évidence une condition suffisante pour la transitivité des règles de décisions : ζ ik = ζ ij ζ jk (C ji C ii ) (C kj C jj ) (C ij C jj ) (C jk C kk ) = (C ki C ii ) (C ik C kk ) Cette contrainte exprimée sur la matrice des coûts bayesiens est vérifiée dans le cas étudié précédemment; la considération des hypothèses deux par deux aurait, dans ces cas particuliers, donc conduit à la même règle de décision. Exemple Considérons trois hypothèses équiprobables (p(h i ) = 1 3, i = 1, 2, 3), sous lesquelles les fdp des observations sont normales, de même variance σ 2 mais de moyennes respectives θ 1 = 1, θ 2 = 0, θ 3 = 1 (voir figure (3.4). Les coûts de décisions sont C 12 = C 21 = C 23 = C 32 = 1. Les tests d hypothèses (H 1 vs H 2 ) et (H 2 vs H 3 )conduisent à comparer les observations aux seuils respectifs η 12 = 1 2 et η 23 = 1 2, d après l équation (15). Si le rapport des coûts C31 C 13 est tel que η 13 = σ2 2 log ( C31 C 13 ) η 23, il apparaît que la transitivé du test d hypothèses peut être violée pour toute observation x ]η 13, η 23 [. 4 L approche de Neyman Pearson (NP) Cette fois, aucune connaissance a priori sur la loi de probabilité ou sur la fdp de θ n est supposée. L approche bayesienne ne peut donc pas être développée. Neyman et Pearson ont proposé de calculer le détecteur de niveau P FA (θ) au moins égal à α, qui maximise la puissance P D (θ) du test, i.e. P D (θ) θ Θ1 maximal sous la contrainte max θ Θ0 P FA (θ) α Important : Dans la suite nous ne considérons que le cas simple dans lequel θ 0 et θ 1 ne peuvent prendre qu une valeur chacun (Θ 0 et Θ 1 sont des singletons). Quelques éléments supplémentaires sur la cas le plus général seront donnés dans le paragraphe consacré à l étude des tests à hypothèse composite. 12

13 η 23 η 12 1 η θ 3 θ 2 θ 1 Figure 4: Fdps et seuils de décision optimaux au sens de Bayes pour le test d hypothèses triple, non transitif (voir texte). σ 2 =.5, C 12 = C 21 = C 23 = C 32 = C 31 = 1, C 13 = 11 La stratégie de NP consiste à recherche le test le plus puissant compte tenu d une contrainte de valeur maximum sur la probabilité de fausse alarme. Neyman et Pearson ont établi que cette stratégie conduit à nouveau à tester le rapport de vraisemblance : Lemme Neymann Pearson Le test le plus puissant de niveau α [0, 1] est le test aléatoire suivant, portant sur le rapport de vraisemblance : 1, p(x θ 1 ) > ηp(x θ 0 ) φ(x) = q, p(x θ 1 ) = ηp(x θ 0 ) (18) 0, p(x θ 1 ) < ηp(x θ 0 ) Dans ce test, les paramètres η et q sont choisis de manière à satisfaire la contrainte E θ0 [φ] = α Remarque : l équation impliquant le paramètre q n est nécessaire que lorsque la fdp P θ0 (L(x) > η) présente des discontinuités, ou lorsque x est une variable à valeurs discrètes comme cela peut par exemple se produire dans les tests sur les processus poissonniens. Dans toutes les autres situations, q = 0. Le problème de maximisation sous contrainte exprimée sur le niveau puissance α du test peut être résolu par la méthode des multiplicateurs de Lagrange, en maximisant la fonction objectif L(φ) exprimée à l aide des équations (2,3) et en introduisant le multiplicateur η : L(φ) = E θ1 [φ(x)] + η(α E θ0 [φ(x)]) (19) La définition du rapport de vraisemblance L(x) (équation (9)) permet de re-exprimer l espérance conditionnelle E θ1 : E θ1 [φ(x)] = E θ0 [φ(x)l(x)] soit L(φ) = E θ0 [(φ(x)(l(x) η)] ηα 13

14 On voit alors que la fonction de décision φ définie par (18) maximises L(φ) : il suffit en effet d avoir φ(x) = 0 pour toute valeur de x vérifiant L(x) < η pour maximiser L(φ); ce qui établit le lemme. Remarque : Soient φ(x) et φ (x) deux fonctions de décision vérifiant α < α, et η le seuil associé du test de vraisemblance associé à la fonction de décision φ(x). Par construction : d où on déduit, soit p(x θ 1 ) > ηp(x θ 0 ) φ(x) φ (x) 0 p(x θ 1 ) < ηp(x θ 0 ) φ(x) φ (x) 0 X (p(x θ 1 ) ηp(x θ 0 ))(φ(x) φ (x))dx > 0 P D P D > η(α α ) > 0 et finalement, puisque η > 0 (le seuil sur le rapport de vraisemblance est nécessairement positif) α > α P D > P D Si φ est une fonction de décision permettant d obtenir une probabilité de fausse alarme plus faible que celui obtenu par φ, alors sa puissance est moindre. 5 Tests de rapport de vraisemblance (LRT pour la dénomination anglaise Likelihood Ratio Tests) Nous avons insisté dans les paragraphes précédents sur le fait que tous les tests étudiés conduisaient à comparer le rapport de vraisemblance à un seuil. La détermination de ce dernier dépend des a priori et de la possibilité de définir des coûts associés à chaque type de décision dans le cadre Bayesien. Lorsque de telles connaissances a priori ne sont pas disponibles, l approche de NP permet de construire un test optimal (maximum de puissance) tout en exerçant un contrôle sur le niveau du test. L objet de cette section est de fournir quelques éléments sur la caractérisation des performances de ces tests de rapport de vraisemblance. 5.1 Observations multiples : interprétation du LRT Soit x = {x 1,..., x N } X un ensemble de N observations indépendantes et identiquement distribuées (i.i.d.), de fonction de probabilité conjointe p(x, θ j ) sous l hypothèse H j. Les hypothèses imposent p(x) = N i=1 p(x i), p(.) étant la fdp d une seule observation. Le log-rapport de vraisemblance de cet ensemble d observations pour le test d hypothèse H 1 versus H 0 s écrit en fonction des log-rapports de vraisemblance pour chacune des observations qui constituent X : log p(x, θ 1) p(x, θ 0 ) = log N i=1 p(x i, θ 1 ) N p(x i, θ 0 ) = i=1 log (x i, θ 1 ) p(x i, θ 0 ) Considérons d abord par soucis de simplification un espace de réalisations X de nature discrète; on a donc plus des fonctions de densité de probabilité mais des lois de probabilités sous chacune des hypothèses. 14

15 Pour toute fonction g(x) de la variable aléatoire x, N g(x i ) = N P xi (x)g(x i ) (20) x X i=1 où P xi (x) est la loi de probabilité empirique des observations x obtenue à partir de N observations : P xi (x) = N i=1 δ(x x i ) N où { δ(x) = 1 six = 0 δ(x) = 0 six 0 P xi apparaît comme l histogramme empirique normalisé (par N) obtenu à partir des observations. En substituant à la fonction g(x) le log-rapport de vraisemblance log(l(x)) dans l équation (20), N p(xi,θ1) i=1 log p(x i,θ 0) = N x X P x i (x)log p(x,θ1) p(x,θ 0) = N x X P x i (x)log p(x,θ1)px i (x) p(x,θ 0)P xi (x) = N x X P x i (x)log p(x,θ1) P xi (x) N x X P x i (x)log p(x,θ0) P xi (x) = ND(P xi (x) p(x, θ 0 )) ND(P xi (x) p(x, θ 1 )) Le test de rapport de vraisemblance admet donc une formulation équivalente dans l espace des lois de probabilité, D(P xi (x) p(x, θ 0 )) D(P xi (x) p(x, θ 1 )) H1 1 H 0 N log η où D(P Q) = x X P(x)log Q(x) P(x) est la divergence informationnelle de Kullback-Leibler (KL) 5. Le test formulé dans ce nouvel espace conduit donc à retenir l hypothèse H i pour laquelle la loi conditionnelle sous H i est la plus proche (au sens de la divergence de KL) de la loi empirique obtenue à partir des N observations. Dans le cas où X est un espace continu, les résultats précédents sont généralisés par l introduction de mesures de résolution finies x définissant une partition de X et conduisant à ne plus considérer que les probabilités P x = p(x) x. La nature continue de X conduit à étudier les propriétés précédentes lorsque la résolution tend vers l infini, i.e. x. L ensemble des résultats se généralisent sans difficulté; les divergences informationnelles de KL s expriment alors sous la forme d une f-divergence de Csizàr. 5 La divergence de KL D(P Q) entre deux lois de probabilité P et Q(définies sur le même espace de réalisations) est une quantité toujours positive ou nulle. D(P Q) est minimale si P et Q sont identiques. Cette distance se généralise sans difficultés au cas de fdp, le minimum étant alors obtenu si P(x) = Q(x) presque partout (P diffère de Q sur une ensemble de mesure nulle). 15

16 5.2 Courbes CORe Les performances d un test d hypothèse ou d un détecteur sont caractérisées par les probabilités de détection P D et de fausse alarme P FA auxquels il conduit : un test performant est par conséquent un test pour lequel la probabilité de détection P D est importante tout en garantissant un niveau moindre pour la probabilité de fausse alarme P FA. Ces deux quantités ne sont fonctions que du seuil η du test de rapport de vraisemblance introduit dans les paragraphes précédents, et éventuellement de q (cf eq. (18)). La caractéristique opérationnelle de réception (CORe en abrégé) est la courbe paramétrique exprimant P D (η, q) en fonction de P FA (η, q). Les courbes CORe présentent quelques propriétés intéressantes pour l analyse des performances d un test, que nous allons rapidement décrire. Dans le cas limite η, P D = 0 and P FA = 0 (point A) alors que si η, P D = 1 et P FA = 1 (point B). Le test consistant à tirer à pile ou face l hypothèse à retenir, indépendamment des observations (φ(x) = cste = q), conduit à P FA = P D, η, et donc la courbe CORe est la diagonale d équation P FA = P D. Cette droite est appelée ligne de hasard. La courbe CORe d un détecteur à seuil doit toujours être au dessus de la ligne de hasard; dans le cas contraire, tirer à pile ou face pour prendre la décision donnerait de meilleurs résultats. Remarque :Un test conduisant à une probabilité de fausse alarme supérieure à la probabilité de détection est dit biaisé. La courbe CORe obtenue pour tout test de rapport de vraisemblance est concave. Soient P FA1, P D1 et P FA2, P D2 2 points de la courbe CORe, associés aux fonctions de décision φ 1 et φ 2 respectivement 6. Considérons le test qui consiste à utiliser aléatoirement les fonctions de décisions φ 1 ou φ 2 avec les probabilités respectives p et (1 p) ; soit φ 12 ce nouveau test. On calcule alors facilement P FA12 = pp FA1 + (1 p)p FA2 et P D12 = pp D1 + (1 p)p D2. Pour toute valeur de p, p [0, 1], La coure CORe associée à φ 12 es le segment de droite qui connecte entre eux les points P FA1, P D1 et P FA2, P D2. Par conséquent, il apparaît que si la courbe CORe était convexe, le test randomisé aurait de meilleures performances. Quand la coure CORe P D (P FA ) est dérivable, le test de rapport de vraisemblance le plus puissant (MP-LRT) pour une probabilité de fausse alarme donnée (test de Neyman-Pearson) P FA (η), P D (η) est obtenu pour la valeur suivante du seuil η dans le test η = d dp FA P D (P FA ) Le test Minimax de Bayes est obtenu lorsque les coûts sous chacune des hypothèses sont égaux (cf paragraphe 3.3) ; dans le cas C 11 = C 00 = 0 et C 10 = C 01, cela conduit à P FA = P D. Les valeurs de P FA, P D et η pour le test Minimax de Bayes sont donc déterminées par l intersection de la 6 Chaque point de la courbe CORe est associé à une valeur différente du test LRT, et par conséquent à des fonctions de décisions différentes par la valeur de η qui leur est associée. 16

17 1 ROC (m0=0) 0.9 m1=3 0.8 m1=2 detection probability m1=1 chance line False alarm probability Figure 5: CORe : Probabilité de détection (ou de choix d hypothèse correct) en fonction de la probabilité de fausse alarme (choix de H 1 quand l hypothèse correcte est H 0 ). Les courbes illustrent l amélioration des performances du détecteur lorsque les moyennes de H 1 et H 0 s écartent l une de l autre. courbe CORe avec la droite d équation P D = 1 P M = 1 P FA. C est aussi le point dans le plan (P FA, P D ) pour lequel le minimum d erreur de décision est atteint. Exemples : Pour le problème décision introduit précédemment (eq. (6)), P FA et P D peuvent être calculés aisément : on obtient [ ] P FA (η) = erf( η [ σ ) 2 ] P D (η) = erf( η m σ ) 2 où erf(x) = 2 π x 0 exp(t2 )dt. La courbe CORe obtenue à partir de ces équations est représentée sur la figure (5.2). Il apparaît clairement que plus la différence entre les moyennes des fdp normales sous H 0 et H 1 respectivement sont différentes, meilleure est la courbe CORe. Il apparaît aussi dans les équations précédentes qu une augmentation de σ 2 conduit à une dégradation des performances du récepteur. Des résultats identiques sont obtenus lorsque un ensemble de N observations indépendantes est pris en compte pour construire le test. Le logarithme du rapport de vraisemblance utilisé comme statistique de test conduit à comparer la moyenne empirique des observations ( 1 N N i=1 x i) à un seuil déterminé. La moyenne empirique étant elle même une variable aléatoire normale de moyenne m et de variance σ2 N, l analyse précédente garde toute sa validité, mais avec ces nouvelles valeurs de moyenne et variance. La diminution de variance (réduction d un facteur N) conduit à une meilleure courbe CORe. Un second exemple simple : il s agit de tester une augmentation de moyenne d une variable aléatoire poissonienne. L objectif est donc de tester l hypothèse H 1 : la moyenne est λ 1 contre H 0 : la 17

18 moyenne est λ 0. Sans restreindre la généralité du problème, on supposera λ 1 > λ 0. Le rapport de vraisemblance s obtient facilement et s exprime ( ) x λ1 L(x) = exp(λ 0 λ 1 ) λ 0 Cette fois encore, en utilisant le logarithme du rapport de vraisemblance comme statistique de test, une expression très simple peut est obtenue : x H1 H 0 η Dans cet exemple x est un nombre entier. P FA et P D prennent les expression suivantes { η 1 λ P FA (η) = 1 λ x 0 0 x=0 P D (η) = 1 λ 1 η 1 x=0 La courbe CORe complète peut être obtenue dans le cas présent en rendant aléatoire la fonction test, comme dans l équation (18). Le comportement et les performances de ce test sont représentés sur la figure 6. Sur la vignette de gauche sont représentées les fdps des variables aléatoires poissonniennes sous chacune des hypothèses H 0 : λ 0 = 3 et H 1 : λ 1 = 5 respectivement. Les CORes obtenues pour différentes valeurs de λ 1 sont représentées sur la vignette de droite. Comme attendu, les CORes obtenues sont meilleures (plus proches P FA = 0, P D = 1, quelles que soient les valeurs de seuil η considérées) lorsque la différence entre moyennes des lois de Poisson augmente. 5.3 Evaluation de la possibilité de détection d un signal Dans ce paragraphe (comme dans la suite) on supposera que la statistique de détection (log-rapport de vraisemblance) est construite à partir d un ensemble de N observations x i indépendantes et par conséquent s exprime comme la somme des statistiques construites à partir d une observation unique. Par exemple N G = log L(x i ) i=1 où L(x i ) est le rapport de vraisemblance formé à partir de la i ème observation. Les performances de détection d un récepteur donné sont parfaitement caractérisées par la CORe. Ceci impose cependant d évaluer pour toute valeur possible du seuil η les quantités P FA = η p G (g, θ 0 )dg and P D = x! λ x 1 x! η p G (g, θ 1 )dg (21) Dans cette équation, p G,θi (g)dg représente la fdp conditionnelle de la statistique de test G sous l hypothèse H i. Il est le plus souvent très difficile (quand ça n est pas impossible) de résoudre analytiquement cette intégrale. Une première approche consiste à recourir à des développements limités de la statistique obtenue autour de la statistique gaussienne (développements de Edgeworth ou de Gram-Charlier), développements d autant plus précis que N est grand. La qualité de ces développements et leur convergence s appuient sur le théorème central limite et une précision correcte des approximations qui en résultent ne peut donc 18

19 ROC, λ 0 = λ 1 =8 0.7 λ 1 =5 PD Chance line PFA Figure 6: En haut : Fdps des variable poissonniennes de moyenne λ 0 = 3 (H 0 ) et λ 1 = 5 (H 1 ). Les valeurs des observations associées à de fausses alarmes ou à des détections manquées sont indiquées par les zones hachurées de part et d autre de la ligne de seuil η. En bas : CORe de ce problème de détection, pour deux valeurs différentes de la moyenne sous H 1. Dans le cas présenté ici, la fonction de décision a été randomisée (cf eq. (18)). 19

20 être attendue que si le seuil η est proche de le la valeur moyenne de la statistique G. Une alternative est d utiliser des méthodes d intégration numérique, qui peuvent conduire à de bonnes approximations de l intégrale (21); il n est pas possible de donner une méthode de résolution générale dans ce cas, les calculs et développements nécessaires étant très largement dépendants de la forme analytique prise par les fonctions d espérance conditionnelle. Les bornes de Chernoff, développées au paragraphe suivant, permettent de préciser des caractéristiques limites pour la détéctabilité. Si ces bornes sont d un grand intérêt dans un contexte de théorie de l information, elles ne peuvent que donner des valeurs supérieures pour les probabilités P FA et P D ; en ce sens elles caractérisent la limite inférieure de la zone du plan (P FA, P D ) dans laquelle se trouve la CORe, et peuvent être interprétées comme une performance minimale assurée pour un détecteur donné. Bornes de Chernoff, exposant de décroissance de l erreur de détection. Soit G la statistique de test utilisée, et f G,i (g) les fdp de la statistique de test sous chacune des hypothèses H i. Considérons l expression suivante pour la probabilité de fausse alarme : P FA (η) = η f G,0 (g)dg = U(g η)f G,0 (g)dg dans laqelle U(.) est l échelon de Heaviside. Pour s 0, U(g η) exp((g η)s) et donc P FA exp((g η)s)f G,0 (g)dg = exp( ηs)h 0 (s) (22) où h 0 (s) = E G,0 [exp(gs)] est la fonction génératrice des moments (première fonction caractéristique) de la fdp f G,0 (g). La fonction exp( ηs)h 0 (s) est une fonction convexe et ne possède par conséquent qu un minimum à l intérieur de la bande de convergence de h 0 (s) dans la plan complexe. Minimiser exp( ηs)h(s) étant équivalent à minimiser son logarithme, η = h 0 (s) h 0 (s) où h dh0(s) 0 (s) =. Si s 0 est solution de l équation (23), on peut donc écrire s P FA exp( ηs 0 )h(s 0 ) Cette borne est appelée borne de Chernoff pour la P FA. Il est souvent intéressant d en développer une expression équivalente : Soit µ 0 (s) = log(h 0 (s)); l équation (23) devient alors η = dµ(s) ds = µ (s), d où P FA exp(µ(s) sµ (s)) Un raisonnement identique permet de mettre en évidence l existence d une borne supérieure pour P D, ou une borne inférieure pour P M dont l expression est (23) (1 P D ) = P M exp(µ 1 (s) ηs), s 0 (24) On s intéresse dans la suite au cas où la statistique de test est la log-vraisemblance des observations. Alors µ 0 (s) = log(h 0 (s)) = log exp(sg)f G,0 (g)dg µ 1 (s) = log(h 1 (s)) = log exp(sg)f G,1(g)dg 20

Montrer encore