Méthode des moindres carrés (least squares LS)

Documents pareils
Quantification Scalaire et Prédictive

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Programmation linéaire

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Correction de l examen de la première session

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Résolution de systèmes linéaires par des méthodes directes

Programmation linéaire et Optimisation. Didier Smets

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

1 Complément sur la projection du nuage des individus

Projet de Traitement du Signal Segmentation d images SAR

Évaluation de la régression bornée

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Intérêt du découpage en sous-bandes pour l analyse spectrale

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Programmation linéaire

3 Approximation de solutions d équations

Les indices à surplus constant

Simulation de variables aléatoires

Chapitre 2. Matrices

Cours d analyse numérique SMI-S4

Résolution d équations non linéaires

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Programmes des classes préparatoires aux Grandes Ecoles

Amphi 3: Espaces complets - Applications linéaires continues

Chapitre 3. Les distributions à deux variables

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

IV- Equations, inéquations dans R, Systèmes d équations

Calcul différentiel sur R n Première partie

Systèmes de transmission

Exercice : la frontière des portefeuilles optimaux sans actif certain

Analyse en Composantes Principales

Corrigé du baccalauréat S Asie 21 juin 2010

Exercices Corrigés Premières notions sur les espaces vectoriels

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Le Modèle Linéaire par l exemple :

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Fonctions de plusieurs variables

Approximations variationelles des EDP Notes du Cours de M2

La classification automatique de données quantitatives

Théorie et codage de l information

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Optimisation, traitement d image et éclipse de Soleil

3. Conditionnement P (B)

Capes Première épreuve

Chapitre 1 : Évolution COURS

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Introduction à l étude des Corps Finis

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

I. Ensemble de définition d'une fonction

6 Equations du première ordre

Différentiabilité ; Fonctions de plusieurs variables réelles

Mathématiques appliquées à l'économie et à la Gestion

J AUVRAY Systèmes Electroniques TRANSMISSION DES SIGNAUX NUMERIQUES : SIGNAUX EN BANDE DE BASE

FORMULAIRE DE STATISTIQUES

Modèles et Méthodes de Réservation

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Optimisation des fonctions de plusieurs variables

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Cours 02 : Problème général de la programmation linéaire

TSTI 2D CH X : Exemples de lois à densité 1

M2 IAD UE MODE Notes de cours (3)

Econométrie et applications

Le théorème de Thalès et sa réciproque

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Économetrie non paramétrique I. Estimation d une densité

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.

Chapitre 1 Cinématique du point matériel

Pour l épreuve d algèbre, les calculatrices sont interdites.

L AIDE AUX ATELIERS D ARTISTES :

Température corporelle d un castor (une petite introduction aux séries temporelles)

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

INF6304 Interfaces Intelligentes

Suites numériques 3. 1 Convergence et limite d une suite

Correction du Baccalauréat S Amérique du Nord mai 2007

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Travail en collaboration avec F.Roueff M.S.Taqqu C.Tudor

Principe de symétrisation pour la construction d un test adaptatif

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Rapport d'analyse des besoins

Algorithmes pour la planification de mouvements en robotique non-holonome

Expérience 3 Formats de signalisation binaire

Cours 7 : Utilisation de modules sous python

Echantillonnage Non uniforme

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1


Transcription:

Méthode des moindres carrés (least squares LS) La méthode des moindres carrés (MC) est une alternative au filtrage de Wiener. Les filtres de Wiener sont déduits à partir de moyennes d ensemble alors que la technique des MC est déterministe dans son approche. INRS-EMT J. Benesty

Plan Formulation du problème Principe d orthogonalité (visité de nouveau) Les équations normales Propriétés de la matrice d autocorrélation Reformulation des équations normales Propriétés des estimateurs au sens des moindres carrés La décomposition en valeurs singulières INRS-EMT J. Benesty 1

Formulation du problème On a le modèle linéaire suivant: d(i) = L 1 l=0 h s,l x(i l)+u(i), (1) d(i) est le signal observé (désiré) à l instant i obtenu à partir du signal d entrée x(i). h s,l sont les paramètres inconnus du modèle et u(i) représente le bruit de mesure qui est une variable aléatoire (non observable). Il est d usage de supposer que u(i) est blanc de moyenne nulle, et dont la variance est σ 2 u. Notre objectif est d estimer les paramètres h s,l étant donnés les deux ensembles de données observables: x(i) et d(i), i =1, 2,,N. Pour cela, on définit le signal d erreur comme la différence entre le signal désiré d(i) et la sortie y(i) d un filtre RIF qui a pour coefficients h l, l =0, 1,,L 1, càd: e(i) = d(i) y(i) = d(i) L 1 l=0 h l x(i l). (2) INRS-EMT J. Benesty 2

Dans la méthode des moindres carrés (MC), on choisit les paramètres h l qui minimisent la fonction coût suivante: J LS = i 2 i=i 1 e 2 (i), (3) où i 1 et i 2 sont des indices qui représentent l intervalle dans lequel la minimisation se fait. Pour cette minimisation, les coefficients du filtre h 0,h 1,,h L 1 sont constants pendant l intervalle i 1 i i 2. Le filtre obtenu de cette minimisation est le filtre linéaire au sens des moindres carrés. Dans la suite, on utilisera i 1 = L et i 2 = N. Dans ce cas, le signal d entrée peut être réarrangé sous forme matricielle: x(l) x(l +1) x(n) x(l 1) x(l) x(n 1)...... x(1) x(2) x(n L +1). INRS-EMT J. Benesty 3

Principe d orthogonalité (visité de nouveau) La fonction coût qu on cherche à minimiser est: J LS = = e 2 (i) [ d(i) L 1 l=0 h l x(i l)] 2, (4) pour obtenir les coefficients du filtre RIF qui donnent la valeur minimale pour J LS.Legradient de (4) est: J LS h l = 2 = 2 e(i) h l e(i) x(i l)e(i). (5) Pour que J LS soit minimisée, on doit prendre son gradient égal àzéro: J LS h l =0, l =0, 1,,L 1. (6) INRS-EMT J. Benesty 4

Soit e min (i) l erreur pour laquelle J LS est minimisée (càd pour le filtre optimal), on a donc: x(i l)e min (i) =0, l =0, 1,,L 1. (7) L expression précédente est la description mathématique de la version temporelle du principe d orthogonalité. En d autres termes: la suite temporelle e min (i) est orthogonale à la suite temporelle x(i l) quand le filtre opère dans les conditions des moindres carrés. corollaire Soient h opt,0,h opt,1,,h opt,l 1 les coefficients du filtre optimal (càd qui minimisent J LS ). Le signal de sortie de ce filtre optimal est: y opt (i) = L 1 l=0 h opt,l x(i l) = d(i), (8) qui est une estimation au sens des moindres carrés de la sortie désirée d(i). En multipliant les deux côtés de l équation (7) par h opt,l et en additionnant sur l intervalle [0,L 1], on obtient (après avoir INRS-EMT J. Benesty 5

interchangé l ordre des sommes): [ L 1 l=0 h opt,l x(i l) ] e min (i) = d(i)e min (i) =0. L expression précédente est la description mathématique du corollaire du principe d orthogonalité. En d autres termes, quand le filtre opère dans les conditions des moindres carrés, la réponse désirée estimée d(i) est orthogonale à l erreur minimale e min (i). Il est clair qu on a: e min (i) = d(i) L 1 l=0 h opt,l x(i l) = d(i) d(i). (9) On en déduit, en utilisant le corollaire du principe d orthogonalité, l équation aux énergies: E d = E d + E emin, (10) où E d = N d2 (i), E d = N d 2 (i), ete emin = N e2 min (i). INRS-EMT J. Benesty 6

Les équations normales Il existe une autre manière de décrire le principe d orthogonalité: c est le système d équations normales. En effet, on a: x(i l)e min (i) =0, l =0, 1,,L 1, [ x(i l) d(i) L 1 k=0 h opt,k x(i k) ] =0, L 1 k=0 h opt,k N x(i l)x(i k) = x(i l)d(i), où L 1 k=0 h opt,k r(k, l) =p( l), l=0, 1,,L 1, (11) r(k, l) = x(i l)x(i k), l,k =0, 1,L 1, (12) INRS-EMT J. Benesty 7

est la fonction d autocorrélation du signal d entrée x(i), et p( l) = x(i l)d(i), l=0, 1,L 1, (13) est l intercorrélation entre la sortie désirée d(i) et l entrée x(i). On peut facilement vérifier que les équations normales peuvent s écrire sous forme matricielle: Rh opt = p, (14) où R = r(0, 0) r(1, 0) r(l 1, 0) r(0, 1) r(1, 1) r(l 1, 1)...... r(0,l 1) r(1,l 1) r(l 1,L 1) est la matrice d autocorrélation du signal d entrée x(i), p = [ p(0) p( 1) p( L +1) ] T est le vecteur d intercorrélation entre la sortie désirée INRS-EMT J. Benesty 8

d(i) et l entrée x(i), et h opt = [ h opt,0 h opt,1 h opt,l 1 ] T est le filtre optimal au sens des moindres carrés. En supposant que R est inversible, on a donc: h opt = R 1 p. (15) L expression précédente est similaire à l équation de Wiener-Hopf. D autre part, on peut facilement montrer, en utilisant (15), que: E d = d 2 (i) =h T optrh opt = h T optp. (16) D où: E emin = E d E d = E d h T optp = E d p T R 1 p. (17) INRS-EMT J. Benesty 9

Propriétés de la matrice d autocorrélation Soit le vecteur suivant: x(i) = [ x(i) x(i 1) x(i L +1) ] T, la matrice d autocorrélation peut se réécrire: R = x(i)x T (i). (18) Nous donnons maintenant quelques propriétés de cette matrice. Propriété 1. La matrice d autocorrélation R est symétrique, càd R = R T. Propriété 2. La matrice d autocorrélation R est toujours définie non négative, càd z T Rz 0, z. Propriété 3. La matrice d autocorrélation R est inversible si et seulement si son déterminant est différent de zéro. INRS-EMT J. Benesty 10

Propriété 4. Les valeurs propres de la matrice d autocorrélation R sont toutes réelles et non négatives. Propriété 5. La matrice d autocorrélation R est le produit d une matrice rectangulaire de Toeplitz et la transposée de cette même matrice. En effet, soit la matrice rectangulaire de Toeplitz de taille L (N L +1)suivante: X T = [ x(l) x(l +1) x(n) ] (19) x(l) x(l +1) x(n) = x(l 1) x(l) x(n 1)......, x(1) x(2) x(n L +1) on voit bien que: R = X T X. (20) Propriété 6. La matrice d autocorrélation R est inversible si et seulement si le rang colonne de la matrice X est égal à L. INRS-EMT J. Benesty 11

Reformulation des équations normales L équation normale h opt = R 1 p peut encore s écrire en fonction de la matrice des données d entrées X. On a d une part: R = X T X et de l autre part, on a: p( l) = x(i l)d(i), l=0, 1,L 1, soit sous forme matricielle: p = X T d, d où la nouvelle forme de l équation normale: h opt =(X T X) 1 X T d. (21) L énergie de l erreur minimale peut aussi s écrire: E emin = E d E d = E d h T optp = d T d d T X(X T X) 1 X T d. (22) INRS-EMT J. Benesty 12

L estimation de d au sens des moindres carrés est donc: La matrice d = Xh opt = X(X T X) 1 X T d. P = X(X T X) 1 X T (23) est un opérateur de projection pour le sous-espace X. On vérifie directement l égalité PX = X. L opérateur de projection orthogonale est défini par: D où: P = I P. (24) d = Pd (25) et e min = d d = d Pd = P d. (26) INRS-EMT J. Benesty 13

Propriétés des estimateurs au sens des moindres carrés Propriété 1.L estimateur au sens des moindres carrés h opt est non-biaisé si l on suppose que le signal bruit u(i) est de moyenne nulle. On se souvient de notre modèle: d = Xh s + u. (27) En remplaçant l expression précédente dans l équation normale, nous obtenons: h opt = (X T X) 1 X T d = h s +(X T X) 1 X T u, (28) et en prenant l espérance mathématique, on a: E{h opt } = h s +(X T X) 1 X T E{u} = h s. (29) INRS-EMT J. Benesty 14

Propriété 2. Quand le signal bruit u(i) est blanc de moyenne nulle et de variance σu, 2 la matrice de covariance de l estimateur h opt est égale à σur 2 1. En utilisant (28), la matrice de covariance de l estimateur h opt est: cov(h opt ) = E{(h opt h s )(h opt h s ) T } = (X T X) 1 X T E{uu T }X(X T X) 1 = σ 2 u(x T X) 1 = σ 2 ur 1. (30) Propriété 3. Quand le signal bruit u(i) est blanc et de moyenne nulle, l estimateur h opt est le meilleur estimateur linéaire non-biaisé. Soit un estimateur linéaire non-biaisé quelconque: h = Bd, (31) où B est une matrice de taille L (N L +1). En remplaçant d = Xh s + u dans l équation précédente, on a: h = BXh s + Bu, (32) INRS-EMT J. Benesty 15

et en prenant l espérance mathématique: E{ h} = BXh s. (33) Or, pour que l estimateur h soit non-biaisé il faut que B satisfasse la condition: BX = I. (34) Dans ce cas, l équation (32) s écrit: h = h s + Bu. (35) La matrice de covariance de h est: cov( h) = E{( h h s )( h h s ) T } = BE{uu T }B T = σ 2 ubb T. (36) Maintenant, on définit la matrice suivante: Ψ=B (X T X) 1 X T. (37) INRS-EMT J. Benesty 16

En formant le produit ΨΨ T et en prenant BX = I, on obtient: ΨΨ T = [B (X T X) 1 X T ][B T X(X T X) 1 ] = BB T (X T X) 1. Comme les éléments diagonaux de la matrice ΨΨ T sont toujours non-négatifs, on en déduit: ou encore diag[bb T ] diag[(x T X) 1 ] σ 2 udiag[bb T ] σ 2 udiag[(x T X) 1 ]. (38) Le terme σubb 2 T est égal à la matrice de covariance de l estimateur linéaire h. On sait aussi que le terme σu(x 2 T X) 1 est égal à la matrice de covariance de l estimateur linéaire h opt au sens des moindres carrés. Ainsi, l équation (38) montre que dans la classe des estimateurs linéaires non-biaisés, l estimateur au sens des moindres carrés h opt est le meilleur estimateur des paramètres inconnus h s, dans le sens que chacun des éléments de h opt a la plus petite possible variance. INRS-EMT J. Benesty 17

Propriété 4. Quand le signal bruit u(i) est blanc gaussien et de moyenne nulle, l estimateur h opt atteind la borne inférieure de Cramér-Rao pour les estimateurs non-biaisés. Soit f(u) la densité de probabilité conjointe du vecteur u. Soit ĥ un estimateur non-biaisé quelconque des paramètres inconnus h s, alors la matrice de covariance de ĥ satisfait toujours l inégalité: où cov(ĥ) F 1, (39) cov(ĥ) = E{(ĥ h s)(ĥ h s) T }. (40) La matrice F est appelée la matrice d information de Fisher et elle est définie par: F = E { ( )( ) } T l l, (41) h s h s où l =lnf(u). (42) INRS-EMT J. Benesty 18

On peut facilement montrer que pour un bruit blanc gaussien et de moyenne nulle, on a: F = 1 σ 2 ur. (43) Or, d après la Propriété 2, nous savons que σ 2 ur 1 est égal à la matrice de covariance de l estimateur h opt au sens des moindres carrées. Ainsi: cov(h opt )=F 1. (44) INRS-EMT J. Benesty 19

La décomposition en valeurs singulières (singular-value decomposition SVD) La SVD est très utile pour résoudre un système linéaire aux moindres carrés. On rappelle l équation normale: h opt =(X T X) 1 X T d, (45) où la matrice X contient les échantillons du signal d entrée x et d est un vecteur des éléments du signal désiré. Définissons la matrice suivante: X + =(X T X) 1 X T, (46) alors l équation normale peut encore s écrire: h opt = X + d. (47) La matrice X + est la pseudo-inverse ou l inverse généralisée de Moore-Penrose de la matrice X. INRS-EMT J. Benesty 20

En pratique, il arrive très souvent que la matrice X ne soit pas de rang plein, càd que cette matrice contient des colonnes qui sont linéairement dépendantes. Dans ce cas, la matrice X T X n est pas inversible et le système a une infinité de solutions. Laquelle choisir? ThéorèmedelaSVD Nous sommes intéréssés au système d équations linéaires suivant: Xh opt = d, (48) où la matrice X est de taille K L, d est un vecteur de longueur K, et h opt (qui représente l estimation du vecteur de paramètres inconnus) est un vecteur de dimension L. Etant donnée la matrice X, il existe deux matrices orthogonales V (de taille L L) etu (de taille K K) telles que: où U T XV = [ ] Σ 0 W L W, (49) 0 K W W 0 K W L W Σ = diag(σ 1,σ 2,,σ W ) (50) INRS-EMT J. Benesty 21

est une matrice diagonale et σ 1 σ 2 σ W > 0. L expression (49) est le théorème de la SVD. W représente le rang de la matrice X. Puisqu il est possible d avoir K > L ou K < L, il y a deux cas différents. Pour le cas K > L, on a un système sur-déterminé (plus d équations que d inconnues). Pour le cas K<L, on a un système sous-déterminé (plus d inconnues que d équations). Une autre manière d écrire la SVD est la suivante. Puisque UU T = I, ona: [ ] Σ 0 XV = U W L W. (51) 0 K W W 0 K W L W Ainsi, et Xv i = σ i u i,i=1, 2,..., W, (52) Xv i = 0, i= W +1,W +2,..., K. (53) D où laforme: X = W σ i u i v T i. (54) i=1 INRS-EMT J. Benesty 22

Relation avec les valeurs propres En multipliant (U T XV) T par U T XV, on obtient: V T X T XV = [ ] Σ 2 0 W L W 0 L W W 0 L W L W. (55) Les vecteurs v 1, v 2,, v L de la matrice V sont les vecteurs propres de la matrice X T X et σ1 2 σ2 2 σw 2 > 0, σ2 W +1 = = σ2 L =0, sont les valeurs propres correspondantes. De la même manière, (U T XV) T, on obtient: en multipliant U T XV par U T XX T U = [ ] Σ 2 0 W K W 0 K W W 0 K W K W. (56) Les vecteurs u 1, u 2,, u K de la matrice U sont les vecteurs propres de la matrice XX T et σ1 2 σ2 2 σw 2 > 0, σ2 W +1 = = σ2 K =0, sont les valeurs propres correspondantes. Pseudo-inverse L intérêt de la SVD est de formuler une définition générale pour la pseudo-inverse. On définit la pseudo- INRS-EMT J. Benesty 23

inverse de la matrice X comme: [ ] X + Σ = V 1 0 W K W U T, (57) 0 L W W 0 L W K W où Σ 1 = diag(σ 1 1,σ 1 2,,σ 1 W ) (58) et W est le rang de X. Cette définition s applique quelle que soit la matrice X, qu elle soit sur- ou sousdéterminée et quel que soit son rang. Cette pseudoinverse peut encore s écrire: X + = W i=1 1 σ i v i u T i. (59) Finalement la solution du problème des moindres carrés Xh opt = d (60) est h opt = X + d. (61) INRS-EMT J. Benesty 24