Chapitre 4 : Méthode des moindres carrés

Documents pareils
I. Polynômes de Tchebychev

3 Approximation de solutions d équations

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Fonctions de plusieurs variables

Continuité en un point

Cours d analyse numérique SMI-S4

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

CCP PSI Mathématiques 1 : un corrigé

Différentiabilité ; Fonctions de plusieurs variables réelles

C1 : Fonctions de plusieurs variables

Résolution de systèmes linéaires par des méthodes directes

Cours d Analyse. Fonctions de plusieurs variables

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Programmation linéaire

Partie 1 - Séquence 3 Original d une fonction

EXERCICE 4 (7 points ) (Commun à tous les candidats)

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Calcul différentiel sur R n Première partie

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Calcul différentiel. Chapitre Différentiabilité

Programmes des classes préparatoires aux Grandes Ecoles

Cours 02 : Problème général de la programmation linéaire

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Introduction à l étude des Corps Finis

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Résolution d équations non linéaires

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

3. Conditionnement P (B)

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Etude de fonctions: procédure et exemple

Fonctions de plusieurs variables. Sébastien Tordeux

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Correction de l examen de la première session

Polynômes à plusieurs variables. Résultant

Problème 1 : applications du plan affine

RO04/TI07 - Optimisation non-linéaire

Programmation linéaire

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Programmation linéaire et Optimisation. Didier Smets

Espérance conditionnelle

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Dérivées d ordres supérieurs. Application à l étude d extrema.

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Continuité et dérivabilité d une fonction

Correction du Baccalauréat S Amérique du Nord mai 2007

Chapitre 2 Le problème de l unicité des solutions

Algorithmes pour la planification de mouvements en robotique non-holonome

Une forme générale de la conjecture abc

Théorème du point fixe - Théorème de l inversion locale

Intégration et probabilités TD1 Espaces mesurés Corrigé

Commun à tous les candidats

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Limites finies en un point

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

[ édité le 30 avril 2015 Enoncés 1

1 Complément sur la projection du nuage des individus

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Simulation de variables aléatoires

Intégration et probabilités TD1 Espaces mesurés

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calcul fonctionnel holomorphe dans les algèbres de Banach

Optimisation Discrète

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Calcul intégral élémentaire en plusieurs variables

NOMBRES COMPLEXES. Exercice 1 :

Chapitre 2. Matrices

Comparaison de fonctions Développements limités. Chapitre 10

Continuité d une fonction de plusieurs variables

Les travaux doivent être remis sous forme papier.

Logique. Plan du chapitre

Ce cours introduit l'électrodynamique classique. Les chapitres principaux sont :

aux différences est appelé équation aux différences d ordre n en forme normale.

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Cours Fonctions de deux variables

Équations non linéaires

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Première partie. Introduction à la méthodes des différences finies

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

IV- Equations, inéquations dans R, Systèmes d équations

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Amphi 3: Espaces complets - Applications linéaires continues

Corrigé du baccalauréat S Asie 21 juin 2010

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Moments des variables aléatoires réelles

Exercices Corrigés Premières notions sur les espaces vectoriels

Modèles et Méthodes de Réservation

Étudier si une famille est une base

Analyse en Composantes Principales

Licence de Mathématiques 3

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Capes Première épreuve

Évaluation de la régression bornée

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Transcription:

Chapitre 4 : Méthode des moindres carrés Table des matières 1 Introduction 2 11 Généralités 2 12 Notion de modèle et de regression linéaire multiple 2 2 Critère des moindres carrés - formulation 2 21 Critère 2 22 Forme standard 3 23 Cas particuliers 4 231 Caractères transformés 4 232 Formulation non-linéaire 4 3 Exemples 4 31 Exemple 1 4 32 Exemple 2 4 4 Recherche d une solution 5 41 Solution géométrique 5 42 Solution analytique 6 421 Dérivation matricielle 6 422 Calcul de la solution 9 43 Interprétation statistique 9 44 Conclusion 9 5 Conclusion 10 51 Exemple complet 10 52 Inconvénients 10 Tony Bourdier Version 09 25 février 2008

Méthodes des moindres carrés 2 1 Introduction 11 Généralités L étude d un phénomène peut, le plus souvent, être schématisé de la manière suivante : on s intéresse à une grandeur b, que nous appellerons par la suite réponse ou variable expliquée, qui dépend d un certain nombre de variables v 1, v 2,, v n que nous appellerons facteurs ou variables explicatives 12 Notion de modèle et de regression linéaire multiple On cherche à mettre en évidence la liaison (relation fonctionnelle pouvant exister entre la variable expliquée b et les variables explicatives v 1, v 2,, v n On s intéresse aux modèles dits linéaires, ie aux modèles du type : b = α 1 v 1 + α 2 v 2 + + α n v n = les α j sont des réels appelés coefficients du modèle n α j v j j=1 v 1 v 2 v n n Σ j=1 α j v j ^b Pourquoi b et pas b? On cherche à expliquer la variable b par n autres variables v 1, v 2,, v n mais on n est pas certain que b ne dépend que de ces variables Dans l idéal b = b mais le plus souvent b b avec b b 2 Critère des moindres carrés - formulation 21 Critère On cherche donc un modèle qui nous permet d obtenir un b le plus «proche» possible de b Pour cela, on effectue m mesures (m > n des variables v 1, v 2,, v n et de b On cherche alors α 1, α 2,, α n tel que, pour i = 1 m : soit le plus «proche» possible de b i bi = α 1 v i,1 + α 2 v i,2 + + α n v i,n = En utilisant les notations matricielles, le système : n α j v i,j j=1 b1 = α 1 v 1,1 + α 2 v 1,2 + + α n v 1,n b2 = α 1 v 2,1 + α 2 v 2,2 + + α n v 2,n bm = α 1 v m,1 + α 2 v m,2 + + α n v m,n

Méthodes des moindres carrés 3 s écrit : b = v 1,1 v 1,2 v 1,n v 2,1 v 2,2 v 2,n } v m,1 v m,2 {{ v m,n } A α 1 α 2 α n } {{ } x Ainsi, on cherche x = (α 1, α 2,, α n tel que Ax soit le plus «proche» possible de b On comprend alors que la notion de distance apparaît On rappelle que la distance euclidienne usuelle est définie comme suit : où est la norme euclidienne : x, y R m, d(x, y = x y 2 x R m, x 2 = ( x x = x x = On souhaite que d( b = Ax, b soit minimale, ce qui s écrit : 22 Forme standard min Ax b 2 x Rn Définition 21 : On appelle forme standard d un problème de moindres carrés la donnée de v 1,1 v 1,2 v 1,n v 2,1 v 2,2 v 2,n la matrice A = v m,1 v m,2 v m,n v 1 v 2 v n matrice des données le vecteur réponse b = b 1 b 2 Rm m j=1 x 2 i mesure 1 mesure 2 mesure m M m,n appelée b m l expression du critère : on cherche x = α 1 α 2 α m Rn réalisant : min Ax b 2 x Rn Remarque 22 : On peut également écrire le critère de la façon suivante : x = arg min Aα b 2 α Rn

Méthodes des moindres carrés 4 23 Cas particuliers 231 Caractères transformés Remarque 23 : Il se peut qu un caractère explicatif apparaisse sous une forme «transformée» : cos(v, v 2, ln(v, Dans ce cas, on considère simplement que la forme transformée du caractère constitue une nouvelle variable explicative 232 Formulation non-linéaire Remarque 24 : Il arrive parfois que la relation fonctionnelle entre la variable expliquée et les variables explicatives ne soit pas donnée sous forme linéaire, comme dans l exemple suivant : b = f(v 1, v 2 = v α 1 1 vα 2 2 Dans ce cas, on «linéarise» : ln(b = α 1 ln(v 1 + α 2 ln(v 2 La nouvelle variable expliquée est b = ln(b et les nouvelles variables explicatives sont ln(v 1 et ln(v 2 3 Exemples 31 Exemple 1 On s intéresse à une quantité physique z qui varie selon un paramètre physique t On pose le modèle z = f(t = a + bt + ct 2 + dt 3 La variable expliquée est z, les variables explicatives sont t, t 2, t 3 et «1» et les paramètres du modèle, que l on cherche, sont a, b, c et d On réalise une série de m mesure (t i, z i 1 i m La forme standard du problème de moindres carrés correspondant est : On cherche x = a b c d réalisant min Ax b 2 x R4 où 1 t 1 t 2 1 t 3 1 1 t 2 t 2 2 t 3 2 A = 1 t m t 2 m t 3 m M m,n et b = z 1 z 2 z m Rm 32 Exemple 2 On cherche à déterminer un moyen de convertir des températures données en degré Celsius en dégré Fahrenheit Pour cela, on effectue m mesures de températures en Celsius, que l on note t C et en Fahrenheit, que l on note t F On dispose alors d un m-échantillon (t C i, tf i 1 i m et on pose le modèle : t F = α + βt C

Méthodes des moindres carrés 5 Le problème s énonce ainsi : où On cherche x = ( α β réalisant min Ax b 2 x R2 1 t C 1 t F 1 t C 1 2 A = M t F m,2 et b = 2 1 t C m 4 Recherche d une solution t F m Rm On fait l yhpothèse que les variables explicatives sont linéairement indépendantes (ie rang(a = n 41 Solution géométrique On cherche à exprimer un vecteur comme combinaison linéaire de n vecteurs indépendants Cette combinaison linéaire appartient, par défintion d un espace-vectoriel, à l espace vectoriel engendré par ces variables explicatives : C est un sev de R m (m > n vect(v 1, v 2,, v n = Im(A On cherche donc b Im(A tel que b b 2 soit minimal : c est la définition de la projection orthogonale de b sur Im(A : b O α 1 v 1 α 2 b ^ = Ax Im(A v 2 Lemme 45 : caractérisation de la projection orthogonale sur un sous-espace vectoriel Soit x R k et E un sev de R k, on a : x projeté orthogonal de x sur E x x est orthogonal à tout vecteur de E

Méthodes des moindres carrés 6 Dans notre cas, le sous-espace vectoriel est Im(A Remarque 46 : Tout vecteur de Im(A s écrit Aα, α R n α représentant les coordonnées du vecteur dans la base A Soit donc Aα Im(A, on a, d après la caractérisation de la projection orthogonale : ( Aα b b := ( Aα b Ax = 0 α R n α A (b Ax = 0 α R n A (b Ax = 0 A b A Ax = 0 A b = A Ax La solution du problème est donc la solution x du système A b = A Ax On peut également affirmer que cette solution est unique (démo en TD 42 Solution analytique Soit E(x = Ax b 2 la fonction erreur On sait que E(x E (x = 0 Théorème 47 : Si E est strictement convexe, alors : (Démo page 64 du poly E(x E (x = 0 Remarque 48 : E est strictement convexe (Démo page 65 du poly On cherche donc x R n tel E (x = 0 Mais encore faut-il savoir dériver une forme quadratique 421 Dérivation matricielle Notations : On considère une forme linéaire f : R k R et x = x 1 x 2 x k un vecteur de Rk Définition 49 : On appelle dérivée de f en x et on note f ou f(x ou encore f (x le vecteur colonne des dérivées partielles de f par rapport aux x i : f 1 f f = 2 f n

Méthodes des moindres carrés 7 Préliminaires Définition 410 : On appelle dérivée directionnelle en x dans la direction d et on note Df(x, d la limite, quand elle existe : Df(x, d = lim ε 0 f(x + εd f(x ε Proposition 411 : Si f est dérivable en x, alors, quelque soit la direction d R k : Df(x, d = ( f (x d = f (x d Remarque 412 : Cette égalité nous permet de calculer la dérivée d une forme linéaire de la façon suivante : on calcule Df(x, d on exprime cette dernière sous la forme d un produit scalaire en d : ( Q d ou on factorise d à droite : Q d le facteur gauche Q (ou l autre facteur que d du produit scalaire est nécessairement f (x Proposition 413 : Les dérivées directionnelles dans la direction des vecteurs de la base canonique sont les dérivées partielles : i [1, k], f i (x = Df(x, e i Remarque 414 : Cette propriété fournit un moyen simple de calculer les dérivées partielles Dérivation { de formes linéaires R Soit f : k R x = (x 1,, x k a 1 x 1 + + a k x k = ( x a = ( a x = a x = x a f i [1, k], = a i donc f (x = f(x = f i = a À retenir : a, x R k : (a x = (x a = a

Méthodes des moindres carrés 8 Remarque 415 : On retrouve ce résultat via les dérivées partielles : soit d une direction quelconque Df(x, d = f(x + εd f(x lim = ( x + εd a ( x a lim = ( x a + ε ( d a ( x a lim = lim ( d a ε 0 = ( d a = ( a d = a d f (x = a Dérivation d une forme quadratique Définition 416 : Une forme quadratique est un polynôme homogène de degré 2 avec un nombre quelconque de variables : f : R k R x = (x 1,, x k k i,j=1 a i,jx i x j En notant A = (a i,j M k,k (R, f s écrit : f : R k R x x Ax = ( x Ax = ( Ax x Remarque 417 : Le calcul de la dérivée d une forme quadratique s obtient simplement à l aide des dérivées directionnelles : Df(x, d = f(x + εd f(x lim = ( A(x + εd x + εd ( Ax x lim ( Ax x + ε ( Ax d + ε ( Ad x + ε 2 ( Ad d ( Ax x = lim = lim ( Ax d + ( Ad x + ε ( Ad d ε 0 ( = ( Ax d + ( Ad x = ( Ax d + A d x ( = (A + A x d f (x = (A + A x À retenir : x R k, A M k,k : (x Ax = (A + A x Remarque 418 : Si A est symétrique, ie si A = A, on a : (x Ax On retrouve, en dimension 1, un résultat bien connu : (x ax = ax2 = 2Ax = 2ax

Méthodes des moindres carrés 9 Remarque 419 : En particulier, pour A = I k, on a : (x x Remarques = 2x Remarque 420 : f, g R k R, λ, µ R, x R k : λf + µg = λ f + µ g Remarque 421 : Pour toute quantité G indépendante de x (ie dans laquelle n intervient aucun x i, on a : G = 0 422 Calcul de la solution On a Ainsi, donc E(x = Ax b 2 43 Interprétation statistique = Ax 2 2 ( Ax b + b 2 = x A Ax 2x A b + b b E (x = (x A Ax 2 A b = 2A Ax 2A b + 0 E (x = 0 2A Ax 2A b = 0 A Ax = A b + b b On suppose que b est la réalisation d une variable aléatoire et que b = Ax + E où E est l erreur, encore appellée variable aléatoire résiduelle, suivant une loi N (0, σ 2 b = Ax est alors l estimateur sans biais 1 du maximum de vraisemblance de b 44 Conclusion Théorème 422 : Soit A M m,n avec m > n et b R m Une condition nécessaire et suffisante pour que x R n réalise le minimum de E(x = Ax b 2 est que A Ax = A b (1 Les équations (1 sont appelées équations normales Ce système admet toujours au moins une solution Si la matrice A A est régulière, ie si rang(a = n, alors la solution est unique 1 E[b] = b

Méthodes des moindres carrés 10 5 Conclusion 51 Exemple complet On reprend l exemple précédent On dispose de 14 mesures (t C i, tf i 1 i 14 : avec On cherche x = ( α β réalisant min Ax b 2 x R2 1 t C 1 t F 1 t C 1 2 A = M t F m,2 et b = 2 1 t C m --> A = --> b = 1-40 - 396653 1-355 - 32676712 1-305 - 23814192 1-255 - 13612434 1-205 - 37645085 1-155 5379745 1-105 12500909 1-55 2428376 1-05 3257308 1 45 3878263 1 195 6665256 1 345 9317702 1 445 11188484 1 495 12151627 --> A *A = --> A *b = 14-315 39321766-315 1126325 19215549 Il faut donc résoudre 2 le système ( 14 315 315 1126325 ( ( α 321 La solution est : = β 18 On en déduit que t F = 321 + 18t C 52 Inconvénients ( α β = t F m Rm ( 39321766 19215549 La résolution d un problème de moindres carrés via les équations normales possède deux inconvénients majeures D une part, la perturbation due aux erreurs d arrondi lorsque l on passe par les équations normales peut être importante En effet, si la matrice des données A est légèrement perturbée : A = A + δa, le passage aux équations normales va amplifier la perturbation : (A + δa (A + δa = A A + δa A + A δa + δa δa alors qu en 2 On peut notamment passer par la décomposition LU pour résoudre le système

Méthodes des moindres carrés 11 passant par d autres méthodes de résolution (par exemple factoriser A sous la forme QR où Q est orthogonale et R triangulaire la perturbation des données sera moindre D autre part, le calcul de A A peut faire intervenir des overflow ou underflow parasites comme dans l exemple suivant : Soit la matrice des données suivante A = avec ε 0 On a bien rang(a = 3 On a alors A A = 1 1 1 ε 0 0 0 ε 0 0 0 ε 1 + ε 2 1 1 1 1 + ε 2 1 1 1 1 + ε 2 Si ε est supérieur au plus petit flottant représentable alors que ε 2 lui est inférieur, soit : la matrice A A ne sera plus régulière! ε 2 < m < ε Pour ces problèmes, on recours à des transformations orthogonales élémentaires, comme celles de Householder ou de Givens Avec ces méthodes, on obtient une meilleure «stabilité» de notre système