Chantal Menini 14 mai Une définition très générale d une étude statistique peut être : Obtenir une information significative à partir de

Documents pareils
SÉRIES STATISTIQUES À DEUX VARIABLES

Chapitre 3 : Fonctions d une variable réelle (1)

1 Mesure et intégrale

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Séquence 5. La fonction logarithme népérien. Sommaire

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Séries réelles ou complexes

Solutions particulières d une équation différentielle...

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Processus et martingales en temps continu

Statistique descriptive bidimensionnelle

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Comportement d'une suite

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

CHAPITRE 2 SÉRIES ENTIÈRES

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Etude de la fonction ζ de Riemann

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

STATISTIQUE : TESTS D HYPOTHESES

Limites des Suites numériques

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Les Nombres Parfaits.

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

4 Approximation des fonctions

Baccalauréat S Asie 19 juin 2014 Corrigé

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

20. Algorithmique & Mathématiques

Exercices de mathématiques

Statistique Numérique et Analyse des Données

EXERCICES : DÉNOMBREMENT

55 - EXEMPLES D UTILISATION DU TABLEUR.

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Suites et séries de fonctions

Cours 5 : ESTIMATION PONCTUELLE

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Chap. 5 : Les intérêts (Les calculs financiers)

Dénombrement. Chapitre Enoncés des exercices

14 Chapitre 14. Théorème du point fixe

Principes et Méthodes Statistiques

c. Calcul pour une évolution d une proportion entre deux années non consécutives

DETERMINANTS. a b et a'

Chaînes de Markov. Arthur Charpentier

Probabilités et statistique pour le CAPES

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

Cours de Statistiques inférentielles

Initiation à l analyse factorielle des correspondances

STATISTIQUE AVANCÉE : MÉTHODES

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Université Pierre et Marie Curie. Biostatistique PACES - UE

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Formation d un ester à partir d un acide et d un alcool

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Terminale S. Terminale S 1 F. Laroche

Théorème du point fixe - Théorème de l inversion locale

Des résultats d irrationalité pour deux fonctions particulières

Module 3 : Inversion de matrices

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Échantillonnage et estimation

Chapitre 3 : Transistor bipolaire à jonction

Résolution numérique des équations aux dérivées partielles (PDE)

Processus géométrique généralisé et applications en fiabilité

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Amphi 3: Espaces complets - Applications linéaires continues

Introduction : Mesures et espaces de probabilités

Limites finies en un point

RESOLUTION PAR LA METHODE DE NORTON, MILLMAN ET KENNELY

Gérer les applications

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

Donnez de la liberté à vos données. BiBOARD.

Contribution à la théorie des entiers friables

MESURE DE L'INFORMATION

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

RECHERCHE DE CLIENTS simplifiée

n tr tr tr tr tr tr tr tr tr tr n tr tr tr Nom:... Prénom :...

Transcription:

Séries statistiques à deux variables umériques Nuage de poit associé Ajustemet affie par la méthode des moidres carrés Droite de régressio Applicatios L exposé pourra être illustré par u ou des exemples faisat appel à l utilisatio d ue calculatrice Chatal Meii 14 mai 2009 1 Itroductio Ue défiitio très géérale d ue étude statistique peut être : Obteir ue iformatio sigificative à partir de doées observées Nous ous iteresseros ici à l étude des valeurs prises simultaémet par deux caractères quatitatifs d ue même populatio Nous allos chercher à détermier ue foctio d ajustemet, c est-à-dire ue foctio qui aux valeurs d u des caractères associe des valeurs voisies de celles prises par le secod caractère das u ses que ous allos préciser 2 Vocabulaire Séries statistiques à deux variables umériques O appelle populatio tout esemble étudié par la statistique, ous le oteros Ω, u idividu est u élémet de Ω U caractère est ue propriété de la populatio qui peut être qualitatif (par exemple la couleur des yeux) ou quatitatif (par exemple la taille) Nous ous placeros pour toute la suite de l exposé das le cas d ue populatio fiie de cardial et de caractères quatitatifs Défiitio 21 Ue série statistique à deux variables umériques est ue applicatio qui à chaque idividu associe la valeur prise par les deux caractères avec card(x(ω)) 2 et card(y (Ω)) 2 (X, Y ) : Ω R ω (X(ω), Y (ω)) Elle est usuellemet doée sous forme d ue suite (x i, y i ) 1 i ou d u tableau X x 1 x 2 x Y y 1 y 2 y Das de ombreux exemples ous étudieros de cette faço des séries chroologiques, x i sera alors la date à laquelle le caractère Y predra la valeur y i Rappels : 1 O ote x = 1 x i la moyee de (x i ) 1 i 2 O ote S x = 1 (x i x) 2 l écart type de (x i ) 1 i Défiitio 22 O appelle covariace de la série statistique (x i, y i ) 1 i le réel C xy = 1 (x i x)(y i ȳ) 1

Défiitio 23 1 Das u repère orthogoal l esemble des poits M i (x i, y i ) costitue le uage de poits associé à la série statistique (x i, y i ) 1 i 2 Le poit G( x, ȳ) est appelé poit moye du uage de poits Remarque 24 G est l isobarycetre du système de poits {M i, 1 i } 3 Ajustemet affie par la méthode des moidres carrés 31 La méthode O cherche ue foctio affie f telle que, si l o ote ε i = y i f(x i ) l erreur commise lorsque l o approche y i par f(x i ), alors, ε(a, b) = soit miimal O dit qu alors f réalise u ajustemet affie de Y e X par la méthode des moidres carrés ε 2 i Mi Hi Miimiser ε(a, b) s iterprète graphiquemet comme la miimisatio de M i Hi 2 Théorème 31 Etat doée ue série statistique (x i, y i ) 1 i il existe ue uique foctio réalisat u ajustemet affie de Y e X (resp X e Y ) par la méthode des moidres carrés Elle est doé par f(x) = ax + b avec a = C xy 2, b = ȳ a x (resp doée par g(y) = a y + b avec a = Cxy S 2 y et b = x aȳ) Défiitio 32 La droite d équatio y = ax + b (resp x = a y + b ) avec a = Cxy 2 b = x aȳ) est appellée droite de régressio de Y e X (resp X e Y ) et b = ȳ a x (resp a = Cxy S 2 y Remarque 33 1 Les droites de régressio de Y e X et de X e Y passet par le poit moye du uage de poits 2 La droite de régressio est pas modifiée par u chagemet d origie du repère Preuve Ue preuve astucieuse (mais pas tat que cela, voir à la fi das les commetaires) mais utilisat des outils de iveau termiale O ote ε = 1 ε i la moyee des erreurs, alors ε(a, b) = = = (ε i ε + ε) 2 (ε i ε) 2 + ε 2 ((y i ȳ) a(x i x)) 2 + (ȳ a x b) 2 ((y i ȳ) a(x i x)) 2 et 2

pour tout couple (a, b), avec égalité si et seulemet si b = ȳ a x Trouver (a, b) qui miimise ε(a, b) équivaut à trouver a qui miimise ϕ(a) = ((y i ȳ) a(x i x)) 2, b valat alors ȳ a x [ [ ] ϕ(a) = (x i x) ]a 2 2 2 (x i x)(y i ȳ) a + est u polyôme de degré 2 et le coefficiet de a 2 est positif (pourquoi u miimum au poit a = P (x i x)(y i ȳ) P (x i x) 2 ce qui est le résultat aocé (y i ȳ) 2 (x i x) 2 est-il o ul?), il admet doc Ue preuve de iveau uiversitaire mais sas astuce (qui peut aussi servir à retrouver les coefficiets de la droite de régressio si o a u trou) ε(a, b) est ue foctio de deux variables défiie sur R 2, si elle admet u miimum c est écessairemet e u poit où les dérivées partielles s aulet soit ε a (a, b) = 2 x i (y i ax i b) = 0 ε b (a, b) = 2 (y i ax i b) = 0 et l o trouve u uique couple (a, b) solutio de ce système Il reste alors à coaitre la ature de ce poit, pour cela o calcule les dérivées partielles d ordre 2 r = 2 ε a 2 (a, b) = 2 x 2 i, s = 2 ε a b (a, b) = 2 x i, t = 2 ε (a, b) = 2 b2 ( ) 2 et s 2 rt = 4 x i 4 x 2 i Avec l iégalité de Cauchy-Schwarz s2 rt 0 et il y a égalité si et seulemet si x 1 = x 2 = x ce qui est exclu par hypothèse r > 0 il s agit doc d u miimum local Reste à justifier que ce miimum local est e fait global, cela viet du fait que ous avos u polyôme de degré 2 (écrivez la formule de Taylor pour vous e covaicre) Remarque 34 La valeur du miimum de ε(a, b) est ( (y i ȳ) C ) ( 2 xy 2 (x i x) = Sy 2 1 32 Coefficiet de corrélatio ( Cxy S x S y Défiitio 35 O appelle coefficiet de corrélatio la quatité r xy = Cxy S xs y Remarque 36 rxy 2 est ichagé par u chagemet de variable affie Propositio 37 Le coefficiet de corrélatio r xy appartiet à [ 1, 1] et il vaut 1 ou 1 si et seulemet si les poits du uage sot aligés Preuve Cela découle de la remarque 34, r xy appartiet à [ 1, 1] car ε(a, b) est positif ou ul r xy vaut 1 ou 1 si et seulemet si ε(a, b) est ul soit si et seulemet si les poits du uage sot aligés Corrolaire 38 C xy S x S y et il y a égalité si et seulemet si les poits du uage sot aligés Propositio 39 Les droites de régressio de Y e X (D) et de X e Y (D ) sot cofodues si et seulemet si le coefficiet de corrélatio r xy vaut 1 ou 1 Preuve D a pour équatio y = ax + b, D a pour équatio y = 1 a x b a lorsque a est o ul Elles passet toutes les deux par le poit moye, elles sot doc cofodues si et seulemet si a = 1 a soit r 2 xy = 1 Si a = 0 (et doc a = 0 aussi) elles sot perpediculaires ) 2 ) 3

4 Itéret et iterprétatio 41 Corrélatio et dépedace O dit qu il y a ue forte corrélatio etre les caractères X et Y lorsque r xy est proche de 1 e valeur absolue, et ue faible corrélatio lorsque r xy est proche de 0 Il faut faire attetio au fait que corrélatio e veut pas dire dépedace, o fabrique très facilemet ue série statistique à deux variables fortemet corrélées e ayat pris deux caractères dépedat liéairemet du temps Par cotre si l o voit la série statistique comme ue série de valeurs prises par deux variables aléatoires X et Y de faço équiprobable, l idépedace de ces variables aléatoires implique que leur covariace C(X, Y ) (qui est autre que C xy das ce cas) est ulle Rappelos que la réciproque est fausse, deux variables aléatoires peuvet avoir ue covariace ulle sas qu elles soiet idépedates 42 Itéret Ue fois que l o a u ajustemet valable, soit, das le cas de l ajustemet affie par la méthode des moidres carrés, si l o a u uage de poits de forme allogée O peut estimer la valeur prise par le caractère Y lorsque le caractère X pred ue valeur x 0 comprise etre les valeurs extrêmes de la suite (x i ) 1 i o parlera alors d iterpolatio, o comprise etre les valeurs extrêmes de la suite (x i ) 1 i o parlera alors d extrapolatio Das le deuxième cas il faudra au préalable s assurer que le modèle reste valable 5 Autres ajustemets 51 Droite de Mayer O sépare le uage de poits e deux uages composés du même ombre de poits (à 1 près), e gééral le premier est costitué des poits d abcisse iférieure à l abcisse médiae et le deuxième des autres poits O cosidère G 1 le poit moye du premier uage et G 2 le poit moye du deuxième uage, la droite de Mayer est la droite (G 1 G 2 ) (elle passe par G le poit moye du uage de poits iitial, pourquoi?) 52 Ajustemet expoetiel O a l impressio que le uage de poits est proche de la courbe représetative d ue foctio expoetielle Pour s e covaicre soit, o placera les poits du uage sur ue feuille muie d u repère semi-logarithmique (ce qui évite des calculs supplémetaires), soit, o placera les poits de coordoées (x i, ly i ) das u repère orthogoal Das les deux cas o doit obteir u uage ayat ue forme allogée et que l o va doc ajuster de faço affie par la méthode des moidres carrés O obtiet la relatio ly = ax + b, soit y = Ae ax 53 Ajustemet logarithmique Cette fois-ci o a l impressio que le uage de poits est proche de la courbe représetative d ue foctio logarithme, o fera doc u ajustemet affie avec la suite (lx i, y i ) 1 i et o obtiet la relatio y = a lx + b 54 Ajustemet puissace O fait u ajustemet affie avec la suite (l x i, ly i ) 1 i et o obtiet la relatio ly = a lx+b soit y = Ax a 6 Commetaires Cette leço maque cruellemet d exemples, il faut e mettre au mois u que l o suivra tout au log de l exposé avec la calculatrice (calcul des moyees, écart-type, covariace, affichage du uage de poits, tableur motrat les différetes erreurs e foctio du choix de a et b, droites de régressios, etc) Bref il faut s etraier 4

e se costruisat u exemple assez simple pour pouvoir le reproduire (ou u équivalet) le jour de l oral sas documet La démostratio de l existace d u uique ajustemet affie par la méthode des moidres carrés est pas au programme de Termiale ES, cepedat c est l uique démostratio cosistate de cet exposé Cela semble doc difficile de faire l impasse dessus Faute de s e souveir il semble idispesable d avoir ue idée assez précise sur la faço de l obteir Le choix a été fait ici de pas motrer dès le départ que C xy S x S y, ce choix est discutable et o peut très bie le faire avat de parler d ajustemet E gééral pour le faire o utilise que le polyôme de degré deux e λ : Sλx+y 2 = λ2 2 2λC xy + Sy 2 est positif ou ul doc de discrimiat égatif ou ul et le discrimiat vaut 4(Cxy 2 S 2 y) 2 Das le cas d égalité, le polyôme a ue racie double, il existe doc λ tel que Sλx+y 2 = 0, o e déduit que les poits sot aligés (au fait y a t-il ue différece avec la démostratio de l iégalité de Cauchy-Schwarz?) O peut aussi itroduire u exemple afi de discuter sur l ifluece d u poit très éloigé du uage das la détermiatio de la droite de régressio et le calcul du coefficiet de corrélatio O peut iterpréter géométriquemet le coefficiet de corrélatio de la faço suivate O cosidère das R mui du produit scalaire usuel, les vecteurs X et Ỹ de coordoées respesctives (x 1 x, x x) et (y 1 ȳ, y ȳ) alors C xy = X, Ỹ le produit scalaire des vecteurs X et Ỹ ; S x = X (resp S y ) est la orme du vecteur X (resp Ỹ ) Aisi r xy est le cosius d ue mesure de l agle de vecteurs ( X, Ỹ ) Si o a été capable de doer l iterprétatio géométrique précédete, o doit être capable de poursuivre avec l iterprétatio de l ajustemet affie par la méthode des moidres carrés O ote X, Y et I les vecteurs de R de coordoées respesctives (x 1, x ), (y 1, y ) et (1, 1) alors miimiser ce que l o a oté ε(a, b) reviet à miimiser Y ax bi 2, c est-à-dire, trouver a et b tels que ax +bi soit le projeté orthogoal de Y sur le sous-espace vectoriel de R egedré par I et X Ceci sera réalisé si et seulemet si Y ax bi, I = 0 et Y ax bi, X = 0, effectuez les calculs et vous verrez que c est la faço la plus rapide pour détermier a et b L astuce de la preuve pour la détermiatio des coefficiets de la droite de régressio est tout simplemet d utiliser (avec les otatios précédetes) que Y ax bi 1 Y ax bi, I I est orthogoal à I (cf I 2 = ) 7 Lie avec les dossiers O peut re-exploiter cette leço das le dossier qui a pour thème : Séries statistiques à deux variables (et vice-versa ), aales 10/07/2005 et 19/07/2007 E particulier les parties Itéret et iterprétatio et Autres ajustemets peuvet être source d ispiratio pour trouver des exercices variés 8 Bibliographie Des livres de termiales ES pour la trame et pour avoir u peu de recul (et trouver les démostratios) par exemple Statistique descriptive de M Javier Ed Duod ou Probabilités, aalyse des doées et Statistique de G Saporta Ed Techip (assez complexe) 5