La régression linéaire. Formation Fondamentale

Documents pareils
STATISTIQUES. UE Modélisation pour la biologie

Exemples d application

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse de la variance Comparaison de plusieurs moyennes

FORMULAIRE DE STATISTIQUES

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Chapitre 3. Les distributions à deux variables

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Introduction à l approche bootstrap

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Probabilités III Introduction à l évaluation d options

Econométrie La régression linéaire simple et multiple

Cours de méthodes de scoring

Fonctions de deux variables. Mai 2011

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Couples de variables aléatoires discrètes

Annexe commune aux séries ES, L et S : boîtes et quantiles

Introduction à la Statistique Inférentielle

Régression linéaire. Nicolas Turenne INRA

«Cours Statistique et logiciel R»

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Quantification Scalaire et Prédictive

Chapitre 4 : Régression linéaire

FONCTION DE DEMANDE : REVENU ET PRIX

TABLE DES MATIERES. C Exercices complémentaires 42

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

3. Caractéristiques et fonctions d une v.a.

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Principe d un test statistique

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

L assurance de la qualité à votre service

PROSPECTUS N 1 CRÉDIT À LA CONSOMMATION

Chapitre 1: Introduction à la théorie de l équilibre à prix fixes

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

1 Définition de la non stationnarité

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Comparaison de populations

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Introduction à la théorie des files d'attente. Claude Chaudet

Chapitre 2/ La fonction de consommation et la fonction d épargne

1 Imputation par la moyenne

Le Modèle Linéaire par l exemple :

Econométrie et applications

Tests de sensibilité des projections aux hypothèses démographiques et économiques : variantes de chômage et de solde migratoire

Comment bien régresser: La statistique peut-elle se passer d artefacts?

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

LE BUDGET DES VENTES

Pratique de la Régression Logistique

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

afférent au projet de décret relatif aux obligations indexées sur le niveau général des prix

données en connaissance et en actions?

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Le secteur de la restauration commerciale : données économiques, évolution des prix et du nombre de plaintes du secteur

Relation entre deux variables : estimation de la corrélation linéaire

Equilibrage de charge multi-critère pour les serveurs DNS(SEC)

Le risque Idiosyncrasique

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Le géomarketing - Page 1 sur 7

Évaluation de la régression bornée

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

MASTER EUROPEEN EN MANAGEMENT ET STRATEGIE D ENTREPRISE MSE. Diplôme Européen reconnu par la Fédération Européenne des Ecoles ;

Table des matières. I Mise à niveau 11. Préface

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

MATHS FINANCIERES. Projet OMEGA

ITIL Gestion de la capacité

Analyse de corrélation Étude des dépendances - Variables quantitatives

ANNEXE VII EFFETS MACROECONOMIQUES DE LA REFORME PIECE JOINTE N 2 SIMULATIONS REALISEES A PARTIR DU MODELE MACROECONOMETRIQUE MESANGE

PROBABILITES ET STATISTIQUE I&II

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Evaluation de la variabilité d'un système de mesure

De la mesure à l analyse des risques

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Baccalauréat technologique

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Intérêt du découpage en sous-bandes pour l analyse spectrale

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Programmation Linéaire - Cours 1

Processus aléatoires avec application en finance

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO

Chapitre 3 : INFERENCE

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

PRIX DE VENTE À L EXPORTATION GESTION ET STRATÉGIES

L Econométrie des Données de Panel

EXERCICE 2 : SUIVI CINETIQUE D UNE TRANSFORMATION PAR SPECTROPHOTOMETRIE (6 points)

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Rendez-vous de Insee. «Des projections de ménages aux besoins. en logement» Mardi 11 décembre Annaïg LE MEUR, SIAL/DPH

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

M2 IAD UE MODE Notes de cours (3)

Algorithmes d'apprentissage

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Les indices à surplus constant

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Statistiques à une variable

Transcription:

Formation Fondamentale

Sommaire 1 Modéle statistique Généralités Relation statistique 2 les hypothèses Démarche Propriétés Qualité Tests

Sommaire 1 Modéle statistique Généralités Relation statistique 2 les hypothèses Démarche Propriétés Qualité Tests

Modélisation Variable à expliquer Y Variable explicatives X 1, X 2,...., X p On suppose que les variations de Y sont inuencées par les variables explicatives Le modèle permet d'exprimer sous la forme d 'une relation mathématique la liaison supposée La connaissance de ces variables permettent à l 'aide du modèle de prédire Y Estimer les valeurs de Y ponctuellement et par intervalle Le modèle permet de mesurer l 'impact ou l 'eet d 'une variable explicative sur Y

Exemples Ecacité des budgets publicitaires Y : ventes en valeurs X 1 : budget radio X 2 : budget journaux X 3 : budget gratuits Forfaits de ski Population : stations de ski françaises Y : prix du forfait hebdomadaire X : Kms de pistes Consommation des ménages Population : ménages Y : Budget consacré à la consommation du ménage X 1 : Revenu du foyer X 2 : Taille du foyer

Relation déterministe - statistique Relation déterministe Relation Statistique Une seule valeur de Y pour une valeur de X Plusieurs valeurs de Y pour une valeur de X Pas de fonction mathématique pour exprimer la relation Probabiliser Y pour une valeur xée de X

Relation statistique A chaque valeur x de X correspond une distribution de Y Loi de Y conditionnée par X = x : Y x Espérance (moyenne) conditionnelle de Y : µ x La loi centrée conditionnelle ε x = Y x µ x La fonction x f (x) = µ x est la courbe de régression ε x est l'erreur de régression (E (ε x ) = 0) On écrira (abusivement) Y = f (X ) + ε X

Sommaire 1 Modéle statistique Généralités Relation statistique 2 les hypothèses Démarche Propriétés Qualité Tests

La fonction f est une fonction linéaire des variables explicatives : Régression simple : une seule variable explicative X Y = β 0 + β 1 X + ε X Pour toute valeur x de X : Y x = β 0 + β 1 x + ε x Régression multiple : plusieurs variables explicatives Y = β 0 + β 1 X 1 + β 2 X 2 + + β X p + ε X Pour toutes valeurs x 1 de X 1, x 2 de X 2,, x p de X p : Y x1,x2, xp = β 0 + β 1 x 1 + β 2 x 2 + + β p X p + ε x Hypothèses de la régression linéaire Les variables aléatoires ε x ε x de x sont toutes de même loi de loi normale de moyenne 0 et d'écart-type σ indépendant

La démarche de la régression A partir d'un échantillon de valeurs pour la variable à expliquer Y et les variables explicatives X i 1 Vérier la possibilité d'une liaison linéaire entre Y et chacune des variables X i 1 représentation graphique 2 coecient de corrélation 2 Estimation des paramètres 1 coecients β i (b i ) 2 de l'écart-type σ (écart-type de la régression) 3 Validation du modèle 1 indice de qualité R 2 2 validité globale F de Fisher 3 validité marginale t de student 4 étude des résidus, détection des points atypiques

Liaison entre variables

Estimation Estimation des coecients - Méthode des moindres carrés (y i, x 1,i, x 2,i,, x i,p) µ x i = β 0 + β 1 x i,1 + β 2 x 2,i + + β p x p,i e i = y i µ x i Les valeurs estimées (b 0, b 1, b 2,, b p ) des coecients minimisent Notation valeur observée : y i h = n e 2 i i=1 valeur prédite : valeur estimée de µ x i = ŷ i = b 0 + b 1 x 1,i + b 2 x 2,i + + b p x p,i valeur résiduelle : résidu : ê i = y i ŷ i

Décomposition des carrés La somme des résidus est nulle Valeurs observées et valeurs prédites ont la même moyenne La somme des carrés totale = la somme des carrés modélisée (de la régression) + la somme des carrés résiduelle n i=1 SCT = ê i = 0 y = ŷ n i=1 n SCE = i=1 n SCR = ê 2 i i=1 (y i y) 2 (ŷ i y) 2 SCT = SCE + SCR

Exemple de la décomposition

Indices de qualité Coecient de détermination R 2 Coecient de corrélation multiple Corrélation entre les valeurs observées et modélisées R 2 = SCE SCT 0 R 2 1 R = R 2 R 2 augmente avec le nombre de variables explicatives (= 1 si p = n 1) Si R 2 = 0 absence de liaison linéaire

Ecart-type des résidus Estimation de la variance des résidus L 'écart-type des résidus évalue la dispersion des résidus autour de 0 évalue la dispersion des valeurs de Y autour de la moyenne précision des prédictions σ 2 = Var (ε) SCR n p 1 s = s 2 s 2 = s est appélée "Erreur standard de l'estimation"

Test global Objectif : déterminer si au moins une des variables choisies est signicativement explicative (linéairement). On pose le test H 0 : β 1 = 0, β 2 = 0,, β p = 0 H 1 : i [1 ; p] β i 0 On se xe un risque de première espèce α Statistique associée au test : Carré moyen expliqué / Carré moyen résiduel SCE/p f c = SCR/(n p 1) Signicativité sig = probabilité d'observer un telle valeur sous H 0. Si sig < α on rejette H 0

Test Global - Exemple

Tests partiels Objectif : évaluer l'apport marginal de chacune des variables à la régression Test associé à la variable k H 0 : β k = 0, les autres variables étant dans la régression H 1 : β k 0 On se xe un risque de première espèce α On calcule le t k associé à la variable X k t k = b k s(b k ) où s (B k ) désigne l'écart-type estimé de l'estimateur du coecient β k Si la signicativité de t k est inférieur à α, on rejette H 0 sinon cette variable peut être otée de la régression textitattention : une seule variable à la fois

Test partiel - Exemple