10.1 Inférence dans la régression linéaire



Documents pareils
Mesure avec une règle

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

STATISTIQUE AVEC EXCEL

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Généralités sur les fonctions 1ES

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Pratique de la statistique avec SPSS

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Les jeunes économistes

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

Montage émetteur commun

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

TD 1. Statistiques à une variable.

Remboursement d un emprunt par annuités constantes

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Editions ENI. Project Collection Référence Bureautique. Extrait

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

1. Les enjeux de la prévision du risque de défaut de paiement

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Grandeur physique, chiffres significatifs

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

La Quantification du Risque Opérationnel des Institutions Bancaires

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Calcul de tableaux d amortissement

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Système solaire combiné Estimation des besoins énergétiques

Pro2030 GUIDE D UTILISATION. Français

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Terminal numérique TM 13 raccordé aux installations Integral 33

Stéganographie Adaptative par Oracle (ASO)

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET

Professionnel de santé équipé de Médiclick!

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

santé Les arrêts de travail des séniors en emploi

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Dirigeant de SAS : Laisser le choix du statut social

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

DOIT-ON UTILISER LA STANDARDISATION DIRECTE OU INDIRECTE DANS L ANALYSE DE

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Projet de fin d études

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

P R I S E E N M A I N R A P I D E O L I V E 4 H D

Intégration financière et croissance économique : évidence empirique dans. la région MENA

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

Evaluation de performances d'ethernet commuté pour des applications temps réel

Interface OneNote 2013

Prêt de groupe et sanction sociale Group lending and social fine

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

Exercices d Électrocinétique

Paquets. Paquets nationaux 1. Paquets internationaux 11

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Page 5 TABLE DES MATIÈRES

Pour plus d'informations, veuillez nous contacter au ou à

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Semestre : 4 Module : Méthodes Quantitatives III Elément : Mathématiques Financières Enseignant : Mme BENOMAR

THESE. Khalid LEKOUCH

Pauvreté et fécondité au Congo

OPTIMALITÉ DU MÉCANISME DE RATIONNEMENT DE CRÉDIT DANS LE MODÈLE ISLAMIQUE DE FINANCEMENT

LE PRINCIPE DU RAISONNEMENT PAR RÉCURRENCE

LeanConcept. La solution déploiement du Lean Manufacturing. Stockage Logistique Ergonomie Environnement Aménagement Services

- Acquisition de signaux en sismologie large bande. - Acquisition de signaux lents, magnétisme, MT.

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

Séparation de Sources par lissage cepstral des masques binaires

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

Corrigé du problème de Mathématiques générales Partie I

Prise en compte des politiques de transport dans le choix des fournisseurs

INTERNET. Initiation à

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Analyse des Performances et Modélisation d un Serveur Web

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Des solutions globales fi ables et innovantes.

LICENCE DE SCIENCES PHYSIQUES UV 3LSPH50. Année MODÉLISATION. Recherche des paramètres d'une représentation analytique J.P.

Analyse de sensibilité des modèles de simulation. Samuel Buis UMR 1114 EMMAH Avignon

Transcription:

0. Inférence dans la régresson lnéare La régresson lnéare tente de modeler le rapport entre deux varables en adaptant une équaton lnéare avec des données observées. Chaque valeur de la varable ndépendante x est assocée à une valeur de la varable dépendante (appelée auss varable de réponse). On suppose que la varable est normalement dstrbuée avec une moenneµ et un écart tpeσ. La drote de régresson des mondres carrés = b0 + b x est une estmaton de la vértable drote de régresson de populatonµ = β + β x. o Cette drote décrt comment la réponse moenne de la varableµ change avec x. Les valeurs observées pour varent autour de leur moenneµ et on suppose qu elles ont le même écart tpeσ. Les valeurs ajustées b 0 et b estment respectvement l'ntercepte et la pente de la drote de régresson de la populaton. Pusque les valeurs observées pour varent autour de leurs moennesµ, le modèle statstque nclut un terme pour cette varaton. Tradut en mots, le modèle est exprmé par Données observées = Données ajustées + Données résduelles où le terme «données ajustées» représente l'expressonβ o + βx. Le terme «données résduelles» représente les dévatons des valeurs observées de leurs moennesµ qu sont normalement dstrbués avec une moenne 0 et un écart tpeσ. La notaton pour les dévatons des modèles estε. En termes formels, le modèle pour la régresson lnéare est le suvant : Étant données n pares d'observatons ( x, ),( x, ),..., ( x n, n), la varable observée de réponse est : = β + β x + ε. ε ~ N(0, ). =,,,n., o σ Dans le modèle des mondres carrés, la drote la plus précse pour les données observées est calculée (vor chaptre ) en rédusant au mnmum la somme des carrés des dévatons vertcales de chaque pont de repère à la drote (s un pont se trouve

exactement sur la drote ajustée, sa dévaton vertcale est 0.) Pusque les dévatons sont d'abord mses au carré pus addtonnées, l n' a aucune annulaton entre les valeurs postves et négatves. Les estmateurs des mondres carrés b 0 et b sont généralement calculés par des logcels statstques. Ils sont exprmés par les équatons suvantes: Les valeurs calculées pour b 0 et b sont les estmateurs sans bas deβ et de o β et ls sont normalement dstrbués avec des écarts tpes qu peuvent être estmés à partr des données observées. ŷ et les résduels e Les valeurs ajustées par l'équaton b 0 + b x sont dénotées par égalent ˆ, sot la dfférence entre les valeurs observées et ajustées. La somme des résduels est égale à zéro. Le varance σ peut être estmée par s² = e /(n-), également connu sous le nom de erreur quadratque moenne (MSE). Exemple L'ensemble de données «Health Breakfast» ssu d un rapport de consommateur content, parm d'autres varables, la varable «Ratng» portant sur l évaluaton de 77 céréales ans que la varable «Sugar» représentant le nombre de grammes de sucre contenus dans chaque porton. (Source de données: ensemble de données dsponbles dans «Data and Stor Lbrar (DASL)» http://lb.stat.cmu.edu/dasl/dataarchve.html ). La corrélaton entre les deux varables est -0,760, ndquant une assocaton négatve forte. Un scatterplot des deux varables ndque un rapport lnéare:

En utlsant la commande de «MINITAB» Stat > Regresson > Regresson avec «Sugar» comme varable explcatve et «Ratng» comme varable dépendante, nous obtenons le résultat Ratng = 59.3 -.40 Sugars Le graphque des données avec la drote de régresson est montré à gauche. Après l ajustement de la drote de régresson, l est mportant d examner les résduels pour détermner s ls semblent correspondre à notre supposton d une dstrbuton normale. Un graphque des résduels ˆ sur l'axe vertcal avec les valeurs explcatves correspondantes sur l'axe horzontal est montré à drote. Les résduels ne semblent pas déver de façon sstématque d'un échantllon aléatore d'une dstrbuton normale c est pourquo nous pouvons mantenr l'acceptaton de la normalté. La sorte de «MINITAB» (sélectonner «Regresson equaton, table of coeffcents, s, R-squared, and basc analss of varance» après la commande «Stat > Regresson > Regresson >Results» ) nous donne : Predctor Coef StDev T P Constant 59.84.948 30.43 0.000 Sugars -.4008 0.373-0. 0.000 S = 9.96 R-Sq = 57.7% R-Sq(adj) = 57.% 3

Cette sorte nous fournt de nombreuses d'nformatons. Elle fournt l estmaton par la méthode des mondres carrés de la constante b 0 et de la pente b. Pusque b est le coeffcent de la varable explcatve de «sucres», l est dentfé sous ce nom. Les écarts tpes calculés pour l'ntercepte et la pente sont ndqués dans la deuxème colonne. Test d hpothèse pour la pente de régresson La trosème colonne de sorte «T» de «MINITAB» fournt des statstques de tests. Dans la régresson lnéare, on souhate tester la sgnfcaton de la pente de la drote. L'hpothèse nulle ndque que le coeffcent de la pente de la droteβ est égal à 0. S c'est vra, alors l n aucun rapport lnéare entre les varables explcatves et dépendantes. Ans l'équaton = β + β x + ε devent smplement β + ε. o = o L'hpothèse alternatve peut être unlatérale ou blatérale, énonçant queβ est plus pett ou plus grand que 0 ou smplement non égal à 0. La statstque de test t est égale à b / s b, l'estmaton du paramètre de pente de la drote dvsée par son écart tpe. Ce rapport sut la lo de Student avec (n-) degrés de lberté, à savor t(n-). Dans l'exemple c-dessus, l'évaluaton du paramètre de pente est -,4008 avec un écart tpe de 0,373. La statstque de test est t = -,4008/0,373 = -0,, fourne dans la colonne " T " de la sorte de «MINITAB». Pour un test blatéral, la P-valeur est P(T > -0. ) pour la dstrbuton T=t(77-), ce qu est une valeur extrêmement pette. La colonne " P " de la sorte de «MINITAB» fournt la P-valeur lée au test blatéral. Les ntervalles de confance pour la pente et l ntercepte de la drote de régresson Un ntervalle de confance de nveau C pour les paramètresβ et o β peut être calculé à partr des estmatons de b 0 et b en utlsant les écarts tpes calculés par ordnateur et la valeur crtque approprée t * à partr de la dstrbuton. t(n-). β prend la forme b o 0 + t * s b0 et l'ntervalle de confance β est donné par b + t * s b. L'ntervalle de confance pour pour 4

Dans l'exemple c-dessus, un ntervalle de confance de 95% pour le paramètre de pente β est calculé ans : (-,4008 +.000*0.373) = (-,4008-0,4746, -,4008 + 0,4746) = (-,8754, -,96). La valeur pour «S» ndquée dans la sorte de «MINITAB» fournt l'estmaton pour l'écart tpe σ. La valeur " «R-Carré»" est le carré de la corrélaton r écrt comme une valeur en pourcentage. Cec ndque que les 57,7% de la varablté dans les évaluatons des céréales peuvent être explqués par la varable «sucre». Intervalles de confance pour la réponse moenne La moenne de réponse pour toute valeur spécfque de x, dsons x*, est donnée par µ = βo + βx*. La substtuton des valeurs estmées b 0 et b donne l'équaton ˆ µ = bx*. b o + Un ntervalle de confance pour la réponse moenne est calculé comme étant µ ˆ ± t * s où la valeur ajustée µˆ µ ˆ est l'estmaton de la réponse moenne. La valeur t * est la valeur crtque de (-C)/ d erreur à drote pour la dstrbuton t(n - ). La commande secondare «In addton, the full table of fts and resduals» de «MINITAB» sute à la commande «Stat > Regresson > Regresson» afn d'nclure les valeurs observées de x (Sugers) et de (Ratng), les valeurs ajustées µˆ (Ft) l'écart tpe des valeurs ajustées (StDev Ft), les valeurs résduelles (Resdual)et les valeurs résduelles normalsées (St Resd) La table c-dessous montre cette sorte pour les 0 premères observatons. Obs Sugars Ratng Ft StDev Ft Resdual St Resd 6.0 68.40 44.88.07 3.5.58R 8.0 33.98 40.08.08-6.09-0.67 3 5.0 59.43 47.8.4.5.33 4 0.0 93.70 59.8.95 34.4 3.83R 5 8.0 34.38 40.08.08-5.69-0.6 6 0.0 9.5 35.8.8-5.77-0.63 7 4.0 33.7 5.67.98 7.50 0.84 8 8.0 37.04 40.08.08-3.04-0.33 9 6.0 49. 44.88.07 4.4 0.46 0 5.0 53.3 47.8.4 6.03 0.66 Pour calculer à partr de «MINITAB» un ntervalle de confance pour la réponse moenne d'une observaton, chosssons d'abord une valeur crtque à partr de la dstrbuton approprée de t. Pour un ntervalle de confance de 95%, la valeur crtque de t(75) est approxmatvement égale à,000. Pour la deuxème observaton dans la table 5

c-dessus, un ntervalle de confance de 95% pour la réponse moenne est calculée comme étant (40,08 +.000*.08) = (40,08 +,6) = (37,9, 4,4). Intervalles de prévson Une fos qu'une drote de régresson a été ajustée à un ensemble de données, l est fréquent d utlser les valeurs estmées de la pente et de l ntercepte pour prévor la réponse pour une valeur spécfque de x, dsons x *, qu n'a pas été ncluse dans l ensemble d'observatons de départ. L'estmaton pour la réponse ŷ est dentque à l estmaton pour la moenne de la réponse: ŷ = b 0 + b x *. L'ntervalle de confance pour la valeur prévue est ndqué par t * s où ˆ ŷ est la valeur ajustée correspondant à x *. La valeur t* est la valeur crtque de (-C)/ d erreur à drote pour la dstrbuton t(n - ). Note : L'erreur tpe assocé à un ntervalle de prévson est plus grande que l'écart tpe pour la réponse moenne pusque l'erreur tpe pour une valeur prévue dot explquer une varablté supplémentare. La commande Stat > Regresson > Regresson > Optons de «MINITAB» peut prévor la varable de réponse et fournr les bornes de l ntervalle de confance à 95%. Supposons que nous sommes ntéressés à prévor l'évaluaton pour une céréale avec un nveau de sucre de 5,5 «MINITAB» produt la sorte suvante: ˆ ± Ft StDev Ft 95.0% CI 95.0% PI 46.08.0 ( 43.89, 48.7) ( 7.63, 64.53) La valeur ajustée 46,08 est smplement la valeur calculée lorsque 5,5 est substtué dans l'équaton de la drote de régresson: 59,8 - (5.5*.40) = 59,8-3,0 = 46,08. La valeur ndquée dans la colonne de 95,0% CI est l'ntervalle de confance pour la réponse moenne alors que la valeur ndquée dans la colonne de 95,0% PI est l'ntervalle de prévson pour une future observaton. 0. ANOVA pour la régresson lnéare L'analse de la varance (ANOVA) comporte des calculs qu fournssent des nformatons au sujet des nveaux de la varablté dans un modèle de régresson et qu forment la base pour la sgnfcaton des tests. Le concept de base de la drote de régresson Données observées = Données ajustées + Données résduelles est réécrt comme sut ( ) = (ˆ ) + ( ) ˆ Le premer terme est la varaton totale de la varable réponse, le deuxème représente la varaton de la réponse moenne et le trosème est la valeur résduelle. En mettant au 6

carré chacun de ces termes et en addtonnant l ensemble de n observaton, nous obtenons l équaton ( ) = ( ˆ ) + ( ˆ) Cette équaton peut également être écrte comme SST = SSM + SSE où SS (sum of squares) est la notaton pour la somme des carrés et T (total), M (model) et E (error) sont respectvement les notatons pour totale, modèle et erreur. Le carré de la corrélaton d échantllonnage est égal au rapport obtenu par la somme des carrés du modèle dvsé par la somme des carrés du total SSM r = SST Cec formalse l'nterprétaton de r ² en explquant la fracton de la varablté dans les données explquées par le modèle de régresson. La varance d échantllon est égale à la somme des carrés totale dvsée par le total des degrés de lberté DFT ( total degrees of freedom) SSD s = ( ) = n DFT Pour la régresson lnéare smple, la moenne des carrés de modèle MSM (mean square model) SSM ( ˆ ) MSM = = DFM pusque le modèle smple de régresson lnéare a une seule varable explcatve x. L erreur quadratque moenne MSE (mean square error) correspondant à SSE ( ˆ) = = MSE DFE n l'estmateur de la varance de la drote de la régresson de la populaton Les calculs d'anova sont montrés dans une table d analse de la varance qu, pour la régresson lnéare smple, a le format suvant : Source DF Sum of squares Mean Square F SSM/DFM MSM/MSE Model ( ˆ ) Error n- ( ˆ) σ SSE/DFE Total n- ( ) SST/DFT β La colonne «F»fournt une statstque pour tester l'hpothèse 0contre l'hpothèse nulle β 0. La statstque de test est le rapport = 7

MSM F = MSE la moenne des carrés du modèle dvsé par le terme de l erreur quadratque moenne. Quand le terme MSM est grand par rapport à celu du MSE, alors le rapport est grand et l a évdence contre l'hpothèse nulle. Pour la régresson lnéare smple, la statstque MSM/MSE a une dstrbuton F avec des degrés de lberté (DFM, DFE) = (, n - ). La dstrbuton de Fsher, dénotée par F(n, d) est défne pour toutes les valeurs postves dont les probabltés assocées à chaque valeur sont données par la table E dans Moore et McCabe et Mntab. Elle est caractérsée par n et d degrés de lberté. Comme exemple d utlsaton de la table Pr( F(0,4)>5.96 ) = 0.05 Exemple Reprenons l exemple c-dessus «Health Breakfast» La deuxème parte de l'analse de la varance de la sorte de MINITAB est montrée c-dessous. Les degrés de lberté sont ndqués dans la colonne «DF», les termes des sommes des carrés sont ndqués dans la colonne «SS», et les termes des mondres carrés sont ndqués dans la colonne «MS». Analss of Varance Source DF SS MS F P Regresson 8654.7 8654.7 0.35 0.000 Error 75 634. 84.6 Total 76 4996.8 la statstque «F» est égale à 8654,7/84,6 = 0,35. La dstrbuton est F (, 75) et P-valeur, la probablté d'observer une valeur supéreure ou égale à 0,35, est mons que 0,00. Il a donc une forte évdence que β n'est pas égal à zéro. 8