AJUSTEMENT ANALYTIQUE RÉGRESSION - CORRÉLATION. INTRODUCTION Il est fréquet de s'terroger sur la relato qu peut exster etre deux gradeurs e partculer das les problèmes de prévso et d estmato. Tros types de problèmes peuvet apparaître:. O dspose d'u certa ombre de pots expérmetaux ( x,y ),où x et y sot les valeurs prses par les gradeurs x et y et o essaye de détermer ue relato foctoelle etre ces deux gradeurs x et y. Cette relato, pour des rasos théorques ou pratques s'écrra y f( x, a,b,c...) et le problème sera d'ajuster au meux les paramètres a,b,c... pour que la courbe représetatve de f passe au plus près des pots ( x,y ). Il s'agt d'u problème d'ajustemet aalytque. Exemple : Le ombre de partcules émses par u élémet radoactf vare e focto du temps. O sat que la lo est de la forme e λ t 0. Les mesures expérmetales permettrot d'estmer au meux 0 et λ.. O essaye de détermer la relato statstque qu exste etre les deux gradeurs X et Y. Ce type d aalyse s appelle aalyse de régresso. O cosdère que la varato de l ue des deux varables (par exemple X) explque celle de l autre (par exemple Y). Chaque domae d applcato a baptsé de oms dfférets ces deux varables : O trouve as : X Y Varable explcatve Varable explquée Varable cotrôlée Répose Varable dépedate Varable dépedate Régresseur... Das ce type d aalyse, o fxe a pror les valeurs de X. X 'est doc pas ue varable aléatore. Mas la deuxème gradeur Y, elle, est ue varable aléatore et sa dstrbuto est fluecée par la valeur de X. O a alors du pot de vue statstque ue relato de cause à effet. Le problème sera d'detfer cette relato. Exemple : O veut détermer s u produt est toxque. Pour cela o le fat absorber e quattés varables par des sours et o mesure leur temps de surve. O partage la populato des sours e quatre lots qu absorberot respectvemet 0,,, 3 doses de produt. X ombre de doses de produt est ue varable cotrôlée preat les valeurs (0,,, 3). Y temps de surve d ue sours est ue varable aléatore (répose à la varable cotrôlée X). J-P LENOIR Page 7
S Y est focto de X, le produt est toxque. Coaître la relato etre X et Y ous permettra d évaluer ses effets toxques. 3. Les deux gradeurs X et Y sot aléatores et o cherche à savor s leurs varatos sot lées. Il 'y a pas c de varable explcatve de varable explquée. Les varables peuvet avor des causes commues de varato, parm d'autres, qu explquet leur relato d'u pot de vue statstque : o est e présece d'u problème de corrélato. O cherche alors à mesurer le degré d assocato etre les varables. Exemple : pods et talle d'u dvdu, résultats obteus à deux exames par des étudats.... AJUSTEMENT ANALYTIQUE.. PRINCIPE DE L'AJUSTEMENT O dspose d'u certa ombre de pots ( x,y ), format u uage statstque, et o cherche à tradure la dépedace etre x et y par ue relato de la forme y f(x) ou x g(y) selo ce qu a u ses, ou selo ce qu ous téresse. S ue relato théorque s'mpose à ous comme das l'exemple des partcules radoactves, o ajuste au meux les paramètres de la lo théorque. S l ous faut détermer emprquemet f ou g, o prvlégera les modèles léares.précsos que la léarté du modèle e dot pas prêter à cofuso : le terme léare e se réfère qu'aux paramètres du modèle: y a + bx ou y a + bx+ cx sot des modèles léares alors que das le deuxème exemple la relato etre x et y est quadratque. E x revache y β 0 β est pas u modèle léare. Pour détermer cette relato emprque la forme du uage statstque peut guder otre chox. Mas quelle méthode utlser pour détermer au meux les paramètres du modèle?.. MÉTHODE DES MOINDRES CARRES Sot y f(x,a,b,c,...) l équato de la courbe que l o cherche à ajuster au uage statstque. Nous voudros que les erreurs etre la valeur observée y et la valeur ajustée f(x ) sot mmale. Appelos e la dfférece :e y f ( x ). e est le résdu de la ème observato et sa valeur absolue représete la dstace etre les pots M ( x,y ) et P ( x,f(x )). J-P LENOIR Page 8
Les résdus état postfs ou égatfs, leur somme peut être de fable valeur pour ue courbe mal ajustée. O évte cette dffculté e cosdérat la somme des carrés des résdus (la somme de valeurs absolues 'état pas pratque pour des développemets mathématques). Cette somme S( a, b, c,...) e ces paramètres de maère qu'elle sot mmale. déped des paramètres a,b,c,... à ajuster. O chosra e est appelé varato résduelle et ous doe ue mesure de l'ampleur de l'éparpllemet des observatos y courbe d'ajustemet. autour de la.3. CAS DU MODÈLE LINÉAIRE D'ORDRE UN Das ce cas la courbe d'ajustemet sera ue drote d'équato y a + bx. Il ous faut détermer les deux paramètres a et b. La varato résduelle s'écrt : S( a, b) e ( y a bx ) S(a,b) sera mmum lorsque : S a S 0 b S y a bx ( ) 0 a O obtet : S y a bx x ( ) 0 b E dstrbuat l opérateur, l vet : y a b x 0 x y a x b x 0 ce qu codut as à deux équatos dtes "ormales": a + b x y a x + b x x y Nota: Ce système se gééralse faclemet aux modèles léares d ordre (courbes d'ajustemet polyomales à paramètres). O obtet u système léare de équatos à coues. L utlsato des techques matrcelles faclte cosdérablemet sa résoluto. J-P LENOIR Page 9
E résolvat ce système, o obtet : ( x y ) ( x )( y ) la pete de la drote b x ( x ) l ordoée à l orge a ( x )( y ) ( x )( x y ) x ( x ) Autres expressos pour a et b : O a : x x et y y ( x )( y ) S o utlse le fat que : ( y y) x y et que : ( x x) x ( x ), l écrture de b smplfe : b ( y y) y () et la premère équato ormale permet de détermer a : Remarques : a y bx (). S S 0 e sot que des codtos écessares de mmalté pour s. L'étude des a b dérvées secodes motre effectvemet que les valeurs trouvées mmset S(a,b). L'équato () sgfe que la drote d'ajustemet passe par le pot ( x, y ) appelé pot moye du uage. 3. Cette drote des modres carrés est appelée drote de régresso de y e x. Elle est uque. 4. S o avat cherché à exprmer la relato etre x et y par x a + b y, o aurat obteu la drote de régresso de x e y qu mmse la somme des carrés des dstaces etre les pots M ( x,y ) et Q ( a + b y, y ). J-P LENOIR Page 0
Hstorquemet, c'est sr Fracs GALTON ( 8-9), cous de Charles DARWIN, qu a trodut la oto de régresso : Il a comparé la talle des efats adultes à la talle moyee de leurs parets ( e multplat celle des femmes par.08). E regroupat les doées e classes et e représetat chaque classe par so cetre, l a obteu ue relato presque léare dot la pete est ue estmato de l'hértablté et est d'evro /3. Cec sgfe que des parets très grads ot des efats plus petts qu'eux, et que des parets très petts ot des efats plus grads qu'eux. D'où ue régresso vers la moyee..4. TRANSFORMATIONS SIMPLES PERMETTANT D ÉTENDRE L'USAGE DE L'AJUSTEMENT LINÉAIRE.4.. Schéma expoetel x y et x sot lés par ue relato du type : y y 0 α (). O e dédut : l y l y0 + x lα E posat Y ly, a ly 0, b lα, o est rameé à la recherche des paramètres de la drote Y a + bx qu représete () sur u graphque sem-logarthmque..4.. Schéma à élastcté costate : Q et P sot lés par ue relato du type Q AP E () avec : Q quatté offerte d'u produt P prx demadé E élastcté A costate de ormalsato Ce schéma est courat e écoome : O tre de () la relato : lq l A + E l P E posat Y lq, X lp, a la, o est rameé à la recherche des paramètres de la drote Y a + EX qu représete la relato () sur u graphque à doubles coordoées logarthmques..4.3. Schéma gausse Nous avos vu qu'l exste etre la valeur x d'ue varable statstque dstrbuée x m ormalemet et sa fréquece cumulée y la relato : y Π( ) (3) σ où Π est la focto de répartto de la lo ormale cetrée rédute. x Cette relato peut s écrre : Π m ( y) et s l o pose t Π ( y), elle devet σ x m t σ. La relato (3) est doc représetée par ue drote, la drote de Hery ( cf chaptre I), sur u paper gausso-arthmétque. m et σ, caractérstques de la dstrbuto ormale peuvet alors être estmés par la méthodes des modres carrés. Cocluso : Cette méthode d'ajustemet aalytque est ue méthode d'aalyse umérque. Nous allos à préset la trater sous l'agle statstque, e cosdérat d'abord, pour tout etre et, y comme la réalsato d ue varable aléatore Y, les x état pas J-P LENOIR Page
aléatores (aalyse de régresso), pus e cosdérat, pour tout etre et, x et y comme les réalsatos de deux varables aléatores X et Y (problème de corrélato). 3. LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE 3.. INTRODUCTION Cosdéros u exemple. Le drecteur du persoel d ue compage de jouets, a découvert qu l exste ue relato logque et étrote etre le redemet four par les employés et le résultat obteu à u test d apttudes qu l a élaboré. Sur hut employés, l a obteu les résultats suvats Employés A B C D E F G H Producto (Y) (e douzae d utés) 30 49 8 4 39 5 4 5 Résultats au test d apttude (X) 6 9 3 8 7 5 8 0 Supposos de plus que ce drecteur at calculé, par la techque du paragraphe précédet, ue équato d estmato (l équato de la drote de régresso) pour prédre le redemet futur du caddat (la varable dépedate) e se fodat sur les résultats du test (la varable dépedate). Y 077. + 5389. X O représete sur la fgure c-dessous le uage de pots et la drote de régresso as obteus. J-P LENOIR Page
L aalyse de régresso peut ous permettre de détermer le degré de fablté des prédctos obteues à l ade de cette équato. J-P LENOIR Page 3
Au vu des résultats observés, l semble qu l y at ue relato assez étrote etre les résultats au test et la productvté des employés. Mas les appareces sot parfos trompeuses. Qu e serat-l s la populato totale de l esemble des employés état réparte comme l dque la fgure (a) c-cotre? Serat-l possble que, malgré l échatllo obteu, u tel dagramme représete l esemble des employés de la compage? S tel état le cas, l ous faudrat coclure qu l exste pas de relato etre X et Y car das ue telle stuato, la pete de la drote de régresso pour la populato (paramètre que ous représeteros par le symbole β) serat égale à 0. E somme, l est possble que le drecteur at eu u coup de malchace et que l échatllo qu l a prélevé l at fortemet dut e erreur. U tel cas est pas mpossble. E effet, o pourrat représeter l échatllo, perdu das la populato, sur la fgure (b) c-cotre. La pete postve de la drote de régresso échatlloale ous dque ue relato. O costate qu alors le résultat obteu grâce à l échatllo est e cotradcto avec la réalté de la populato. Commet coclure? Il ous faut effectuer u calcul statstque pour costater qu u tel cas est certes pas mpossble mas fortemet mprobable. O pourra juger correctemet grâce au calcul d u tervalle de coface, ou e effectuat u test d hypothèses. O costatera que la vrae drote de régresso (calculée à partr de la populato toute etère) peut être, selo les doées et la talle de l échatllo, assez dfférete de la drote de régresso obteue à partr de l échatllo mas que, statstquemet, elle se stue das ue régo vose, comme le motre la fgure suvate. J-P LENOIR Page 4
Or pour pouvor utlser les techques de l aalyse de régresso léare smple e férece statstque (tervalles de coface, tests), l faut que certaes hypothèses soet vérfées. Nous allos les précser das les deux paragraphes suvats. 3.. DÉFINITION DU MODÈLE État doé couples d observatos (x,y ), (x,y ),..., (x,y ), s l o suppose que la relato plausble etre les deux gradeurs X et Y est léare et d ordre u, alors le modèle de régresso léare smple s écrt : Y α + βx + ε,..., où Y est la varable dépedate (ou explquée) ayat u caractère aléatore et dot les valeurs sot codtoées par la valeur x de la varable explcatve (ou cotrôlée) X et par celles de la composate aléatore ε. y représete la réalsato de la ème varable aléatore Y. x est la valeur de la varable explcatve (ou régresseur) X mesurée sas erreur ou dot les valeurs sot fxées avat expérece à des valeurs arbtrares. Elle est pas susceptble de varatos aléatores et o la cosdère comme ue gradeur certae. ε déote la fluctuato aléatore o observable, attrbuable à u esemble de facteurs ou de varables o prs e cosdérato das le modèle. Cette fluctuato aléatore est pas explquée par le modèle et se reflète sur la varable dépedate Y Cocluso : Pour chaque valeur partculère x prse par le régresseur X, la varable dépedate Y est ue varable aléatore caractérsée par : Ue certae dstrbuto de probablté. Des paramètres descrptfs : sa moyee et sa varace. 3.3. CONDITIONS D APPLICATION DU MODÈLE Pour pouvor étuder le modèle de régresso léare smple, l faut précser certaes hypothèses fodametales qu assuret le fodemet théorque des méthodes d aalyse que ous allos employer. Hypothèses fodametales du modèle léare smple : Y α + βx + ε La courbe jogat les moyees des dstrbutos des Y pour les dfféretes valeurs x est ue drote. Das ce cas l équato de régresso est de la forme : E( Y ) α + β x. Comme ous savos que : E( Y ) α + βx + E( ε ),o e tre que E(ε ) 0. Les erreurs aléatores sot de moyee ulle. J-P LENOIR Page 5
La varace σ de chaque dstrbuto des Y est la même quelle que sot la valeur x prse par la varable explcatve X. Pour tout etre 0 et, Var(Y ) σ.cec est équvalet à dre que la varace des ε (c est-à-dre des erreurs aléatores) demeure costate et égale à σ pour toutes les valeurs de X. Var( Y ) Var( α + βx ) + Var( ε ) 0 + σ. O suppose doc que l ampleur de la dsperso de chaque dstrbuto des Y est detque, quelle que soet les valeurs prses par la varable explcatve X. Les Y sot des varables aléatores dépedates, c est-à-dre que les observatos de la varable explquée e dépedet pas des observatos précédetes et fluet pas sur les suvates. La dstrbuto des Y est ue dstrbuto ormale. Cec revet égalemet à dre que les erreurs ε sot dstrbuées ormalemet. Ces hypothèses fodametales peuvet se résumer as : Y > N( α + βx, σ ), ε > N(0,σ), les varables Y état dépedates. O peut schématser ces hypothèses par la fgure c-dessous : J-P LENOIR Page 6
3.4. INFÉRENCE SUR LES PARAMÈTRES DU MODÈLE : ESTIMATIONS ET TESTS D HYPOTHÈSE Les paramètres α et β sot appelés paramètres de régresso. Ce sot des costates, ordoée à l orge et pete de la drote de régresso, que l o pourrat calculer s le uage de pots eglobat la populato toute etère. Les valeurs a et b détermées par l'ajustemet aalytque au paragraphe permettet d e doer ue estmato. a et b sot même les melleurs estmateurs possbles de α et β (e aglas, o utlse le terme BLUE (pour Best Lear Ubased Estmators). O cosdère que a et b sot les valeurs observées das otre -échatllo des varables aléatores d échatllo,otées A et B, et défes par: B ( x x)( Y Y ) où A Y Bx Y Y et x x Pour pouvor effectuer des calculs statstques, établr u tervalle de coface ou exécuter u test statstque sur l u ou l autre des paramètres de régresso α et β,l ous faut coaître la dstrbuto d échatlloage des deux varables A et B. Il faut doc e coaître la forme, la moyee et la varace. C est l objet des deux paragraphes suvats. 3.4.. Dstrbuto d échatlloage de la varable B B est ue combaso léare de varables ormales dépedates. Elle est doc dstrbuée suvat ue lo ormale. E( B) ( x x)[ E( Y ) E( Y )] ( x x)[ α + βx α βx] β β E( B) β. Doc B est u estmateur sas bas de β. Var( B) ( x x) Var( Y ) ( x x) [ ] [ ] σ Var( B) σ σ J-P LENOIR Page 7
T Cas des grads échatllos ( 30) B β σ sut la lo ormale N(0,). S σ est pas cou, o l estme par s l échatllo de S T B β S ( Y A Bx ) ( y a bx ) estmateur o basé de σ. Cas des petts échatllos (<30) sut ue lo de Studet à (-) degrés de lberté. qu est la valeur prse das Remarque : O a que (-) degrés de lberté car das S o a estmé les deux paramètres α et β par a et b. O peut trouver le même résultat e cosdérat qu l y a deux relatos etre A, B et Y. 3.4.. Dstrbuto d échatlloage de la varable A Il est mos fréquet d effectuer de l férece statstque cocerat le paramètre α. Pluseurs stuatos e comportet aucue valeur das le vosage de X 0. De plus, das certas cas, l terprétato du paramètre α est déuée de ses, das d autres, elle présete u certa térêt. Doos rapdemet les résultats cocerat la dstrbuto d échatlloage de la varable A. De même que B, A a ue dstrbuto ormale. O motre que E(A) α, ce qu prouve que A est u estmateur sas bas de α. x O motre égalemet que Var( A) σ [ + ]. Ic auss, s σ est cou o l estme par s. Comme das le cas précédet, lorsque ous auros affare à de petts échatllos et que σ sera cou o utlsera ue lo de Studet à (-) degrés de lberté. J-P LENOIR Page 8
3.4.3. Utlsato de ces los Grâce à la coassace de ces los, o pourra selo les cas : obter des tervalles de coface pour α et β ce qu ous permet de précser la marge d erreur de leurs estmatos a et b. effectuer u test d'hypothèse sur β, pete de la drote de régresso. S par exemple, o veut détermer s la dépedace léare etre X et Y est sgfcatve (e admettat que le modèle léare d ordre est plausble), l ous faudra savor s la pete de la drote de régresso est sgfcatvemet dfférete de 0. Das ce cas o dra que la composate léare permet d explquer d ue faço sgfcatve les fluctuatos das les observatos de Y. O testera alors l hypothèse H 0 : β 0 cotre H : β 0 3.5. QUELQUES CONSIDÉRATIONS PRATIQUES DANS L APPLICATION DES MÉTHODES DE RÉGRESSION 3.5.. Extrapolato avec ue équato de régresso Il faut être très prudet das l utlsato d ue équato de régresso e dehors des lmtes du domae étudé de la varable explcatve. La drote de régresso emprque est basée sur u esemble partculer d observatos. Lorsque ous effectuos ue prévso au delà des valeurs de X utlsées das l aalyse de régresso, ous effectuos ue extrapolato. Du pot de vue puremet statstque, toute extrapolato avec ue équato de régresso est pas justfée pusqu l est absolumet pas évdet que le phéomèe étudé se comporte de la même faço e dehors du domae observé. E effet la vrae focto de régresso peut être léare pour u certa tervalle de la varable explcatve et préseter u tout autre comportemet (du type curvlge par exemple) e dehors du champ observé. Même s des cosdératos théorques ou pratques permettet de peser que l équato de régresso peut s applquer das tout domae, u autre covéet apparaît : la précso de os estmatos et de os prévsos dmue à mesure que l o s éloge de la valeur moyee de la varable explcatve, c est-à-dre que la marge d erreur augmete comme le motre la fgure c-après. J-P LENOIR Page 9
3.5.. Relato de cause à effet Le fat qu ue laso statstque exste etre deux varables mplque pas écessaremet ue relato de cause à effet. Il faut s terroger sur la pertece de la varable explcatve utlsée comme élémet prédcteur de la varable dépedate et examer s l exste pas certas facteurs ou varables o cluses das l aalyse et dot les varatos provoquet sur les varables tales de l étude u comportemet de régresso llusore. 3.5.3. Étude de la pertece du modèle Ue maère smple de détecter les défallaces du modèle cosste à calculer les résdus doés par la formule : e y - (a + bx ) et surtout les résdus réduts er e où s est s l estmateur o basé de l écart-type σ de la dstrbuto des erreurs. Ces résdus réduts estmet les erreurs rédutes ε qu sot dstrbuées ormalemet suvat ue lo gaussee σ cetrée rédute. Ue étude systématque des résdus est u élémet essetel de toute aalyse de régresso. U graphque de ces résdus révèle les gros écarts au modèle. O dot représeter le graphque des résdus e focto de toute caractérstque qu peut avor ue acto sur eux. Voc tros graphques possbles qu parasset aturels et qu permettet d évter be des erreurs. Graphque des résdus er e focto des valeurs ajustées $y a + bx. Graphque des résdus er e focto des valeurs x du régresseur. Graphque des résdus er das leur ordre d acqusto ; e effet le temps peut être la caractérstque essetelle das de ombreuses études. S le modèle est correct, les résdus er dovet se trouver approxmatvemet etre - et +, état etedu que leur moyee est ulle. Ils e dovet préseter aucue structure J-P LENOIR Page 30
partculère. S jamas ls e présetet ue, c est que le modèle est pas complètemet pertet. 3.6. MESURE DE L AJUSTEMENT : L ANALYSE DE VARIANCE U autre objectf d ue étude de régresso est de détermer das quelle mesure la drote de régresso est utle à explquer la varato exstate das les observatos des Y. O veut doc évaluer la qualté de l ajustemet du modèle léare smple. 3.6.. Aalyse de la varace O rappelle que l o ote $y la valeur estmée de y à l ade de la drote de régresso: $y a + bx.pour chaque valeur y, l écart total (y - y ) peut être décomposé e somme de deux écarts : (y - y ) ( $y y ) + (y - $y ) écart total écart explqué par la drote de + écart explqué par la drote de régresso lorsque X x régresso lorsque X x : résdu Cette décomposto peut être vsualsée sur la fgure c-après. O peut doc exprmer la varato totale das les observatos de Y comme la somme d ue varato explquée (attrbuable à la drote de régresso) et d ue varato explquée (attrbuable aux résdus). O démotre le résultat suvat : ( y y) ( y$ y) + ( y y$ ) Varato totale Varato explquée + Varato résduelle par la régresso 3.6.. Le coeffcet de détermato Pour meux apprécer la cotrbuto de la varable explcatve pour explquer les fluctuatos das la varable dépedate o déft le coeffcet de détermato, appelé J-P LENOIR Page 3
auss coeffcet d explcato. Ce ombre, oté r, est la proporto de la varato totale qu est explquée par la drote de régresso. J-P LENOIR Page 3
r varato explquée varato totale ( y$ y) ( y y) C est u dce de la qualté de l ajustemet de la drote aux pots expérmetaux. Ce coeffcet vare toujours etre 0 et. Cette proprété découle mmédatemet de la défto. 00r a ue terprétato cocrète : c est le pourcetage de la varato de Y qu est explquée par la varato de X. O peut dédure de r le coeffcet de corrélato léare smple par : r ± r, le sge de r état le même que celu de b, pete de la drote de régresso. O démotre qu algébrquemet : r ( y y)( y$ y) ( y y) ( y$ y) Nous défros u coeffcet aalogue das le paragraphe suvat qu cocere justemet la corrélato pour mesurer l testé de la laso léare etre deux varables. 4. CORRÉLATION LINÉAIRE 4.. INTRODUCTION ET VOCABULAIRE Nous prélevos d'ue populato u échatllo aléatore de talle et ous observos, sur chaque uté de l'échatllo les valeurs de deux varables statstques que ous otos covetoellemet X et Y. O dspose doc de couples d'observatos ( x,y ). O veut détermer par la sute s les varatos des deux varables sot lées etre elles, c'est à dre s'l y a corrélato etre ces deux varables. L'exstece de cette corrélato peut être détermée graphquemet e traçat le uage des pots M ( x,y )( ) appelé dagramme de dsperso. La forme de ce uage ous permettra de déceler le cas échéat, la ature de la laso etre X et Y. Il ous resegera sur la forme de la laso statstque etre les deux varables observées as que sur l'testé de cette laso. J-P LENOIR Page 33
Das ce cours, ous e trateros que de la forme léare. les pots aurot alors tedace à s'alger selo ue drote. O dt qu'l y a corrélato léare. S Y croît e même temps que X, la corrélato est dte drecte ou postve. S Y décroît lorsque X croît, la corrélato est dte verse ou égatve. Essayos d'assocer aux dfférets uages de pots les coclusos qu s'y rattachet. Coclusos : (a) Forte corrélato égatve (b) Absece de corrélato léare mas présece d ue laso de forme parabolque. (c) Fable corrélato léare mas présece d ue laso de forme parabolque. (d) Absece de corrélato et aucue laso apparete. Idépedace etre ces deux varables. (e) Corrélato postve marquée. J-P LENOIR Page 34
4.. DÉFINITION DU COEFFICIENT DE CORRÉLATION LINÉAIRE Défto : Le coeffcet de corrélato léare, oté r est u ombre sas dmeso qu mesure l'testé de la laso léare etre deux varables observées das u échatllo de talle. O pose : r ( y y) ( y y) De même que le coeffcet de détermato, r représete le pourcetage de la varato de y explquée par la varato de x. Remarque : E raso de sa symétre, r mesure auss be l'testé de la laso léare etre x et y qu'etre y et x. 4.3. PROPRIÉTÉS DU COEFFICIENT DE CORRÉLATION LINÉAIRE Proprété : O a toujours : - r La corrélato parfate, correspodat au cas r, se recotre très peu e pratque, mas sert de pot de comparaso. Plus r est proche de, plus les varables x et y serot étrotemet lées. S x et y sot dépedates, o a be sûr r 0. Mas la récproque 'est pas écessaremet vrae. S r 0, o peut affrmer qu'l 'exste pas de laso léare etre x et y. Mas l peut exster ue laso d'u autre type. Exemple : J-P LENOIR Page 35
Proprété : Proprété 3 : Proprété 4 : La drote d'ajustemet léare de y e focto de x das otre échatllo a pour équato y a + bx avec b ( y y) doc b r s Y, s s X X et s Y représetat respectvemet les varaces de X et de Y das l échatllo des pots. Le sge du coeffcet de corrélato permet de savor s la corrélato est postve ou égatve pusque r et b sot de même sge. S la drote d'ajustemet léare de y e focto de x a pour équato y a + bx et celle de x e y a pour équato x a + b y, o a b r sy et auss par symétre b r s ' X '. D où : bb r s s X Y O retrouve as que s la laso etre x et y est forte, les petes b et b' sot telles que b' b et les drotes sot presque cofodues. 4.4. COMMENT TESTER L INDÉPENDANCE LINÉAIRE DE X ET Y La questo est de savor s la valeur trouvée pour r est sgfcatvemet dfférete de 0 ou pas. Le coeffcet de corrélato r calculé à partr d'u échatllo de talle doe ue estmato poctuelle du coeffcet de corrélato de la populato oté ρ. ρ est déf par : ρ E X E ( X ) Y E( Y) E( XY) E( X ) E( Y) Cov( X, Y) [( )( )] σ( X ) σ( Y) σ( X ) σ( Y) σ( X ) σ( Y) Appelos R la varable aléatore : coeffcet de corrélato de tous les échatllos de même X E( X ) Y E( Y) talle prélevés das ue même populato :R ( )( ). σ( X ) σ( Y) Be sûr o a E(R) ρ. O suppose que X et Y sot dstrbuées suvat ue lo ormale cojote ( lo bormale) Il s avère que la dstrbuto de R, coeffcet de corrélato d échatllo, e déped que de et de ρ. O représete la focto la focto de desté de R sur la fgure suvate pour 9, ρ 0 et ρ 0.8. O costate que la desté de R est symétrque pour ρ 0 et c'est le seul cas où cette proprété est vérfée. J-P LENOIR Page 36
O pourra tester l'dépedace de X et Y e exécutat le test statstque suvat : O teste l hypothèse H 0 cotre l hypothèse H : Ho : X et Y e sot pas corrélés léaremet c est-à-dre ρ 0. H : X et Y sot corrélés léaremet c est-à-dre ρ 0. O se place sous l hypothèse H 0, c est-à-dre que l o suppose que ρ 0. R E( R) R ρ La focto dscrmate du test est : T σ( R) σ( R) R σ( R) R O motre qu elle peut s écrre : T R. T est dstrbuée suvat ue lo de Studet à (-) degrés de lberté. r O calcule la valeur rédute t, r état la valeur du coeffcet de 0 r corrélato de otre échatllo. Pus o cherche das la table de Studet P t P( T t ). 0 s P t0 s P t0 0 <α : o rejette H o : X et Y sot léaremet dépedats. >α : o accepte H o : X et Y sot léaremet dépedats. où α est le seul de sgfcato du test. J-P LENOIR Page 37
Remarques : ) Be sûr, o costate que plus la talle de l'échatllo est pette, plus le coeffcet de corrélato de l'échatllo dot être élevé pour être sgfcatvemet dfféret de 0. Ordre de gradeur au seul de 5% : O accepte Ho pour r < 0.378 pour 0 O accepte Ho pour r < 0.549 pour 0 ) S o veut tester d'autres valeurs de ρ, l faut employer ue autre méthode et passer par ce qu'o appelle la trasformato de FISCHER. 4.5. MISE EN GARDE A PROPOS DE LA CORRÉLATION Il exste pluseurs explcatos du fat que deux séres varet e même temps, et das certaes stuatos, l aalyste est e drot d terpréter les mesures de corrélato das le ses d ue relato de cause à effet. Cepedat le seul fat que deux varables soet relées etre elles, au ses statstque du terme, est pas suffsat pour coclure à l exstece d ue relato de cause à effet. E d autres termes, la seule exstece d ue relato statstque est pas ue preuve de causalté. Il exste ue relato de cause à effet s la varato d ue varable est attrbuable à la varato de l autre varable. Par exemple la varato de température das ue réacto chmque peut causer ue varato du résultat de cette réacto. Par alleurs, deux varables peuvet être cojotemet fluecées par u facteur de cause commue. Il est probable qu l exste ue relato étrote etre les vetes de bjoux et les vetes d apparels stéréophoques; toutefos, l serat farfelu d mputer à l ue de ces varables les varatos observées de l autre varable. Ic, les varatos des deux varables sot probablemet le résultat d ue varato des reveus des cosommateurs. Certaes relatos sot accdetelles. Même s l exste ue relato etre le ombre de votures vedues au Caada et le ombre d éléphats e Afrque, l serat absurde d aalyser le marché de l automoble au Caada e se basat sur cette relato. Les relatos de ce gere sot appelées fausses corrélatos. J-P LENOIR Page 38