PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Dimension: px
Commencer à balayer dès la page:

Download "PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)"

Transcription

1 PREMIERS PAS en REGRESSION LINEAIRE avec SAS Josane Confas (UPMC-ISUP) - Monque Le Guen (CNRS-CES-MATISSE- UMR874) e-mal : e-mal : Résumé Ce tutorel accessble par nternet montre de façon ntutve et sans formalsme excessf, les prncpales notons théorques nécessares à la compréhenson et à l'nterprétaton des résultats d analyses de régresson lnéare, smple et multple, produts par la procédure REG de SAS et par le menu FIT de SAS/INSIGHT. Ce document est ssu d un cours ensegné par les auteurs dans dfférentes formatons : ISUP, DEA & DESS de Pars, formaton permanente du CNRS, au CEPE de l INSEE. Il fat sute à un premer document de traval publé à l Unté Méthodes Statstques de l INSEE. Nous avons ajouté de nombreux graphques et affchages de SAS/INSIGHT, qu par ses possbltés de vsualsaton et d nteractvté, facltent la compréhenson à la fos des données et des technques. Nous avons profté des possbltés d nternet pour ajouter des lens vers des applets ou d autres documents accessbles sur le web. Nous nsstons dans ce tutorel, sur l mportance des graphques exploratores, et sur les lmtes des résultats obtenus par une régresson lnéare, s l étape de vérfcaton des suppostons n est pas systématquement entreprse. SAS et SAS/INSIGHT sont les marques déposées de SAS Insttute Inc., Cary, NC, USA Revue MODULAD, Numéro 35

2 . SENSIBILISATION A LA REGRESSION LINEAIRE SIMPLE Où se place la régresson lnéare? Ajustement affne ou Régresson Smple Comment trouver la drote qu passe «au plus près» de tous les ponts? Méthode d estmaton des paramètres β 0 et β Effet d un pont observaton sur la drote de régresson Décomposton de l'écart entre Y et la moyenne de Y Analyse de la varance... 3 Ce que le modèle explque et ce qu'l n'explque pas... 3 Standard de présentaton de l'analyse de la Varance... 3 Comment apprécer globalement la régresson Exemple : Régresson de la Talle en foncton du Pods Représentatons géométrques Régresson smple de Y sur X Dstrbuton en un pont fxé de X Représentaton de X fxé et Y aléatore Glssement fonctonnel de la méthode des Mondres Carrés Ordnares à la Régresson De l'astronome Aux Scences Socales Galton Dagram Regresson Formalsaton des Suppostons Confance à accorder aux résultats Test de la sgnfcaton globale de la régresson Statstques lées au paramètre β Calcul de la varance de b Test portant sur le paramètre β Calcul de l'ntervalle de confance de β Statstques lées au paramètre β Calcul de la varance de b Test portant sur le paramètre β Calcul de l'ntervalle de confance de β Exemple d estmaton des paramètres avec Proc REG Précson sur l'estmaton de Y Intervalle de confance autour de l'estmaton de la drote de régresson Intervalle de prévson de Y sachant X Exemple avec les optons CLI CLM de la Proc REG LA REGRESSION LINEAIRE MULTIPLE Le crtère des mondres carrés Formalsaton de la régresson lnéare multple Exemples de régresson lnéare multple avec Proc REG Présentaton des données Régresson lnéare multple avec Proc REG sans optons TYPE I SS et TYPE II SS de Proc REG Défnton de TYPE I SS et TYPE II SS Interprétatons conjontes de TYPE I SS et TYPE II SS Optons SS et SS de l nstructon model de Proc REG Tester la nullté de r paramètres pour tester un sous modèle Exemple de test partel avec PROC REG Ce qu'l faut retenr des 'SS' Les résdus Concluson QUAND LES RESULTATS D'UNE REGRESSION NE SONT PAS FORCEMENT PERTINENTS Exemples en régresson smple Une même valeur pour des stuatons dfférentes Pondératons et régresson lnéare par morceaux Théore de la régresson pondérée Transformaton des données Méthode non paramètrque du LOWESS Exemples en régresson multple Y «explquée» par la corrélaton entre deux régresseurs Instablté des coeffcents de la régresson, en cas de multcolnéarté... 9 Exemple sur données réelles... 9 Revue MODULAD, Numéro 35

3 Exemple sur données avec modèle théorque connu et régresseurs corrélés Condtons d'utlsaton de la régresson, les dagnostcs Modèle Inadapté L nfluence de certanes données, les données atypques -Outlers Corrélaton et colnéarté entre les régresseurs VALIDATION D UNE REGRESSION Introducton Modèle et notatons Problèmes à étuder Vérfcaton des suppostons de base sur les erreurs Espérance nulle Indépendance Cas partculer où les observatons sont apparentées (cas des chronques) : Egalté des varances (homoscédastcté) Normalté des erreurs Exemple Modèle Dessn des résdus contre les 4 régresseurs (avec SAS/INSIGHT) Test d homoscédastcté et tracé du QQ-PLOT avec PROC REG Influence d'observatons Hat matrce et leverages Résdus studentsés nternes Résdus studentsés externes Mesure globale de l'nfluence sur le vecteur des coeffcents: Dstance de COOK Influence sur chacun des coeffcents : DFBETAS Précson des estmateurs : COVRATIO Influence sur la valeur ajustée: DFFITS Coeffcent global PRESS Comment obtenr les mesures d nfluence dans SAS... 3 Dans PROC REG... 3 Dans SAS/INSIGHT Tableau récaptulatf Exemple Colnéarté des régresseurs Méthodes basées sur l'étude de la matrce X'X Etude de la matrce de corrélaton des régresseurs Varance Inflaton Factor Condton ndex et varance proporton... 3 Les ndces de colnéarté Remèdes en cas de mult-colnéarté Exemple Regresson RIDGE Chox des régresseurs Utlsaton des sommes de carrés Rappel sur les somme de carrés apportés par un régresseur Tests des apports à SS Modèle d une varable Exemple d élmnaton progressve Dfférentes méthodes basées sur les sommes de carrés Méthode FORWARD (ascendante) Méthode BACKWARD (descendante) Méthode STEPWISE (progressve) Exemples de sélecton STEPWISE Améloraton de R² Maxmum R Improvement (MAXR) Mnmum R Improvement (MINR) Autres méthodes basées sur R² : RSQUARE et ADJRSQ Coeffcent CP de Mallows Sélecton suvant le coeffcent CP Utlsaton du coeffcent CP dans une sélecton de régresseurs Crtères AIC et BIC Exemple de sélecton RSQUARE CONCLUSION ANNEXES ANNEXE Revue MODULAD, Numéro 35

4 SYNTAXE SIMPLIFIEE DE LA PROCEDURE REG DE SAS PROC REG optons ; MODEL dépendante = régresseurs / optons ; Instructons BY FREQ ID WEIGHT : REWEIGHT expresson / WEIGHT = valeur ; TEST equaton(s) ; RESTRICT equaton(s); Optons RIDGE et PCOMIT des nstructons PROC REG ou MODEL ANNEXE MODE D EMPLOI TRES SUCCINCT DE SAS/INSIGHT Le lancement de SAS/INSIGHT Rôle statstque des varables dans SAS/INSIGHT Menu prncpal de SAS/INSIGHT Graphques standard en SAS/INSIGHT Les Analyses Statstques avec SAS/INSIGHT Impresson et Sauvegarde Pour plus d nformaton sur les graphques ANNEXE STATISTIQUES RELATIVES A L ANALYSE DE LA VARIANCE STATISTIQUES SUR LES PARAMETRES ANNEXE RELATIONS ENTRE LA LOI NORMALE ET LES STATISTIQUES DE LOIS ANNEXE CONSTRUCTION D UN QQ-PLOT PRINCIPE DE LA DROITE DE HENRY GENERALISATION QQ-PLOT AVEC SAS Revue MODULAD, Numéro 35

5 . Sensblsaton à la régresson lnéare smple Cette sensblsaton à la régresson présente de manère détallée la logque et les calculs permettant la compréhenson de la régresson smple. On montre tout d'abord la démarche algébrque qu condut à un ajustement affne, pus par un détour oblgé à l'hstore, on «glsse» vers la modélsaton en s'appuyant sur la Statstque... Où se place la régresson lnéare? La régresson lnéare se classe parm les méthodes d analyses multvarées qu tratent des données quanttatves. C'est une méthode d'nvestgaton sur données d'observatons, ou d expérmentatons, où l'objectf prncpal est de rechercher une lason lnéare entre une varable Y quanttatve et une ou pluseurs varables X également quanttatves. C est la méthode la plus utlsée pour deux rasons majeures : c est une méthode ancenne, c est l'outl de base de la plupart des modélsatons plus sophstquées comme la régresson logstque, le modèle lnéare généralsé, les méthodes de tratement des séres temporelles, et surtout des modèles économétrques, etc. A l'ade du tableau., on peut repérer les méthodes les plus courantes d'analyses statstques et les procédures SAS utles pour rechercher des lasons, selon le type (nomnal, ordnal, ntervalle, rato) des varables Y et X. Le lecteur peu famlarsé avec la termnologe des varables SAS pourra vor sur le ste de MODULAD, le tutorel «La Proc FREQ de SAS, Tests d ndépendance et d assocaton», de J. CONFAIS, Y. GRELET, M. LE GUEN. page 5-7. Revue MODULAD, Numéro 35

6 Tableau. Procédures SAS adaptées selon le type des varables (nomnal, ordnal, ntervalle, rato) X ntervalle/rato X ordnale/nomnale Y ntervalle/rato Y ordnale/nomnale Régresson lnéare PROC REG S Y est ordnale ou à modaltés Régresson logstque PROC LOGISTIC Analyse de la varance PROC ANOVA Analyses de tableaux de contngence PROC FREQ Régresson logstque PROC LOGISTIC Modèles lnéares généralsés PROC GLM Tratements des varables catégorelles PROC CATMOD Pour la régresson lnéare la procédure REG est la plus complète. Cependant le module SAS/INSIGHT, qu est à la fos un tableur, un grapheur et un analyseur, est partculèrement adapté pour étuder des données dans une problématque de régresson lnéare couplée à une analyse exploratore des données. Dans les exemples nous utlserons l une ou l autre de ces possbltés. En annexe, on trouvera un mode d emplo très succnct de SAS/INSIGHT... Ajustement affne ou Régresson Smple Exemple Soent les mesures de pods (varable X) et talle (varable Y) relevées sur un échantllon de 0 objets. Revue MODULAD, Numéro 35

7 Tableau. Données Talle et Pods dentfant pods (X) talle (Y) Le graphque du nuage de ponts, d abscsse le pods et d ordonnée la talle montre qu l exste une relaton lnéare entre ces deux varables. Lorsque le pods augmente, la talle a tendance à croître également. Fgure. Talle*Pods Les ponts du nuage sont approxmatvement algnés sur une drote (y=ax+b) à une erreur près. Talle = β 0 + β Pods + erreur La varable Talle (Y) est appelée la varable réponse, ou selon les domanes dscplnares, varable à explquer, ou encore varable dépendante. La varable Pods (X) est la varable régresseur, encore appelée varable explcatve, ou varable ndépendante. β0 est l ordonnée à l orgne. Revue MODULAD, Numéro 35

8 β est la pente de la drote d ajustement. Note : Dans ce document nous n utlserons que les termes «réponse» et «régresseurs», pour évter toutes confusons sémantques très dommageables lors des nterprétatons des résultats, et partculèrement lors de la communcaton des résultats à un ters. Par exemple, la varable dte explquée n est pas forcément explquée par les varables dénommées explcatves. Quand aux varables dtes ndépendantes, elles sont, dans le cas de données réelles, rarement ndépendantes.... Comment trouver la drote qu passe «au plus près» de tous les ponts? Pour trouver la drote qu passe «au plus près» de tous les ponts l faut se donner un crtère d ajustement. Y M M3 P4 drote Y= β0+β X P P P3 M4 M X Fgure. Projecton des ponts M...M 4 sur la drote. On projette les ponts M à M 4 parallèlement à l'axe des Y. Sur la drote on obtent les ponts P à P 4, comme le montre la fgure.. Le crtère retenu pour détermner la drote D passant au plus près de tous les ponts sera tel que : La somme des carrés des écarts (SCE) des ponts observés M à la drote soluton sot mnmum. La drote soluton sera appelée drote de régresson de Y sur X. Le crtère est le «crtère des Mondres Carrés Ordnares» (MCO, Ordnary Least Squares en anglas), appelé auss par les statstcens «crtère de Norme L ²». Les écarts sont calculés en projetant les ponts M parallèlement à l axe des Y. On pourrat auss projeter les ponts M parallèlement à l axe des X, on aurat alors une autre drote soluton (régresson de X sur Y). Dans ces deux régressons Y et X ne jouent pas le même rôle. Revue MODULAD, Numéro 35

9 On pourrat auss projeter les ponts M perpendcularement à la drote soluton. Y et X joueraent dans ce cas le même rôle. C est la stuaton que l'on rencontre dans une Analyse en Composantes Prncpales 3, llustrée dans la fgure.3. Y Y e Y = β X O + β e β 0 d X X Fgure.3 Tros projectons possbles du pont (X, Y )... Méthode d estmaton des paramètres β 0 et β La Somme des Carrés des Ecarts (SCE) est donnée par : n = n = β 0 β X ) = S = ε ( Y La valeur de cette foncton S est mnmum lorsque les dérvées de S par rapport à β O et β s'annulent. La soluton est obtenue en résolvant le système : S β 0 = 0 S et = 0 β Les dérvées par rapport à β0 et β sont : S β 0 = n = (Y β O β X ) S β = n = X (Y β O β X ) Ces dérvées s annulent pour deux valeurs b0 et b solutons des équatons à nconnues : 3 On pourrat encore prendre comme crtère la somme des valeurs absolues des écarts des ponts observés à la drote, ce serat alors un crtère de norme L, et pourquo pas prendre un exposant non enter appartenant à l ntervalle [,], ce serat une norme L p. Revue MODULAD, Numéro 35

10 n ( O = = équaton : Y b b X ) 0 équaton : X (Y b b X ) 0 n = O = Ce système de équatons à nconnues détermnent les équatons normales. Développons ces équatons normales : l'équaton donne : Y nb0 b X = 0 et en dvsant par n Y = b0 + bx. On remarque que la drote soluton passe par le centre de gravté du nuage X Y = ( X, Y), n n. L'équaton donne dans laquelle on remplace b0 Y X b0 X b X = 0 Soluton : Y X (Y bx) X b X = 0 ( b X Y ( X Y )/n = X X ) / n en dvsant numérateur et dénomnateur par n on retrouve les expressons de la covarance et de la varance emprques : (X X)(Y Y) Cov(X,Y) = formule n (X X) Var(X) b = Les ponts qu sont sur la drote de régresson ont pour ordonnée: Ŷ = b + 0 bx Le coeffcent b dépend au numérateur de la covarance entre X et Y, et de la varance de X pour le dénomnateur. Termnologe Ŷ est l estmaton de Y obtenue à partr de l équaton de régresson. Ŷ se prononce Y chapeau. b0 et b sont les estmateurs des mondres carrés des paramètres nconnus β0 et β. On appelle estmatons les valeurs partculères (solutons) prses par les estmateurs b0 et b. Revue MODULAD, Numéro 35

11 Dans la sute du document on ne fera pas de dfférence de notatons entre les estmateurs b 0 ou b et leurs estmatons...3. Effet d un pont observaton sur la drote de régresson Avec cet applet java on peut vor l effet de lever (leverage) sur le calcul de la drote de régresson en ajoutant un pont -rouge- par un smple clc de sours. Ic le pont rouge est un pont nfluent dans la lason (X,Y). Plus le pont est élogné de la tendance plus son lever sera grand. Il peut auss exster des ponts atypques -Outlers- seulement en drecton des X, ou dans la drecton des Y (vor le chaptre 4)...4. Décomposton de l'écart entre Y et la moyenne de Y En un pont d'observaton X, Y ) on décompose l'écart entre Y et la moyenne des ( Y en ajoutant pus retranchant Ŷ la valeur estmée de Y par la drote de régresson. Cette procédure fat apparaître une somme de deux écarts : (Y (Y Y) = (Y Y) = (Y Ŷ + Ŷ Y) Ŷ ) + (Ŷ Y) Ans l'écart total ( Y Y) peut être vu comme la somme de deux écarts : un écart entre Y observé et Ŷ la valeur estmée par le modèle un écart entre Ŷ la valeur estmée par le modèle et la moyenne Y. Le graphque suvant montre l'explcaton géométrque de cette décomposton. Cet artfce de décomposton aura un ntérêt fondamental dans l'analyse de la varance abordée au paragraphe suvant. Revue MODULAD, Numéro 35

12 Ŷ Y Y Ŷ = b + 0 b X Y.. ( Y Y).... ( Y Ŷ ) ( Ŷ Y ) X X Fgure.4 Décomposton des dfférents écarts Ecart total ( Y Y) = écart dû au model ( Y Ŷ ) + écart résduel ( Ŷ Y )..5. Analyse de la varance Ce que le modèle explque et ce qu'l n'explque pas A partr de l équaton de la drote de régresson (modèle retenu), on peut pour tout pont d'abscsse X calculer son estmaton (ordonnée) Ŷ Ŷ = b + b X avec = Y b X 0 b0 ce qu donne : Ŷ = Y + b (X X) ou encore Ŷ Y = b (X X) formule n En un pont l écart ou résdu est : Y Ŷ = (Y Y) (Ŷ Y) On élève les deux membres au carré et on somme sur les observatons : En utlsant la formule n : ( Y Ŷ ) = (Y Y) + (Ŷ Y) (Y Y)(Ŷ Y) ( Y Ŷ ) = (Y Y) + (Ŷ Y) (Y Y) b(x X) En utlsant une transformaton de la formule n : b (X X) = (X X)(Y Y) on obtent Revue MODULAD, Numéro 35

13 ( Y Ŷ ) = (Y Y) + (Ŷ Y) b (X X) En utlsant la formule n : ( Y Ŷ ) = (Y Y) + (Ŷ Y) (Ŷ Y) On aboutt enfn à l égalté fondamentale : ( Y Y) = (Ŷ Y) + (Y Ŷ ) La SCE (Somme des Carrés des Ecarts) totale est égale à la somme des carrés des écarts dus au modèle augmentée de la somme des carrés des écarts dus aux erreurs Cette formule montre que : SCE totale = SCE modèle + SCE erreur. Les varatons de Y autour de sa moyenne, c est-à-dre SCE Totale (SS Total pour Sum of Squares en anglas) peuvent être explquées par : le modèle grâce à SCE Modèle (SS Model en anglas) ; et ce qu ne peut être explqué par le modèle, est contenu dans SCE Erreur (SS Error en anglas). L'erreur est auss appelée le «résdu». Standard de présentaton de l'analyse de la Varance On a l'habtude de représenter l'analyse de la varance sous forme d'un tableau, fasant apparaître les 3 sources de varaton : le total en 3 ème lgne qu se décompose en la parte modèle et la parte erreur. A chaque source de varaton (Total, Modèle, Erreur) correspond un nombre de degrés de lberté (ddl) respectvement égal à n-, p, n-p-, n : nombre d'observatons p : nombre de varables régresseurs (la varable X0, constante égale à, correspondant au paramètre β0, n'est pas comprse). Nous présentons le tableau général de l analyse de varance pour p régresseurs. Pour la régresson smple, p= (une seule varable régresseur). Revue MODULAD, Numéro 35

14 Tableau. 3 Analyse de varance (verson anglase) Source DF Sum of Squares Mean Square MODEL p n ( Ŷ = Y) n = (Ŷ Y) / p ERROR n-p- n ( Y = Ŷ ) n = (Y Ŷ ) /(n p ) TOTAL n- n ( Y = Y) A brévatons: DF : Degrees of Freedom se tradut par degrés de lberté (ddl). Ils vérfent : DF total =DF model +DF erreur SS : Sum of Squares se tradut par Somme des Carrés des Ecarts (SCE) MS : Mean Square, est le rapport SS/DF, relatf sot au modèle sot à l'erreur n MSE : Mean Square Error = (Y Ŷ ) /(n p ) représente le carré de l'écart moyen résduel. = Tous ces «ndcateurs» SS, MS, MSE, vont jouer un rôle mportant dans l apprécaton du modèle calculé à partr des observatons. Y Y.. SS Total.... Y SS error SS model ˆ = b + b X Y 0 X Fgure.5 Décomposton des SS Sums of Squares La fgure.5 montre les lens entre SS total, SS model et SS error lorsque l on somme les carrés des écarts sur tous les ponts. Revue MODULAD, Numéro 35

15 Il est remarquable que la formule de décomposton de l'écart total en un pont, vu au..4. Y Y) = (Ŷ Y) + (Y Ŷ ) ( prennela même forme pour la somme des carrés. ( Y Y) = (Ŷ Y) + (Y Ŷ ) Comment apprécer globalement la régresson Les deux quanttés SCE totale (SS total) et SCE modèle (SS model) sont des sommes de carrés donc toujours postves ou nulles et telles que SCE Modèle SCE Totale. Le rapport SCE Modèle SCE Totale est donc comprs entre 0 et. On appelle ce rapport le coeffcent de détermnaton SCE Modèle SS mod el R = = SCE Totale SS Total Cas partculer : S tous les ponts Y observés sont algnés sur la drote de régresson, le modèle est parfatement adapté et SCE Erreur = 0, SCE Modèle Dans ce cas: = SCE Totale Interprétaton de R R qu vare entre 0 et, mesure la proporton de varaton totale de Y autour de la moyenne explquée par la régresson, c est-à-dre prse en compte par le modèle. Plus R se rapproche de la valeur, melleure est l'adéquaton du modèle aux données. Un R fable sgnfe que le modèle a un fable pouvor explcatf. On démontre que R représente auss le carré du coeffcent de corrélaton lnéare entre Y et Y estmé: R = Corr (Y,Ŷ) Dans le cas de la régresson smple, R est auss la valeur absolue du coeffcent de corrélaton lnéare entre Y et X. R = Corr (Y,X) Revue MODULAD, Numéro 35

16 Len entre coeffcent de corrélaton de varables et le cosnus de leur angle Soent vecteurs X et X défns dans un espace R n (espace des n observatons), le coeffcent de corrélaton entre X et X est auss le cosnus de l angle θ entre ces vecteurs. En utlsant les conventons de notaton, le produt scalare de vecteurs X et X se note <,X > = X * X Cos( ) X θ On a : < X (X X)(X X),X >,, Cos(X,X ) = = * Corrélaton (X,X ) / = ( < X,X >< X,X > ) n s * s =,n s * s étant le produt des écarts-type des vecteurs. L nterprétaton d un coeffcent de corrélaton comme un cosnus est une proprété mportante. Comme le remarque TOMASSONE (99), les varables X n étant pas des varables aléatores, l est plus correct de parler de «cosnus» des angles formés par les vecteurs assocés, en réservant le terme «coeffcent de régresson» pour sa smltude avec l estmaton de ce coeffcent à partr d un échantllon. Exemple : Régresson de la Talle en foncton du Pods Sur les données du tableau., la premère étape consste à «regarder» les données pour vérfer qu une lason lnéare est envsageable (Proc GPLOT). Pus en deuxème étape on calcule le coeffcent de corrélaton (Proc CORR). Cette deuxème étape non ndspensable en régresson smple devendra essentelle en régresson multple. Enfn on effectue une régresson lnéare (Proc REG). Programme SAS Proc gplot data=lbreg.talpod; plot Y*X; ttle ' Graphque talle en foncton du Pods '; Proc corr data=lbreg.talpod; ttle 'Corrélaton '; var Y X; Proc REG data=lbreg.talpod; ttle 'Régresson de la Talle en foncton du Pods '; model y=x; run; Revue MODULAD, Numéro 35

17 Le coeffcent de corrélaton CORR entre Y et X vaut Sorte standard de la Proc REG sans optons Dans la sorte de Proc REG on obtent d abord le tableau d analyse de la varance, pus les estmatons des paramètres. Revue MODULAD, Numéro 35

18 Lecture de l Analyse de la Varance SS Model = n ( Ŷ = n Y) = SS Error = ( Y Ŷ ) = 9.08 = SS Total = = Mean Square Model = n = (Ŷ Y) / p Mean Square Error = (Y Ŷ ) /(n p ) n = Root MSE = MS ERROR = Dependant Mean = Y = 63.5 = = R-Square = SS Model = = CORR(X,Y) = (0.8377). SS Total Autres ndcateurs Root MSE CV = C est le Coeffcent de Varaton = 00 Dep Mean Le CV est un ndcateur sans dmenson -exprmé en %- permettant de comparer l'écart moyen résduel à la moyenne de la varable dépendante Y. Ce pourcentage est plutôt utlsé pour comparer modèles (donc CV) portant sur le même jeu de données. Le coeffcent R ajusté, Adj R-sq Le R ajusté (utlsé en régresson multple) tent compte du nombre de paramètres du modèle. R ajusté = ( n ntercept n p )( R ² ) Avec Intercept=0, s l n'y a pas de constante b0 à l'orgne 4 snon Intercept =. Le reproche fat au coeffcent de détermnaton est qu'l peut approcher la valeur, nterprété comme un ajustement parfat, s on ajoute suffsamment de varables régresseurs. Le R ajusté tent compte du rapport p/n entre le nombre de paramètres du modèle et le nombre d'observatons. Selon certans auteurs ce coeffcent permet de comparer des modèles de régresson sur dfférents ensembles de données, mas l ne fat pas l'unanmté. Attenton : Adj R-sq peut prendre des valeurs nféreures à zéro! 4 S'l n'y a pas de constante b 0 à l'orgne, les statstques relatves à l'analyse de la varance n'ont pas la même nterprétaton. Revue MODULAD, Numéro 35

19 Lecture du tableau des paramètres Intercept = b 0 = donne la valeur de la constante à l orgne. On peut remarquer que dans cet exemple, cette valeur n a pas de sgnfcaton dans le monde physque. On ne peut concevor qu à un pods de valeur nulle corresponde une talle de La pente de la drote (coeffcent de X) = b = On l nterprète comme augmentaton de la talle lorsque le pods augmente de une unté. Equaton de la drote : Talle = * Pods Là encore l faut se préserver de toute nterprétaton causale. Peut-on agr et augmenter le pods en espérant fare augmenter la talle? Nous verrons les autres ndcateurs dans la sute du chaptre. Pour meux comprendre la technque de la régresson, voyons certanes représentatons géométrques...6. Représentatons géométrques Régresson smple de Y sur X Afn d'avor une dée géométrque de la régresson prenons un exemple avec n=3 observatons (y,x), (y,x) et (y3,x3). Le vecteur réponse Y = (y,y,y3), et le vecteur régresseur X = (x,x,x3) peuvent se représenter dans l'espace à 3 dmensons des observatons. On nomme,,3 les axes de ce repère. Dans l espace des observatons représenté fgure.6 5, la drote des constantes a pour vecteur drecteur (,,). 5 La fgure.6 est une synthèse des graphques de DRAPER & SMITH (966) pp-3 et SAPORTA (006) p08 Revue MODULAD, Numéro 35

20 Q est la projecton orthogonal e de Y sur de coordonné es ( Y,Y,Y) 3 Y Corr ( Y, Yˆ) X P est la projecton orthogonal e de Y sur le plan (X, ) et représente = (Ŷ, Ŷ, Ŷ Ŷ 0 Q P Résdu Fgure.6 Régresson de Y sur (X, ) dans l'espace des 3 observatons. L'nterprétaton géométrque de la régresson est la suvante : Régresser Y sur ( et X) consste à projeter orthogonalement Y sur le plan (,X) ce qu donne le pont P. S d'autre part on projette Y sur la drote, on obtent le pont Q. Par le théorème des 3 drotes perpendculares Q est auss la projecton orthogonale de P sur. Dans le trangle YQP, rectangle en P, on peut applquer le théorème de Pythagore : YQ = YP + PQ ( Y Y) = (Y Ŷ ) + (Ŷ Y) La longueur YQ représente la somme des carrés corrgée SCE Totale (SS Total). La longueur YP représente la somme des carrés non explquée par le régresson SCE Erreur (SS error). La longueur PQ représente la somme des carrés explquée par la régresson sot SCE Modèle (SS model). C'est l'équaton fondamentale de l'analyse de la varance vue précédemment : SS Total = SS Model + SS Error Revue MODULAD, Numéro 35

21 PQ Le coeffcent de détermnaton R est le rapport. YQ R représente donc le carré du cosnus de l'angle (YQ, QP), c'est à dre l'angle entre Y et. Ŷ Plus l'angle entre Y et Ŷ est fable, melleur est le pouvor explcatf du modèle. Et mantenant l sufft de généralser mentalement à l'ordre n cette représentaton à 3 dmensons. Remarque en régresson multple S au leu d'avor une seule varable régresseur X, on avat pluseurs varables X,.X P, alors le plan de projecton (X, ) serat remplacé par l hyperplan formé par les vecteurs X,.X p,. Régresser Y sur les p varables régresseurs conssterat à projeter orthogonalement Y sur l'hyperplan détermné par X,.X p,. Dstrbuton en un pont fxé de X Jusqu'c, on ne s'est appuyé que sur des calculs algébrques et sur des notons de géométre, sans fare appel à des notons de statstque. On ne cherchat que la drote d'ajustement sur l'échantllon. Aucune supposton n'a été nécessare dans toutes les démonstratons. S mantenant, on souhate utlser les résultats obtenus à partr des observatons, vues comme un échantllon, pour nférer sur la populaton, l faut fare appel à des notons de probablté, et de statstque pusque dans les relevés de données (exemple : Pods et Talle) à notre dsposton on n'a qu'un échantllon de valeurs et non toute la populaton. Sur la fgure.7, on remarque que pour une même valeur du Pods, par exemple 85, l y a pluseurs valeurs possbles de la Talle (58, 59, 60 et 6) Talle Pods Fgure.7 Talle en foncton du Pods Revue MODULAD, Numéro 35

22 Il n'y a pas de valeur unque assocée à une valeur X mas une dstrbuton de valeurs. Pour chaque valeur du pods (X) exste une dstrbuton théorque des talles (Y). Les valeurs de centrage sont les espérances des talles de la populaton correspondant à chaque pods X. L espérance (moyenne théorque µ) de chaque dstrbuton de Y, est appelée «statstquement parlant» l'espérance de Y sachant X que l'on note E(Y/X). L'hypothèse de la régresson lnéare est que les µ sont algnés sur la vrae drote de régresson qu est nconnue. Remarque : pour smplfer l'écrture on note E(Y) au leu de E(Y/X), sot : µ = E(Y ) = β 0 + β X Représentaton de X fxé et Y aléatore Dstrbuton de Y pour X fxé p(y X) Y ^ Drote estmée Y= b0+bx vrae drote de régresson E(Y)= β0+β X Y µ ε Y µ Y3 µ3 <--- observatons y3 X X X3 X Fgure.8 Dstrbutons de Y pour X fxé Pour un même pods X fxé on a une dstrbuton de talle Y, dont on a observé une réalsaton y, ou pluseurs. Par exemple sur le graphque Talle*Pods de la fgure.7, on remarque que pour X=46 on a une seule valeur observée Y=5, tands que pour X=85 on observe pluseurs valeurs de Y (58, 59, 60 et 6). Chaque Y est une varable aléatore qu a une dstrbuton de probablté de Y sachant X notée p(y X). Des hypothèses sur la régularté de ces dstrbutons devront être fates : Revue MODULAD, Numéro 35

23 les dstrbutons, pour tous les ponts X, sont supposées normales les espérances des dstrbutons sont centrées sur la drote de régresson les varances de chaque Y condtonnellement à X sont toutes égales. De plus les varables aléatores Y ne dovent pas être relées entre elles, elles sont supposées ndépendantes. Ces suppostons se résument ans : Les varables aléatores Y sont ndépendantes, d'espérance et de varance : E( Y ) β + β X = 0 varance( Y ) = Il faut avor à l esprt que E(Y) est une espérance condtonnelle. De même lorsque l on parle de varance de Y, c est sous-entendu, varance condtonnellement à X. «Vrae» drote de régresson et drote estmée par la régresson La fgure.8 montrant les dstrbutons de Y pour X fxé est une llustraton du modèle de régresson lnéare. Toujours en supposant que le modèle lnéare postulé est le vértable modèle, on obtendrat le vrae drote de régresson E(Y) = β0 + βx, s on avat à notre dsposton toute la populaton. Comme on n'a qu'un échantllon d'observatons, on n'a qu'une estmaton = b b X ou drote estmée par la régresson. Ŷ + 0 A propos des erreurs L'erreur théorque ε représente l'écart entre Y observé et l'espérance E(Y) non observable. On notera que ε non plus n'est pas observable. Ce qu est observable c'est l'erreur e correspondant à l'écart entre Y observé et Ŷ, son estmaton par le modèle. Le résdu observé e est une estmaton de l'erreur nobservable ε. σ.3. Glssement fonctonnel de la méthode des Mondre s Carrés Ordnares à la Régresson. De la théore des erreurs en astronome à l'étude des moyennes en scences socales, un sècle les sépare. Revue MODULAD, Numéro 35

24 .3.. De l'astronome... Hstorquement la méthode des mondres carrés à d'abord été développée par LEGENDRE en 805, pour répondre à une queston posée par les astronomes et les spécalstes de la géodése comme le rapporte DESROSIERES (993) : "Comment combner des observatons effectuées dans des condtons dfférentes, afn d'obtenr les melleures estmatons possbles de pluseurs grandeurs astronomques ou terrestres lées entre elles par une relaton lnéare?". Ces grandeurs sont mesurées par des nstruments mparfats, et par des observateurs qu ne sont pas tous dentques. Il y a des erreurs de mesures dans les observatons. De là provent le vocabulare : observaton, écart, erreur ou résdu. Vous pouvez trouver sur nternet une traducton anglase de ce premer artcle scentfque de Legendre sur les mondres carrés (Least Squares) Aux Scences Socales En s'appuyant sur :. Le théorème central lmte (LAPLACE 80) montrant que même s la dstrbuton de probablté des erreurs ne sut pas une lo normale, celle de la moyenne tend vers une lo normale, quand le nombre des observatons s'accroît ndéfnment,. La synthèse opérée par Laplace et Gauss vers 80 entre: comment combner au meux des observatons mparfates? Réponse : en utlsant le mleu (la moyenne), comment estmer le degré de confance que mérte une estmaton? Réponse : en terme de probablté, Galton nventeur de la "régresson" et PEARSON nventeur de la "corrélaton" applquèrent l'ajustement des mondres carrés à des données socales dans les années 880. Nous r eprodusons c-après le graphque 6 de GALTON, révélateur d une «Reverson», et accessble surnternet : resson.gf Galton Dagram Regresson En 885 GALTON réalsa le tableau qu crose la talle de 98 enfants (devenus adultes) nés de 03 parents, en foncton de la talle moyenne de leurs parents (la talle de la mère étant préalablement multplée par un coeffcent.8). 6 F GALTON, Regresson towards medocrty n heredtary statur", Journal of the Anthropologcal Insttute 5 (886), Revue MODULAD, Numéro 35

25 En présentant ce tableau sous forme d un graphque, GALTON remarqua que l on pouvat vor des ellpses de denstés. S les parents sont plus grands que la moyenne, les enfants seront également plus grands que la moyenne mas avec une talle plus proche de la moyenne que celle de leurs parents. S les parents sont de pettes talles, leurs enfants seront également plus petts que la moyenne, mas avec une talle plus proche de la moyenne que celle de leurs parents. Il y a régresson vers la moyenne. D où le terme de «régresson». Ce n'est que vers les années 930 que le formalsme de la méthode des mondres carrés assocé à une nterprétaton probablste est devenu la «Régresson» (ARMATTE (995)). Revue MODULAD, Numéro 35

26 Le glssement des méthodes d'analyse, des erreurs en Astronome vers des estmatons de moyennes en Scences Socales, a condut à appeler erreur ou perturbaton ou encore aléa, l'écart de Y par rapport à sa moyenne. Le modèle s'écrt : Y = β + β X + ε 0 où les erreurs ε sont des aléas ndépendants d espérance =0 de varance σ.3.4. Formalsaton des Suppostons L'ensemble des suppostons nécessares pour élaborer les tests statstques se résume ans: l' erreur ε est une varable aléatore d espérance nulle et de varance constante σ. E( ε = 0 et Var( ε ) = σ ) l' erreur ε est non corrélée à ε j. Cov( ε, ε j ) = 0 pour j les erreurs ε sont normalement dstrbuées ε N(0, σ ) On résume souvent ces 3 suppostons par l'expresson " d selon une lo normale" qu sgnfe Indépendantes et Identquement Dstrbuées selon une lo normale Il faut de plus que les varables aléatores Y condtonnellement à X soent ndépendantes, et que les régresseurs X j soent non aléatores et non corrélés. Lorsque ces suppostons sont vérfées, l estmateur MCO est non basé et effcace (de varance mnmum). En anglas on utlse l acronyme BLUE (BEST Lnear Unbased Estmator) Nous verrons au paragraphe suvant, comment ntervennent ces suppostons sur les aléas dans les rasonnements statstques. Revue MODULAD, Numéro 35

27 .4. Confance à accorder aux résultats Pour nférer de l'échantllon à la populaton dont sont ssues les observatons, la logque statstque nous condut à effectuer des tests d'hypothèses, et à détermner des ntervalles de confance autour des valeurs estmées. Successvement on va chercher à : tester la sgnfcaton globale de la régresson, tester l'hypothèse nulle β=0 et à calculer l'ntervalle de confance de β, tester l'hypothèse nulle β 0=0 et à calculer l'ntervalle de confance de β0, calculer la précson de l'estmaton de Y pour la moyenne et pour une observaton ndvduelle..4.. Test de la sgnfcaton globale de la régresson Ce test a surtout un ntérêt dans le cadre de la régressson multple, c'est à dre avec p régresseurs. En antcpant sur le chaptre, qu présente la régresson multple, on généralse le modèle de régresson à un régresseur au cas d'un modèle à p régresseurs X, X L X : p µ = E(Y ) = β + β X + L + β 0 p X p Ce test permet de connaître l'apport global de l'ensemble des varables X,,...,Xp à la détermnaton de Y. On veut tester l'hypothèse nulle: H0: β = L = β p = 0 contre Ha: Il exste au mons un β j parm β, L, βp non égal à 0. On calcule la statstque de test avec SS model MS model = et p MS model F = MS error SS error MSerror = n p représentant respectvement une somme de carrés des écarts moyens respectvement pour le modèle et pour l'erreur. S H0 est vrae et sous réserve des suppostons suvantes, ce rapport F est une valeur observée d'une varable qu sut une lo de Fsher-Snedecor à p et n-p- degrés de lberté. S les ε sont ndépendants et suvent une lo normale de même varance ε N(0, σ ) Revue MODULAD, Numéro 35

28 Alors la statstque F sut une lo de Fsher-Snedecor Règle de décson MS model F = F(p,n p ) MS error où F α(p,n p ) à (p) et (n-p-) degrés de lberté. S F observé (p,n p ) F α Alors H : β = L = β 0 dot être rejetée au 0 p = nveau α représente le quantle d'ordre ( α ) de la lo de Fsher-Snedecor Note: Dans SAS, la foncton de répartton nverse pour une lo de Fsher-Snedecor est donnée par la foncton FINV. Instructon SAS F = FINV( α,p,n p ) Avec n= nombre d'observatons et p = nombre de régresseurs (non comprs la constante). Pour évter de ra sonner sur F, SAS fournt la p-value assocée au F observé. La p- value est le nveau de sgnfcatvté du test de Fsher-Snedecor, c'est-à-dre la probablté de dépasser le F observé s l'hypothèse nulle est vrae. O n compare la p-value au rsque α chos (par exemple α=0.05). Rasonnement sur la p-value S p-value α Alors on rejette l'hypothèse nulle β = L = β 0 p = Interprétaton On dt que la régresson est sgnfcatve au nveau α. Le modèle retenu amélore la prévson de Y par rapport à la smple moyenne des Y. Pour la régressson smple, ce test porte unquement sur le paramètre β. Ce test fournt un moyen d'apprécer la régresson dans son ensemble, ce qu ne sgnfe pas que chacun des coeffcents de la régresson sot sgnfcatvement dfférent de Statstques lées au paramètre β Pour s'assurer de la sgnfcatvté du paramètre β, on va dans une premère étape calculer la varance de b, pus en deuxème étape tester l'hypothèse nulle β =0, en trosème étape on pourra alors détermner un ntervalle de confance pour β autour de b. Revue MODULAD, Numéro 35

29 Calcul de la varance de b On a vu que b est le rapport de la covarance entre X et Y dvsé par la varance de X : b = (X X)(Y (X X) Y) On développe le numérateur b = (X X)Y Y (X X) (X X) Comme le ème terme du numérateur est nul, par défnton de la moyenne ( X X) =0, l ne reste que le er terme. b ((X X)Y + L + (X n = (X X) X)Y ) On ne peut calculer la varance de b que s on fat des suppostons sur les X et sur les lasons entre les Y. n S uppostons pour calculer la varance de b S les X sont non aléatores S les Y sont non corrélés et de même varance Et comme par constructon Cov (Y,b ) = 0 Alors : σ ) a Var(Y ) + + Var(b = L an Var(Y n ) avec (X X) a = assmlés à des constantes (X X) Ce qu permet d'aboutr à : Var(b ) = σ (X X) σ représente la varance nconnue de Y. Il faut de Supposton S le modèle postulé est le modèle correct Alors σ peut être estmé par les erreurs entre les observés et Ŷ nouveau fare une supposton. Y Revue MODULAD, Numéro 35

30 Mean Square Error= MSE = s = (Y Y ˆ ) n (Y Ŷ ) Note : Pour la régresson multple : MSE = s = n p Compte tenu de toutes ces suppostons, l'estmateur de l'écart-type de b devent : s (b ) = s (X X) Remarques: La varance de b est nversement proportonnelle à la dsperson des X autour de la moyenne. Donc, s on veut amélorer la précson de b l faut, s possble, augmenter la varance emprque des X. La varance de b est nversement proportonnelle à (n-), n étant la talle de l'échantllon. Donc, s on veut amélorer la précson de b l faut augmenter la talle de l'échantllon. Test portant sur le paramètre β On s'ntéresse au test de l'hypothèse nulle: H0 : paramètre β = 0 contre Ha : paramètre β 0 On calcule la statstque de test Tobservé = b s(b ) S β =0 la statstque Tobservé sut une lo de Student, sous l'hypothèse que les erreurs soent ndépendantes et dentquement dstrbuées selon la lo Normale. Suppostons S β = 0 S ε N(0, σ ) Alors T observé sut une lo de Student à n- degrés de lberté Rasonnement On compare la p-value assocée à T observé, au rsque α chos (par ex:α=0.05). S p-value α Alors on rejette l'hypothèse β = 0 Concluson : β est sgnfcatvement dfférent de zéro au nveau α Revue MODULAD, Numéro 35

31 Calcul de l'ntervalle de confance de β On peut calculer un ntervalle de confance (IC de nveau -α) autour de b, ce qu permet de statuer sur le paramètre β : [ b t s(b );b + t s(b )] IC ( β) = / / α où t α / représente le quantle d'ordre -α/ de la lo de Student à (n-) degrés de lberté. α Note Dans SAS, la foncton de répartton nverse pour une lo de Student est donnée par la foncton TINV. Instructon SAS T = TINV( α /,n ) avec n= nombre d'observatons Dans le cas de la régresson multple avec p=nombre de régresseurs, la formule précédente devent: Instructon SAS T = TINV( α /,n p ) En pratque : s α=5% et s n est assez grand (n>30), pour approcher la lo de Student par la lo Normale, α [ b.96 s(b );b +.96 s(b )] Alors IC0.95( β ) = Interprétaton S la valeur 0 est dans l'ntervalle de confance de β, alors l'ntroducton de la varable X dans le modèle n'apporte aucun pouvor explcatf sur Y Statstques lées au paramètre β 0 La premère étape consste à calculer la varance de b0, pus en deuxème étape à tester l'hypothèse nulle β 0 =0, en trosème étape on pourra alors détermner un ntervalle de confance pour β 0. Calcul de la varance de b 0 On a vu que b0 vaut : la varance vaut: b0 = Y bx Var(b0 ) = Var(Y bx) Rasonnement pour calculer la varance de b0 Pour pouvor calculer la varance l faut fare des suppostons sur les termes de cette expresson. On suppose que les X sont non aléatores. Revue MODULAD, Numéro 35

32 Seuls la moyenne des Y et le coeffcent b sont des varables aléatores. On peut montrer de plus que la covarance entre Y et le coeffcent b est nulle 7. Suppostons pour calculer la varance de b0 S les X sont non aléatores S les Y sont non corrélés et de même varance Et comme par constructon Cov (Y,b ) = 0 σ Alors : Var(b ) 0 σ = n = Var(Y) + X Var(b ) = σ σ X + X = (X X) n (X X) σ représente la varance nc supposton. Supposton onnue de Y. Il faut de nouveau fare une S le modèle postulé est le modèle correct Alors σ peut être estmé par les erreurs entre les Y observés et Ŷ s (Y Ŷ ) = = MSE n L'estmateur de la varance de b 0 devent : s (b 0 ) s X = n (X X) Remarque: La varanc e de b0 est proportonnelle à la somme des carrés des X. S le plan d'expérence est tel que les valeurs des X sont très grandes, la varance de b0 sera très grande, et l'estmaton de b0 n'aura aucune sgnfcaton. Test portant sur le paramètre β 0 = 0 contre Ha : paramètre β0 0 Test de l'hypothèse nulle H0 : paramètre β0 On calcule la statstque de test Tobservé = b 0 s(b 0 ) 7 vor démonstraton dans NETER, WASSERMAN, KUTNER pp Revue MODULAD, Numéro 35

33 S β0=0 la statstque Tobservé sut une lo de Student à n- degrés de lberté, sous l'hypothèse que les erreurs sont ndépendantes et dentquement dstrbuées selon la lo Normale. Supposton S ε N(0, σ ) Alors T observé sut une lo de Student Rasonnement On compare la p-value assocée à T observé, c'est-à-dre la probablté de dépasser le T observé en valeur absolue, au rsque α chos (par exemple α=0.05). S p-value α Alors on rejette l'hypothèse β0 =0 Concluson β 0 est sgnfcatvement dfférent de zéro au nveau α Calcul de l'ntervalle de confance de β 0 On peut assgne r un ntervalle de confance autour de b0, ce qu permet de statuer sur le paramètre β0: [ b t s(b );b + t s(b )] IC ( β0 ) = 0 / 0 0 / 0 α où t α / représente le quantle d'ordre -α/ de la lo de Student à n- degrés de lberté. α Note Dans SAS, la foncton de répartton nverse pour une lo de Student est donnée par la foncton TINV. Instructon SAS T = TINV( α /, n ) avec n= nombre d'observatons Dans le cas de la régresson multple avec p=nombre de régresseurs, la formule précédente devent: Instructon SAS T = TINV( α /,n p ) En pratque s on chost le rsque α=5% et s n est assez grand (n>30) pour approcher la lo de Student par la lo Normale, alors l'ntervalle de confance de β0 à 95% est donné par : α [ b.96 s(b );b +.96 s(b )] IC0.95( β 0 ) = Revue MODULAD, Numéro 35

34 Interprétaton S la valeur 0 est dans l'ntervalle de confance de β0, alors la drote de régresson passe par l'orgne. Exemple d estmaton des paramètres avec Proc REG Sur l exemple de la Talle en foncton du Pods Programme SAS Proc REG data=lbreg.talpod outest=tablesorte; ttle 'Régresson de la Talle en foncton du Pods '; model y=x ; proc Prnt;ttle "Table de l'opton outest"; run; Sorte de Proc REG Interprétaton du test de la sgnfcaton globale de la régresson La statstque MS model F = = = ndque que globalement le modèle avec le MS error 6.6 régresseur Pods amélore la prévson de la Talle, par rapport à la moyenne seule dans le modèle. Revue MODULAD, Numéro 35

35 Interprétaton des estmatons des paramètres L estmateur de β 0 a pour valeur Son écart type vaut La statstque de Test t value = = et sa p value assocée est ben.7384 nféreure au seul On rejette l hypothèse que β 0 avec une grande confance. O = Même rasonnement pour l estmateur de β qu a pour valeur Note Dans le cas de la régresson smple la statstque de test de l estmateur de β et lé à F : F = (t value) D ans la table en sorte par l opton outest=, SAS enregstre RMSE et les valeurs des paramètres. SAS n mprme pas en standard les ntervalles de confance des paramètres mas on peut les récupérer dans cette table en sorte, en utlsant l opton outest= et le mot clé Tableout. Programme SAS Proc REG data=lbreg.talpod outest=tablesorte Tableout; ttle 'Régresson de la Talle en foncton du Pods '; model y=x ; proc PRINT data=tablesorte; ttle "Table produte par l'opton outest avec le mot clé Tableout"; run; Les lgnes L95B et U95B donnent les ntervalles de confance à 95% des paramètres Précson sur l'estmaton de Y On a vu que pour chaque valeur X fxée, la vrae drote de régresson état le leu de l'espérance (.e. la valeur moyenne) de Y et que les Y devaent théorquement se dstrbuer selon une lo normale centrée sur cette drote avec une varance théorque σ. Revue MODULAD, Numéro 35

36 Pour évaluer la précson sur l'estmaton de Y on aura deux optques à consdérer, sot on s'ntéressera à l'ntervalle de confance autour de l'estmaton de la drote de régresson, sot on s ntéresse à l'ntervalle de prévson de Y en foncton de X. Intervalle de confanc e autour de l'estmaton de la drote de régresson Sot Xk représentant un nveau partculer de X pour lequel nous voulons estmer la valeur moyenne de Y. Xk peut être une valeur connue dans l'échantllon, ou une autre valeur de la varable régresseur non repérée dans l'échantllon. La réponse moyenne quand X=Xk est notée E(Yk). L'estmateur de E(Yk) est noté Ŷ. Il faut vor la dstrbuton d'échantllonnage de Ŷ k, comme la dstrbuton que l'on obtendrat s on effectuat des mesures répétées en Xk. Calcul de l'erreur-type sur Ŷ k On a vu que l'estmaton de E(Yk) est donnée par : k Ŷ k = Y + b (X X ) k Plaçons-nous en un pont Xk et calculons la varance de Ŷ k : Var(Ŷ ) = Var(Y + b (X k k X)) Pour pouvor calculer la varance l faut fare des suppostons sur les termes de cette expresson. Comme précédemment on suppose que les X sont non aléatores. Seuls la moyenne des Y et le coeffcent b sont des varables aléatores. On peut montrer de plus que la covarance entre Y et le coeffcent b est nulle 8. Suppostons pour calculer la varance de Ŷ k S les X sont non aléatores S les Y sont non corrélés et de même varance Et comme par constructon Cov (Y,b ) = 0 Alors : σ Var(Ŷk ) = Var(Y) + (Xk X) Var(b) = σ σ = + (Xk X) n (X X) Comme précédemment, on ne connaît pas la varance théorque l'estmer. σ de Y. Il faut 8 vor démonstraton dans NETER, WASSERMAN, KUTNER pp Revue MODULAD, Numéro 35

37 Supposton S le modèle postulé est le modèle correct Alors σ peut être estmé par les erreurs entre les Y observés et Ŷ s (Y Ŷ ) = = MSE n L'estmateur de l'erreur-type de Y ˆ k devent : Calcul de l'ntervalle de confance de Ŷ ˆ (Xk X) ) s(yk = s + n (X X) On montre que pour un modèle de régresson la statstque k Ŷ k E(Y) s(ŷ ) k / sut une dstrbuton de Student à (n-) degrés de lberté. La vrae valeur moyenne µ k de Y pour un Xk a une probablté égale à (-α) d appartenr à l'ntervalle de confance : [ Yˆ t.s(yˆ );Y ˆ + t s(ŷ )] IC α (E(Y )) =. k k α / k k α / L'ntervalle de confance de Ŷ k se matéralse par deux lgnes courbes, des hyperboles, comme le montre la fgure.9. k Fgure.9 Intervalle de confance à 95% de la moyenne des Talles selon les valeurs des Pods A propos de la largeur suvantes : de l'ntervalle de confance, on peut fare les remarques Revue MODULAD, Numéro 35

38 La largeur vare en foncton de ( Xk X) La largeur est mnmum au pont X k = X C'est dre que la précson est la melleure, au centre de gravté du nuage des ponts La largeur croît lorsqu'on s'élogne du centre de gravté. La précson est la plus mauva se aux extrémtés du nuage de ponts. Intervalle de prévson de Y sachant X Ic on s'ntéresse à la prévson d'un e nouvelle observaton ndvduelle de Y pour une valeur X, de la varable X et non pas à la valeur moyenne de Y. k Dans ce cas, la varance de Y a deux composantes :. la varance de la poston centrale de la dstrbuton d'échantllonnage de Ŷ k, cf. calcul réalsé au paragraphe précédent. la varance σ de la dstrbuton de Y autour de sa poston centrale au pont X =. Comme précédemment, on estme σ par s. X k Pour une explcaton vsuelle de cette décomposton vor la fgure.0. 9 lmte de prévson lmte de prévson S E(Yk) est c S E(Yk) est c ^ Yk lmte de confance pour E(Yk) Fgure.0 Illustraton de la prédcton d'une nouvelle observaton ndvduelle de Y L'estmateur de l'erreur-type de Y sachant X devent : s + s = (Ŷk ) s + + n (Xk X) (X X) L'ntervalle de confance d'une prévson de Y sachant X se matéralse là auss par deux lgnes courbes décalées d'une dstance "s" par rapport à l'ntervalle de confance calculé pour la moyenne de Yk. 9 Source : NETER, WASSERMAN et KUTNER, p8. Revue MODULAD, Numéro 35

39 Les remarques fates précédemment sur l'estmaton de la moyenne de Yk sont les mêmes que celles fates pour une observaton ndvduelle. A savor, la largeur de l'ntervalle de confance vare en foncton de ( Xk X), c'est au centre de gravté du nuage de ponts que la précson est la melleure, et aux extrémtés du nuage de ponts que cette précson est la plus mauvase. Fgure. Intervalle de confance à 95% des prévsons ndvduelles des Talles Sur la fgure. on vot que l ntervalle de confance des prévsons ndvduelles est évdemment plus grand que l ntervalle de confance des moyennes théorques. Attenton En prévson et dans un cadre temporel, on cherche à estmer aux extrémtés de la plage de varaton de X, or c' est justement là que la précson est la mons bonne! Exemple avec les optons CLI CLM de la Proc REG Les optons CLI (Confdence Lmt Indvdual) et CLM (Confdence Lmt Mean) de l nstructon model de Proc REG donnent ces ntervalles de confance. Pour sauvegarder ces valeurs dans une table SAS l faut utlser l nstructon Output. Programme SAS Proc REG data=lbreg.talpod ; ttle 'Régresson de la Talle en foncton du Pods '; model y=x /CLI CLM ; Output Out=Table Predcted=Pred resdual=resdu LCL=Borne_Inf_nd UCL=Borne_Sup_Ind LCLM=Borne_Inf_Moy UCLM=Borne_Sup_Moy; proc PRINT data=table ;ttle "Table produte par l'nstructon OUTPUT"; run; Revue MODULAD, Numéro 35

40 Sorte de PROC REG Lecture : Les optons CLM CLI donne pour chaque observaton, les valeurs : Dependant varable : Y Predcted Value : Ŷ Std Error mean predct : erreur-type au pont X 95% CL Mean : les colonnes suvantes donnent les bornes nféreure et supéreure de l ntervalle de prédcton à 95% de la moyenne. 95% CL Predct : les colonnes suvantes donnent les bornes nféreure et supéreure de l ntervalle pour une prédcton ndvduelle. Resdual : résdu L nstructon Output avec les mots clés LCL UCL LCLM UCLM permettent de récupérer ces statstques dans une table SAS: Revue MODULAD, Numéro 35

41 . La régresson lnéare multple Dans ce chaptre nous reprenons les concepts de la régresson lnéare smple pour les formalser et les étendre à la régresson multple. Nous présentons les dfférentes formes de décomposton de sommes de carrés (Sum of Squares) et commentons les résultats obtenus avec la procédure REG... Le crtère des mondres carrés Tout comme en régresson lnéare smple; la régresson lnéare multple cherche à approxmer une relaton fonctonnelle trop complexe en général, par une foncton mathématque smple telle qu'une équaton de la forme: Y = β0 + βx + βx + L+ βpxp + ε R eprenons le résumé des concepts de la régresson lnéare présenté au chaptre. L'équaton de régresson ou modèle postulé, met en relaton: Y : vara ble réponse (à explquer ou varable dépendante). Xj : varables régresseurs (explcatves ou varables ndépendantes). Cette équ aton est lnéare par rapport aux paramètres (coeffcents de régresson) βo, β, L, βp. Le modèle est dt lnéare. Ces paramètres sont nconnus, on les estme en mnmsant le crtère des mondres carrés (MCO ou Ordnary Least Squares). Le crtère des mondres carrés correspond à la mnmsaton de la somme des carrés des écarts (SC Erreur en franças, SS Error en anglas) entre Y observé et Y estmé par l'équaton de régresson. Y estmé est noté Y ^. Ŷ = b + b X b avec: Y : varable réponse Xj : p varables régresseurs, j=, p ndce de l'observaton courante, =, n n le nombre d'observatons. 0 Les valeurs qu mnmsent ce crtère sont des estmatons b 0,b,...b p des paramètres β, β, L β nconnus. O, p Estmaton des paramètres du modèle Dans le cas d'un modèle à p varables régresseurs le crtère des mondres carrés s'écrt: p X p Revue MODULAD, Numéro 35

42 S( β n n n 0,... βp ) = (Y Ŷ ) = ε = (Y β0 βx... βpxp ) = = = Les valeurs des β qu mnmsent ce crtère seront les solutons b, b, b du 0 p système lnéare de (p+) équatons à (p+) nconnues. Avec S kj S b + S b S b = S... S b + S b S b = S p p = (Xk Xk )(X j X j ) pour k,j=,, p =,n p pp p p y py S ky = (Xk Xk )(Y Y) =,n pour k=,,,p Pour résoudre un tel système lnéare les mathématcens ont développé le calcul (algèbre) matrcel qu permet une présentaton et des tratements compacts de grands tableaux de données. La notaton matrcelle est donc devenue l'unque moyen d'appréhender la régresson multple. Cependant cette présentaton cache ben des dffcultés du pont de vue des résolutons numérques sur données réelles. Les estmateurs des mondres carrés estment les paramètres nconnus β, L β O β,, avec une certane précson. Sous les suppostons que les erreurs sont ndépendantes et dentquement dstrbuées selon une lo normale, les estmateurs MCO sont centrés sur une valeur à laquelle est assocé un ntervalle de confance. L ntervalle de confance dépend de l'adéquaton du modèle aux données, adéquaton qu dépend des erreurs nconnues ε : p ε = Y E(Y ).. Formalsaton de la régresson lnéare multple En notaton matrcelle : Y est le vecteur colonne des n observatons de la varable réponse X(n,p) la matrce des observatons des p vecteurs X, chacun de dmenson (n,). A cette matrce on ajoute en premère colonne un vecteur consttué unquement de. Ce vecteur correspond à la constante X0. La matrce X est alors de dmenson (n,p+). Cette représentaton permet de trater la constante X0 comme une varable explcatve. Revue MODULAD, Numéro 35

43 β est le vecteur colonne des (p+) coeffcents de régresson ou paramètres nconnus β. ε représente le vecteur des erreurs. Y = Y Y Y Y 3 L n X = L X X X L n X n L X X p np β = β β β β 0 L p ε = ε ε ε ε 3 L n le modèle s'écrt: Y = Xβ + ε Y estmé par le modèle de régresson s'écrt: Ŷ = Xˆ β = XB Le vecteur colonne βˆ (noté auss B) représente le vecteur des estmateurs b des mondres carrés des paramètres nconnus β. Les notatons matrcelles permettent d'écrre smplement le système à résoudre pour trouver les coeffcents b qu mnmsent le crtère des mondres carrés: ( X' X)B = (X' Y) X' désgnant la matrce transposée de X. Le vecteur B des coeffcents soluton s'obtent en nversant la matrce ( X X) : B = (X X).(X Y) La résoluton de ce système n'est pas toujours possble. Cette résoluton est lée à la possblté d'nverson de la matrce ( X X). Supposons que varables X et Xj soent corrélées entre elles c'est-à-dre qu'l exste une relaton lnéare permettant de passer de X à Xj on a alors lgnes de la matrce ( X X) qu sont proportonnelles et lorsque l'on veut résoudre le système l ne reste plus que p équatons ndépendantes et toujours (p+) nconnues à trouver. Le système est ndétermné, l exste une nfnté de solutons. Les varances des estmateurs (b) sont les éléments dagonaux de la matrce de varance-covarance des X nversée multplés par la varance des erreurs σ. σ (b) = σ (X X) Comme pour la régresson smple σ est estmé par SS error MSE = n p Revue MODULAD, Numéro 35

44 Les varances des estmateurs dépendent des éléments dagonaux de la matrce à nverser. S des régresseurs sont corrélés, les varances des estmateurs des paramètres sont élevées, et les estmatons sont nstables (non robustes). Un exemple de cette nstablté sera donné au chaptre 4. La matrce H A partr de l'expresson du vecteur B des estmateurs des coeffcents on peut calculer l'estmaton de Y: Ŷ Ŷ Ŷ = = = avec XB X( X X ) HY H = X( X X ) X Y X Cette matrce H - H comme Hat matrce- qu ne comporte que des données relatves aux varables régresseurs va jouer un rôle mportant, et son usage sera développé chaptre Exemples de régresson lnéare multple avec Proc REG.3.. Présentaton des données Pour présenter la régresson multple avec quelques optons de Proc REG, nous avons reprs l exemple de la chenlle processonnare du pn traté dans l ouvrage de TOMASSONE & al. Cet exemple est fréquemment analysé dans la lttérature françase (vor FOUCART, AZAIS-BARBET). On pourra ans, avec leurs ouvrages, poursuvre des analyses plus complexes de ces données. Le fcher de données est composé de 33 placettes où sont plantés des arbres nfectés par des nds de chenlle «procesonnare du pn», une varable réponse (X et sa transformée en Log et dx varables régresseurs potentels (X-X0). «Les expérmentateurs souhatent connaître l nfluence de certanes caractérstques de peuplements foresters (varables régresseurs X-X0) sur le développement de la chenlle processonnare du pn (varable réponse X ou son logarthme )». X : Nombre de nds de processonnares par arbre d une placette. Log = Log(X), transformaton de la varable X par son logarthme X : Alttude (en mètre) X : pente (en degré) X3 : nombre de pns dans une placette de 5 ares X4 : hauteur de l arbre échantllonné au centre de la placette X5 : damètre de cet arbre Revue MODULAD, Numéro 35

45 Données de base X6 : note de densté de peuplement X7 : orentaton de la placette ( orentaton vers le sud, autre) X8 : Hauteur (en m) des arbres domnants X9 : nombre de strates de végétaton X0 : mélange du peuplement ( pas mélangé, 0 mélangé).3.. Régresson lnéare multple avec Proc REG sans optons Nous étudons le modèle lnéare de la varable Log en foncton des 4 régresseurs X, X, X4, X5. Etape : Graphque de la matrce de dagrammes de dsperson (Scatter Plot avec SAS/INSIGHT) Etape : Analyse des corrélatons entre les varables Etape 3 : Régresson multple Nous utlsons SAS/INSIGHT qu est beaucoup plus effcace pour obtenr des graphques exploratores, (vor en annexe le mode d emplo succnct de SAS/INSIGHT). Programme SAS /* étape */ proc CORR data=lbreg.chenlles; ttle 'Corrélaton de X X X4 X5 avec Log'; var X X X4 X5 Log; run; Revue MODULAD, Numéro 35

46 /*étape 3 */ proc REG data=lbreg.chenlles; ttle 'Régresson de LOG avec X X X4 X5 sans optons'; model Log=X X X4 X5; run; Fgure.: Matrce des dagrammes de dsperson des varables crosées *. Sur la dagonale sont affchées les valeurs mn et max pour chaque varable. Sorte SAS de PROC CORR Le graphque des dagrammes de dsperson de la fgure., donne une mage des lasons entre toutes les varables X, X, X4, X5, Log. On vot d un coup d œl que les varables X4 et X5 sont très lées. Le coeffcent de corrélaton vaut D autre part la varable réponse Log est lée négatvement à tous les régresseurs. Revue MODULAD, Numéro 35

47 La matrce de Scatter Plot est un complément utle à l analyse de la matrce des coeffcents de corrélaton. Elle permet auss de repérer les ponts atypques (outlers) en X et en Y. Sorte SAS de PROC REG sans optons Cette sorte est analogue à celle de la régresson smple, on retrouve les mêmes nformatons explctées au chaptre. Lecture du test global dans le tableau de l Analyse de Varance F value =.83 avec p value <0.00 rejet de H 0 tous les paramètres ne sont pas tous nuls R = % de la varablté de Y est explquée par le modèle. Lecture des paramètres Intercept b 0 = s(b 0 )= Coeffcent de X b = s(b )=0.005 Coeffcent de X b = s(b )= Coeffcent de X4 b 4 = s(b 4 )= Coeffcent de X5 b 5 = s(b 5 )= Toutes les p-value assocées aux estmateurs des paramètres sont <0.05, on rejette l hypothèse de nullté pour chacun des coeffcents de la régresson. Cependant le coeffcent de X5 est postf alors que la corrélaton (X5, Log) est négatve. Peut-on alors parler d un effet postf de cette varable X5 sur la varable réponse Log? La corrélaton entre X4 et X5 provoque une nstablté des valeurs des coeffcents. Revue MODULAD, Numéro 35

48 .4. TYPE I SS et TYPE II SS de Proc REG Nous verrons d abord la défnton des statstques Type I SS et Type II SS relatf à un paramètre pus les tests partels relatfs à pluseurs paramètres..4.. Défnton de TYPE I SS et TYPE II SS Reprenons l'équaton fondamentale de l'analyse de la varance : SS Total = SS Model + SS Error SS total qu représente la somme des carrés des écarts entre Y et sa moyenne est nvarant quel que sot le nombre de varables régresseurs p dans le modèle. Lorsqu'on ntrodut une nouvelle varable régresseur dans un modèle SS Model augmente et donc SS Error dmnue de la même quantté. Pour juger de la contrbuton d'une varable régresseur à la réducton de SS Error, la Proc REG calcule pour chaque varable du modèle, deux sortes de SS Error. TYPE I SS : représente la réducton de SS Error lée à la varable lorsqu'elle est ntrodute séquentellement dans le modèle. TYPE II SS : représente la réducton de SS Error lée à la varable lorsqu'elle est ntrodute la dernère dans le modèle. TYPE I SS Sot le modèle complet défnt avec les p régresseurs de l'nstructon MODEL de Proc REG : [ b.96 s(b );b +.96 s(b ] IC β ) = ) 0.95( Sot d'autre part le modèle restrent aux k premers régresseurs : Y = β0 + βx + βx + L + βk Xk + ε Pour l a "k"ème varable, TYPE I SS correspond à la dfférence entre SSerror du modèl e à (k-) régresseurs et SSerror du modèle à k régresseurs. Attenton : Le TYPE I SS d'une varable dépend de l'ordre de la varable dans l'nstructon MODEL de Proc REG. A TYPE I SS peut être assocée une statstque de test, la F Value ou F de Fsher- et sa p-value, nveau de sgnfcatvté du test. Le calcul de la F value et de Snedecor, sa p value assocée n'est pas réalsé dans Proc REG 0. F VALUE : statstque de Fsher-Snedecor TYPE I SS Cette statstque de test vaut : F VALUE = MS Error 0 La statstque de Fsher-Snedecor F value et son nveau de sgnfcatvté p-value pour Type I SS et TYPE II SS sont dsponbles dans Proc GLM et dans SAS/INSIGHT. Revue MODULAD, Numéro 35

49 Le numérateur TYPE I SS correspond à la réducton de SS error lorsque l'on passe du modèle à (k-) régresseurs -la varable étudée étant exclue- au modèle à k régresseurs. Le dénomnateur MS Error correspond au modèle complet à p régresseurs. La statstque de test F value ans défne permet de tester l'hypothèse nulle de la k ème varable. Hypothèse à tester O n veut tester s le paramètre β = k 0. H0 : β = k 0 contre Ha : β 0 k La statstque de test F value est sous H0 une valeur observée d'une varable F de Fsher-Snedecor à et (n-p-) degrés de lberté. L'hypothèse nulle dot être rejetée au nveau α lorsque : Fobservé F (,n p ) où F α(,n p ) représente le quantle d'ordre ( α ) de la lo de Fsher-Snedecor à () et ( n-p-) degrés de lberté. α Règle de décson S Fvalue F (,n p ) α Alors H0: β 0 dot être rejeté au nveau α k = Rasonnement Au seul α% la valeur maxmum attente par F sous l'hypothèse nulle H0 : β 0 est F α (,n p ), s donc F value est supéreure on rejette l'hypothèse nulle. La varable contrbue sgnfcatvement à la réducton de SS Error, lorsqu'elle est entrée en derner dans le modèle à k régresseurs. Prob > F C'est la p-value assocée à F value. On compare la p-value, au rsque α chos (par exemple α=0.05). Rasonnement sur la p-value S p-value α Alors on rejette l'hypothèse nulle β 0 Interprétaton : S la probablté (Prob>F) est fable (<0.05) la varable contrbue sgnfcatvement à la réducton de SS Error dans le modèle à k régresseurs. TYPE II SS Sot le modèle complet défnt avec p régresseurs dans l'nstructon MODEL de Proc REG : k = k = Revue MODULAD, Numéro 35

50 [ b.96 s(b );b +.96 s(b )] IC0.95( β ) = Pour la k ème varable, TYPE II SS correspond à la dfférence entre SSerror du modèle à (p-) régresseurs (le k ème régresseur étant exclu) et SSerror du modèle complet à p régresseurs. A TYPE II SS peut être assocée une statstque de test, la F value ou F de Fsher- du Snedecor, et sa p-value, nveau de sgnfcatvté test. Remarque : Par constructon TYPE I SS et TYPE II SS de la dernère varable du modèle ont la même valeur. Le calcul de la F value et de sa p value assocée n'est pas réalsé dans Proc REG, l faut fare le calcul à la man, ou utlser l'opton de Proc REG, SELECTION= FORWARD ou BACKWARD qu donne les F value de TYPE II à chaque pas. F VALUE : statstque de Fsher-Snedecor TYPE II SS Cette statstque de test vaut : F VALUE = MS Error Le numérateur TYPE II SS correspond à la réducton de SS error lorsque l'on passe du modèle à (p-) régresseurs le régresseur étudé étant exclu- au modèle complet à p régresseurs. Le dénomnateur MS Error correspond au modèle complet, avec les p régresseurs. La statstque de test F value ans défne permet de tester l'hypothèse nulle du "k"ème régresseur, lorsqu l entre en derner dans le modèle. C est un F dt partel. Hypothèse à tester On veut tester s le paramètre β = k 0. H0 : β = 0 contre k Ha : β k 0 La statstque de test F value est sous H0 une valeur observée d'une varable F de Fsher-Snedecor à et (n-p-) degrés de lberté. L'hypothèse nulle dot être rejetée au nveau α lorsque : Fobservé F (,n p ) où F α (,n p ) représente le quantle d'ordre ( α ) de la lo de Fsher-Snedecor à () et (n-p-) degrés de lberté. Règle de décson α S Fvalue F (,n p ) α Alors H0 : β 0 dot être rejetée au nveau k = α Revue MODULAD, Numéro 35

51 Rasonnement A u seul α% la valeur maxmum attente par F sous l'hypothèse nulle H0 : β 0 est F α (,n p ), s donc F value est supéreure on rejette l'hypothèse nulle. Le régresseur contrbue sgnfcatvement à la réducton de SS Error, lorsqu'l est entré en derner dans le modèle. Remarque : F value = T, avec T représentant la valeur du test de Student assocé au paramètre. k = Prob > F C'est la p-value assocée à F value. On compare la p-value, au rsque α chos (par ex : α=0.05). Rasonnement sur la p-value S p-value α Alors on rejette l'hypothèse nulle β 0 Interprétaton : S la probablté (Prob>F) est fable, le régresseur contrbue sgnfcatvement à la réducton de SS Error, même lorsqu'l est entré en derner dans le modèle complet à p régressseurs. k =.4.. Interprétatons conjontes de TYPE I SS et TYPE II SS Lorsque le modèle ne comporte qu'une seule varable régresseur : TYPE I SS = TYPE II SS = SS modèle Lorsque le modèle comporte plus d'une varable régresseur : le TYPE I SS (lé au F séquentel) dépend de l ordre d apparton des varables régresseurs dans l nstructon MODEL, tands que TYPE II SS (lé au F partel) n'en dépend pas. S pour un régresseur X, le F séquentel et le F partel sont plus grands que ceux des autres régresseurs, alors X a une contrbuton plus grande pusqu'l rédut plus la varaton de SS Error, que la varable sot entrée en séquence dans le modèle ou en derner. S pour un régresseur X, le F séquentel est sgnfcatf et le F partel ne l est plus c est qu l y a des colnéartés entre les régresseurs. L nformaton apportée par ce régresseur est redondante par rapport à l nformaton apportée par les précédents régresseurs déjà ntroduts dans le modèle Optons SS et SS de l nstructon model de Proc REG Les optons SS et SS de l nstructon model de PROC REG permettent d obtenr les statstques Type I SS et Type II SS. Revue MODULAD, Numéro 35

52 Programme SAS proc REG data=lbreg.chenlles; ttle 'Régresson de Log avec X X X4 X5 avec Optons SS SS '; model Log=X X X4 X5/ SS SS; run; Sorte de Proc REG de SAS Lecture Exemple pour X : Type I SS = 4.6 est la réducton de SS error lorsque la varable X est entrée la premère dans le modèle (elle est alors la seule varable régresseur). Type II SS = est la réducton de SS error lorsque la varable X est entrée la dernère dans le modèle. Pour tester s cette réducton est sgnfcatve l faut fare le calcul à la man, car dans cette sorte, Proc REG ne fournt pas les F value et les proba assocées pour TYPE I SS et TYPE II SS : TYPE I SS 4. F value = = =.59 MS Error 0.65 TYPE II SS F value = = =.69 MS Error 0.65 On peut vérfer ces F value avec les sortes de SAS/INSIGHT. Revue MODULAD, Numéro 35

53 Sorte avec SAS Insght Note : SAS/ INSIGHT nomme TYPE III tests ce qu on a appelé TYPE II SS dans la Proc REG On retrouve ben les calculs fats à la man (cf. F Stat =.59 pour la F value de Type I SS et F Stat=.69 pour la F value de Type II SS). La varable X4 a un comportement bzarre, lorsqu elle est entrée en 3 ème rang dans le modèle elle est lmte au nveau sgnfcatvté (pvalue =0.0490), alors que son apport est très sgnfcatf lorsqu elle est entrée la dernère (p value =0.000) La lason entre X4 et X5 nous joue des tours!.4.4. Tester la nullté de r paramètres pour tester un sous modèle Ce type d'analyse est d'usage courant en Econométre. L'dée est de mettre à l'épreuve une approche théorque par une valdaton emprque. L'ntérêt porte non sur l'estmaton des paramètres mas sur la «spécfcaton» du modèle. Par spécfcaton on entend la recherche des varables-régresseurs ntervenant dans la détermnaton de la varable «à explquer» Y. On veut tester la nullté de r (ndces k à q) paramètres parm les p, c'est à dre l'hypothèse nulle H0 : β = L = β 0 contre k q = Ha : l y a parm les 0). βk L β q des coeffcents non égaux à 0) (not all k βq β L equal to Le modèle sans les r varables est appelé le modèle restrent par opposton au modèle complet à p varables. Ic auss on rasonne sur les réductons de SS error. On note : RRSS (Restrcted Resdual Sum of Squares) = Somme des carrés des résdus du modèle restrent URSS (Unrestrcted Resdual Sum of Squares)=Somme des carrés des résdus du modèle complet. Revue MODULAD, Numéro 35

54 L'hypothèse est testée en évaluant la statstque F dte partelle (RRSS URSS) / r F = URSS /(n p ) (RRSS URSS) / r = MSE La statstque de test F est sous H0 une valeur observée d'une varable F de Fsher- Snedecor à r et (n-p-) degrés de lberté. L'hypothèse nulle dot être rejetée au nveau α lorsque : où F r n p à (r) et (n-p-) degrés de lberté. Fobservé F (r,n p ) α α(, ) représente le quantle d'ordre ( α ) de la lo de Fsher-Snedecor Règle de décson S Fvalue F (r,n p ) α Alors H0 : β = L = β 0 dot être rejetée au nveau α k q = L'nstructon TEST de la Proc REG réalse ces tests en fournssant la statstque de Fsher-Snedecor F value et son nveau de sgnfcatvté p-value assocé, noté Prob>F Exemple de test partel avec PROC REG On veut tester s les coeffcents de X4 et X5 sont nuls. H0 4 5 = : β = β 0 nstructon SAS test X4=0, X5=0; Programme SAS proc REG data=lbreg.chenlles; ttle "Test de l'hypothèse nulle X4=0 et X5=0"; model Log=X X X4 X5; test X4=0, X5=0; Pour le modèle restrent (sans X4 et X5) on a : La statstque de test F ans calculée est appelée F partel quand elle ne porte que sur un sous-ensemble de paramètres, pour la dstnguer de la statstque F, qu porte sur l'ensemble des paramètres du modèle complet. Revue MODULAD, Numéro 35

55 RRSS = Pour le modèle complet : URSS = avec DF=(n-p-)=8 d'où ( RRSS URSS) / r (RRSS URSS) / r ( ) / F = = = URSS /(n p ) MSE / 8 = = 9.0 Sorte SAS pour le test partel On trouve ben la valeur F Value = 9.0 avec un nveau de sgnfcatvté Prob >F de Concluson Le nveau de sgnfcatvté (0.000) étant ben nféreur à 0.05, on rejette l'hypothèse nulle H 0 : β4 = β5 = 0 Il exste au mons un effet de X 4 et/ou de X 5 sachant X et X ntrodut dans le modèle. Revue MODULAD, Numéro 35

56 .5. Ce qu'l faut retenr des 'SS' Décomposton des SS : Sum of Squares SS Total = SS error SS model Lorsqu'on ntrodut une nouvelle varable dans un modèle : SS model augmente de la même quantté que SS error décroît Donc le coeffcent de détermnaton R-square augmente toujours. Cependant on n'amélore pas nécessarement la précson de l'estmaton de Y. SS Error En effet SS Error décroît mas s = MSError = peut croître donc n p augmenter la largeur de l'ntervalle de confance de Y estmé qu est proportonnel à MSE. A la lmte s le nombre de varables p + (le correspond à la varable constante X 0 ) est égal au nombre d'observatons (n), l'équaton de régresson passera exactement par tous les ponts du nuage, l'ajustement sera parfat. Dans ce cas SS Error vaut 0, et le coeffcent de détermnaton R vaut. Ce n'est plus de la statstque mas de la résoluton d'équatons! D autre part les colnéartés entre les régresseurs rendent les résultats nstables. En augmentant le nombre de régresseurs on augmente les rsques de colnéartés. Le chaptre 4 tratera de ce problème. Modèles "parcmoneux" Par sagesse, les statstcens parlent de modèles «parcmoneux», pour sgnfer qu'un modèle dot comporter un nombre lmté de varables par rapport au nombre d'observatons, s on veut que le modèle at une portée prévsonnelle et/ou explcatve. Revue MODULAD, Numéro 35

57 .6. Les résdus En un po nt d'observaton, l'écart entre Y observé et Y estmé par le modèle est le résdu au pont : e = Y Ŷ Ces résdus e sont vus comme les erreurs observées des vraes erreurs nconnues ε : ε = Y E(Y ) Nous avons vu que les suppostons fates sur les ε pour élaborer les tests statstques se résument ans «les erreurs dovent être ndépendantes et dentquement dstrbuées selon une lo normale». S le modèle est appropré aux données, les résdus observés e dovent refléter les proprétés des vraes erreurs nconnues ε. C'est donc par le bas de l'analyse des résdus que l'on cherchera à valder le modèle de régresson postulé. Pour cela on effectuera dfférents graphques des résdus en foncton de: Y la varable réponse Y estmé ( Ŷ ) X les varables régresseurs la varable temporelle, s l'analyse statstque porte sur des séres chronologques etc. De même on étudera la normalté des résdus, leur ndépendance. En effet, les résdus contennent d'une part un aléa d espérance nulle et de varance σ, et d'autre part une nformaton concernant l'nadéquaton du modèle aux données (c'est-à-dre l'écart entre le modèle postulé et le modèle correct nconnu). Ce que l'on veut c'est que l'mportance de cette deuxème parte sot mondre que celle due à l'aléa. Pour cela on devra rechercher s dans les résdus l n'exste pas une structure organsée ou un contenu nformatonnel qu prouverat que le modèle postulé se dfférence sgnfcatvement du modèle correct. Tous les tests sont fats en supposant que le modèle postulé est le modèle correct, s donc l'analyse des résdus prouve l'nadéquaton du modèle postulé, les tests ne sont plus valables, ou sont basés. Des orentatons pour l'analyse crtque des résdus seront données dans le chaptre 4. Revue MODULAD, Numéro 35

58 Concluson Au cours des chaptres et nous avons présenté la majeure parte des concepts théorques nécessares à la compréhenson d'un modèle de régresson. Les démonstratons ont été lmtées à l'essentel. Le lecteur se reportera à la bblographe pour avor plus de précson et de rgueur mathématque. L ouvrage de TOMASSONE & al., en partculer, est vvement consellé. Dans le chaptre 3, nous analyserons à partr d'exemples de la lttérature, les dffcultés de la régresson lnéare lorsqu on étude des données réelles, qu «prennent un maln plasr» à ne pas se comporter comme la théore le suppose. Pour ader aux dagnostcs, de nombreuses optons sont dsponbles dans la procédure REG, ce que nous verrons au chaptre 4. Revue MODULAD, Numéro 35

59 3. Quand les résultats d'une régresson ne sont pas forcément pertnents Dans ce chaptre nous montrons sur quelques exemples les dffcultés rencontrées dans l applcaton de la régresson lnéare smple et la régresson lnéare multple sur données réelles ou smulées, lorsque les suppostons ne sont pas vérfées. Nous présentons quelques ades très utles. Ce n est qu un pett survol de la lttérature sur le sujet de la robustesse qu nécesste à lu seul pluseurs ouvrages. Ce chaptre a pour objectf de vous sensblser à l mportance des dagnostcs proposés dans Proc REG, qu seront vus au chaptre 4. La majorté des résultats d une régresson sont présentés avec les sortes de SAS/INSIGHT, pour montrer l apport de l nteractvté, et l mportance des graphques dans la compréhenson des analyses. 3.. Exemples en régresson smple 3... Une même valeur pour des stuatons dfférentes Cet exemple est detomassone & al. (986). Dès 973 ANSCOMBE, neveu et collaborateur de J.W TUKEY (977) avat proposé un exemple smlare dans «Graphs n Statstcal Analyss». Soent les 5 couples de 6 observatons (X,Ya),(X,Yb),(X,Yc),(X,Yd),(Xe,Ye) sur lesquels on effectue 5 régressons lnéares smples. OBS X Ya Yb Yc Yd Xe Ye 7 5,535 0,3 7,399 3,864 3,75 5, ,94 3,770 8,546 4,94 3,75 7, ,49 7,46 8,468 7,504 3,75 8, ,656 8,79 9,66 8,58 3,75 9, ,737,688 0,685, 3,75 9, ,44,889 0,607 8,84 3,75 9, ,939 4,53 0,59 9,99 3,75, ,450 6,545,754 5,860 3,75, ,4 5,60,676 3,967 3,75, ,693 7,06,745 9,09 3,75, ,00 6,8 3,893 7,98 3,75,746 9,85 7,647,590,334 3,75 4,64 3 9,365 4, 5,040 9,76 3,75 5, ,69 5,577 3,737 6,38 3,75 5,58 5 8,977 4,65 4,884 8,945 3,75 7, ,690 3,947 9,43,87 33,8 7,435 Revue MODULAD, Numéro 35

60 Les estmatons des Y sont les suvantes : OBS Ya_est Yb_est Yc_est Yd_est Ye_est 6,8 6,8 6,8 6,8,6 6,99 6,99 6,99 6,99,6 3 7,80 7,80 7,80 7,80,6 4 8,6 8,6 8,6 8,6,6 5 0, 0,3 0, 0,,6 6,03,03,03,03,6 7,84,84,84,84,6 8,84,84,84,84,6 9,65,65,65,65,6 0 4,7 4,7 4,7 4,7,6 5,07 5,08 5,08 5,08,6 5,88 5,89 5,89 5,89,6 3 5,88 5,89 5,89 5,89,6 4 6,69 6,69 6,69 6,69,6 5 7,50 7,50 7,50 7,50,6 6 9, 9, 9, 9, 7,43 Les ajustements par les 5 drotes de régressons sont donnés fgure 3. ; ls sont dentques, mêmes estmatons, mêmes statstques pour R²=0.67, mêmes coeffcents b 0=0.50, b=0.809, mêmes erreurs-types sur les coeffcents, et pourtant les stuatons sont ben dfférentes. Analyse des résultats Sur le er graphque on peut vor que le modèle semble ben adapté. Sur le ème graphque le modèle lnéare est nadapté, un modèle quadratque de la fo rme Y = β X ser at préférable. Sur le 3 ème graphqu e un pont est suspect et entraîne la drote de régresson vers le haut. Sur le 4 ème graphque la varance de s erreur s vare. Il y a un phénomène d'hétéroscédastcté (varance de Y sachant X non constante). Sur le 5 ème graphque le plan expérmental défn par les valeurs de Xe est partculèrement mauvas. Un seul pon t extrême détermne la drote. Que se pass e-t-l entre X=3. 75 et X=34.8? La laso n est-elle lnéar e? Un smple dagramme cartésen (Scatter plot) permet dans chacun des 5 cas de vérfer s les suppos tons de la régresson lnéare sont respectées, et de porter un dagnostc. Revue MODULAD, Numéro 35

61 Fgure 3. : 5 drotes de régresson 3... Pondératons et régresson lnéare par morceaux Cet exemple nspré de J.P. BENZECRI & F.BENZECRI (989), «Calculs de corrélaton entre varables et juxtaposton de tableaux», est totalement artfcel. Revue MODULAD, Numéro 35

62 L'objectf de cet exemple est double : montrer d'une part l'effet d'une pondératon des observatons sur les résultats d'une analyse de régresson et d'autre part de sensblser par des graphques, à l'usage abusf de la régresson lorsque l'hypothèse de lnéarté sur tout l'ntervalle n'est pas valde. Tableau des données 0 observatons (varables X et Y) sont générées par programme de la manère suvante : X vare de -50 à +50 avec un pas de et à chaque pas Y est calculé selon les formules lnéares suvantes : S X < -0 alors Y = X + 0 S- 0 X < alors Y = -X S X alors Y = X 0 X est la varable régresseur, Y est la varable réponse. X et Y sont donc rgoureusement lées par une foncton lnéare par morceaux. Les 3 partes ont des pentes (paramètre β ) respectves de + pour les 40 premères observatons, - pour les observatons 4 à 6, et + pour les observatons 6 à 0. On effectue une premère régresson sans pondératon, sur toutes les observatons (fgure 3.), pus deux régressons pondérées, en pondérant par 00 les observatons de la parte centrale, les autres observatons ayant une pondératon de, pus une 3 ème régresson avec une pondératon par 000. On utlse l'nstructon "Weght "de la Proc Reg. Programme SAS de génératon des observatons et analyse de régresson L appel de Proc REG se fat par une macro. data lgne ; do x=-50 to 50; p= ; p00=; pml=; f x <-0 then y=x+0; else f x < then do; y=-x ; p00=00; pml =000; end; else y=x-0; output; end; %macro reg(pods=); proc reg data=lgne; model y=x ; %f &pods ^= %then weght &pods ; %str(;); ttle " Avec ponderaton &pods"; %mend; %reg(pods=p) %reg(pods=p00) %reg(pods=p000) qut; Revue MODULAD, Numéro 35

63 a) Observatons (X,Y) générées sans aléa b) Régresson sans pondératon c) Régresson avec pondératon de 00 d) Régresson avec pondératon de 000 Fgure 3. Drote de régresson selon les pondératons utlsées (, 00, 000) Analyse des résultats En pondérant de 3 façons dfférentes la parte centrale on obtent des F value, des coeffcents de détermnaton, des estmatons de β drote de régresson- totalement dfférents et cependant toujours sgnfcatf (cf. Tableau 3.) Pondératon F value P value Tableau 3. R estmaton de β T Student sans pondératon < par < par < En foncton de la pondératon, la drote de régresson «tourne» jusqu'à s'adapter à la pente de la parte centrale, comme on le vot dans les fgures 3. (b, c, d). S la modélsaton devent correcte pour la parte centrale, l n'en va pas de même pour les deux autres partes. S, par contre on réalse 3 études séparées sur les 3 ntervalles où l'hypothèse de lnéarté entre X et Y est exacte, on obtent des coeffcents de détermnaton R²= (corrélaton parfate) et des drotes de régresson totalement adaptées aux données (SS Error=0). L exemple met en lumère les questons que l'on dot se poser avant d'effectuer une régresson : l hypothèse de lnéarté est elle plausble sur tout l ntervalle?. Revue MODULAD, Numéro 35

64 Théore de la régresson pondérée L'nstructon Weght de Proc REG L'nstructon Weght de Proc REG, mnmse la somme des carrés résduels pondérés : w ( Y Ŷ ) w : valeur de la varable spécfée dans l'nstructon Weght, Y : valeur observée de la varable à explquer, Ŷ : valeur prédte pour l'observaton. Les équatons normales utlsées sont dans ce cas : β = ( X WX) (X WY) W : matrce dagonale consttuée des pods. Quand utlser l'nstructon Weght? Lorsque l'hypothèse de varance constante des erreurs n'est pas vérfée (hétéroscédastcté des erreurs), la lttérature statstque propose d'utlser la régresson pondérée en prenant comm e pondératon l'nverse des varances théorques σ. Concluson w = En général les varances théorques des erreurs ne sont pas connues, elles sont estmées. L artfce de pondérato n des données dot être utlsé avec dscern ement. En partculer l faut au préalable contrôler s les observatons sont homogènes, c'est-à- groupes aux comportements dfférents peuvent être dfférencés. Une approche par analy se de données ou analyse exploratore des données peut s avérer nécessare. O n utlsera avec proft des marqueurs de couleurs dre s d éventuels (SAS/INSIGHT et sa boîte à outls Tools) pour repérer s une varable de groupe ne fat pas apparaître des mélanges de populatons. Il exste des méthodes robustes pour pondérer les observatons mas elles sortent du cadre de cet ouvrage. La lecture de l ouvrage de ROUSSEEUW et al. (003) est fortement recommandée. σ Transformaton des données Lorsque sur un graphque, la lason entre X et Y n apparaît pas lnéare, on peut essayer de transformer les données, pour tenter de lnéarser la lason. Revue MODULAD, Numéro 35

65 Exemple : Lason entre Produt Natonal Brut et taux d urbansaton La table SAS Paysnv3 porte sur 73 pays des 5 contnents (fgure 3.3). Fgure 3.3 Effectfs par Contnent Sur la Fgure 3.4 a, sont représentées la varable PNB, Produt natonal brut en foncton du taux d urbansaton URBA, et la drote de régresson, pour 73 pays. Ben que les résultats statstques soent sgnfcatfs (R =0.4358, F=.06, p value < 0.000, T de Student =,05, p value <0.000) cette analyse n est pas satsfasante. La supposton de lason lnéare n est pas vérfée, confrmé par le graphque des résdus (fgure 3.3 b). La varance des erreurs n est pas constante, elle augmente en foncton de URBA. Il y a un effet d entonnor caractérstque de l hétéroscédastcté des erreurs. a) régresson lnéare PNB en foncton de URBA b) graphque des résdus R_PNB en foncton de URBA Fgure 3.4 Les couleurs des ponts observatons correspondent aux couleurs des contnents de la Fgure 3.3. On pe ut noter grâce aux couleurs que l Afrque (pont rouge) se dfférence totalement de l Europe (pont bleu), on a à fare à des mélanges de populaton. Cependant pour notre démonstraton sur les transformatons on passera sous slence cette remarque. Pour dlater les valeurs fables et en même temps compresser les valeurs élevées du PNB on transforme la varable en son logarthme. Revue MODULAD, Numéro 35

66 En SAS/INSIGHT l sufft de clquer sur le nom de la varable PNB sur le graphque et de demander par le menu Edt # Varables # Log, la transformaton de la varable PNB en son logarthme Log (L_PNB). Tous les affchages sont modfés (fgures 3.5 a et b). a) Avant transformaton b) Après transformaton par le logarthme Fgure 3.5 Lason entre le taux d urbansaton et le Produt Natonal Brut La transformaton a eu un double effet (fgure 3.5). D une part elle a symétrsé la dstrbuton du PNB, vsble sur les Box-plots, et d autre part elle a lnéarsé la lason entre Log(PNB) et URBA Les ndcateurs statstques de la régresson sont nettement amélorés. (R =0.6468, F=89.39, pvalue<0.000, T de Student = 34,05, pvalue <0.000). a) régresson Log(PNB) foncton de URBA b) Graphque des résdus foncton de URBA Fgure 3.6 Les résdus (fgure 3.6 b) se trouvent mantenant ben reparts dans la bande (-, +), à l excepton de pays atypques, Oman et Equatoral Gunea, sur lesquels l faut s nterroger. Revue MODULAD, Numéro 35

67 Echelle de Tukey Ladder of Power Les transformatons de varables occupent une place mportante dans la lttérature. On a vu précedemment, que la transformaton Log du PNB, permettat de lnéarser la lason entre Y et X. Pour chosr une transformaton approprée, J.W. TUKEY (977) a proposé ce qu on appelle mantenant l échelle de transformaton de TUKEY. 4 4 Y 3 3 Y Monter l échelle Y Y brut / Y 0 Log ( Y) Descendre l échelle -/ / Y - / Y - / Y Echelle de Tukey Selon la forme des courbes défnes par les ponts (X,Y) on pourra sot monter 3 l échelle, c'est-à-dre transformer X ou Y en ses pussances ( Y, Y etc.) sot descendre l échelle, en prenant Y, Log (Y), / Y, / Y etc. Astuce de lecture proposée par J. Vanpoucke et E. Horber 3 La forme des courbes du tableau 3. dessne un arc, et la flèche ndque selon son orentaton s l faut monter ou descendre l échelle. Cette procédure rasonnée permet d évter d agr complètement par «essas- erreurs», cependant pour trouver le bon chox on n évte pas de fare quelques essas, grandement facltés par l nteractvté de SAS/INSIGHT. Ans pour PNB en foncton de URBA, les données formaent une courbe d allure n 3, l faut donc sot monter l échelle en X, so t descendre l échelle en Y. Comme la dstrbuton de URBA est symétrque (vor fg ure 3.5 a), c est plutôt sur PNB qu l faut agr (dstrbuton non symétrque, vor le Box plot de PNB). TUKEY utlse le mot «re-expresson» et non le mot «transformaton» d une varable. 3 JACQUES VANPOUCKE de l Unversté Sabater de Toulouse et EUGENE HORBER de l Unversté de Genève, sont les fondateurs de l Assocaton MIRAGE, Mouvement Internatonal pour le développement de la recherche en Analyse Graphque et Exploratore, Revue MODULAD, Numéro 35

68 Tableau 3. Transformatons approprées selon la forme des courbes Forme de Courbes Descrpton de l acton Descendre l échelle en X ou Monter l échelle en Y Descendre l échelle en X ou Descendre l échelle en Y Monter l échelle en X ou Descendre l échelle en Y Monter l échelle en X ou Monter l échelle en Y Transformaton sur X X, Log (X), / X etc. X, Log (X), / X etc. X, X, 3 X etc. 3 X etc. Transformaton sur Y Y, 3 Y etc. Y, Log (Y), / Y etc. Y, Log (Y), / Y etc. Y, 3 Y etc. Pour vous famlarser avec les transformatons aller vor cet applet sur nternet Développé par JUHA PURANEN de l Unversté de Helsnsk, cet applet montre l effet de dfférentes transformatons sur la lason entre varables, Y= Dstance de frenage et X=Vtesse du véhcule, dont tout conducteur sat que la lason n est pas lnéare. Il montre également la technque de lssage de courbes par LOWESS Méthode non paramètrque du LOWESS La méthode non paramétrque du LOWESS - Locally WEghted Smoothng Scatterde Cleveland (979, 993, 994) permet de lsser une courbe. Cette technque combne une technque de régresson lnéare ou polynomale locale avec la flexblté de la régresson non lnéare. Le lssage obtenu permet à l œl de repérer des ponts atypques, de vor d éventuelles structures, de détecter des non lnéartés etc. Le prncpe repose sur des régressons locales défnes sur des fenêtres glssantes. Chaque pont observaton est estmé, par une drote éventuellement un polynome, à partr des ponts de son vosnage, stués dans une fenêtre. Chaque pont du vosnage est pondéré en foncton de sa dstance au pont estmé. Les paramètres sur lesquels on peut agr sont la largeur de la fenêtre (Bandwth) et la foncton de pondératon des ponts. Le prncpe est analogue à celu des moyennes mobles, plus la largeur de la fenêtre est grande plus la sére sera lssée. Pour la foncton de pods, on utlse généralement la foncton tr-cube. Revue MODULAD, Numéro 35

69 W(x) = ( W (x) = 0 x 3 ) 3 pour x < pour x >= SAS/INSIGHT permet d utlser cette technque. L exemple 4 porte sur les températures quotdennes maxmum de Melbourne de janver 98 à décembre 990 (Source : Australan Bureau of Meteorology,3650 observatons). Dans le menu Ft de la régresson, on demande une régresson smple de la varable Température en Y en foncton de la varable Date en X. Lorsque l analyse de régresson est affchée, on chost le menu Curves # Loess Fgure 3.6 Technque du LOWESS applquée à des données de températures La drote de régresson est strctement horzontale avec une température moyenne de 04 sur les 0 années (fgure 3.6). La technque du LOWESS (parfos dénommée LOESS) permet le lssage de la sére. Elle nécesste beaucoup de calculs, ce qu ne pose plus de problèmes avec les ordnateurs actuels s la technque est ben programmée. C est une des technques modernes les plus attractves pusqu elle ne nécesste pas de précser la forme d un modèle, elle lasse «parler les données» Cette technque est très utle dans la phase exploratore des données mas elle a son revers, elle ne fournt pas de foncton analytque comme la régresson lnéare. 4 Les données provennent de la banque de données de Rob J ; Hyndman sur des séres temporelles Revue MODULAD, Numéro 35

70 Tableau 3.3 En clquant sur le curseur Alpha (paramètre du LOWESS lé à la largeur de bande - bandwth) on peut agr sur la largeur de la fenêtre et vor l effet sur le fltrage. Avec un coeffcent Alpha de 0.005, on fat apparaître un lssage mons réguler. Fgure 3.7 après modfcaton du paràmètre de fltarge Alpha Pour connaître la technque du LOWESS programmée dans SAS, l sufft de clquer sur un mot clé (par exemple Alpha vor Tableau 3.3) et de demander l ade en lgne par le menu Help # Help on Selecton. Il exste auss dans SAS une procédure LOESS dans le module SAS/ETS. 3.. Exemples en régresson multple 3... Y «explquée» par la corrélaton entre deux régresseurs Cet exemple, montre l nfluence sur le coeffcent de détermnaton lorsque les régresseurs sont corrélés. Les données sont ssues du cours de Georges Monette de York Unversty. Data HWH; nput Weght Heght Health; cards; Revue MODULAD, Numéro 35

71 ; proc reg; ModHW: model health=weght; ModHH: model health=heght; ModHWH: model health=weght Heght; run ; Pour le premer modèle, régresson smple de HEALTH en foncton de WEIGHT, le coeffcent de détermnaton vaut Aucune lason entre santé et pods. Pour le deuxème modèle, régresson smple de HEALTH en foncton de HEIGHT, le coeffcent de détermnaton vaut Aucune lason entre santé et talle. Pour le trosème modèle du tableau 3.4, donnant les résultats de la régresson multple de HEALTH en foncton de WEIGHT et HEIGHT, le coeffcent de détermnaton vaut La statstque F et les T de student sont tous sgnfcatfs. S on s arrête à ces seules ndcatons le modèle explque 65 % de la varaton de Health, vor le tableau 3.4. Tableau 3.4 Régresson de Health en foncton de WEIGHT et HEIGHT Cette fausse explcaton de la santé par le Pods et le Talle est due à la corrélaton entre les régresseurs (0.8357). Ce qu est vsble sur la matrce de corrélaton et sur la matrce de scatter plot. Revue MODULAD, Numéro 35

72 Matrce de corrélaton et Scatter Plot 3... Instablté des coeffcents de la régresson, en cas de multcolnéarté Exemple sur données réelles Cet exemple est de D. LADIRAY 5. On dspose de 44 observatons et on cherche à explquer le taux d'urbansaton, varable URBA, en foncton de 0 varables régresseurs, POP87 à ESPER. Tableau 3.5 Tableau des données OBS URBA POP87 NAT MORT ACCR DOUB FERTI MORTI AGE5 AGE65 ESPER CCR_CAL Ladray D.(990) Autopse d'un résultat: L'exemple des procédures Forecast, X, Cluster. Club SAS 990 Revue MODULAD, Numéro 35

73 OBS URBA POP87 NAT MORT ACCR DOUB FERTI MORTI AGE5 AGE65 ESPER CCR_CAL Dans le tableau 3.5, deux valeurs de la varable NAT (taux de natalté) pour OBS= et OBS=30 sont légèrement modfées (39 est remplacé par 40 ) Les régressons effectuées avant et après modfcatons donnent les résultats suvants pour les coeffcents de régresson : Tableau 3.6 URBA = Résultat (valeur 39) Résultat (valeur 40) Avant Après URBA= POP POP NAT NAT +.68 MORT MORT ACCR ACCR DOUB DOUB FERTI FERTI +0.0 MORTI +0.8 MORTI -.3 AGE AGE AGE AGE ESPER ESPER Les résultats "Avant" et "Après" (tableau 3.6) sont partculèrement nstables pour les estmatons des coeffcents des 3 varables, NAT (taux de natalté), MORT (taux de mortalté) et ACCR (taux d'accrossement de la populaton). Revue MODULAD, Numéro 35

74 Explcaton Ces 3 varables ne sont pas ndépendantes, elles sont lées entre elles par une relaton quas-lnéare ACCR= (NAT-MORT)/0. Dans le tableau 3.5, on peut comparer ACCR avec la varable ACCR_CAL, en dernère colonne, calculée avec la formule exacte. Lors de l'nverson de la matrce X'X, l y a une valeur propre qu est presque nulle. Conséquence une légère perturbaton des données entraîne de grands changements dans les estmatons des paramètres. Exemple sur données avec modèle théorque connu et régresseurs corrélés Cet exemple est de T. Foucart (007). Pour étuder l effet des corrélatons entre les régresseurs sur les estmatons des paramètres, T. Foucart a généré 00 observatons d un vra modèle théorque : Y = β0 + βx + βx + β3x3 + β4x4 + ε Les vraes valeurs des paramètres du modèle théorque sont : β = β = β = β = β = Les 4 régresseurs X à X 4 suvent des los normales centrées et rédutes. L erreur ε sut une lo normale N(0, σ ), On mpose de plus des contrantes sur la matrce des corrélatons entre les régresseurs. T ableau 3.7 Corrélatons mposées X X X 3 X 4 X X 0.5 X X Et on mpose la valeur du coeffcent de détermnaton R = Les données générées RIDGE sont dsponbles sur le ste de T. Foucart Résultats avec SAS/INSIGHT la matrce de corrélaton Menu Analyze # Mutvarate avec les 5 varables X, X, X3, X4, Y dans le rôle Y On la trouve dans le (tableau 3.8) c-dessous Revue MODULAD, Numéro 35

75 Tableau 3.8 Statstques unvarées et matrce de corrélaton On vérfe sur le tableau 3.8 que la matrce de corrélaton a ben du Tableau 3.7. la matrce de scatter plot les valeurs mposées Menu Analyze# Scatter Plot avec les 5 varables (X, X, X3, X4, Y) dans le rôle X et les mêmes dans le rôle Y.808 X X X X Y -4.0 La matrce de dagrammes de dsperson permet de repérer les lasons entre les régresseurs et la varable Y. Y est lé à X, X, avec un coeffcent postf, et Y est lé à X3, X4 avec un coeffcent négatf. La régresson lnéare Fgure 3.6 Matrce de dagrammes de dsperson Menu Analyze#Ft avec les 4 varables X, X, X3, X4, dans le rôle de X et Y dans le rôle de Y Revue MODULAD, Numéro 35

76 Avec la méthode des mondres carrés, le coeffcent de détermnaton R = est ben calculé (le théorque vaut 0.50), par contre les coeffcents sont très dfférents de ceux du modèle théorque. Les estmatons MCO sont respectvement :.6339, -0.48, , au leu des vraes valeurs : 0.5, 0.5, -0.5, Mêmes les sgnes ne sont pas respectés. Concluson Les conséquences des colnéartés entre les varables régresseurs sont les suvantes : Les coeffcents de régresson sont nstables ; Leur sgne peuvent changer (postf négatf) rendant les nterprétatons fausses, ce qu a de graves conséquences lors de la recherche des effets d une varable régresseur ; Les varances des estmateurs sont élevées. La technque de la régresson bornée (Rdge Regresson) a été proposée dans les années 970, pour paller ces nconvénents. On en trouvera un exemple au chaptre 4 ( 4.4.5). L artcle de T. FOUCART (007) «Evaluaton de la régresson bornée» 7, montre que là encore on ne peut systématquement y recourr. Il faut ben connaître les données et le domane pour en fare bon usage Condtons d'utlsaton de la régresson, les dagnostcs Les dfférents exemples présentés dans ce chaptre montrent l'mportance des analyses et dagnostcs effectués avant et après les premers tratements. Pour réalser les tests d hypothèses de la régresson on a supposé, en pure théore, que le modèle lnéare postulé est correct, que les suppostons, a pror sur les varables et sur les erreurs, sont vraes. Ces suppostons sont nécessares pour 7 Ste Revue MODULAD, Numéro 35

77 défnr les tests comme on l a vu au Chaptre, car on ne peut calculer les varances que dans des cas gaussens et sous certanes condtons. Suppostons sur les varables Les observatons Y sont supposées ndépendantes Les varables X j sont non aléatores. Suppostons sur les erreurs les erreurs sont d espérance nulle ce qu est vérfé par constructon s la constante β0 exste dans le modèle. les erreurs sont de varance constante les erreurs suvent une dstrbuton normale les erreurs sont ndépendantes Les erreurs sont nconnues, elles sont approchées par les résdus, s le modèle est correct. Après examen des résdus, on peut conclure: les suppostons semblent ou ne semblent pas être volées. Ce qu ne sgnfe pas que les suppostons soent correctes. Cela veut dre que sur la base des données que l'on a étudée, on n'a aucune rason de dre que les suppostons sont fausses Modèle Inadapté C'est par l'examen des résdus que l'on peut vor s le modèle postulé est vrasemblablement correct, ou s'l est nadapté. Les ré sdus contennent à la fos des erreurs de mesure et des erreurs de spécfcaton du modèle, comme des varables omses, ou des lasons non lnéares. On peut avor des tests satsfasants, de bonnes précsons sur les estmateurs des paramètres, alors que le modèle est nadapté à l étude. En dehors de certanes vsualsatons l n'y a que le bon sens et la préconnassance du problème qu permettent de repérer l'nadéquaton du modèle aux données L nfluence de certanes données, les données atypques -Outlers- Certanes données atypques peuvent fausser les résultats. Les vsualsatons graphques permettent parfos de les dentfer. Le lvre de BELSLEY, KUH et WELSH (BKW) a popularsé une méthode rgoureuse de recherche des observatons nfluentes. L opton INFLUENCE de Proc REG permet cette analyse. On peut alors être amené à retrer ces ponts atypques des analyses, ou à procéder à des technques «robustes» (vor ROUSSEEUW et al. (003)). La procédure ROBUSTREG de SAS dsponble en V9 reprend ces technques. Revue MODULAD, Numéro 35

78 Corrélaton et colnéarté entre les régresseurs La colnéarté est un gros problème, lot quotden du statstcen pratcen lorsqu l analyse des données réelles, prncpalement en scences économques et socales. C est également le tro "BKW" qu a proposé des ndcateurs de détecton de colnéartés. Les optons TOL, VIF et COLLIN, COLLINOINT de Proc REG sont des ades aux dagnostcs de colnéarté. Tous ces compléments à la régresson, représentatons graphques, ndcateurs technques de BKW, etc., nécesstent de fare appel aux nombreuses optons de Proc REG, qu seront présentées au chaptre 4 «Valdaton d une régresson». Revue MODULAD, Numéro 35

79 4. Valdaton d une régresson Dans ce chaptre, on présente les dfférents éléments nécessares à la valdaton d une régresson, c est-à-dre la vérfcaton des suppostons de base du modèle, l étude de la robustesse au nveau des observatons (détecton des observatons nfluentes et atypques) et au nveau des varables (colnéartés, chox d un sousexemple que pour le chaptre (.3.), ssu du lvre de Tomassone et al. ensemble de régresseurs). Les sortes de SAS-verson 9 llustrant ce chaptre sont réalsés avec le même (99). 4.. Introducton Un prncpe de base dot être applqué : explorer les données par des graphques et/ou des calculs numérques. Les calculs préalables des caractérstques des varables Y et des Xj, ans que des hstogrammes et des tracés Box-Plot de ces dfférentes varables permettent en effet de mettre en évdence des problèmes. Ben sûr le calcul des corrélatons entre Y et les Xj est nécessare. Il faut étuder les varables, et donc en partculer fare des graphques, par exemple de Y contre les régresseurs Xj pour contrôler la lnéarté des lasons. Pour cela, on utlsera la procédure GPLOT, ou le menu «Scatter-Plot» de SAS/INSIGHT. Dans PROC REG, l nstructon PLOT permet de fare des graphques des varables entrant dans la régresson, mas auss des varables créées comme les valeurs résduelles et ajustées. De plus, une Analyse en Composantes Prncpales des régresseurs, avec Y en varable supplémentare, peut auss être utle pour vsualser comment Y se reconstrut à partr de l ensemble des X Modèle et notatons S on postule un modèle avec n observatons () et p varables régresseurs (j) et une constante, on note : Y réponse ou varable dépendante X matrce des varables régresseurs β coeffcents de régresson ε erreurs. Le modèle lnéare s écrt : Y = β + β X + β X + β X β X + ε p p D où l ajustement: Revue MODULAD, Numéro 35

80 Ŷ + = Y Ŷ. = b0 + bx + bx +... bpxp et les résdus e Suppostons sur les erreurs : ε sont des aléas, ndépendants, d espérance nulle, de varance constante, et de même lo (cf. chaptre ). on dt «IID avec lo normale N(0,σ²)» Problèmes à étuder Vérfcaton des suppostons sur les erreurs ; Robustesse de la régresson : détecton des observatons nfluentes, et de la colnéarté des régresseurs ; Chox d' un sous-ensemble de régresseurs. 4.. Vérfcaton des suppostons de base sur les erreurs Les suppostons sur les erreurs (nconnues) dovent être vérfées à partr de leurs observatons (les résdus) Espérance nulle Il faut vérfer que les résdus sont de moyenne nulle. Or les résdus construts par les mondres carrés sont centrés par constructon, s la constante est dans le modèle (ce que l'on suppose c) Indépendance Il faudrat vérfer que le vecteur des résdus forme un échantllon tré de n varables aléatores ndépendantes On obtent Ŷ par projecton du vecteur Y sur le sous-espace engendré par les régresseurs : l en résulte que les n composants du vecteur e des résdus, e = Y Ŷ, sont relés par des relatons ans que le montre la fgure 4. : Revue MODULAD, Numéro 35

81 Fgure 4. : Projecton de Y dans l espace des régresseurs Dans la représentaton géométrque dans l espace R n, le vecteur des n résdus est stué dans le sous-espace orthogonal à celu des régresseurs ; celu-c étant de dmenson (p+), le vecteur des résdus est alors stué dans un espace de dmenson (n-(p+)). L ndépendance n a donc de sens que s n est grand par rapport à p. Remarque : De façon générale, pour tester l ndépendance, on met en œuvre des tests non paramétrques (qu ne sont proposés dans SAS) basés sur des séquences : séquence des sgnes des dfférences successves (e+ - e), ou séquence des sgnes des dfférences à la médane (e - Medane). Cas partculer où les observatons sont apparentées (cas des chronques) : Alors le test de Durbn-Watson permet de vérfer s le résdu en est non-corrélé au résdu en (+) : on parle d auto-corrélaton d ordre. Il est obtenu par l opton DW de l nstructon MODEL de Proc REG. On calcule ans le coeffcent de Durbn-Watson à partr des résdus DW = ( e ) + e e e = Y Ŷ, + e.e En notant ρ =, s les résdus forment un processus autorégressf d ordre e, c'est-à-dre suvent le modèle e = ρ. e + η ρ, +, alors DW vaut à peu près ( ) Revue MODULAD, Numéro 35

82 + e.e où DW.. e Lens entre les valeurs ρ et DW: S 0 < ρ < DW comprs entre 0 et S 0 > ρ > - DW comprs entre et 4 S l n y a pas d auto-corrélaton d ordre ρ proche de 0, donc DW proche de. Il exste des tables dtes de Durbn-Watson permettant de tester l absence d' autonombre corrélaton d'ordre en foncton du nveau de confance α, et de n ( d'observatons) et p (nombre de varables). On y lt deux valeurs d et d: Les causes de l'auto-corrélaton sont une mauvase spécfcaton du modèle, ou l'absence d'une varable mportante. Les remèdes sont sot de travaller sur les dfférences premères en Y c'est-à-dre (Y - Y - ), sot d'applquer la méthode de Cochran-Orcutt (vor les lvres spécalsés en Econométre). PROC AUTOREG, du module SAS/ETS, réalse des régressons où le problème de l auto-corrélaton des résdus est résolu. Remarque : Beaucoup de logcels donnent systématquement cette statstque DW, mas nterpréter le test de Durbn-Watson sur les résdus n a aucun sens s les données ne sont pas apparentées Egalté des varances (homoscédastcté) Les graphques des résdus contre les dfférents régresseurs Xj, permettent de vsualser s les résdus sont réparts dans une bande de valeurs horzontale autour de 0, c est à dre s l y a homoscédastcté. Snon on peut alors détecter quelle est la varable responsable de l'hétéroscédastcté. e O Var(e) grandt avec Xj Xj Fgure 4. : Graphque «typque» des résdus contre Xj révélant une hétéroscédastcté Revue MODULAD, Numéro 35

83 Ces graphques peuvent être tracés par la procédure GPLOT s on a stocké les résdus dans une table, mas peuvent auss être fats à l ntéreur de la procédure REG, à l ade de l'nstructon PLOT, avec «R.» comme nom de varable en ordonnée car le résdu est stocké en nterne dans la varable ayant le nom R. Dans SAS/INSIGHT, un graphque des résdus (dénommé R_Y) contre X est tracé s le modèle est une régresson à un régresseur ; snon c est le tracé de R_Y contre l estmaton Ŷ (dénommée P_Y) qu est tracé par défaut. Ces deux varables sont automatquement créées dans la table SAS actve. Il est possble de réalser les autres graphques à l ade de la varable R_Y. L nstructon MODEL de Proc REG possède une opton SPEC pour tester s'l y a un problème d'hétéroscédastcté : l'hypothèse nulle «homoscédastcté» est testée à l'ade d'une statstque suvant une lo du Ch (cf. Whte H., (980)). Le test est global, et donc en cas de rejet de H0, on ne sat pas quelle est la varable responsable de l'hétéroscédastcté. D'autres tests, comme ceux de Goldfeldt et Quandt, ou de Breush et Pagan (vor les publcatons spécalsées en Econométre, par exemple Green (005)), permettent de mettre en évdence l'hétéroscédastcté dûe aux dfférentes varables. Mas ls sont assez lourds à mettre en œuvre, et ne sont pas fats par des procédures SAS. Une méthode plus smple peut permettre d'avor une dée préalable sur l'exstence d'un problème. Celle-c s apparente au test de Chow(960) pour une sére chronologque, où on teste l égalté des varances des résdus de sous pérodes de la chronque. Ic, on tre les résdus selon les valeurs crossantes de la varable Xj suspecte (par PROC SORT), ensute on partage le vecteur des résdus trés en paquets (premers, derners) dont on calcule les varances. Pus on teste l'hypothèse nulle d'égalté de ces varances c'est à dre la possblté d'homoscédastcté, à l'ade de la procédure TTEST de SAS. Quelques remèdes en cas d'hétéroscédastcté : transformer Y ou Xj par une foncton racne carrée, ou Log, ou carré, etc. pour «aplatr» les varances : l échelle de Tukey donnée au chaptre 3 ( 3..3), peut ader au chox de la transformaton ; mettre en œuvre une régresson pondérée avec l nstructon WEIGHT, en prenant comme pods s la varance σ² est une foncton connue f de f( X j ) Xj ; mettre en œuvre les mondres carrés généralsés, ce qu peut se fare par PROC GLM. Revue MODULAD, Numéro 35

84 4..4. Normalté des erreurs Supposton : Les ε sont ndépendant, et suvent une lo N(0,σ²). Cette supposton de normalté est nécessare pour effectuer les tests sur les coeffcents et les tests sur les sommes de carrés à l'ade des statstques de Student ou de Fsher vues aux chaptres et. C omme tout test, le test d adéquaton à une lo nécesste l ndépendance. Or les résdus sont lés. Donc réalser un test de normalté à une lo N(0, σ²) sur ces résdus n a pas de sens. Dans SAS, un tracé «QQ-Plot» 8 pour les résdus permet de vérfer graphquement l adéquaton à la lo normale (0,s²) ou s² est estmé par MSE (Mean Square Error du modèle). Le QQ-Plot est obtenu dans la procédure REG avec l nstructon PLOT : on demande le tracé de R (varable nterne des résdus) contre NQQ (varable nterne contenant les quantles de la lo normale) : vor l exemple c-dessous ( 4..5). Dans SAS/INSIGHT, une fos que l on a exécuté le modèle, on peut ajouter aux sortes standards un graphque QQ-Plot appelé «Resdual Normal QQ» dans le menu Graphs (penser à cocher «Reference lnes»dans le menu contextuel du graphque pour tracer la drote) Exemple On utlse les données «Processonnare du pn» ssu du lvre de Tomassone et al..(983), déjà tratées au chaptre. On se lmte dans ce paragraphe au modèle Y = log = f(x X X4 X5), dont on verra que c est un «bon» modèle. On trouvera au.3. les caractérstques des varables, la matrce de corrélaton et les graphques de dsperson des varables. Modèle proc reg data=lbreg.chenlles; ttle 'Modèle Y = X X X4 X5 '; LOG : model LOG=X X X4 X5 ; run ; qut; 8 On trouvera en annexe 5 le prncpe de constructon des QQ-Plot pour l adéquaton à certanes los. Revue MODULAD, Numéro 35

85 Dessn des résdus contre les 4 régresseurs (avec SAS/INSIGHT) On y affche le numéro de certanes observatons, qu ont des résdus un peu grands, ou qu seront détectés plus lon comme «atypques» ( 4.3.) Revue MODULAD, Numéro 35

86 Remarque : nstructon de tracé des résdus dans PROC REG /* dessn des resdus contre les X dans PROC REG */ plot R.*X='' R.*X='' R.*X4='4' R.*X5='5' / vref = 0 ; QQ-Plot (avec SAS/INSIHT) Le tracé QQ-Plot montre un assez bon ajustement à la lo normale. Revue MODULAD, Numéro 35

87 Test d homoscédastcté et tracé du QQ-PLOT avec PROC REG. /*opton SPEC + dessn QQ_Plot */ proc reg data=lbreg.chenlles; ttle 'Modèle Y = X X X4 X5 '; LOG : model LOG=X X X4 X5 / SPEC ; run ; /* QQ Plot */ plot R.* NQQ. ; qut; L homoscédastcté des résdus n est pas rejetée. Revue MODULAD, Numéro 35

88 4.3. Influence d'observatons Dans le but d'avor une régresson plus robuste, l faut détecter les observatons nfluentes, détecton qu commence là-auss par des graphques sot de Y contre les Xj, sot des résdus contre les Xj. Dans la fgure 4.3, e est nul car l observaton est nfluente à cause de son caractère atypque. Y e = 0! X Fgure 4.3 : Exemple d observaton à fort effet de lever SAS calcule une sére d'ndcateurs par les optons R et INFLUENCE de l'nstructon MODEL. L'ouvrage «Regresson Dagnostcs» de Belsley D.A., Kuh K. et Welsh R.E. (980) en est la référence de base. Ces ndcateurs sont basés sur des détectons de l nfluence selon des mesures dfférentes, donc détecteront des nfluences de nature dfférente : on dstnguera donc des observatons nfluentes sur la régresson, ou suspectes, ou atypques, ce derner terme étant plutôt recommandé. Les mesures peuvent être classées en 3 groupes : détecton d un effet de lever de l observaton, donnant un résdu pett : leverage ; détecton de résdu grand donc observaton atypque ; détecton d un grand effet sur l ajustement, ou les coeffcents, ou la précson Hat matrce et leverages On utlse c le modèle sous sa forme matrcelle : Y = Y Y Y Y 3 L n X = L X X n X X n L L X X p np β = β β β β 0 L p ε = ε ε ε ε 3 L n Revue MODULAD, Numéro 35

89 L estmaton des mondres carrés est le vecteur B = ( X X) X Y D où l'ajustement Ŷ = X( X X) X Y En notant H= X( X X) X, on obtent Ŷ = HY et e = ( I H)Y Cette matrce est nommée H pour Hat matrce car hat se tradut par chapeau, et Ŷ se dt Y chapeau. Dans l espace R n, H est la matrce de la projecton de Y sur l'espace engendré par les varables régresseurs X (es pace de dmenson (p+)) : c est donc la matrce d un projecteur, dont deux proprétés sont : H' = H, et trace(h) = p+. H est une matrce carrée (n,n), dont la dagonale comporte les n coeffcents h.de l expresson matrc h = x X X x. Les coeffcents h explcatves Xj. elle de H, on dédut ( ) ne comportent donc que des données relatves aux varables Les «leverages» (levers) des observatons sont ces n valeurs h. Un lever représente l'nfluence de l'observaton sur la valeur ajustée Ŷ, à cause des valeurs x prses par les varables en. On peut montrer que ( h = n) + ( x x c ) ( X c Xc ) ( x x c ), où (x - x c) est la dfférence entre le vecteur des valeurs des varables pour l'observaton, et le vecteur des valeurs moyennes, et X c la matrce de talle (n,p) des valeurs centrées. Le lever en est donc une «dstance» entre les valeurs des X prses en et les valeurs moyennes calculées sur les n observatons Des dfférentes proprétés de H, on dédut:. h = hj = h + n j=,n j ( ) trace H = p + h h p h = j = p + et auss des formules concernant les varances : var( Ŷ ) = σ²h et var(e) = σ²(- h ). On en conclut que h est toujours plus pett ou égal à. Règle (colonne Hat Dag H): S les levers étaent tous égaux, la valeur commune serat (p+)/n. De façon emprque, un lever supéreur à (p+)/n est suspect. Revue MODULAD, Numéro 35

90 4.3.. Résdus studentsés nternes Ils sont appelés en anglas Standardzed Resduals ou STUDENT. O n connaît la varance de chaque résdu : var ( e ) = σ ( h ) e s n ( p + ) on estme σ² par = = MSE; donc le résdu standardsé est : r e =. s h. Dans cette formule, Ben que numérateur et dénomnateur ne soent pas ndépendants, on consdère que cette quantté r sut une lo de Student à (n--(p+)) = (n-p-) ddl, d où le nom STUDENT. Règle (colonne Student) : r sera suspect s r > (quantle de la lo de Student (- α/), pour le seul α=5%, avec l approxmaton par une lo normale s n grand) Résdus studentsés externes Ils sont appelés en anglas Studentzed Resduals ou RSTUDENT. On remplace dans l'expresson de r l'estmaton s par s (-) qu est l estmaton de s obtenue en refasant l'ajustement du modèle sans l'observaton, ce qu rend e ndépendant de s (-) : cec donne r e ( ) = s h ( ) Règle (colonne RStudent) : r (-) sut auss une lo de Student à (n--(p+)) ddl et sera donc auss suspecte s r(-) >. Certans auteurs préconsent d'autres quantles à un seul fxé α pour r (-) : quantle -α/n plutôt que -α/ Mesure globale de l'nfluence sur le vecteur des coeffcents: Dstance de COOK Pour chaque observaton, on calcule une «dstance» entre le vecteur B des coeffcents de la régresson et le vecteur B(-) obtenu en refasant la régresson sans l observaton : la dstance se mesure à l ade de (X X) et est normée par s², estmaton de σ². B B COOKD = = ( ) ( ) ( X X) B B( ) r h ( p + ) s ( p + )( h ) Règle : (colonne Cook's D) : La dstance de COOK étant normée, une valeur 9 supéreure à est suspecte. 9 Certans auteurs suggèrent une lmte de 4/(n-p-), la calbraton à pouvant lasser passer des valeurs nfluentes Revue MODULAD, Numéro 35

91 Influence sur chacun des coeffcents : DFBETAS Pour chaque varable, on calcule la dfférence entre le coeffcent estmé bj et celu obtenu avec l'estmaton sans l'observaton, bj(-). Avec standardsaton, on obtent pour chaque varable explcatve j : j ( DFBETAS) = s ( b j b j( ) ) ( ) ( X X) Règle : Emprquement, un DFBETAS dont la valeur absolue est plus grande que est suspect. n Utlsaton conjonte COOKD et DFBETAS : S'l y a beaucoup de varables, on regarde d'abord les observatons globalement nfluentes (COOKD élevé), pus pour cette observaton quelle(s) varable(s) cause(nt) cette nfluence (DFBETAS). j,j Précson des estmateurs : COVRATIO La quantté Mean Square Error (MSE) mesure la précson globale de l estmaton : MSE pett ndque une bonne précson. MSE est auss la varance des résdus. Ic, on mesure la précson en utlsant une varance «généralsée», évaluée par : s² (X'X) - calculée avec et sans l'observaton ((la notaton (..) désgne le détermnant de la matrce) : ( COVRATIO) s = s ( ) ( X' X) ( X' X) Donc (COVRATIO) plus grand que ndque que le fat de mettre l'observaton augmente la précson, alors qu'une valeur plus pette que ndque une dmnuton de la précson. Règle : Belsley, Kuh et Welsh suggèrent qu'un écart à l'unté dépassant 3(p+)/n est grand. ( ) Influence sur la valeur ajustée: DFFITS Pour chaque observaton, (DFFITS) donne la dfférence entre la valeur ajustée pour l'observaton et la valeur prédte de Y pour dans le modèle estmé sans cette observaton. Un grand écart ndquera une forte modfcaton dans la valeur ajustée par le modèle quand l' observaton est retrée. Avec une standardsaton à s(-): ( DFFITS) Ŷ = s Ŷ ( ) ( ) h = r ( ) h h Règle : DFFITS est déclaré suspect s'l est en valeur absolue plus grand que ( p ) n +. Revue MODULAD, Numéro 35

92 Coeffcent global PRESS ( ) Predcted Resduals Sum of Squares = PRESS= Y Ŷ ( ) Ce coeffcent (unque) est calculé en fasant n estmatons Ŷ ( ) obtenues en enlevant une observa ton. Il devrat donc être égal à la somme des carrés des résdus du modèle avec toutes les observatons (SSResdus) s aucune observaton ne pose problème. ( ) Des coeffcents PRESS ndvduels Y Ŷ ( ) peuvent être obtenus unquement dans la table SAS créé par l'nstructon OUTPUT. Ces coeffcents peuvent être comparés aux coeffcents DFFITS, comme le montre la fgure 4.4 c-dessous : =,n Fgure 4.4 : Illustraton de PRESS et DFFITS Comment obtenr les mesures d nfluence dans SAS Dans PROC REG Elles sont affchées en sorte par des optons de l nstructon MODEL. Opton R pour toutes les observatons, le résdu et son écart-type, les résdus standardsés STUDENT, la dstance de COOK et un dessn ndquant la poston du résdu par rapport à l ntervalle [- ; + ] ; Opton INFLUENCE pour toutes les observatons, lever, résdu studentsé externe RSTUDENT, COVRATIO, DFFITS et DFBETAS de chaque coeffcent. Certanes mesures peuvent être stockées dans une table de sorte SAS (table possédant n lgnes au mons), à l ade de l nstructon OUTPUT : on crée des varables en utlsant les mots-clefs R, STUDENT, RSTUDENT, H, COOKD, DFFITS et PRESS. L opton PRESS de l nstructon MODEL permet d obtenr le coeffcent PRESS «global», qu sera affché en sorte, et stocké dans la table de l nstructon OUTPUT s cette nstructon exste. Revue MODULAD, Numéro 35

93 Dans SAS/INSIGHT Une fos que l on a exécuté le modèle, on peut ajouter à la table SAS sur laquelle on travalle, des varables à l ade du menu Vars. Les varables ajoutées ont alors le nom ndqué entre parenthèses c-dessous (où Y est le nom de la varable réponse du modèle) : Hat Dag, Resdual Standardzed resdual Studentzed resdual Cook s D Dffts Covrato Dfbetas (H_Y) (R_Y) (RS_Y) (RT_Y) (D_Y) (F_Y) (C_Y) (BY_Intercept, BY_X, BY_X, etc.) sgnfant Tableau récaptulatf Std Err Resdual estmateur de l'erreur-type du résdu Student Resdual résdus studentsés nternes, appelés standardzed resdual dans SAS-Insght Rstudent résdus studentsés externes, appelés studentzed resdual dans SAS- Insght à comparer avec Student Resdual écart-type calculé en retrant l obs. Hat Dag H lever de l'obs. objet permet de calculer test de mesure l'nfluence l'ntervalle de sgnfcatvté de l'obs. à cause confance autour du résdu des valeurs x du résdu valeurs (p + ) crtques n Student resdual > RStudent > (p + ) alors le résdu h > Règle de alors l'observaton n décson est nécesste une sgnfcatvement nécesste une nvestgaton! nvestgaton 0 Opton de PROC R R Influence Influence REG Revue MODULAD, Numéro 35

94 Cook's D Df betas Cov Rato Dffts DFBETAS relatf à Rato de MSE sgnfant dstance de Cook chaque coeffcent statstque sans et avec β DFFITS j l'observaton mesure le mesure mesure changement en normalsée de normalsée retrant l'o bs., sur l'effet de l'obs. mesure l'effet de du changement objet les estmatons de sur l'estmaton, l'obs. sur la dans la valeur l ensemble des pour chaque précson prédte, avec et coeffcents coeffcen β sans l'obs. valeurs crtques Règle de décson Opton de PROC REG ou 4 ( n p ) CookD > alors l'observaton est nfluente globalement n t j Dfbetas > n ndque une nfluence de l'obs. sur l'estmaton de β j 3 (p + ) n (p + ) n (p + ) 3(p + ) Dffts > Covrato > n n nécesste une ndque une nvestgaton nfluence de l'obs. sur Y ˆ R, Influence Influence R R On trouvera dans le programme SA S c-dessous une macro CRITIQUE (avec comme paramètres : n nombre d observatons, p nombre de régresseurs, et b0 ndcateur de la présence d une constante) permettant d affcher les valeurs crtques des dfférentes mesures d nfluence. Revue MODULAD, Numéro 35

95 %MACRO CRITIQUE (n=, /* nombre d'observatons*/ p=, /* nombre de régresseur */ b0= /* bo= s constante (ntercept) */ ); data seul; n= &n; p=& p; b0=&b0; dcook=4/(&n-&p-&b0); hat_dag= *(&p+&b0) / &n; covrato=3* (&p+&b0) / &n; dffts=*sqrt((&p+&b0) / &n); dfbetas=/sqrt(&n); proc prnt data=seul; %mend; /* */ *exemple appel de la macro ; %crtque(n= 44,p= 4, b0= ); run; Exemple On utlse les données «Processonnare du pn» ssu du lvre de Tomassone et al. (983) et on se lmte de nouveau au modèle Y = log = f(x X X4 X5). /* appel de la macro */ Ttle 'Valeurs crtques pour n = 33 et p = 4'; %crtque(n= 33,p= 4,b0=); run; ttle ' nfluence des observatons '; proc reg data=lbreg.chenlles;; LOG : model LOG=X X X4 X5 /R nfluence ; run; /* exemple de stockage des crteres */ output out=nfluence H=lever COOKD=dcook STUDENT = rs RSTUDENT = rse ; qut; Voc les valeurs lmtes pour les coeffcents d nfluence : La table des valeurs des coeffcents d nfluence de toutes les observatons est donnée c-après. Mas plutôt que de rechercher les valeurs lmtes dans cette table, de smples Box-Plot permettent de les repérer rapdement. Revue MODULAD, Numéro 35

96 Dessns BOX-PLOT des coeffcents d nfluence : Ce type de représentaton est très rche en nformaton sur la forme d une varable, et l exstence de valeurs dfférentes des autres (outlers). On en trouvera l explcaton détallée dans Le Guen (00) Revue MODULAD, Numéro 35

97 Résdus standardsés Internes Externes Levers CovRato Dffts DCook Revue MODULAD, Numéro 35

98 Dfbetas La dstrbuton des levers ne révèle pas d outlers, mas au vu des valeurs, on constate que quelques observatons ont cependant un lever un peu trop grand (> 0.3) : 8, 0,, et 3. Les observatons 0 et 33 ont des résdus «grands» ( STUDENT et RDSTUDENT > ) et donc un grand effet sur la précs on (COVRATIO -) > 0.34 car quand on les enlève de la régresson, SSE dmnue fortement. Et elles nfluent également sur DFFITS >> Les observatons 0 et ont une forte ncdence sur l ensemble des coeffcents (DCOOK > 0.0) et donc sur certans coeffcents (DFBETAS > 0.30), ceux de X et X pour les observatons, celu de X4 pour l observaton 0. Pour résumer, les observatons 0 0 et 33 seraent atypques. Cependant, au vu des données, où ces observatons sont des placettes ssues d un plan d expérence, on peut penser qu l n est pas judceux de les retrer de la régresson. Le dessn humorstque de la fgure 4.5 c-dessous (publé dans le manuel du logcel OSIRIS, mas l auteur nous est nconnu) llustre le mauvas réflexe que pourrat avor le statstcen au vu de données atypques! Revue MODULAD, Numéro 35

99 Fgure 4.5 : Que fare en présence de données atypques? 4.4. Colnéarté des régresseurs Dfférents symptômes sont révélateurs de problèmes de colnéarté : De grandes corrélatons entre les régresseurs ; Un grand changement dans les coeffcents quand on ajoute ou enlève un régresseur ; Des coeffcents non sgnfcatfs alors que le test global d analyse de varance sur tous les coeffcents est sgnfcatf ; La non sgnfcatvté et/ou une très grande varance pour le coeffcent d un régresseur théorquement mportant dans le modèle ; Un coeffcent de sgne opposé à celu auquel on s attendat. Ce sont des problèmes d'nverson de X'X, qu entranent une augmentaton des varances des coeffcents, et donc leur nstablté car Var( β ) = σ (X' X). Et la nonnverson de X X se rencontre quand l exste des combnasons lnéares entre les colonnes de X. Revue MODULAD, Numéro 35

100 L exemple smple de la fgure 4.6 llustre le phénomène d nstablté dû à la lason entre deux régresseurs. Y X O Y ^ X Fgure 4.6 : Projecton de Y dans l espace de régresseurs corrélés Dans l espace R n, les cosnus d angle entre varables sont les corrélatons (vor chaptre,..5): Ic X et X étant très corrélées, l angle entre les vecteurs est pett, ce qu rend le sous-espace (X, X), et donc la projecton, nstables Méthodes basées sur l'étude de la matrce X'X La matrce X possède n lgnes et (p+) colonnes :. ( ) X = x j = M. x x M x n x x x M n xp x p M xnp La matrce (X'X) est une matrce carrée (p+), symétrque, dont les éléments sont cal culés ans : ( X X) = n ( X X) kk = x k, k ( X X) =,n = x kh =,n k =,n k ( X X) = x = n.moyenne( X ), k k x h, k,h En étudant les levers au 4.3., on a utlsé les varables régresseurs centrées. S o n consdère la matrce X c de talle (n,p ) ayant en colonnes les p régresseurs centrés, alors (Xc'Xc) = n. COV où COV est la matrce de varance-covarance des varables Xj. Quand les varables sont non-corrélées, alors (X'c Xc) est une matrce dagonale pusque toutes les covarances sont nulles. k Le ste de Chong Ho Yu llustre de façon très amusante ce problème d nstablté Revue MODULAD, Numéro 35

101 Donc X X est égal à n.r s on travalle sur des régresseurs centrés et réduts, où R est la matrce carrée symétrque des coeffcents de corrélaton entre les p régresseurs. Etude de la matrce de corrélaton des régresseurs Cette étude se révèle ntéressante. S les régresseurs ne sont pas corrélés entre eux, cette matrce, notée R, n a que des sur sa dagonale, et 0 alleurs : c est la matrce dentté. La matrce R est symétrque défne et postve, et de rang p. Les valeurs propres de R sont donc en nombre de p, elles sont postves et leur somme vaut p (trace de R). Quand l n y a aucune lason entre les régresseurs, elles sont toutes égales à car R est la matrce dentté. Snon, on aura des valeurs propres plus pettes et mêmes proches de 0 : l examen des valeurs propres révèlera donc les problèmes de lason entre les régresseurs. R (-), matrce nverse de R, est également rche en nformatons. En effet on ( ) peut montrer que ses éléments dagonaux R sont égaux à /( - R²j) où ( ) R²j est le coeffcent de corrélaton multple de la régresson avec constante de X j sur les (p-) autres varables. S on défnt un modèle avec les régresseurs centrés et réduts, en remplaçant l express on de (X X) dans l estmateur des mondres carrés, on montre (cf. Woolrdge (000)) que le vecteur des coeffcents Bc de ce modèle est σ Bc = R X Y, et la matrce de varance-covarance vaut Var(Bc ) = R. n n Une étude préalable de la matrce de corrélaton des régresseurs, complétée éventuellement par une Analyse en Composantes Prncpales, s mpose donc et permet de vsualser les lasons entre varables. REG possède des optons TOL, VIF et COLLIN, COLLINOINT pour détecter des problèmes de colnéarté selon deux optques dfférentes. SAS/ INSIGHT donn e les ndces TOL et VIF par défaut, et affche la table COLLIN unquement. j Varance Inflaton Factor On a vu au 4.4. que la matrce de varance covarance des coeffcents du modèle où les régresseurs sont centrés et réduts est R -, à un facteur près. Donc l élément dagonal j de cette matrce mesure comment la varance du coeffcent de X j sera augmentée par la colnéarté. Pour chaque varable X j, on nomme cet élément VIFj ( Varance Inflaton Factor ou nflaton de varance) : VIFj = /( - R²j) où R²j est le coeffcent de corrélaton multple de la régresson avec constante de X j sur les (p-) autres varables. Revue MODULAD, Numéro 35

102 S'l y a colnéarté, alors R²j est proche de, donc VIFj est grand. Comme la lo de ce coeffcent n est pas connue, Belsley et al. ont défn un seul lmte de façon emprque. Règle : une valeur de VIF plus grande que 0 révèle un problème. Tomassone (983) propose de calculer un ndce global de colnéarté défn p comme la somme des VIF de tous les régresseurs : I = VIF j p j= Remarque: la tolérance (opton TOL) est défne comme l'nverse de la varance nflaton TOLj = /VIFj Condton ndex et varance proporton On a sgnalé au 4.4. que l étude les valeurs propres de la matrce de corrélatons révèle les problèmes de lasons entre les régresseurs. Cette étude se fat auss par l analyse en composantes prncpales (ACP), qu consste à transformer des varables pour obtenr d autres varables orthogonales, qu sont des combnasons lnéares des premères, appelées composantes prncpales (cf. Saporta (006) ou Tenenhaus (994)). Plus précsément s Z est la matrce (n,p) des varables ntales centrées et rédutes, on construt la matrce W (n,p) des varables orthogonales avec la relaton W = Z U. En ACP, on démontre que la matrce U est la matrce des vecteurs propres normés de R, assocés aux p valeurs propres ( λ k,k =,,...,p), qu sont postves car R est symétrque défne postve. On les ordonne de la plus grande à la plus pette : une lason parfate entre les varables Z entrane une nullté des dernères valeurs propres. On montre également que la varance d une composante W k est égale à λ k. S on construt le modèle avec les varables W, on trouve donc la soluton des ) ) mondres carrés Y = W c + e, avec c = (W'W) W' Y. ) Et la matrce de varance-covarance des coeffcents est Var( c) = σ ( W'W) ; pour ) σ un coeffcent : var( c k ) = nλk. Comme les varables sont orthogonales et de varance égale à la valeur propre, on en dédut ) Y = W c + e = Ω W' Y, avec Ω = Dag,k =,.., p k matrce dagonale. On trouvera dans le chaptre 6 du lvre Tomassone et al (99), le prncpe de cette méthode qu l appelle «régresson orthogonalsée» Revue MODULAD, Numéro 35

103 On passe faclement de c ) à α ) ) ) ) car Y = W c + e = ZUc + e = Zα + e, et donc α ) = U c ). ) ) Var α = UVar(c)U ; pour le coeffcent du La matrce de varance-covarance est ( ) ' σ jk var ) : des valeurs propres fables entranent donc de n k= λk grandes varances des coeffcents. p U régresseur j, ( α j ) = Les ndces de colnéarté A - Tout d abord, l édton des valeurs propres donnera des nformatons sur l exstence de colnéarté. De façon générale, on calcule les valeurs propres de la matrce (X X) du modèle, préalablement transformée pour avor unquement la valeur sur les éléments dagonaux. Il y a donc (p+) valeurs propres : c est l opton COLLIN. S on travalle sur un modèle avec les régresseurs centrés comme c-dessus, l y aura p valeurs propres : c est l opton COLLINOINT. On édte ces valeurs propres de la plus grande λ à la plus pette λ L, (L=p ou p+). Une valeur propre nulle révèle l exstence d une dépendance lnéare entre les colonnes de X, donc une colnéarté. On nomme «Condton Index» le rapport condtonnement». Le derner de ces rapports CI λ λ =, appelé auss «ndce de k λ CI = (L=p ou p+) est nommé λ L «Condton Number». Comme la lo de ce coeffcent n est pas connue, Belsley et al. ont défn un seul lmte de façon emprque : Règle (colonne Condton Index) : une valeur grande met en évdence un problème ; emprquement CI > 30 avec l'opton COLLINOINT, ou CI > 00 avec COLLIN. Remarque : On peut défn r une «ndce de multcolnéarté» en calculant la moyenne des nverses des valeurs propres (cf. Foucart 006, 007) : Cet ndce serat calculé comme = I p λ s on consdère que les régresseurs sont k k centrés et réduts (p valeurs propres). B Ensute, pour chaque v a leur propre et donc chaque CI, sont données des «VARance PROPortons», qu ndquent quelles varables sont responsables de la colnéarté révélée par cette valeur propre. ) En effet, on a vu que la matrce de varance-covarance des coeffcents α de la ) ) ré gresson sur les varables centrées et rédutes est Var( α ) = UVar(c)U' et que σ p U jk ) var. n λ pour un coeffcent j, ( α j ) = k= k Revue MODULAD, Numéro 35

104 La colonne «proporton de varance» pour le coeffcent d une varable j est le U jk vecteur Var.Prop. =,k =,..,p ou ( p + ), normé pour que la somme de ses λk composantes sot égale à. Règle : d'après Belsley, Kuh et Welsh, s les proportons de varance de pluseurs varables sont plus grandes que 0.50 pour un «condton ndex» grand, les varables correspondantes ont un problème de colnéarté entre elles. Remarque : l'opton COLLINOINT exclut la constante des estmateurs de coeffcents; les p varables sont centrées et rédutes et (X'X) est donc, à un coeffcent près, la matrce de corrélaton entre les p varables explcatves. L'opton COLLIN nclut la constante dans les estmatons de coeffcents. X content donc la varable constante égale à. La matrce X'X, de talle (p+), est normée pour avor sur la dagonale, mas les varables ne sont pas centrées. Belsley, Kuh et Welsh recommandent de n'utlser l'opton COLLIN que s la constante a une nterprétaton physque. Centrer les varables (opton COLLINOINT) consste à supposer que la constante n'a pas d'effet sur la colnéarté des autres varables régresseurs. De plus, cec est cohérent avec les calculs du «Varance Inflaton Factor». On trouvera dans l artcle d Hélène R ousse-erkel (990) des précsons et des prolongements aux travaux de Belsley et al. sur la colnéarté Remèdes en cas de mult-colnéarté Retrer certans régresseurs, prnc paux «responsables» de la colnéarté ; Les transformer par des ratos s on dentfe le facteur commun de lason ; Augmenter la talle n de l'échantllon avec le recuel d'autres observatons ; Sélectonner les régresseurs, s p est trop grand par rapport à n ; Fare une Rdge-Regresson 3 (transformer (X'X) en (X'X + ki)) (Hoerl et Kennard (970)) ; Travaller sur les composantes prncpales ssues des régresseurs 4 ; Fare une régresson PLS ; Utls er les méthodes de type «LASSO» de Tbshran (996) ; Etc.. La régresson RIDGE et la régresson sur composantes prncpales peuvent être réalsées à l ade des optons RIDGE et PCOMIT de l nstructon Proc REG (vor l annexe pour la syntaxe). Remarques : - Quelques unes de ces méthodes sont décrtes dans les artcles de la R.S.A. de P.Cazes (975) ou de R. Palm et A.F.Iemma (995). - La régresson PLS (Partal Least Square) semble une méthode plus effcace que la régresson Rdge ou la régresson sur composantes prncpales en cas de 3 Vor l exemple au C est la «régresson orthogonalsée» de Tomassone ( ) Revue MODULAD, Numéro 35

105 colnéarté, et s'applque auss au cas où p est très grand par rapport à n (vor les publcatons de Tenenhaus (995,998)). PROC ORTHOREG de SAS propose d autres solutons pour réalser une régresson sur données «mal condtonnées», c est à dre en cas de colnéartés des varables Exemple On utlse les données «Processonnare du pn» ssu du lvre de Tomassone et al.(983), avec le modèle Y = log = f(x X X4 X5). proc reg data=lbreg.chenlles ; ttle 'opton TOL VIF'; LOG : model log=x X X4 X5 /tol vf collnont; run; qut; Aucune des valeurs VIF ne sont trop grandes, et tous les coeffcents sont sgnfcatfs. Dans la colonne «condton Index» (tradut dans la verson françase de SAS par «Index de condton») l n y a pas de grandes valeurs. Sur la 4 et dernère lgne (c est celle de «condton number»), en regardant les proportons de varance, on constate que les varables X4 et X5 sont les «responsables» de la fablesse de la 4 ème valeur propre : on avat vu au chaptre (.3.) que c est le couple de régresseurs le plus corrélé. Revue MODULAD, Numéro 35

106 Regresson RIDGE Cette méthode, due à Hoerl et Kennard ( 970), consste à modfer (X X) pour la rendre nversble. Pour cela on ajoute un terme constant k à la dagonale ( 0 k ). La soluton des mondres carrés sera donc obtenue en nversant (X'X + ki) : les coeffcents obtenus sont appelés «coeffcents rdge». On trace ensute la varaton des coeffcents rdge en foncton de k : c est la «Rdge Trace». On détermne la valeur de k à partr de laquelle les coeffcents se stablsent : ce sera la valeur chose. ttle 'Rdge-regresson sur le modele a 4 varables' ; proc reg data=lbreg.chenlles rdge = 0 to by 0.05 outest = coeff_rdge ; LOG: model log=x X X4 X5 ; plot / rdgeplot ; run; qut; proc prnt data = coeff_rdge ; run ; Ic les coeffcents rdge se stablsent pour k 0.3. Les valeurs des coeffcents sont alors lus dans la table coeff_rdge. Dans cette table, la premère lgne est le modèle habtuel, et la deuxème correspond à k=0, ce qu est le même modèle. Pour _RIDGE_ = 0.3, b = , b = ; b4 = ; b5 = Revue MODULAD, Numéro 35

107 4.5. Chox des régresseurs Ce chox s' avère nécessare en partculer s le nombre d'observatons est pett par rapport au nombre de régresseurs, à cause du rang de X'X qu peut devenr plus pett que p. Cec peut entraner une nstablté des coeffcents comme on l a vu au paragraphe précédent. Sot un modèle avec n observatons et p régresseurs ; on sélectonne dans les suvants (cette lste est non exhaustve) :. n pett par rapport à p ;. colnéarté des régresseurs ; 3. chox d un modèle plus smple pour la prévson (prncpe de PARCIMONIE). ( et entraînent des problèmes d nverson de X X). Proc REG permet ce chox par l'opton «SELECTION = method», de l'nstructon MODEL. Il n y a pas de sélecton dans SAS/INSIGHT. cas Utlsaton des sommes de carrés La formule de base est : SS Totale = SS Modèle + SS Erreurs Revue MODULAD, Numéro 35

108 Rappel sur les somme de carrés apportés par un régresseur Les sommes de carrés apportés par les régresseurs peuvent être obtenues par les optons SS SS de l'nstructon MODEL de REG, ce qu a déjà été vu dans le chaptre (.4.), ou ben par les «Type III Tests» dans SAS/INSIGHT. SS(Xj) = somme des carrés apportée par la varable Xj ntrodute en séquence dans la régresson, la régresson contenant unquement les varables qu la précèdent dans la lste de varables explcatves de l'nstructon MODEL. SS(Xj) = somme des carrés apportée par la varable Xj, lorsque l'ensemble des (p-) autres régresseurs est déjà dans la régresson. Ce sont les sommes de carrés données par la table «Type III Tests» de SAS/INSIGHT. SS(Xj) correspond au calcul du carré de la dfférence entre la valeur de Y estmée par la régresson avec les p varables et celle estmée dans la régresson à (p-) varables, sans Xj. Pour le chox de régresseurs, le deuxème calcul d apport de somme de carrés est le plus ntéressant, car l ne dépend pas de l ordre d ntroducton des varables dans le modèle. On notera «SS apporté par j» cette quantté SS(Xj). Tests des apports à SS Modèle d une varable Les tests décrts dans le chaptre (.4.3), ne sont pas fats par l'opton SS de l'nstructon MODEL de REG, mas sont donnés dans la table «Type III Tests» de SA S/INS I GHT. Plus généralement, comme on l a vu au.4.4, un modèle sans r varables est appelé modèle restrent par opposton au modèle complet à p varables. RRSS (Restrcted Resdual Sum of Squares) = Somme des carrés des résdus du modèle restrent URSS (Unrestrct ed Resdual Sum of Squares)=somme des carrés des résdus du modèle complet. (RRSS URSS)/r La valeur de la statstque du test est F =. URSS /(n p ) Dans le cas d une seule varable, r vaut, et donc en passant aux sommes de carrés du modèle : (RRSS URSS)/ SS F = = URSS /(n p ) Modèle complet SS MSE Modèle sans j. F = SS apporté par j MSE Les tests de sgnfcatvté de ces sommes de carrés sont donc réalsés à l ade d une statstque F, obtenue en dvsant SS par la quantté MSE (Mean Square Error) du modèle avec constante contenant tous les régresseurs. De plus, la valeur Revue MODULAD, Numéro 35

109 de F assocé à SS est auss le carré du t de Student du coeffcent de la varable j dans la régresson à p régresseurs. Exemple d élmnaton progressve On analyse les données «Processonnare du pn» ssu du lvre de Tomassone et al..(983). On va calculer les apports de sommes de carrés pour élmner progressvement les varables à partr du modèle complet à 0 varables. On utlse les sortes de SAS/INSIGHT, qu permet dans le tableau «Type III Tests» de tester la valdté de l apport des sommes de carrés. Modèle à 0 varables Model Equat on l og = X X X X X X X X X X0 Sour ce Model Error C Total DF 0 3 Anal ys s of Var ance Sumof Squar es Mean Squar e F St at Pr > F Var abl e Intercept X X X3 X4 X5 X6 X7 X8 X9 Parameter Estmat es DF Est mat e St d Er r or t Stat Pr > t X Tol er ance Var Inflaton C est un modèle globalement bon (F d analyse de varance sgnfcatf), mas les coeffcents des régresseurs X3 X6 X7 X8 X9 et X0 sont non sgnfcatfs. De plus, l nflaton de varance est plus grande que 0 pour les régresseurs X3 X4 X6 et X9. Le mod èle n est donc pas un «bon modèle» : l faut élmner des régresseurs. Pour cela on effectue les tests sur les apports de sommes de carrés Revue MODULAD, Numéro 35

110 Type III Tests Sour ce DF Sumof Squar es Mean Squar e X X X X X X X X X X F St at Pr > F Les varables X3, X6, X7, X8, X9, et X0 ont un apport non sgnfcatf : on élmne la varable X6 dont l apport est le plus pett. Remarque : on peut vérfer c que F(X6) = t²(x6) = (-0.3)² (cf. chaptre,.3.4) Sour ce X X X3 X4 X5 X7 X8 X9 X0 DF Type III Tests Sumof Squar es Mean Squar e F St at Pr > F On élmne X7 Sour ce X X X3 X4 X5 X8 X9 X0 DF Type III Tests Sumof Squar es Mean Squar e F St at Pr > F On élmne X8 Sour ce X X X3 X4 X5 X9 X0 DF Type III Tests Sumof Squar es Mean Squar e F St at Pr > F On élmne X0 Revue MODULAD, Numéro 35

111 Sour ce X X X3 X4 X5 X9 DF Type III Tests Sumof Squar es Mean Squar e F St at Pr > F On élmne X3 Sour ce X X X4 X5 X9 DF Sumof Squar es Type III Tests Mean Squar e F St at Pr > F On élmne X9 Type III Tests Sour ce DF Sumof Squar es Mean Squar e F St at Pr > F X X X4 X On a obtenu un modèle dont les apports de toutes les varables sont tous sgnfcatfs : on arrête donc le processus. La procédure réalsée donne donc comme modèle fnal Y = f(x X X4 X5); qu est le modèle déjà étudé et qu s est révélé être un modèle «correct», vérfant les suppostons de base sur les erreurs ( 4..5), où 4 observatons sont atypques ( 4.3.), et dans lequel les 4 régresseurs n ont pas de problème de colnéarté ( 4.4.5) Dfférentes méthodes basées sur les sommes de carrés Méthode FORWARD (ascendante) On ntrodut les varables une par une : on commence par un modèle à une varable, et on ajoute à chaque étape une varable. Les SS Modèle augmentent forcément (gan) et le prncpe est de fare entrer à chaque pas la varable qu apportera l'augmentaton la plus sgnfcatve de la somme des carrés du modèle. Donc, la varable qu est ntrodute est celle qu a SS apporté par j maxmum, donc qu possède le F le plus grand, et sgnfcatf avec une probablté par défaut assocée au F de 0.5 : ce seul s'appelle le seul «pour entrer» SLE de REG. Il y a au plus p modèles sélectonnés, qu sont affchés par ordre crossant de k (k= à L, L p. Revue MODULAD, Numéro 35

112 Méthode BACKWARD (descendante) 5 On part de la régresson à p régresseurs, et on élmne à chaque pas la varable la mons sgnfcatve, c'est-à-dre qu'on élmne la varable ayant SS apporté par j mnmum, c'est-à-dre le F ou le t de Student le plus pett (probablté par défaut assocée au F de 0.0 : seul «pour sortr» SLS de REG). Il y a au plus p modèles sélectonnés, qu sont affchés par ordre décrossant de k (k=p à L, L. Méthode STEPWISE (progressve) C st une combnason FORWARD/BACKWARD : on effectue une sélecton FORWARD, en lassant la possblté de fare sortr du modèle à chaque pas une des varables devenue non sgnfcatve (seuls de probablté «pour entrer» 0.5, «pour sortr» 0.5 par défaut dans REG). Remarque : les méthodes FORWARD, BACKWARD et STEPWISE ne donnent pas forcément le melleur sous-ensemble à k varables. On peut le vor sur l exemple c-dessous, extrat de Brenot, Cazes et Lacourly (975). On consdère un modèle à 3 régresseurs. La fgure 4.6 llustre graphquement les lasons dans R n : Fgure 4.6 : représentaton géométrque dans R n de y et x x x3 Dans l espace R n, y, x et x3 sont coplanares, et x, qu n appartent pas au plan, est telle que son coeffcent de corrélaton avec y est le plus fort des coeffcents de corrélatons de y avec les 3 régresseurs. La melleure régresson avec varables est donc y=f(x). La melleure régresson à varables est donc y=f(x, x3). Les méthodes de sélecton donneront les chox successfs : BACKWARD : (x, x, x3) (x, x3) x ou x3 FORW ARD : STEPWISE : x x (x, x) ou (x, x3) (x,x ) ou (x, x3) (x, x, x3) (x, x, x3) (x, x3) Les modèles à ou à varables trouvés par ces méthodes sont dfférents, et ne sont pas forcément les melleurs : BACKWARD trouve le melleur modèle à varables, mas pas celu à ; FORWARD et STEPWISE trouvent le melleur modèle à varable mas pas celu à ; la méthode STEPWISE effectue un pas de plus que FORWARD. 5 C est la méthode réalsée au Revue MODULAD, Numéro 35

113 Exemples de sélecton STEPWISE On sélectonne parm les 0 varables canddates dans les données «Processonnare du pn» ssu du lvre de Tomassone et al.(983). Tout d abord, on conserve les seuls par défaut SLE = SLS = 0.5 de la méthode. ttle 'regresson STEPWISE '; proc reg data =lbreg.chenlles ; log0 : model log = x--x0 / selecton = stepwse; run ; qut; Revue MODULAD, Numéro 35

114 Résultats : La sélecton se fat en 4 étapes. A chaque étape, des résultats globaux sur le modèle sont données (R², CP, analyse de varance). Pour vérfer s les régresseurs n ont pas de colnéarté «pathologque», le «Condton Number» (cf ) est borné : c par exemple au 4 ème pas, Condton Number a une borne supéreure très grande (5.0) donc on peut soupçonner l exstence d une colnéarté entre les 4 régresseurs. Le modèle trouvé en 4 étapes est le modèle LOG=f(X9, X, X, X3). Revue MODULAD, Numéro 35

115 Pus on fxe les seuls SLE et SLS à 5% par les optons SLE= 0.05 et SLS = ttle 'regresson STEPWISE avec seuls à 0.05 '; proc reg data =lbreg.chenlles ; log0 : model log = x--x0 / selecton = stepwse SLE = 0.05 SLS = 0.05; run ; qut; Dans ce cas, pas seulement sont effectués et le modèle est LOG= f(x9, X). Remarque On peut rasonner sot avec les sommes de carrés comme on vent de le fare aux SSModèle 4.5. et 4.5., sot avec R ² =, ce qu est équvalent compte-tenu de SS Total l équaton d analyse de varance : SS Totale = SS Modèle + SS Erreurs D où les autres méthodes présentées c-dessous Améloraton de R² Maxmum R Improvement (MAXR) C est une méthode qu procède par étape comme les précédentes. Elle tente de trouver le melleur modèle au sens du R² pour chaque valeur k du nombre de régresseurs. La méthode MAXR commence par chosr la varable donnant le plus grand R² (c est à dre celle qu est la plus corrélée avec Y). Pus est ajoutée celle qu provoque la plus grande augmentaton du R². Une fos ce modèle à varables obtenu, tous les échanges possbles entre une des varables présentes dans le modèle et une varable extéreure sont examnés, c'est- Revue MODULAD, Numéro 35

116 à-dre que le R² de la régresson est calculé, et l échange qu est fat est celu qu fourn t l accrossement maxmum de R². La comparason recommence alors avec 3 varables dans le modèle. Ce processus contnue jusqu à ce qu aucune permutaton n augmente R². La dfférence entre les méthodes STEPWISE et MAXR est que toutes les permutatons possbles sont évaluées dans MAXR avant le changement. Dans STEPWISE, seul le «mons bon» régresseur est retré, sans vérfer s on pourrat ajouter la «melleure» varable. En contre parte, MAXR demande évdemment beaucoup plus de calculs. Mnmum R Improvement (MINR) Il s agt du même processus que le précédent sauf que la procédure d echange fat appel au couple de varables assocé au plus pett accrossement du R². L objectf est ans d explorer plus de modèles que dans le cas MAXR et donc, éventuellement, de tomber sur un melleur optmum Autres méthodes basées sur R² : RSQUARE et ADJRSQ Ces méthodes ne fonctonnent pas par étapes. Elles affchent pour toute valeur de k, le melleur sous-ensemble de k régresseurs au sens de R² ou R² adj (défn au chaptre..5), ce que n'assurent pas les méthodes STEPWISE ou MAXR/MINR. Elles demandent beaucoup plus de calculs car l faut examner toutes les régressons possbles, mas les pussants moyens nformatques actuels rendent ces méthodes très rapdes. Pour k= à p, les modèles sont affchés dans l ordre décrossant de R² (ou R²adj). Pour lmter le volume des sortes quand le nombre de varables est grand, l opton BEST = q lmte l affchage aux q premers modèles pour chaque valeur de k. Cec permet d explorer rapdement les sous-ensembles de varables, mas les modèles sélectonnés, optmaux au sens R² (ou R²adj.), ne le sont pas forcément au nveau des données. Auss l est recommandé d affcher des crtères supplémentares de qualté comme les crtères CP, AIC et BIC présentés c-dessous. Il faudra auss valder les modèles, comme on l a vu dans ce chaptre aux 4., 4.3, Coeffcent CP de Mallows Ce coeffcent proposé par Mallows en 973, est basé sur la recherche des régresseurs ayant le melleur pouvor prédctf, c est à dre l erreur totale moyenne la plus pette. Il permet ans de chosr entre pluseurs régressons dfférant à la fos par le nombre de régresseurs et la précson attente. En effet, s on ajoute des régresseurs on dmnue, en général, le bas des estmatons mas on rsque d'augmenter les varances des estmatons et «l'erreur totale» moyenne, car on a pu ajouter des varables très lées aux varables ntalement ntrodutes. Revue MODULAD, Numéro 35

117 La précson étant mesurée par MSE ou ben SSE, on calculera le coeffcent ans : - S q < p, CP(q) =[ SSE(q)/MSE] - [n - (q + )] où SSE(q) = somme des carrés des erreurs de la régressson avec q régresseurs et constante, et MSE = précson s² calculée avec les p régresseurs (sot SSE(p)/(n- (p+)). - S q = p, alors CP(p) = p+. S le «bon» modèle est chos, l estmaton est sans bas, et alors CP(q) est proche de (q+) : vor plus de détals dans Danel et Wood (980). Dans le cas où CP vaut (p+), on a la même précson que la régresson globale. Sélecton suvant le coeffcent CP En plus du R², REG affche les sous-ensembles de régresseurs par ordre crossant de CP. A partr du modèle complet, on chost le premer sous-ensemble dont le CP approche la valeur (p+): c'est le «melleur» sous-ensemble de régresseurs. On peut auss fare le graphque de CP(q) en foncton de q (q= à p) et regarder la poston de l'optmum ans que Mallows recommande: Utlsaton du coeffcent CP dans une sélecton de régresseurs On demande à affcher le coeffcent de chaque modèle obtenu par la méthode de sélecton chose, en ajoutant l opton CP à l nstructon MODEL de REG. Pour un nombre k donné de régresseurs, l est consellé de chosr le sous-ensemble de k varables ayant une valeur de CP la plus grande Crtères AIC et BIC Ces crtères ne sont pas des crtères de sélecton des régresseurs, mas des ndcateurs de la qualté du modèle. De manère générale, ces crtères mesurent la qualté d un modèle statstque bât sur k paramètres sur un échantllon de talle n, à partr de la foncton de vrasemblance L. Akake Informaton Crteron (969) : AIC = Log(L) + k Sawa' s Bayesan nformaton crteron (978) : BIC = Log(L) + klog(n) Le crtère BIC est d un autre crtère utlsé nommé «crtère de Schwartz». Dans le cas d un modèle de régresson à p régresseurs avec constante : SSE AIC = n Log + (p + ) n SSE BIC = n Log + (p + 3)q avec q = n ns² SSE Revue MODULAD, Numéro 35

118 Ces ndcateurs sont utlsés comme la règle habtuelle consstant à chosr le modèle ayant la melleure précson (SSE pett) Exemple de sélecton RSQUARE On sélectonne parm les 0 varables canddates dans les données «Processonnare du pn» ssu du lvre de Tomassone et al.(983). On demande l affchage des melleurs modèles pour chaque nombre de régresseurs par l opton BEST =. ttle 'regresson RSQUARE '; proc reg data =lbreg.chenlles ; log0 : model log = X--X0 / selecton = RSQUARE AIC BIC CP BEST = ; run ; qut; Revue MODULAD, Numéro 35

119 Dans le tableau des modèles, on constate que, parm les modèles à 4 varables, celu qu a le melleur R², et les plus pettes valeurs de AIC et BIC est Y = f(x X X4 X5), qu est le modèle étudé aux paragraphes 4..5, 4.3. et Par contre le crtère CP est plus pett que celu ème modèle sélectonné Y = f(x X X3 X9), qu pourrat donc être également un modèle à étuder : c est d alleurs le modèle fnal trouvé par la méthode STEPWISE ( 4.5.) avec les seuls par défaut de5 %. Revue MODULAD, Numéro 35

120 Concluson Arrvé au terme de ce tutorel nous voulons nsster sur deux ponts non abordés par la technque de la régresson : la qualté des données et les dffcultés d nterprétaton. Ces deux ponts sont du ressort du spécalste du domane d études sur lequel le statstcen applque la régresson. La qualté de l'nformaton apportée par les données (observatons) ntervent dans la valdté et la robustesse d'un modèle de régresson. Mas cette qualté n est pas appréhendable par le statstcen-pratcen. Ce sont des connassances externes à la statstque mas nternes à l étude qu dovent ntervenr. Ces connassances sont auss ndspensables pour détermner le plan d'échantllonnage. Cette étape qu se stue au nveau de la collecte des données et donc en amont de l'analyse statstque des données mérterat à elle seule un long développement. Une fos réglées toutes les dffcultés reste un derner pont et non des mondres, l nterprétaton. Prenons un exemple concret : parm des enfants, on effectue une enquête permettant de mesurer l étendue du vocabulare et la talle de leurs peds. La corrélaton entre ces deux varables est nettement sgnfcatve! Le bon sens permet d évter d en trer des conclusons aberrantes. Sous cette corrélaton se cache l nfluence de la varable âge. Autre exemple, dans un état des U.S.A on a corrélé sur les 0 dernères années, le taux de crmnalté et le taux de fréquentaton dans les églses. Là auss la corrélaton obtenue est très élevée, mas le bon sens ne vent que peu en ade. La varable cachée est l mmgraton talenne et rlandase. A la lumère de ces deux exemples, gardons-nous de toutes nterprétatons hâtves. Avor toujours à l esprt que sous une corrélaton peut se cacher l effet d une autre varable, ou d un autre facteur. On peut cependant utlser le modèle dentfé, s'l est correct, dans un but de prévson mas surtout pas dans un but de "contrôle" (acton sur les varables explcatves dans l'espor d'agr sur Y) ou d explcaton. Snon, on pourrat augmenter l ntellgence de nos enfants en augmentant la talle de leurs peds! L erreur qu perdure dans la lttérature, est de donner le nom de varable dépendante ou varable explquée à Y et de varables ndépendantes ou varables explcatves à X, ce qu amène à dédure logquement qu l exste une dée de cause à effet entre X et Y. «Mécanquement», ce n est pas l objet de la régresson. La régresson sur données d observatons ne permet pas de dédure une quelconque relaton de cause à effet de X sur Y et/ou de Y sur X. Il faut d autres pratques méthodologques pour explquer la causalté qu peut avor des formes multples. Revue MODULAD, Numéro 35

121 La lason entre varables X et Y peut se rencontrer dans 5 stuatons: X cause Y Y cause X X et Y nter-agssent l'une sur l'autre, problème de crcularté, ou de rétro-acton X et Y évoluent ensemble sous l'effet d'une même varable X et Y sont lées par hasard La causalté peut être valdée par l outl régresson que s on peut fare des comparasons sur des groupes comparables. C'est un débat hstorque qu est de plus en plus d'actualté. Les économètres tentent de paller la fablesse des technques de régresson applquées à des données d observatons, en essayant de se rapprocher des technques expérmentales. Ils ont ntrodut la méthode des varables nstrumentales, avec l dée de pouvor comparer des ndvdus qu ne dffèrent que sur une seule dmenson : le tratement. Ils ont également proposé de trater des données ssues «d expérences naturelles» et «d expérences contrôlées», c est un premer pas vers des nterprétatons causales (vor BEHAGHEL (006). Termnons sur ce constat, les méthodes de régresson sont des méthodes très pussantes, mas qu dovent être utlsées avec beaucoup de dscernement et de prudence. En toute honnêteté l ne faut pas se contenter d'un seul modèle et d'une seule procédure REG, l faut en tester pluseurs. C'est un traval d'explorateur et de détectve. C est ce que nous avons tenté de mettre en lumère. Revue MODULAD, Numéro 35

122 ANNEXES ANNEXE SYNTAXE SIMPLIFIEE DE LA PROCEDURE REG DE SAS PROC REG optons ; MODEL dépendante = régresseurs / optons ; Instructons BY FREQ ID WEIGHT : REWEIGHT expresson / WEIGHT = valeur ; TEST equaton(s) ; RESTRICT equaton(s); Optons RIDGE et PCOMIT des nstructons PROC REG ou MODEL ANNEXE MODE D EMPLOI TRES SUCCINCT DE SAS/INSIGHT Le lancement de SAS/INSIGHT Rôle statstque des varables dans SAS/INSIGHT Menu prncpal de SAS/INSIGHT Graphques standard en SAS/INSIGHT Les Analyses Statstques avec SAS/INSIGHT Impresson et Sauvegarde Pour plus d nformaton sur les graphques ANNEXE STATISTIQUES RELATIVES A L ANALYSE DE LA VARIANCE STATISTIQUES SUR LES PARAMETRES ANNEXE RELATIONS ENTRE LA LOI NORMALE ET LES STATISTIQUES DE LOIS ANNEXE CONSTRUCTION D UN QQ-PLOT PRINCIPE DE LA DROITE DE HENRY GENERALISATION QQ-PLOT AVEC SAS Revue MODULAD, Numéro 35

123 Annexe Syntaxe smplfée de la Procédure REG de SAS La procédure REG est une procédure «nteractve» permettant d étuder pluseurs modèles en un seul appel de PROC REG. On donne c son utlsaton pour l étude d un seul modèle. PROC REG optons ; MODEL dépendante = régresseurs / optons ; BY nom_var ; FREQ nom_var ; ID nom_var ; WEIGHT nom_var ; REWEIGHT expresson / opton ; RUN ; TEST équaton(s) ; RESTRICT équaton(s) ; OUTPUT OUT = data_sas mot_clef = nom_var ; PLOT yvar*xvar='symbol' / optons ; QUIT ; PROC REG optons ; DATA=NOMTAB data_set_opton opton commune à toutes les procédures OUT EST = TAB permet de créer des tableaux de résultats utles, comme les coeffcents estmés, et des résultats créés dans des optons. Autres optons : ALL CORR NOPRINT SIMPLE USSCP ALL CORR NOPRINT SIMPLE USSCP PRESS Demande beaucoup d'mpressons (ndut l'opton SIMPLE, USSCP, et CORR). Imprme la matrce de corrélaton de toutes les varables du modèle. Supprme les mpressons. Imprme somme, moyenne, varance, écart-type et somme des carrés non corrgée pour les varables utlsées dans REG. Imprme les sommes de carrés non corrgées et la matrce des produts crosés pour toutes les varables utlsées dans REG. Permet d obtenr dans la table OUTEST le coeffcent PRESS RIDGE et PCOMIT pour les régressons Rdge et sur composantes prncpales (vor à la fn de cette annexe). Revue MODULAD, Numéro 35

124 MODEL dépendante = régresseurs / optons ; dépendante : nom de la varable dépendante régresseurs : lste des noms des p varables régresseurs Remarque : on peut donner un label à l nstructon MODEL, label qu sera alors affché dans les sortes. Quelques optons de l nstructon MODEL: Sélecton de régresseurs Opton sous la forme SELECTION = nom (où nom est un des mots-clefs de la lste c-après) : NONE pas de sélecton (chox par défaut) FORWARD sélecton ascendante BACKWARD sélecton descendante STEPWISE sélecton progressve ascendante MAXR, MINR sélecton basée sur gan maxmum/mnmum en R² RSQUARE, ADJRSQ sélecton du melleur sous-ensemble au sens de R², R² ajusté C P sélecton basée sur CP de Mallows Autres optons assocées à SELECTION : INCLUDE = n nclure les n premères varables explcatves dans les modèles explorés (n<p) SLE = valeur seul de sgnfcatvté pour entrer SLS = valeur seul de sgnfcatvté pour rester STOP = s arrête l'exploraton au melleur sous-ensemble de s varables (avec s < p); STOP = p par défaut. BEST = k arrête l'exploraton après k modèles. Attenton aux valeurs par défaut des seuls : SLE = 0.50 en FORWARD et SLE = 0.5 en STEPWISE SLS = 0.0 en BACKWARD et SLS = 0.5 en STEPWISE Remarque : les dfférentes valeurs du crtère de sélecton chos sont stockées dans la table OUTEST, où on trouve auss les varables : _IN_ nombre de régresseurs hors constante _P_ nombre de régresseurs y comprs la constante s elle exste dans le modèle Autres optons de l'nstructon MODEL: Défnr un modèle sans constante : NOINT Affcher: des résultats complémentares pour les observatons : Revue MODULAD, Numéro 35

125 P (prévsons) CLI CLM (ntervalles de prévson à 95 % ndvduels et sur la moyenne) R(résdus) INFLUENCE (ndces de détecton des observatons nfluentes) des coeffcents: DW (Durbn-Watson), CP (Cp de Mallows), BIC, AIC, etc.; les sommes de carrés SS SS (carrés de type I ou II) Dagnostquer des problèmes partculers: heteroscédastcté: SPEC (et ACOV) colnéarté: TOL VIF et COLLIN COLLINOINT Instructons BY FREQ ID WEIGHT : Ce sont des nstructons communes à toutes les procédures. En partculer, WEIGHT permet de défnr un e régresson pondérée. REWEIGHT expresson / WEIGHT = valeur ; Cette nstructon permet de redéfnr les pods, et en partculer d'omettre une observaton de la régresson. expresson WEIGHT = valeur l'expresson. est une comparason sur une varable (on peut utlser la varable OBS. qu content le numéro de l'observaton), donne cette valeur de pods aux observatons vérfant Exemple : pour supprmer l'observaton numéro 0, REWEIGHT obs. = 0 / WEIGHT = 0 ; on écrt TEST equaton(s) ; Cette nstructon permet de tester une ou des hypothèses sur les estmatons des paramètres (les équatons dovent être séparées par des vrgules). Chaque équaton est une foncton lnéare formée de coeffcents et de noms de varables (c, INTERCEPT est le nom de la constante). Exemples: TEST X = 0, INTERCEPT = 0 ; tester (β=0) et (β0=0) TEST X3-X4 = 0 ; tester (β3= β4) RESTRICT equaton(s); Elle permet de fxer des contrantes sur les coeffcents, avec des équatons dentques à TEST. Revue MODULAD, Numéro 35

126 Exemple: RESTRICT X-X3 = 0 ; modèle avec contrante (β= β3) OUTPUT OUT = nomtab mot_clef = nom_var ; Cette nstructon permet de créer un tableau de données SAS contenant certanes des varables créées par la régresson. Ce tableau contendra auss les varables du modèle (réponse et régresseurs). Lste d es mots_clefs pour les varables créées par la régresson (ces mots_clefs sont utlsables auss pour les nstructons PLOT et PRINT, sauf PRESS): PREDICTED (ou P) valeur prédte L95M U95M lmtes des ntervalles à 95% sur la moyenne des valeurs prédtes L95 U95 lmtes des ntervalles à 95% sur une valeur prédte STDP écart-type de la valeur moyenne prédte STDI écart-type de la valeur prédte RESIDUAL (ou R) résdu STDR écart-type du résdu NQQ quantle normal (pour le dessn QQPLOT) STUDENT résdu studentsé nterne RSTUDENT résdu studentsé externe H lever PRESS coeffcent Press (ndvduel) COOKD DFFITS COVRATIO mesures d'nfluence des observatons PLOT Yvar*Xvar='s' Yvar*Xvar='s' / optons ; Cette nstructon permet de tracer des graphques en désgnant les varables ordonnée Yvar et abscsse Xvar, et le symbole assocé. Dfférentes optons sont possbles pour défnr les caractérstques des graphques (cf. la documentaton SAS). Attenton : on peut utlser une des varables créées par la régresson, défnes plus haut dans la lste des mots-clefs de l nstructon OUTPUT, à condton de fare suvre son nom par un pont : par exemple P. ou R. On peut auss utlser la varable OBS. pour désgner le numéro de l observaton. Remarque : l opton RIDGEPLOT permet de tra cer le dessn des coeffcents RIDGE (vor plus lon la descrpton de l opton RIDGE). PRINT mots-clefs; Cette nstructon permet d'mprmer certanes des varables créées avec la lste des mots-clefs vue plus haut. Revue MODULAD, Numéro 35

127 Optons RIDGE et PCOMIT des nstructons PROC REG ou MODEL On peut effectuer une régresson Rdge ou une régresson sur composantes prncpales, par une opton de PROC REG ou de MODEL. La procédure travalle alors sur les données centrées (l opton NOINT est gnorée). RIDGE = lste lste est une lste de valeurs qu peut être défne par la syntaxe kd to kf by p, où l ntervalle de varaton du coeffcent rdge est [kd,kf], la varaton se fasant par pas de p. Chaque valeur donne une estmaton des coeffcents Rdge, qu est placée dans une table SAS à défnr avec l opton OUTEST = table de PROC REG. La colonne _TYPE_ ndque quelle méthode on a employé : pour la méthode Rdge, _TYPE_=RIDGE, et les valeurs de la lste sont stockées sous le nom de varable _RIDGE_. On trouve ensute les valeurs des coeffcents Rdge de chaque régresseur. PCOMIT = k k est un enter postf ou nul. La procédure calcule alors les paramètres estmés en utlsant les composantes prncpa les à l excluson des k dernères ; L estmaton des coeffcents est placée dans une table SAS à défnr avec l opton OUTEST = table de PROC REG, avec c _TYPE_ = IPC. Remarque : k peut auss être une lste d enters non négatfs, pour permettre de fare pluseurs essas d élmnaton de composantes. Autres optons de PROC REG tlsables en assocaton avec les optons RIDGE et PCOMIT : OUTSTB pour avor les estmatons standardsés des coeffcents estmés par ou IPC ; OUTSEB pour avor les erreurs standardsées des coeffcents ; OUTVIF pour avor les Varance Inflaton Factor des coeffcents. Dessn «Rdge Trace» RIDGE Le dessn des coeffcents Rdge en foncton des valeurs du paramètre (défnes par l opton RIDGE = lste) est obtenu par l nstructon PLOT avec l opton RIDGEPLOT, à condton que les coeffcents soent stockés dans une table par l opton OUTEST. On écrt alors smplement l nstructon : PLOT / RIDGEPLOT ; Revue MODULAD, Numéro 35

128 Annexe Mode d emplo très succnct de SAS/INSIGHT Le module de SAS /Insght est à la fos un tableur un grapheur et un analyseur. Il permet de fare de l Analyse Exploratore des Données et de l analyse confrmatore dans l esprt de TUKEY. Il est partculèrement ben adapté à la régresson lnéare couplée à l AED, grâce à ses possbltés de vsualsaton et d nteractvté. Tableau des Grandes Fonctons de SAS/INSIGHT Nous ne présentons que quelques manpulatons essentelles de SAS/INSIGHT. Pour une présentaton plus complète vor l ouvrage de DESTANDAU S. & LE GUEN M.. Le lancement de SAS/INSIGHT dans la barre de commande de SAS, taper : INSIGHT pus entrée. S la table de données n exste pas encore Dans la boîte de dalogue, clquer sur le bouton-poussor New Revue MODULAD, Numéro 35

129 Boîte de dalogue de SAS/INSIGHT Un tableau de données vde s ouvre. Sasssez vos données.. S la table exste Dans la boîte de dalogue sélectonner la bblothèque : «Lbrary» et la table SAS «Data set», et clquer sur le bouton Open. Affchage de la table SAS dans un tableur (cf. c-dessous écran à gauche) et menu déroulant (cf. écran à drote). La Table TAILPOID a 3 varables et 0 observatons ndqué par. En clquant sur la pett flèche en haut à gauche le menu déroulant pop menu ou encore menu contextuel- s affche avec les actons possbles sur le tableur. Rôle statstque des varables dans SAS/INSIGHT Dans SAS/INSIGHT toute varable SAS défnt en caractère est forcément une varable nomnale. Par défaut une varable numérque n est pas nomnale, elle est d ntervalle. C est à l utlsateur de chosr le type d échelles de mesures (Interval/Nomnal) souhaté, en clquant et cochant la zone au dessus du nom de la varable Revue MODULAD, Numéro 35

130 Ce rôle statstque détermnera les types de graphques à dmenson, dmensons ou 3 dmensons et les types d analyses. Menu prncpal de SAS/INSIGHT Graphques standard en SAS/INSIGHT Graphques pour les varable nomnales : Bar Chart (D), Mosac Plot (D) Graphques pour les varables d ntervalle : Hstogram (D), Box Plot (D), Lne Plot(D), Scatter Plot (D), Contour Plot (3D), Rotatng Plot (3D). Pour réalser un graphque l y a possbltés : en utlsant les optons par défaut, ou en passant par une boîte de dalogue pour modfer les optons par défaut. C est un prncpe général dans SAS/INSIGHT. Chox avec optons par défaut Dans le tableur : Clquer sur le nom de la varable d ntervalle Y menu : Analyze# Box Plot/Mosac Plot(Y) L affchage est mmédat avec les optons par défaut. Revue MODULAD, Numéro 35

131 Sur le graphque, en c lquant sur la flèche en bas à gauche un menu déroulant s affche pour modfer les optons. Par exemple, ajouter la moyenne avec Means, ajouter les valeurs des quantles avec Values etc. Chox avec optons modfables menu : Analyze# Box Plot/Mosac Plot(Y) Dans la boîte de dalogue qu s affche sélectonner la varable Y (dans la lste à gauche) pus clquer sur le bouton-poussor Y, pour que la varable chose Y sot sélectonnée. Les boutons poussors Method et Output permettent de modfer les optons par défaut. Revue MODULAD, Numéro 35

132 Pour plus d nformaton sur les graphques vor les artcles en lgne stes nternet donnés en fn de cette annexe (page 354) sur les Les Analyses Statstques avec SAS/INSIGHT menu : Analyze # Dstrbuton Etude d une dstrbuton (équvalent à Proc Unvarate) menu : Analyze # Ft Analyse de régresson lnéare, GLM, Régresson logstque, Probt, Logt, ANOVA menu : Analyze # Multvarate Analyse en Composantes Prncpales, Analyse canonque, Analyse dscrmnante. Même prncpe que pour les graphques : - Sot on sélectonne la ou les varables pus le menu Analyze #... Les analyses sont réalsées avec les optons par défaut, - Sot on chost le menu Analyze #..., une boîte de dalogue s affche pour sélectonner la ou les varables, et chosr les nouvelles optons. Exemple de Régresson lnéare sur la Table SAS : Chenlle (processonnare du pn du.3..) Revue MODULAD, Numéro 35

133 Sélectonner dans la lste de gauche la varable Réponse (Log) pus clquer sur le bouton de rôle Y, dem pour les varables régresseurs (X4,X,X4,X5), en clquant sur le bouton de rôle X. S on veut la constante ( 0 ) dans le modèle, cocher Intercept. Clquer sur le bouton poussor Method : Pou r la régresson lnéare les optons à cocher sont : Response Dst : Normal : Canoncal Lnk Functon Scale : MLE Impresson et Sauvegarde Nous présentons seulement quelques possbltés, pour mprmer un ou des éléments affchés, pus les sauvegarder dans un fcher externe, et enfn les nsérer dans un document Word. Pour mprmer Sélectonner avec la sours, le graphque ou le tableau à mprmer, ou chosr Menu : Edt# Wndows # Select all pour sélectonner tous les éléments affchés Fle # Prnt Pour sauvegarder les résultats graphques ou tableaux dans un fcher Sélectonner avec la sours la bordure du graphque ou le tableau à sauvegarder, ou chosr Menu : Edt# Wndows # Select all pour sélectonner tous les éléments affchés Fle # save # Graphcs Fle pus rensegner la boîte de dalogue en chosssant par exemple le format.bmp et en suffxant le nom du fcher par.bmp (SAS ne le fat pas). Revue MODULAD, Numéro 35

10.1 Inférence dans la régression linéaire

10.1 Inférence dans la régression linéaire 0. Inférence dans la régresson lnéare La régresson lnéare tente de modeler le rapport entre deux varables en adaptant une équaton lnéare avec des données observées. Chaque valeur de la varable ndépendante

Plus en détail

Corrélation et régression linéaire

Corrélation et régression linéaire Corrélaton et régresson lnéare 1. Concept de corrélaton. Analyse de régresson lnéare 3. Dfférences entre valeurs prédtes et observées d une varable 1. Concept de corrélaton L objectf est d analyser un

Plus en détail

Solution : 1. Soit y = α + βt, l équation de la droite considérée. Le problème de régression linéaire s écrit. i=1 2(α + βt i b i )t i

Solution : 1. Soit y = α + βt, l équation de la droite considérée. Le problème de régression linéaire s écrit. i=1 2(α + βt i b i )t i Exercces avec corrgé succnct du chaptre 3 (Remarque : les références ne sont pas gérées dans ce document, par contre les quelques?? qu apparassent dans ce texte sont ben défns dans la verson écran complète

Plus en détail

Valeur absolue et fonction valeur absolue Cours

Valeur absolue et fonction valeur absolue Cours Valeur absolue foncton valeur absolue Cours CHAPITRE 1 : Dstance entre deu réels 1) Eemples prélmnares 2) Défnton 3) Proprétés CHAPITRE 2 : Valeur absolue d un réel 1) Défnton 2) Proprétés CHAPITRE 3 :

Plus en détail

Cours Corporate finance

Cours Corporate finance Cours Corporate fnance Eléments de théore du portefeulle Le edaf Franços Longn www.longn.fr lan Notons de rentablté Défnton odélsaton Eléments de théore du portefeulle ortefeulle Dversfcaton Le edaf Le

Plus en détail

Remboursement d un emprunt par annuités constantes

Remboursement d un emprunt par annuités constantes Sére STG Journées de formaton Janver 2006 Remboursement d un emprunt par annutés constantes Le prncpe Utlsaton du tableur Un emprunteur s adresse à un prêteur pour obtenr une somme d argent (la dette)

Plus en détail

Mesure avec une règle

Mesure avec une règle Mesure avec une règle par Matheu ROUAUD Professeur de Scences Physques en prépa, Dplômé en Physque Théorque. Lycée Alan-Fourner 8000 Bourges ecrre@ncerttudes.fr RÉSUMÉ La mesure d'une grandeur par un système

Plus en détail

Utilisation du symbole

Utilisation du symbole HKBL / 7 symbole sgma Utlsaton du symbole Notaton : Pour parler de la somme des termes successfs d une sute, on peut ou ben utlser les pontllés ou ben utlser le symbole «sgma» majuscule noté Par exemple,

Plus en détail

Ch 4 Séries statistiques à une dimension Définitions et représentation graphique

Ch 4 Séries statistiques à une dimension Définitions et représentation graphique Ch 4 Séres statstques à une dmenson Défntons et représentaton graphque Termnologe Ensemble étudé = populaton Eléments de cet ensemble = ndvdus ou untés Attrbut consdéré = caractère qu peut être qualtatf

Plus en détail

Combinaison de dires d'experts en élicitation de lois a priori. pour Listeria chez la souris. Exposé AppliBugs

Combinaison de dires d'experts en élicitation de lois a priori. pour Listeria chez la souris. Exposé AppliBugs Combnason de dres d'experts en élctaton de los a pror. Applcaton à un modèle doseréponse pour Lstera chez la sours. Exposé ApplBugs ISABELLE ALBERT 8 / / 03 INTRODUCTION Cet exposé présente une parte du

Plus en détail

éléments d'analyse statistique

éléments d'analyse statistique éléments danalse statstque applcaton à lhdrologe deuxème édton D. Ther octobre 989 R 30 73 EAU 4S 89 BUREAU DE RECHERCHES GEOLOGIQUES ET MINIERES SERVICES SOL ET SOUS-SOL Département Eau B.P. 6009-45060

Plus en détail

) = n. ) = 2n. D - Inférence Statistique - Estimation et Tests d hypothèses 5. Tests du Khi-deux (non paramétrique) Loi du Chi-deux (χ 2 n

) = n. ) = 2n. D - Inférence Statistique - Estimation et Tests d hypothèses 5. Tests du Khi-deux (non paramétrique) Loi du Chi-deux (χ 2 n 5. Tests du Kh-deux (non paramétrque) Lo du Ch-deux (χ n ) à n degrés de lberté (ddl) S X 1, X,..., X n, sont n varables ndépendantes, suvant toutes une lo normale N (0,1), la varable χ n = X 1 + X + +

Plus en détail

Exercices d algorithmique

Exercices d algorithmique Exercces d algorthmque Les algorthmes proposés ne sont pas classés par ordre de dffculté Nombres Ecrre un algorthme qu renvoe la somme des nombre entre 0 et n passé en paramètre Ecrre un algorthme qu renvoe

Plus en détail

Chapitre 5. Menu de SUPPORT

Chapitre 5. Menu de SUPPORT 155 Chaptre 5. Menu de SUPPORT Ce que vous apprendrez dans ce chaptre Ce chaptre vous présentera des routnes supplémentares susceptbles de vous ader dans les analyses de données présentées dans le chaptre

Plus en détail

SIMNUM : Simulation de systèmes auto-gravitants en orbite

SIMNUM : Simulation de systèmes auto-gravitants en orbite SIMNUM : Smulaton de systèmes auto-gravtants en orbte sujet proposé par Ncolas Kelbasewcz : ncolas.kelbasewcz@ensta-parstech.fr 14 janver 2014 1 Établssement du modèle 1.1 Approxmaton de champ lontan La

Plus en détail

Cours de Calcul numérique MATH 031

Cours de Calcul numérique MATH 031 Cours de Calcul numérque MATH 03 G. Bontemp, A. da Slva Soares, M. De Wulf Département d'informatque Boulevard du Tromphe - CP22 http://www.ulb.ac.be/d Valeurs propres en pratque. Localsaton. Méthode de

Plus en détail

MODELISATION DES PROCESSUS LINEAIRES

MODELISATION DES PROCESSUS LINEAIRES MDELISATIN DES PRCESSUS LINEAIRES Dans un premer temps, nous ne consdérons que des processus partculers, supposés notamment statonnare. Cec permet de présenter un certan nombre d'outls dans un cadre relatvement

Plus en détail

EXAMEN FINAL DE STATISTIQUES DESCRIPTIVES L1 AES - SESSION 1 - Correction -

EXAMEN FINAL DE STATISTIQUES DESCRIPTIVES L1 AES - SESSION 1 - Correction - EXAME FIAL DE STATISTIQUES DESCRIPTIVES L1 AES - SESSIO 1 - Correcton - Exercce 1 : 1) Consdérons une entreprse E comportant deux établssements : E1 et E2 qu emploent chacun 200 salarés. Au sen de l'établssement

Plus en détail

MASTER ECONOMETRIE ET STATISTIQUE APPLIQUEE (ESA)

MASTER ECONOMETRIE ET STATISTIQUE APPLIQUEE (ESA) MASTER ECONOMETRIE ET STATISTIQUE APPLIQUEE (ESA) Unversté d Orléans Econométre des Varables Qualtatves Chaptre 3 Modèles à Varable Dépendante Lmtée Modèles Tobt Smples et Tobt Généralsés Chrstophe Hurln

Plus en détail

5- Analyse discriminante

5- Analyse discriminante 5. ANALYSE DISCRIMINANTE... 5. NOTATION ET FORMULATION DU PROBLÈME... 5. ASPECT DESCRIPTIF...3 5.. RECHERCHE DU VECTEUR SÉPARANT LE MIEUX POSSIBLE LES GROUPES...4 5.. Cas partculer de deu groupes...7 5.3

Plus en détail

Banque d exercices pour le cours de "mise à niveau" de statistique de M1 AgroParisTech

Banque d exercices pour le cours de mise à niveau de statistique de M1 AgroParisTech Banque d exercces pour le cours de "mse à nveau" de statstque de M1 AgroParsTech Instructons pour les exercces 1. Lorsque ren n est précsé, on suppose que la dstrbuton étudée est gaussenne. Pour les exercces

Plus en détail

Généralités sur les fonctions 1ES

Généralités sur les fonctions 1ES Généraltés sur les fonctons ES GENERALITES SUR LES FNCTINS I. RAPPELS a. Vocabulare Défnton Une foncton est un procédé qu permet d assocer à un nombre x appartenant à un ensemble D un nombre y n note :

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2015 2016. Statistiques Descriptives

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2015 2016. Statistiques Descriptives UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année unverstare 215 216 L1 Économe Cours de B. Desgraupes Statstques Descrptves Séance 7: Indces synthétques Table des matères 1 Introducton 1 1.1

Plus en détail

Le théorème du viriel

Le théorème du viriel Le théorème du vrel On se propose de démontrer le théorème du vrel de deux manères dfférentes. La premère fat appel à deux "trcks" qu l faut vor. Cette preuve met en avant une quantté, notée S c, qu permet

Plus en détail

Les jeunes économistes

Les jeunes économistes Chaptre1 : les ntérêts smples 1. défnton et calcul pratque : Défnton : Dans le cas de l ntérêt smple, le captal reste nvarable pendant toute la durée du prêt. L emprunteur dot verser, à la fn de chaque

Plus en détail

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation) GENESS - Generalzed System for mputaton Smulatons (Système généralsé pour smuler l mputaton) GENESS est un système qu permet d exécuter des smulatons en présence d mputaton. L utlsateur fournt un ensemble

Plus en détail

Champ magnétique. 1 Notions préliminaires. 1.1 Courant électrique et densité de courant

Champ magnétique. 1 Notions préliminaires. 1.1 Courant électrique et densité de courant 4 Champ magnétque 1 Notons prélmnares 1.1 Courant électrque et densté de courant Un courant électrque est défn par un déplacement de charges électrques élémentares (ex : les électrons de conducton dans

Plus en détail

Editions ENI. Project 2010. Collection Référence Bureautique. Extrait

Editions ENI. Project 2010. Collection Référence Bureautique. Extrait Edtons ENI Project 2010 Collecton Référence Bureautque Extrat Défnton des tâches Défnton des tâches Project 2010 Sasr les tâches d'un projet Les tâches représentent le traval à accomplr pour attendre l'objectf

Plus en détail

EXEMPLES D UTILISATION DE LA TECHNIQUE DES OBSERVATIONS INSTANTANÉES.

EXEMPLES D UTILISATION DE LA TECHNIQUE DES OBSERVATIONS INSTANTANÉES. EXEMPLES D UTILISATIN DE LA TECHNIQUE DES BSERVATINS INSTANTANÉES. Chrstan Fortn, ng., Ph.D. Ergonome et hygénste du traval Centre of santé et servces socaux de la Montagne, Montréal. Résumé La technque

Plus en détail

Exercice 1. Enoncé 1. Nombre de jours d absences. Nombre d étudiants. 1 ) Représenter graphiquement cette distribution.

Exercice 1. Enoncé 1. Nombre de jours d absences. Nombre d étudiants. 1 ) Représenter graphiquement cette distribution. Républque Tunsenne Présdence du Gouvernement Ecole Natonale d Admnstraton 4, Avenue du Dr Calmette Mutuelle-vlle 08 Tuns Tél. (+6) 848 00 Fa (+6) 794 88 www.ena.nat.tn STATISTIQUE ET CALCUL DE PROBABILITE

Plus en détail

LES DIMENSIONS DANS LA PERCEPTION DES INTERVALLES MUSICAUX *

LES DIMENSIONS DANS LA PERCEPTION DES INTERVALLES MUSICAUX * LES DIMENSIONS DANS LA PERCEPTION DES INTERVALLES MUSICAUX * "W.J.M. LEVELT et R. PLOMP (Insttute for Percepton R.V.O.-T.N.O., SOESTERBERG, PAYS-BAS) Introducton Il est ntéressant de savor de quelle manère

Plus en détail

Traitement des valeurs manquantes et des valeurs aberrantes

Traitement des valeurs manquantes et des valeurs aberrantes Etudes Statstques 2 (1/10) Tratement des valeurs manquantes et des valeurs aberrantes Avant de trater les données, vérfer la qualté des données : Les données peuvent être : manquantes aberrantes : la valeur

Plus en détail

classification non supervisée : pas de classes prédéfinies Applications typiques

classification non supervisée : pas de classes prédéfinies Applications typiques Qu est ce que le clusterng? analyse de clusterng regroupement des obets en clusters un cluster : une collecton d obets smlares au sen d un même cluster dssmlares au obets appartenant à d autres clusters

Plus en détail

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES Émle Garca, Maron Le Cam et Therry Rocher MENESR-DEPP, bureau de l évaluaton des élèves Cet artcle porte sur les méthodes de

Plus en détail

V FORMATION DES IMAGES DANS L EXEMPLE DU MIROIR PLAN

V FORMATION DES IMAGES DANS L EXEMPLE DU MIROIR PLAN Chaptre V page V-1 V FORMTION DES IMGES DNS L EXEMPLE DU MIROIR PLN Le but de ce chaptre est d ntrodure la noton d mage { travers l exemple du mror plan. Vous vous êtes sûrement déjà regardé(e) dans un

Plus en détail

STATISTIQUE AVEC EXCEL

STATISTIQUE AVEC EXCEL STATISTIQUE AVEC EXCEL Excel offre d nnombrables possbltés de recuellr des données statstques, de les classer, de les analyser et de les représenter graphquement. Ce sont prncpalement les tros éléments

Plus en détail

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks Plan Geston des stocks Abdellah El Fallah Ensa de Tétouan 2011 Les opératons de gestons des stocks Les coûts assocés à la geston des stocks Le rôle des stocks Modèle de la quantté économque Geston calendare

Plus en détail

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations Contrats prévoyance des TNS : Clarfer les règles pour sécurser les prestatons Résumé de notre proposton : A - Amélorer l nformaton des souscrpteurs B Prévor plus de souplesse dans l apprécaton des revenus

Plus en détail

Note méthodologique. Traitements hebdomadaires Quiestlemoinscher.com. Quelle méthode de collecte de prix? Qui a collecté les prix?

Note méthodologique. Traitements hebdomadaires Quiestlemoinscher.com. Quelle méthode de collecte de prix? Qui a collecté les prix? Note méthodologque Tratements hebdomadares Questlemonscher.com Quelle méthode de collecte de prx? Les éléments méthodologques ont été défns par le cabnet FaE onsel, socété d études et d analyses statstques

Plus en détail

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage Fche n 7 : Vérfcaton du débt et de la vtesse par la méthode de traçage 1. PRINCIPE La méthode de traçage permet de calculer le débt d un écoulement ndépendamment des mesurages de hauteur et de vtesse.

Plus en détail

Pour ce problème, une analyse est proposée à l adresse : http://www.ac-amiens.fr/pedagogie/maths/new/ue2007/synthese_atelier_annette_alain.

Pour ce problème, une analyse est proposée à l adresse : http://www.ac-amiens.fr/pedagogie/maths/new/ue2007/synthese_atelier_annette_alain. Pour ce problème, une analyse est proposée à l adresse : http://www.ac-amens.fr/pedagoge/maths/new/ue2007/synthese_ateler_annette_alan.pdf 1 La règle du jeu Un drecteur de casno se propose d nstaller le

Plus en détail

Définition des tâches

Définition des tâches Défnton des tâches Défnton des tâches Project 2010 Sasr les tâches d'un projet Les tâches représentent le traval à accomplr pour attendre l'objectf du projet. Elles représentent de ce fat, les éléments

Plus en détail

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS. ÉLÉMETS DE THÉORIE DE L IFORMATIO POUR LES COMMUICATIOS. L a théore de l nformaton est une dscplne qu s appue non seulement sur les (télé-) communcatons, mas auss sur l nformatque, la statstque, la physque

Plus en détail

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3. Chaptre 3 : Incerttudes CHAPITRE 3 INCERTITUDES Lgnes drectrces 2006 du GIEC pour les nventares natonaux de gaz à effet de serre 3.1 Volume 1 : Orentatons générales et établssement des rapports Auteurs

Plus en détail

Dirigeant de SAS : Laisser le choix du statut social

Dirigeant de SAS : Laisser le choix du statut social Drgeant de SAS : Lasser le chox du statut socal Résumé de notre proposton : Ouvrr le chox du statut socal du drgeant de SAS avec 2 solutons possbles : apprécer la stuaton socale des drgeants de SAS comme

Plus en détail

Enseignement secondaire. PHYSI Physique Programme

Enseignement secondaire. PHYSI Physique Programme Ensegnement secondare Dvson supéreure PHYSI Physque Programme 3CB_3CC_3CF_3MB_3MC_3MF Langue véhculare : franças Nombre mnmal de devors par trmestre : 1 PHYSI_3CB_3CC_3CF_3MB_3MC_3MF_PROG_10-11 Page 1

Plus en détail

Editions ENI. Excel 2010. Collection Référence Bureautique. Extrait

Editions ENI. Excel 2010. Collection Référence Bureautique. Extrait Edtons ENI Excel 2010 Collecton Référence Bureautque Extrat Tableau crosé dynamque Tableau crosé dynamque Excel 2010 Créer un tableau crosé dynamque Un tableau crosé dynamque permet de résumer, d analyser,

Plus en détail

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire Assurance malade et aléa de moralté ex-ante : L ncdence de l hétérogénété de la perte santare Davd Alary 1 et Franck Ben 2 Cet artcle examne l ncdence de l hétérogénété de la perte santare sur les contrats

Plus en détail

Modélisations du risque en assurance automobile. Michel Grun-Rehomme Université Paris 2 et Ensae Email: grun@ensae.fr

Modélisations du risque en assurance automobile. Michel Grun-Rehomme Université Paris 2 et Ensae Email: grun@ensae.fr Modélsatons du rsque en assurance automoble Mchel Grun-Rehomme Unversté Pars 2 et Ensae Emal: grun@ensae.fr 1 Modélsatons du rsque en assurance automoble La snstralté est mesurée en terme de fréquence

Plus en détail

Régression linéaire et incertitudes expérimentales

Régression linéaire et incertitudes expérimentales 91 e Année - N 796 Publcaton Mensuelle Jullet/Août/Septembre 1997 Régresson lnéare et ncerttudes expérmentales par Danel BEAUFILS Insttut Natonal de Recherche Pédagogque Département Technologes Nouvelles

Plus en détail

gaussien pour l analyse de sensibilité d une sortie spatiale d un code de calcul

gaussien pour l analyse de sensibilité d une sortie spatiale d un code de calcul Utlsaton du métamodèle processus gaussen pour l analyse de sensblté d une sorte spatale d un code de calcul Applcaton à un code de transport hydrogéologque ologque Amandne Marrel Thèse effectuée au LMTE

Plus en détail

TD 1. Statistiques à une variable.

TD 1. Statistiques à une variable. Danel Abécasss. Année unverstare 2010/2011 Prépa-L1 TD de bostatstques. Exercce 1. On consdère la sére suvante : TD 1. Statstques à une varable. 1. Calculer la moyenne et l écart type. 2. Calculer la médane

Plus en détail

Maquette Tournesol Soleil, Terre et rotations La géométrie et mathématiques du système Maquette pour comprendre PhM Observatoire de Lyon

Maquette Tournesol Soleil, Terre et rotations La géométrie et mathématiques du système Maquette pour comprendre PhM Observatoire de Lyon Maquette ournesol olel, erre et rotatons La géométre et mathématques du sstème Maquette pour comprendre hm Observatore de Lon Les repères classques éclptque (longtudes et lattudes éclptques) et équatoral

Plus en détail

Pratique de la statistique avec SPSS

Pratique de la statistique avec SPSS Pratque de la statstque avec SPSS SUPPORT Transparents ultéreurement amélorés et ms à jour sur le ste du SMCS LIENS UTILES Ste du SMCS (Support en Méthodologe et Calcul Statstque) : http://www.stat.ucl.ac.be/smcs/

Plus en détail

Dynamique des salaires dans une cohorte

Dynamique des salaires dans une cohorte Dynamque des salares dans une cohorte Therry Magnac Sébasten Roux x Révson : 5 mars 2007 Résumé Dans cet artcle, nous examnons les données de salares annuels, de 1976 à 1998, d une cohorte d hommes, entrés

Plus en détail

Représentation de l'information

Représentation de l'information 1. L nformaton 1-1 Dualté état et temps Représentaton de l'nformaton La noton d'nformaton correspond à la connassance d'un état donné parm pluseurs possbles à un nstant donné. La Fgure 1 llustre cette

Plus en détail

Proposition d'une solution au problème d initialisation cas du K-means

Proposition d'une solution au problème d initialisation cas du K-means Proposton d'une soluton au problème d ntalsaton cas du K-means Z.Guelll et L.Zaou, Unversté des scences et de la technologe d Oran MB, Unversté Mohamed Boudaf USTO -BP 505 El Mnaouer -ORAN - Algére g.zouaou@gmal.com,

Plus en détail

- Equilibre simultané IS/LM : Pour déterminer le couple d équilibre général, il convient de résoudre l équation IS = LM.

- Equilibre simultané IS/LM : Pour déterminer le couple d équilibre général, il convient de résoudre l équation IS = LM. Exercce n 1 Cet exercce propose de détermner l équlbre IS/LM sur la base d une économe dépourvue de présence étatque. Pour ce fare l convent, dans un premer temps de détermner la relaton (IS) marquant

Plus en détail

La mobilité résidentielle depuis 20 ans : des facteurs structurels aux effets de la conjoncture

La mobilité résidentielle depuis 20 ans : des facteurs structurels aux effets de la conjoncture La moblté résdentelle depus 20 ans : des facteurs structurels aux effets de la conjoncture T. Debrand C. Taffn Verson Prélmnare - Ne pas cter 10 mars 2004 Résumé : Les analyses économques sur la moblté

Plus en détail

COMPARAISON DE MÉTHODES POUR LA CORRECTION

COMPARAISON DE MÉTHODES POUR LA CORRECTION COMPARAISON DE MÉTHODES POUR LA CORRECTION DE LA NON-RÉPONSE TOTALE : MÉTHODE DES SCORES ET SEGMENTATION Émle Dequdt, Benoît Busson 2 & Ncolas Sgler 3 Insee, Drecton régonale des Pays de la Lore, Servce

Plus en détail

19. Critères de jugement binaires

19. Critères de jugement binaires 19. Crtères de jugement bnares Les crtères de jugement bnares (auss appelés dchotomques) ne prennent que deux modaltés, par exemple, succès/échec du tratement, décès/surve ou survenue/nonsurvenue d un

Plus en détail

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L EFFET DES ENFANTS SUR L OFFRE DU TRAVAIL DES MÈRES : CAS DU CANADA MÉMOIRE PRÉSENTÉ

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L EFFET DES ENFANTS SUR L OFFRE DU TRAVAIL DES MÈRES : CAS DU CANADA MÉMOIRE PRÉSENTÉ UNIVERSITÉ DU QUÉBEC À MONTRÉAL L EFFET DES ENFANTS SUR L OFFRE DU TRAVAIL DES MÈRES : CAS DU CANADA MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ÉCONOMIQUE PAR EZZAOUALI WALID Septembre

Plus en détail

3- Réseau Neurologique (NN) 3-1- Réseau classique

3- Réseau Neurologique (NN) 3-1- Réseau classique OUTILS DE PREVISION DE LA VITESSE DE VENT : APPLICATION A LA CARACTERISATION ET A L OPTIMISATION DES CENTRALES EOLIENNES POUR L'INTEGRATION DANS LES RESEAUX ELECTRIQUES A MADAGASCAR. Andramahtasoa Bernard

Plus en détail

Le raisonnement incertain

Le raisonnement incertain 1 Plan général 2 Le rasonnement ncertan dans les systèmes experts I- Introducton aux systèmes experts II- Fondements : organsaton et fonctonnement des SE III- Le rasonnement ncertan Introducton Antone

Plus en détail

Gestion et stratégie Utilisateur

Gestion et stratégie Utilisateur Geston et stratége Utlsateur GESTION ET STRATEGIE UTILISATEUR...2 1.) Comment gérer des utlsateurs?...2 1.1) Geston des utlsateurs en groupe de traval...2 1.2) Geston des utlsateurs par domane...2 Rôle

Plus en détail

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University Économétre 5 e édton Annexes : exercces et corrgés Wllam Greene New York Unversty Édton françase drgée par Dder Schlacther, IEP Pars, unversté Pars II Traducton : Stéphane Monjon, unversté Pars I Panthéon-Sorbonne

Plus en détail

Méthodes psychométriques utilisées dans le cadre des évaluations des élèves

Méthodes psychométriques utilisées dans le cadre des évaluations des élèves MESURE DES COMPÉTENCES Méthodes psychométrques utlsées dans le cadre des évaluatons des élèves Therry Rocher MENESR-DEPP, bureau de l évaluaton des élèves Cet artcle présente les méthodes psychométrques

Plus en détail

Calcul de structure en fatigue vibratoire. Fascicule u2.05 : Mécanique de la rupture et de l'endommagement

Calcul de structure en fatigue vibratoire. Fascicule u2.05 : Mécanique de la rupture et de l'endommagement Ttre : Calcul de structure en fatgue vbratore Date : 14/11/2012 Page : 1/9 Calcul de structure en fatgue vbratore 1 But Ce document a pour but de décrre la mse en œuvre d'un calcul de structure en fatgue

Plus en détail

Résumé : I- Introduction :

Résumé : I- Introduction : Applcaton de l analyse de frontère stochastque à l estmaton de l effcence technque des entreprses algérennes: effet de la forme de proprété Résumé : Nabl, Al BELOUARD Doctorant à l École Natonale Supéreure

Plus en détail

Université d El Oued Cours Circuits Electriques 3 LMD-EM

Université d El Oued Cours Circuits Electriques 3 LMD-EM ère parte : Electrocnétque Chaptre ntroducton L Electrocnétque est la parte de l Electrcté qu étude les courants électrques. - Courant électrque -- Défntons Défnton : un courant électrque est un mouvement

Plus en détail

Notes de cours. Échantillonnage STT-2000. David Haziza Département de mathématiques et de statistique Université de Montréal

Notes de cours. Échantillonnage STT-2000. David Haziza Département de mathématiques et de statistique Université de Montréal otes de cours Échantllonnage STT-000 Davd Hazza Département de mathématques et de statstque nversté de Montréal Automne 008 PRÉFACE Ces notes de cours ont été rédgées pour le cours STT-000 (Échantllonnage)

Plus en détail

Grandeur physique, chiffres significatifs

Grandeur physique, chiffres significatifs Grandeur physque, chffres sgnfcatfs I) Donner le résultat d une mesure en correspondance avec l nstrument utlsé : S avec un nstrument, ren n est ndqué sur l ncerttude absolue X d une mesure X, on consdère

Plus en détail

UTILISATION DES COPULES POUR ANALYSER L IMPACT DES DEPENDANCES SUR UN PORTEFEUILLE DE CREDITS RAPPORT DE STAGE D INGENIEUR CONFIDENTIEL

UTILISATION DES COPULES POUR ANALYSER L IMPACT DES DEPENDANCES SUR UN PORTEFEUILLE DE CREDITS RAPPORT DE STAGE D INGENIEUR CONFIDENTIEL Yohan KABLA ECP - 3 EME ANNEE MAP SMF UTILISATION DES COPULES POUR ANALYSER L IMPACT DES DEPENDANCES SUR UN PORTEFEUILLE DE CREDITS RAPPORT DE STAGE D INGENIEUR CONFIDENTIEL 5 MAI NOVEMBRE 00 MAITRES DE

Plus en détail

Travaux pratiques : GBF et oscilloscope

Travaux pratiques : GBF et oscilloscope Travaux pratques : et osclloscope S. Benlhajlahsen ésumé L objectf de ce TP est d apprendre à utlser, c est-à-dre à régler, deux des apparels les plus couramment utlsés : le et l osclloscope. I. Premère

Plus en détail

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises Les détermnants de la détenton et de l usage de la carte de débt : une analyse emprque sur données ndvduelles françases Davd Boune a, Marc Bourreau a,b et Abel Franços a,c a Télécom ParsTech, Département

Plus en détail

Université Pierre & Marie Curie (Paris 6) Licence de Mathématiques L3 UE LM364 Intégration 1 Année 2011 12. TD4. Tribus.

Université Pierre & Marie Curie (Paris 6) Licence de Mathématiques L3 UE LM364 Intégration 1 Année 2011 12. TD4. Tribus. Unversté Perre & Mare Cure (Pars 6) Lcence de Mathématques L3 UE LM364 Intégraton 1 Année 2011 12 TD4. Trbus. Échauffements Exercce 1. Sot X un ensemble. Donner des condtons sur X pour que les classes

Plus en détail

Informations de l'unité d'enseignement Implantation. Cursus de. Intitulé. Code. Cycle 1. Bloc 1. Quadrimestre 1-2. Pondération 5. Nombre de crédits 5

Informations de l'unité d'enseignement Implantation. Cursus de. Intitulé. Code. Cycle 1. Bloc 1. Quadrimestre 1-2. Pondération 5. Nombre de crédits 5 Informatons de l'unté d'ensegnement Implantaton ECAM Cursus de Bacheler en Scences ndustrelles Informatque et communcaton B1030 Cycle 1 Bloc 1 Quadrmestre 1-2 Pondératon 5 Nombre de crédts 5 Nombre d heures

Plus en détail

par Ph. Bois, Ch. Obled et I. Zin

par Ph. Bois, Ch. Obled et I. Zin Insttut Natonal Polytechnque de Grenoble ENS d'hydraulque et Mécanque de Grenoble ENSHMG INTRODUCTION au TRAITEMENT de DONNEES en HYDROLOGIE par Ph Bos, Ch Obled et I Zn Professeurs et Maître de Conférences

Plus en détail

Chapitre 1 : Images données par une lentille mince convergente

Chapitre 1 : Images données par une lentille mince convergente Chaptre 1 : Images données par une lentlle mnce convergente Termnale S Spécalté Chaptre 1 : Images données par une lentlle mnce convergente bectfs : - Constructon graphque de l mage d un obet plan perpendculare

Plus en détail

Introduction aux statistiques spatiales et aux systèmes d'information géographique en santé environnement

Introduction aux statistiques spatiales et aux systèmes d'information géographique en santé environnement Santé envronnement Introducton aux statstques spatales et aux systèmes d'nformaton géographque en santé envronnement applcaton aux études écologques Sommare Abrévatons 2 Résumé 3 1. Introducton 4 1.1 Études

Plus en détail

TRANSFERT DE CARGAISON CALCULS ET ARRONDIS

TRANSFERT DE CARGAISON CALCULS ET ARRONDIS TRANSFERT DE CARGAISON CALCULS ET ARRONDIS SOMMAIRE 1. Méthode de détermnaton de l énerge transférée lors du transfert d une cargason de. Calcul de l énerge transférée.1 Calcul de l énerge brute transférée.1.1

Plus en détail

Montage émetteur commun

Montage émetteur commun tour au menu ontage émetteur commun Polarsaton d un transstor. ôle de la polarsaton La polarsaton a pour rôle de placer le pont de fonctonnement du transstor dans une zone où ses caractérstques sont lnéares.

Plus en détail

Mémento de théorie de l information

Mémento de théorie de l information Mémento de théore de l nformaton Glles Zémor 6 octobre 204 0 Rappels de probabltés Espaces probablsés. Un espace probablsé (Ω, P ) est un ensemble Ω mun d une mesure de probablté P qu est, lorsque Ω est

Plus en détail

Calcul de l unité astronomique Lors du transit de Vénus

Calcul de l unité astronomique Lors du transit de Vénus TP 8 Calcul de l unté astronomque Lors du transt de Vénus Nveau A partr du CM Evaluaton de l Unté Astronomque à partr de l observaton du transt de Vénus. -Propostons pédagogques Les propostons exposées

Plus en détail

Informations de l'unité d'enseignement Implantation. Cursus de. Intitulé. Code. Cycle 1. Bloc 2. Quadrimestre 1. Pondération 4. Nombre de crédits 4

Informations de l'unité d'enseignement Implantation. Cursus de. Intitulé. Code. Cycle 1. Bloc 2. Quadrimestre 1. Pondération 4. Nombre de crédits 4 Informatons de l'unté d'ensegnement Implantaton Cursus de Inttulé Code ECAM Insttut Supéreur Industrel Bacheler en Scences ndustrelles Outls de communcaton B2050 Cycle 1 Bloc 2 Quadrmestre 1 Pondératon

Plus en détail

Méthodologie quiestlemoinscher de comparaison de prix entre magasins

Méthodologie quiestlemoinscher de comparaison de prix entre magasins Méthodologe questlemonscher de comparason de prx entre magasns Les éléments méthodologques ont été défns par le cabnet FaCE Consel, socété d études et d analyses statstques ndépendante. Le cabnet FaCE

Plus en détail

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2 Exo7 Nombres complexes Vdéo parte. Les nombres complexes, défntons et opératons Vdéo parte. Racnes carrées, équaton du second degré Vdéo parte 3. Argument et trgonométre Vdéo parte 4. Nombres complexes

Plus en détail

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises Les détermnants de la détenton et de l usage de la carte de débt : une analyse emprque sur données ndvduelles françases Davd Boune Marc Bourreau Abel Franços Jun 2006 Département Scences Economques et

Plus en détail

Enquête sur les services de télécommunications

Enquête sur les services de télécommunications Enquête sur les servces de télécouncatons Vu l'avs favorable du Consel Natonal de l'inforaton Statstque, cette enquête, reconnue d'ntérêt général et de qualté statstque, est oblgatore. Vsa n 200222EC du

Plus en détail

Algorithme approché d optimisation d un modèle de Processus Décisionnel de Markov sur Graphe

Algorithme approché d optimisation d un modèle de Processus Décisionnel de Markov sur Graphe Algorthme approché d optmsaton d un modèle de Processus Décsonnel de Markov sur Graphe Nathale Peyrard Régs Sabbadn INRA-MIA Avgnon et Toulouse E-Mal: {peyrard,sabbadn}@toulouse.nra.fr Réseau MSTGA, Avgnon,

Plus en détail

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle» Evaluaton des projets et estmaton des coûts Le budget d un projet est un élément mportant dans l étude d un projet pusque les résultats économques auront un mpact sur la réalsaton ou non et sur la concepton

Plus en détail

Activité Intitulé de l'activité Volume horaire

Activité Intitulé de l'activité Volume horaire Informatons de l'unté d'ensegnement Implantaton Cursus de ECAM Insttut Supéreur Industrel Bacheler en Scences ndustrelles Electronque applquée B2150 Cycle 1 Bloc 2 Quadrmestre 2 Pondératon 4 Nombre de

Plus en détail

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF 1 LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régme») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF AVIS AUX RETRAITÉS ET AUX PARTICIPANTS AVEC DROITS ACQUIS DIFFÉRÉS Expédteurs

Plus en détail

La physiologie du cerveau montre que celui-ci est constitué de cellules (les neurones) interconnectées. Quelques étapes de cette découverte :

La physiologie du cerveau montre que celui-ci est constitué de cellules (les neurones) interconnectées. Quelques étapes de cette découverte : Chaptre 3 Apprentssage automatque : les réseaux de neurones Introducton Le Perceptron Les réseaux mult-couches 3.1 Introducton Comment l'homme fat-l pour rasonner, parler, calculer, apprendre,...? Comment

Plus en détail

Grandeurs de réaction et de formation

Grandeurs de réaction et de formation PSI Brzeux Ch. hermochme 1 : grandeurs de réacton et de formaton 1 C H A P I R E 1 r a p p e l s e t c o m p l é m e n t s ) Grandeurs de réacton et de formaton 1. RAPPELS 1.1. Phases et consttuants Donnons

Plus en détail

1.0 Probabilité vs statistique...1. 1.1 Expérience aléatoire et espace échantillonnal...1. 1.2 Événement...2

1.0 Probabilité vs statistique...1. 1.1 Expérience aléatoire et espace échantillonnal...1. 1.2 Événement...2 - robabltés - haptre : Introducton à la théore des probabltés.0 robablté vs statstque.... Expérence aléatore et espace échantllonnal.... Événement.... xomes défnton de probablté..... Quelques théorèmes

Plus en détail

ASCENSEUR FLUVIAL FUNICULAIRE DE STREPY-THIEU

ASCENSEUR FLUVIAL FUNICULAIRE DE STREPY-THIEU ASCENSEUR FLUVIAL FUNICULAIRE DE STREPY-THIEU Le canddat est nvté à formuler toute hypothèse cohérente qu lu semblerat nécessare pour pouvor répondre aux questons posées. Page 1 sur 21 1. PRESENTATION

Plus en détail

DEA de physique subatomique Corrigé de l examen d analyse statistique des données et de modélisation session de février - année 2002-2003

DEA de physique subatomique Corrigé de l examen d analyse statistique des données et de modélisation session de février - année 2002-2003 DEA d physqu subatomqu Corrgé d l xamn d analys statstqu ds donnés t d modélsaton ssson d févrr - anné 22-23 Jérôm Baudot sur 45 ponts I- Errur sur la msur d un asymétr avant-arrèr ponts I-a La formul

Plus en détail

EH SmartView. Identifiez vos risques et vos opportunités. www.eulerhermes.be. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

EH SmartView. Identifiez vos risques et vos opportunités. www.eulerhermes.be. Pilotez votre assurance-crédit. Services en ligne Euler Hermes EH SmartVew Servces en lgne Euler Hermes Identfez vos rsques et vos opportuntés Plotez votre assurance-crédt www.eulerhermes.be Les avantages d EH SmartVew L expertse Euler Hermes présentée de manère clare

Plus en détail

Bien débuter avec Illustrator

Bien débuter avec Illustrator CHAPITRE 1 Ben débuter avec Illustrator Illustrator est un logcel de dessn vectorel. Cela sgnfe qu'l permet de créer des llustratons composées avec des objets décrts par des vecteurs. Une telle défnton

Plus en détail