Probabilités et Statistiques

Documents pareils
Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Introduction à l approche bootstrap

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Exemples d application

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Données longitudinales et modèles de survie

Introduction aux Statistiques et à l utilisation du logiciel R

Un exemple de régression logistique sous

Analyse de la variance Comparaison de plusieurs moyennes

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Probabilités III Introduction à l évaluation d options

Chapitre 3. Les distributions à deux variables

Régression linéaire. Nicolas Turenne INRA

Lire ; Compter ; Tester... avec R

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Principe d un test statistique

Exemple PLS avec SAS

Imputation du salaire d ego dans TeO

Quantification Scalaire et Prédictive

GUIDE PRATIQUE déplacements professionnels temporaires en France et à l étranger

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Évaluation de la régression bornée

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

!-.!#- $'( 1&) &) (,' &*- %,!

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Introduction à la Statistique Inférentielle

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Etude des propriétés empiriques du lasso par simulations

FONCTION DE DEMANDE : REVENU ET PRIX

Température corporelle d un castor (une petite introduction aux séries temporelles)

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Exercice : la frontière des portefeuilles optimaux sans actif certain

Précision d un résultat et calculs d incertitudes

Cours de Tests paramétriques

Méthodes de Simulation

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Coup de Projecteur sur les Réseaux de Neurones

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Théorie des sondages : cours 5

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

«Cours Statistique et logiciel R»

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

2.4 Représentation graphique, tableau de Karnaugh

I. S. F. ET DELOCALISATIONS FISCALES UN IMPACT DIFFICILE A MESURER FAUTE D UN TABLEAU DE BORD SATISFAISANT

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Chapitre 2 Le problème de l unicité des solutions

Gestion de Portefeuille. Mesures de Performance Ajustées du Risque

Introduction au pricing d option en finance

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

1. Vocabulaire : Introduction au tableau élémentaire

COURS GESTION FINANCIERE SEANCE 4 CHOIX DU NIVEAU DU FONDS DE ROULEMENT PLANS DE TRESORERIE FINANCEMENTS ET PLACEMENTS A COURT TERME

Fonctions de deux variables. Mai 2011

La baisse tendancielle des rentes réduitelle la demande d épargne retraite? Leçons tirées d une réforme des tables de mortalité

Modèle GARCH Application à la prévision de la volatilité

un environnement économique et politique

TSTI 2D CH X : Exemples de lois à densité 1

Économetrie non paramétrique I. Estimation d une densité

1 Définition de la non stationnarité

I - Quelques propriétés des étoiles à neutrons

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Programmation Linéaire - Cours 1

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Introduction à la statistique non paramétrique

Cours Météo, Club Alpin Suisse, Section de Neuchâtel

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

CONSEIL NATIONAL DE LA COMPTABILITÉ Remplacement d instruments

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Relation entre deux variables : estimation de la corrélation linéaire

23. Interprétation clinique des mesures de l effet traitement

Principe de symétrisation pour la construction d un test adaptatif

Étude comparative sur les salaires et les échelles salariales des professeurs d université. Version finale. Présentée au

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Les débats sur l évolution des

CAPTEURS - CHAINES DE MESURES

La nouvelle planification de l échantillonnage

Pierre Thérond Année universitaire

Simulation de variables aléatoires

25/01/05 TD Entrepôt de données IHS / Master ICA

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

M2 IAD UE MODE Notes de cours (3)

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

PRIME D UNE OPTION D ACHAT OU DE VENTE

Chapitre 6 : Consolidation par paliers et consolidation directe

Transcription:

Probabilités et Statistiques Année 2010/2011 laurent.carraro@telecom-st-etienne.fr olivier.roustant@emse.fr

Cours n 13 Régression Influence des prédicteurs

Rappel modèle linéaire Y vecteur des réponses X matrice du plan d expériences vecteur des paramètres vecteurs des écarts au modèle : " " Y = X + 1,..., n indépendants et de même loi N(0, ) Ecriture développée : " " pour toute «expérience» n i "" y i = 0 + 1 x 1,i + + p x p,i + i

Estimation de β β est estimé par moindres carrés : " L estimateur ˆ β vérifie : (Y-Xβ) (Y-Xβ) minimum On montre que c est équivalent à X (Y-Xβ) = 0 D où soit (X X) β = X Y ˆ β = (X' X) 1 X'Y σ est estimé selon : ˆ σ 2 = 1 (n p 1) n i=1 2 ˆ ε i

Propriétés de β ˆ E( ˆ β ) = β : l estimateur est sans biais. cov( ˆ β ) = σ 2 (X' X) 1 M = (X' X) 1 En d autres termes, si Var( ˆ β j ) = σ 2 M j, j Cov( ˆ β j, ˆ β k ) = σ 2 M j,k ˆ β j Les sont tous de loi normale N(β j, σ 2 M j,j )

Influent ou non influent? y i = β 0 + β 1 x i + e i avec e 1,, e 4 i.i.d N(0, 0.04 2 ) vraie droite simulation 1 Imaginer un pèsepersonne avec une erreur de mesure de 50 kg! simulation 2 vraie droite droite estimée ˆ β 1 (ω) < 0 droite estimée ˆ β 1 (ω') > 0!! Ici, l erreur d estimation sur β 1 vaut β 1! (=0.2)

Influent ou non influent (suite) Le même ex., mais en planifiant mieux les expériences simulation 1 simulation 2 Ici, l erreur d estimation sur la pente vaut 0.054

Question Vous pouvez réaliser 4 expériences pour estimer un phénomène linéaire sur [a,b] impliquant 1 prédicteur Comment répartir les expériences dans le domaine expérimental [a,b] de façon à ce que l estimation soit la plus précise possible?

Influent ou non influent (suite) Le même exemple, planification optimale simulation 1 simulation 2 L erreur d estimation sur la pente vaut ici 0.04

Conclusion temporaire Prendre en compte l erreur d estimation d un paramètre pour savoir s il est important ou pas Décision en milieu incertain : test statistique La difficulté à décider peut venir d une mauvaise planification des expériences

Formalisation Considérons le modèle linéaire " " Y = Xβ+ε soit : y i = β 0 +β 1 x 1,i + + β p x p,i + ε i avec ε 1,, ε n i.i.d N(0,σ 2 ) Le prédicteur x j est influent si β j 0 Test statistique opposant les hypothèses {β j = 0} et {β j 0}

Construction du test statistique 1ère étape : hypothèse H 0 On veut que les données nous montrent qu un prédicteur est influent. Quelle est l hypothèse H 0? { } H = β = 0 0 j Raison inavouable : pouvoir faire les calculs

Construction du test (suite) 2ème étape : loi de ˆ β j sous H 0? ˆ β j Mais sous H 0 : β j = 0 ˆ De façon générale, est de loi N(β i, σ 2 M i,i ) donc sous H 0 est de loi N(0, σ 2 M i,i ) et σ ˆ β j M j, j est de loi N(0,1) On remplace σ par son estimation : T = ˆ β j σ ˆ M j, j β j est de loi de Student t n-p-1

Construction du test (suite) 3ème étape : détermination d un seuil Notation : Remarques : T obs = ˆ β j,obs σ ˆ obs M j, j T est appelé t-ratio (à cause de la loi de Student, notée t) En pratique, pour n-(p+1) 20, on approche t n-(p+1) par N (0,1) Au niveau 5%, on rejette H 0 n-(p+1) 20 : si T obs dépasse 1.96 en valeur absolue n-(p+1)<20 : utiliser les tables de la loi de Student Mieux (dans tous les cas) : utiliser la p-valeur

Interprétation densité de la loi t 17 5%

Idem avec p-valeur densité de la loi t 17 P( t 17 >t_obs) 15% t_obs=1.5

Test de signification : pratique En pratique, les logiciels donnent le tableau suivant : prédicteur x j estimation ˆ β j,obs erreur d'estimation ˆ σ j,obs T obs = t ratio p valeur ˆ β j,obs P σ ˆ H 0 (T > T obs ) j,obs

Retour sur les simulations y i = β 0 + β 1 x i + e i avec e 1,, e 4 i.i.d N(0, 0.04 2 )

Call: La t-valeur est > 1.96 en valeur absolue, lm(formula = ysim ~ experiences) Pourtant on ne rejette pas H 0 Cela est dû au fait qu on ne peut pas utiliser Residuals: l approximation normale (ici n-2=2 << 20) 1 2 3 4 La p-valeur est calculée à partir de la loi de Student 0.038612-0.038612 0.002785-0.002785 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.1404 0.0987 11.554 0.00741 ** experiences -0.4099 0.1936-2.118 0.16838 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Moralité : la pente de la droite est négative, Residual standard error: 0.03871 Mais l erreur on 2 degrees d estimation of freedom est trop importante Multiple R-Squared: 0.6916, Et Adjusted le paramètre R-squared: est statistiquement 0.5374 non F-statistic: 4.485 on 1 and 2 DF, significatif p-value: au 0.1684 niveau 5% rassurant!

Simulations (suite) y i = β 0 + β 1 x i + e i avec e 1,, e 4 i.i.d N(0, 0.04 2 )

Call: lm(formula = ysim ~ experiences) Moralité : la pente de la droite est négative, Residuals: Cette fois l erreur d estimation est assez faible 1 2 3 4 Et le paramètre est statistiquement 0.01300-0.01300 0.03190 significatif -0.03190 au niveau 5% (mais pas 1%) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 0.97956 0.02436 40.22 0.000618 *** experiences -0.26142 0.03444-7.59 0.016921 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.03444 on 2 degrees of freedom Multiple R-Squared: 0.9664, Adjusted R-squared: 0.9497 Remarque F-statistic: : la pente 57.6 réelle on 1 and (inconnue) 2 DF, p-value: est 0.01692-0.2

Données de pollution Rappel : on veut prévoir la teneur en NO 3 par celle en S0 4

Régression avec R Le fichier de données : (format.txt) lm : linear model NO3 SO4 0,45 0,78 0,09 0,25 1,44 2,39 > pollution <- read.table("pollution.txt", header=true, dec=",", sep="\t") > modele_degre_1 <- lm(log(no3)~log(so4), data=pollution) > summary(modele_degre_1) > modele_degre_2 <- lm(log(no3)~log(so4)+i(log(so4)^2), data=pollution) > summary(modele_degre_2)

Sorties à commenter Call: lm(formula = log(no3) ~ log(so4), Comme data n-p-1>20, = pollution) on peut aussi se baser sur le fait que t-ratio > 2 Residuals: ou Min 1Q Median 3Q que Max l erreur d estimation est -0.80424-0.14485-0.01087 0.16564 < la 0.56666 moitié de l estimation Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.43642 0.03679-11.86 <2e-16 *** log(so4) 0.92168 0.03356 27.47 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 p-valeur. 0.1 < 0.05 1 paramètres significatifs au niveau 5% Residual standard error: 0.2417 (on on est 165 même degrees très large of : p=2e-16!) freedom Multiple R-Squared: 0.8205, Adjusted R-squared: 0.8195 F-statistic: 754.4 on 1 and 165 DF, p-value: < 2.2e-16

Call: lm(formula = log(no3) ~ log(so4) Comme + I(log(SO4)^2), n-p-1>20, on peut data aussi = pollution) se baser sur le fait que t-ratio < 2 Residuals: ou Min 1Q Median 3Q Max que l erreur d estimation est -0.79819-0.14085-0.01470 0.16158 > 0.57136 la moitié de l estimation Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.42918 0.03955-10.852 <2e-16 *** log(so4) 0.95337 0.07098 13.432 <2e-16 *** I(log(SO4)^2) 0.01886 0.03720 0.507 0.613 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.2423 on 164 degrees p-valeur of > freedom 0.05 Multiple R-Squared: 0.8208, paramètre Adjusted R-squared: non significatif 0.8186 au niveau 5% F-statistic: 375.7 on 2 and 164 DF, p-value: < 2.2e-16

Exercice planification d expériences Exemple précédent (n expériences et un facteur) Vérifier que l on a X' X = n 1 x x x 2 puis X' X puis ( ) 1 = 1 n En déduire que pour minimiser l erreur d estimation de la pente, il faut que la variance empirique des x i soit la plus grande possible Pour n=4, et considérons le domaine expérimental [-1,1]. Montrer que le maximum est atteint lorsque la moitié des points est placée sur le bord gauche (en x = -1), et l autre moitié sur le bord droit (x = 1) 1 x 2 x 2 var( ˆ β ) 1 = cov( ˆ β 1, β ˆ 1 ) = ( σ 2 (X' X) 1 ) 11 = σ 2 n 2 x x x 1 1 x 2 x 2