Université de Caen Basse-Normandie. Christophe Chesneau.

Dimension: px
Commencer à balayer dès la page:

Download "Université de Caen Basse-Normandie. Christophe Chesneau. http://www.math.unicaen.fr/~chesneau/"

Transcription

1 Basse-Normandie Christophe Chesneau Caen, le 18 Juillet 2015

2 Table des matières 1 Présentation 6 2 Régression linéaire multiple (rlm) Contexte Estimations Coefficients de détermination Lois des estimateurs Intervalles de confiance Tests d hypothèses Améliorations et validation des hypothèses Motivation Analyses du/des nuages de points Analyses graphiques des résidus Outils de vérification Indépendance de ɛ 1,..., ɛ n V(ɛ 1 ) =... = V(ɛ n ) Normalité de ɛ 1,..., ɛ n Multicolinéarité Détection des valeurs anormales Stabilité du modèle Sélection de variables Traitement de variables qualitatives C. Chesneau 2

3 4 Méthode des moindres carrés généralisés (mcg) Contexte Quelques résultats Hétéroscédasticité des erreurs et mcg Cas de données groupées Correction d hétéroscedasticité Autocorrélation des erreurs et mcg Régression non-linéaire Contexte Régression polynomiale Résidus partiels Méthode itérative Extension : régression non-paramétrique Régression logistique Contexte Transformation logit Variable latente Estimation Significativité de la régression Rapport des côtes Intervalles de confiance Pertinence du modèle Détection des valeurs anormales C. Chesneau 3

4 6.10 Sélection de variables Qualité du modèle Cas des données groupées Régression polytomique Contexte Régression multinomiale (ou polytomique non-ordonnée) Contexte Estimation Significativité du modèle Sélection de variables Qualité du modèle Régression polytomique ordonnée Régression de Poisson Contexte Significativité de la régression Intervalles de confiance Pertinence du modèle Détection des valeurs anormales Sélection de variables Dispersion anormale Terme de décallage (offset) Jeux de données 141 C. Chesneau 4

5 10 Annexe : emv Méthode Résultats asymptotiques Test global Test partiel Algorithme de Newton-Raphson et emv Index 145 C. Chesneau 5

6 1 Présentation Ce document résume les notions abordées dans le cours Modèle de Régression du M2 MASS (MIASHS) de l université de Caen. Un des objectifs est de donner des pistes de réflexion à la construction de modèles prédictifs à partir de données. Les méthodes statistiques y sont décrites de manière concise, avec les commandes R associées. La présente version est la première, avec tous les défauts que cela comporte. Entre autre, on relève une absence totale d exemple et d application. Ce vide sera comblé dans le futur avec une quinzaine d études sur jeux de données réelles, actuellement en cours d amélioration. Je vous invite à me contacter pour tout commentaire : Bonne lecture. C. Chesneau 6

7 2 Régression linéaire multiple (rlm) 2.1 Contexte Problématique : On souhaite expliquer une variable (ou caractère) Y en fonction de p autres variables X 1,..., X p. Ainsi, Y est la variable à expliquer, X 1,..., X p sont des variables explicatives. Données : Les données constituent des observations de ces variables. Ce sont n observations de (Y, X 1,..., X p ) notées (y 1, x 1,1,..., x p,1 ),..., (y n, x 1,n,..., x p,n ). Elles se présentent généralement sous la forme d un tableau : Y X 1... X p y 1 x 1,1... x p,1 y 2 x 1,2 x p,2.... y n x 1,n... x p,n Modèle de régression linéaire multiple : Si une liaison linéaire entre Y et X 1,..., X p est envisageable, on peut considérer le modèle de régression linéaire multiple (rlm) : il existe p + 1 coefficients inconnus β 0,..., β p tels que C. Chesneau 7

8 Y = β 0 + β 1 X β p X p + ɛ, où ɛ est une quantité représentant une somme d erreurs. On modélise Y, X1, X2 et X3 par une rlm en faisant : reg = lm(y ~ X1 + X2 + X3) Objectif : Un objectif est d estimer les coefficients inconnus β 0,..., β p à l aide des données afin de prédire la valeur moyenne de Y pour une nouvelle valeur de (X 1,..., X p ). Modélisation : On modélise les variables considérées comme des variables aléatoires réelles (var) (définies sur un espace probabilisé (Ω, A, P)). Pour tout i {1,..., n}, (x 1,i,..., x p,i ) est une réalisation du vecteur aléatoire réel (X 1,..., X p ), sachant que (X 1,..., X p ) = (x 1,i,..., x p,i ), y i est une réalisation de Y i = β 0 + β 1 x 1,i β p x p,i + ɛ i, où ɛ i est une var modélisant une somme d erreurs. Remarque : Pour tout x = (x 1,..., x p ) R p, sous l hypothèse que E(ɛ {(X 1,..., X p ) = x}) = 0, le modèle de rlm peut s écrire comme E(Y {(X 1,..., X p ) = x}) = β 0 + β 1 x β p x p. Ainsi, sachant que (X 1,..., X p ) = x, la valeur moyenne de Y est une combinaison linéaire de (x 1,..., x p ). C. Chesneau 8

9 Écriture matricielle : Le modèle de rlm s écrit sous la forme matricielle : Y = Xβ + ɛ, où 1 x 1,1 x p,1 Y 1 β 0 ɛ 1 1 x 1,2 x p,2 Y 2 β 1 ɛ X =, Y =, β =, ɛ = x 1,n x p,n Y n β p ɛ n Hypothèses standards : On suppose que (X t X) 1 existe, ɛ et X 1,..., X p sont des var indépendantes et ɛ N n (0, σ 2 I n ) où σ est un paramètre inconnu. En particulier, cette dernière hypothèse entraîne que ɛ 1,..., ɛ n sont indépendantes, V(ɛ 1 ) =... = V(ɛ n ), ɛ 1,..., ɛ n suivent chacune la loi normale centrée. C. Chesneau 9

10 2.2 Estimations Emco : L estimateur des moindres carrés ordinaires (emco) de β est β = (X t X) 1 X t Y. Il est construit de sorte que l erreur d estimation entre X β et Y soit la plus petite possible au sens. 2 : où. désigne la norme euclidienne de R n : β = Argmin β R p+1 Y Xβ 2, < a, b >= a t b = b t a = n a i b i, a 2 =< a, a >= a t a = i=1 n a 2 i. i=1 Pour tout j {0,..., p}, la j + 1-ème composante de β, notée β j, est l emco de β j. Emco et emv : L emco de β est l estimateur du maximum de vraisemblance (emv) de β. En effet, la vraisemblance associée à (Y 1,..., Y n ) est L(β, z) = ) 1 z Xβ 2 (2πσ 2 exp ( ) n/2 2σ 2 ), z R n. Par conséquent Argmax β R p+1 L(β, Y ) = Argmin Y Xβ 2 = β. β R p+1 Estimateur de la prédiction : Soit y x la valeur prédite moyenne de Y lorsque (X 1,..., X p ) = C. Chesneau 10

11 (x 1,..., x p ) = x : y x = β 0 + β 1 x β p x p. Un estimateur de y x est Ŷ x = β 0 + β 1 x β p x p. Estimateur de σ 2 : Un estimateur de σ 2 est σ 2 = 1 n (p + 1) Y X β 2. Il vérifie E( σ 2 ) = σ 2. De plus, σ 2 et β sont indépendants. Estimations ponctuelles : En pratique, on considère les réalisations de β 0, β 1,..., β p, σ 2 correspondantes aux données. On travaille donc avec des réels. reg = lm(y ~ X1 + X2 + X3) On obtient les estimations ponctuelles de β 0, β 1, β 2 et β 3 par la commande : reg Pour isoler l estimation ponctuelle de β 2 (par exemple), on fait : reg$coeff[3] Les valeurs prédites moyennes de Y prises aux valeurs des données de X1, X2 et X3 s obtiennent en faisant : predict(reg) (ou fitted(reg)) La valeur prédite moyenne de Y pour la valeur (X1, X2, X3) = (1.2, 2.2, 6) est donnée par la commande : predict(reg, data.frame(x1 = 1.2, X2 = 2.2, X3 = 6)) Si le coefficient β 0 n a pas de sens dans la modélisation, on l enlève en faisant : reg = lm(y ~ X1 + X2 + X3-1) C. Chesneau 11

12 2.3 Coefficients de détermination Coefficients de détermination : On appelle coefficient de détermination la réalisation R 2 de R 2 = Ŷ Y 2 Y Y 2, où Ŷ = X β et Y = (1/n) n i=1 Y i. Ce R 2 est un coefficient réel toujours compris entre 0 et 1. Il mesure de la qualité de l ajustement des données par le modèle de rlm ; plus R 2 est proche de 1, (plus Ŷ est proche de Y ), meilleur est le modèle. Coefficients de détermination ajusté : On appelle coefficient de détermination ajusté le réel : R 2 = R 2 (1 R 2 p ) n (p + 1). Ce coefficient est considéré comme plus fiable que R 2 car il tient compte du nombre de variables. Le R 2 et R 2 sont donnés par la commande : summary(reg) C. Chesneau 12

13 2.4 Lois des estimateurs Loi de β : On a β N p+1 ( β, σ 2 (X t X) 1). La matrice de covariance estimée de β, qui est aussi la réalisation de σ 2 (X t X) 1, est donnée par la commande : vcov(reg) Loi de β j : Pour tout j {0,..., p}, on a β j N ( β j, σ 2 [(X t X) 1 ] j+1,j+1 ), βj β j σ [(X t X) 1 ] j+1,j+1 N (0, 1), où [(X t X) 1 ] j+1,j+1 désigne la j + 1-ème composante diagonale de (X t X) 1. Degrés de liberté : Dans ce qui suit, on travaillera avec le nombre de degrés de liberté : ν = n (p + 1). Loi associée à σ 2 : On a (n (p + 1)) σ2 σ 2 χ2 (ν). Apparition de la loi de Student : Pour tout j {0,..., p}, on a β j β j σ [(X t X) 1 ] j+1,j+1 T (ν). C. Chesneau 13

14 2.5 Intervalles de confiance Intervalle de confiance pour β j : Pour tout j {0,..., p}, un intervalle de confiance pour β j au niveau 100(1 α)%, α ]0, 1[, est la réalisation i βj de I βj = [ ] β j t α (ν) σ [(X t X) 1 ] j+1,j+1, βj + t α (ν) σ [(X t X) 1 ] j+1,j+1, où t α (ν) est le réel vérifiant P( T t α (ν)) = α, avec T T (ν). confint(reg, level = 0.95) Intervalle de confiance pour y x : Soient y x la prédiction moyenne de Y quand (X 1,..., X p ) = (x 1,..., x p ) = x et x = (1, x 1,..., x p ). Un intervalle de confiance pour y x au niveau 100(1 α)%, α ]0, 1[, est la réalisation i yx de I yx = [Ŷx t α (ν) σ x (X t X) 1 x t, Ŷ x + t α (ν) σ x (X t X) 1 x t ], où t α (ν) est le réel vérifiant P( T t α (ν)) = α, avec T T (ν). predict(reg, data.frame(x1 = 1.2, X2 = 2.2, X3 = 6), interval = "confidence") C. Chesneau 14

15 2.6 Tests d hypothèses p-valeur : On considère des hypothèses de la forme : H 0 : A contre H 1 : contraire de A La p-valeur est la probabilité exacte (ou presque) de se tromper en rejetant H 0. Ainsi, le plus petit risque de se tromper en rejetant H 0 est (100 p-valeur)%. Degrés de significativité : Le rejet de H 0 sera significatif si p-valeur ]0.01, 0.05], symbolisé par, très significatif si p-valeur ]0.001, 0.01], symbolisé par, hautement significatif si p-valeur < 0.001, symbolisé par, (presque significatif si p-valeur ]0.05, 0.1], symbolisé par. (un point)). Test de Student : Soit j {0,..., p}. L objectif du test de Student est d évaluer l influence de X j sur Y. On considère les hypothèses : H 0 : β j = 0 contre H 1 : β j 0. On calcule la réalisation t obs de T = β j σ [(X t X) 1 ] j+1,j+1. On considère une var T T (ν). Alors la p-valeur associée est p-valeur = P( T t obs ). Si C. Chesneau 15

16 , l influence de X j sur Y est significative,, l influence de X j sur Y est très significative,, l influence de X j sur Y est hautement significative. Test global de Fisher : L objectif du test global de Fisher est d étudier la pertinence du lien linéaire entre Y et X 1,..., X p. On considère les hypothèses : H 0 : β 1 = β 2 =... = β p = 0 contre H 1 : il y a au moins un coefficient non nul. On calcule la réalisation f obs de F = R 2 n (p + 1) 1 R. 2 p On considère une var F F(p, ν). Alors la p-valeur associée est p-valeur = P(F f obs ). Notons que ce test est moins précis que le test de Student car il ne précise pas quels sont les coefficients non nuls. Il est toutefois un indicateur utile pour déceler d éventuelles problèmes (comme des colinéarités entre X 1,..., X p ). Les tests d hypothèses précédents sont mis en œuvre par la commande : summary(reg) C. Chesneau 16

17 3 Améliorations et validation des hypothèses 3.1 Motivation Questions : 1. Peut-on améliorer les estimations des paramètres? 2. Comment valider ces hypothèses avec les données? Rappel : Les hypothèses suivantes ont été formulées : ɛ et X 1,..., X p sont indépendantes, ɛ 1,..., ɛ n sont indépendantes, V(ɛ 1 ) =... = V(ɛ n ), ɛ 1,..., ɛ n suivent des lois normale centrées. Commandes R clés : Une première analyse de la validation de ces hypothèses doit être graphique. Les commandes clés sont : par(mfrow = c(2, 2)) plot(reg, 1:4) Des tests d hypothèses rigoureux viendront ensuite confirmer/infirmer cette première analyse visuelle. C. Chesneau 17

18 3.2 Analyses du/des nuages de points Pertinence du modèle : Pour certain problème, le modèle de rlm n est pas le plus adapté. Il est parfois judicieux de transformer Y et X 1,..., X p, puis de les modéliser par une rlm. Ainsi, on considère un modèle de la forme : f(y ) = β 0 + β 1 g 1 (X 1 ) β p g p (X p ) + ɛ, où f, g 1,..., g p désignent des transformations/fonctions à choisir. Choix des transformations : Les p nuages de points : {(x j,i, y i ); i {1,..., n}}, j {1,..., p} peuvent nous aiguiller sur les transformations candidates. Pour tout j {1,..., p}, une approche intuitive consiste à déterminer des fonctions f et g j telles que le nuage de points {(g j (x j,i ), f(y i )); i {1,..., n}} soit ajustable par une droite. plot(w) ou pairs(cbind(y, X1, X2)) Nous verrons par la suite les limites de cette approche et étudierons les méthodes alternatives (dans le chapitre Régression non-linéaire). C. Chesneau 18

19 Exemple : Dans l exemple-ci dessous, on cherche à expliquer Y en fonction X 1 : Vu le nuage de points, il est préférable de considérer la transformation exp(y ) et de faire une régression linéaire sur X 1, soit exp(y ) = β 0 + β 1 X 1 + ɛ. On obtiendra des estimations de β 0 et β 1 avec un meilleur R 2. Un exemple de rlm avec variables transformées est reg = lm(log(y) ~ sqrt(x1) + exp(x2) + X3) C. Chesneau 19

20 3.3 Analyses graphiques des résidus Résidus : Pour tout i {1,..., n}, on appelle i-ème résidu la réalisation e i de ɛ i = Y i Ŷi, où Ŷi = β 0 + β 1 x 1,i β p x p,i. On appelle résidus les réels e 1,..., e n. Ces résidus vont nous permettre de valider ou non les hypothèses initiales. residuals(reg) Résidus standardisés : Pour tout i {1,..., n}, on appelle i-ème résidu standardisé la réalisation e i de ɛ i = ɛ i σ 1 [X(X t X) 1 X t ] i,i. On appelle résidus standardisés les réels e 1,..., e n. rstandard(reg) Lois : Pour tout i {1,..., n}, si les hypothèses initiales sont vérifiées, on a ɛ i N ( 0, σ 2 (1 [X(X t X) 1 X t ] i,i ) ), ɛ i 1 [X(X t X) 1 X t ] i,i N (0, σ 2 ) et ɛ i = ɛ i σ 1 [X(X t X) 1 X t ] i,i T (ν). C. Chesneau 20

21 Analyse graphique 1 : On trace le nuage de points : {(e i, y i e i ); i {1,..., n}}. Notons que y i e i est la réalisation de Ŷi = Y i ɛ i. Si on ne peut pas ajuster le nuage de points par une "ligne" (droite ou ondulée), on admet que ɛ et X 1,..., X p sont indépendantes : tout va bien. plot(reg, 1) Si problème : Si on peut ajuster le nuage de points par une "ligne" (droite ou ondulée), on soupçonne que ɛ et X 1,..., X p sont dépendantes. Le lien linéaire entre Y et X 1,..., X p peut être remis en question. Analyse graphique 2 : On trace le nuage de points : {(i, e i ); i {1,..., n}}. Si le nuage de points n a aucune structure particulière, il y a une symétrie dans la répartition des points par rapport à l axe des abscisses, alors on admet que ɛ N n (0, σ 2 I n ) : tout va bien. plot(residuals(reg)) Si problème : 1. Si le nuage de points a l allure d une route sinueuse ou d un mégaphone, on soupçonne que les var ɛ 1,..., ɛ n sont dépendantes (si cela a du sens), ou/et V(ɛ 1 ) =... = V(ɛ n ) n est pas C. Chesneau 21

22 vérifiée. 2. S il y a une asymétrie dans la répartition des points par rapport à l axe des abscisses, l hypothèse de normalité de ɛ 1,..., ɛ n est à étudier. C. Chesneau 22

23 3.4 Outils de vérification En cas de doute, il convient de vérifier, dans l ordre : l indépendance de ɛ 1,..., ɛ n, l égalité V(ɛ 1 ) =... = V(ɛ n ), la normalité de ɛ 1,..., ɛ n. C. Chesneau 23

24 3.4.1 Indépendance de ɛ 1,..., ɛ n Motivation : Si les observations de Y, X 1,..., X p portent sur des individus tous différents et que le modèle de rlm a du sens, ɛ 1,..., ɛ n sont indépendantes. Par conséquent, si on distingue une structure dans le nuage des points des résidus (route sinueuse, mégaphone,... ), soit le modèle n est pas adapté, soit il faut se tourner vers la vérification de l hypothèse V(ɛ 1 ) =... = V(ɛ n ). En revanche, si les observations de Y, X 1,..., X p présentent une dépendance temporelle, la dépendance de ɛ 1,..., ɛ n est à étudier. Corrélogramme : Pour étudier l indépendance de ɛ 1,..., ɛ n, partant des résidus e 1,..., e n, la première approche consiste à tracer le corrélogramme. Celui-ci représente les estimations ponctuelles de la fonction d autocorrélation (acf) définie par ρ(h) = C(ɛ i, ɛ i+h ), i {1,..., n h}, h {1,..., n 1}, σ(ɛ i )σ(ɛ i+h ) sous forme de bâtons. La liaison linéaire entre ɛ i et ɛ i+h est mesurée. On peut aussi calculer un intervalle de confiance pour ρ(h) au delà duquel la dépendance est remise en cause. Si les bâtons sont de tailles et de signes alternés (ou presque) et qu aucun d entre eux ne dépassent les bornes de l intervalle de confiance (ou presque), on admet l indépendance de ɛ 1,..., ɛ n : tout va bien. C. Chesneau 24

25 acf(residuals(reg)) Corrélogramme partiel : Le corrélogramme partiel vient compléter l étude précédente ; il représente les estimations ponctuelles de la fonction d autocorrélation partielle (pacf) sous forme de bâtons. Cette fonction mesure la liaison linéaire entre ɛ i et ɛ i+h une fois retirés les liens transitant par les variables intermédiaires ɛ i+1,..., ɛ i+h 1. L interprétation est la même que pour l acf. pacf(residuals(reg)) Si problème : Ainsi, si les sommets des bâtons peuvent être rejoints par une ligne serpentée "sans pic" ou si plusieurs bâtons dépassent les bornes de l intervalle de confiance, une dépendance peut-être soupçonnée. Cela peut être confirmé avec le test de Ljung-Box. Test de Ljung-Box (ou du portemanteau) : On considère les hypothèses : H 0 : ρ(1) =... = ρ(n) = 0 contre H 1 : au moins une corrélation n est pas nulle. Partant des résidus e 1,..., e n, on peut utiliser le test de Ljung-Box : si p-valeur < 0.05, on admet qu au moins une corrélation n est pas nulle, donc que ɛ 1,..., ɛ n ne sont pas indépendantes. library(lawstat) Box.test(residuals(reg), type = "Ljung") Structure de dépendance : Si la dépendance ɛ 1,..., ɛ n est avérée ; le modèle de rlm n est pas adapté. Afin de trouver une alternative, il est intéressant d identifier, si possible, la structure de dépendance associée. La structure AR(1) présentée ci-après est l une des plus répandue. C. Chesneau 25

26 Structure AR(1) : On dit que ɛ 1,..., ɛ n ont une structure auto-régressive de degré 1 (AR(1)) si il existe : ρ ] 1, 1[ {0}, n var iid u 1,..., u n suivant chacune la loi normale N (0, υ 2 ), tels que, pour tout i {1,..., n}, ɛ i = ρɛ i 1 + u i. Le réel ρ mesure la dépendance de ɛ 1,..., ɛ n ; si ρ = 0, pour tout i {1,..., n}, ɛ i = u i, donc ɛ 1,..., ɛ n sont indépendants, si ρ 0, on admet la structure AR(1 ) ; ɛ 1,..., ɛ n ne sont pas indépendants. Test de Durbin-Watson : On considère les hypothèses : H 0 : ρ = 0 contre H 1 : ρ 0. Partant des résidus e 1,..., e n, on peut utiliser le test de Durbin-Watson : si p-valeur < 0.05, alors on admet que ρ 0, entraînant la structure AR(1 ) de ɛ 1,..., ɛ n. library(lmtest) dwtest(reg) Si problème : Dans le cas d une structure AR(1) sur ɛ 1,..., ɛ n, on est capable d estimer efficacement β. Cela sera présenté dans le chapitre Méthode des moindres carrés généralisés. C. Chesneau 26

27 3.4.2 V(ɛ 1 ) =... = V(ɛ n ) Graphique "Scale-Location" : On considère le nuage de points : { } ( e i, y i e i ); i {1,..., n}. Si on ne distingue aucune structure, on peut admettre que V(ɛ 1 ) =... = V(ɛ n ) : tout va bien. plot(reg, 3) Test de White : Admettons que ɛ 1,..., ɛ n soient indépendantes. Pour étudier l égalité V(ɛ 1 ) =... = V(ɛ n ), partant des résidus e 1,..., e n, on préconise le test de White. L idée est de tester l existence d un lien linéaire entre ɛ 2 et les p 2 variables constituées de X 1,..., X p, les carrés : X1 2,..., X2 p, les produits croisés : X 1 X 2, X 1 X 3,..., X p 1 X p. Si p-valeur > 0.05, on admet que V(ɛ 1 ) =... = V(ɛ n ). library(bstats) white.test(reg) Alternativement, on peut utiliser le test de Breusch-Pagan qui repose sur une idée similaire. library(lmtest) bptest(reg) Méthode de Glejser : La méthode de Glejser étudie l existence d un lien linéaire entre ɛ et des transformations (subjectives) de X 1,..., X p. Si au moins une variable influe très significativement sur ɛ, on rejette V(ɛ 1 ) =... = V(ɛ n ). C. Chesneau 27

28 e = residuals(reg) reg2 = lm(abs(e) ~ sqrt(x1) + X2ˆ0.3 + log(x3)) summary(reg2) Si problème : On propose 2 solutions : Une rlm avec Y transformée (comme ln Y, Y ou 1/Y ) peut engendrer des nouvelles variables d erreurs ɛ 1,..., ɛ n vérifiant V(ɛ 1 ) =... = V(ɛ n ). Dès lors, on peut utiliser ce nouveau modèle pour une étude statistique. Si, pour tout i {1,..., n}, on a une idée de la valeur de V(ɛ i ) ou que celle-ci est estimable, alors nous verrons une solution dans le chapitre Méthode des moindres carrés généralisés. C. Chesneau 28

29 3.4.3 Normalité de ɛ 1,..., ɛ n QQ plot : Admettons que ɛ 1,..., ɛ n soient indépendantes et V(ɛ 1 ) =... = V(ɛ n ). Pour étudier plus finement la normalité de ɛ 1,..., ɛ n, on trace le nuage de points QQ plot associé (ou diagramme Quantile-Quantile). Si le nuage de points peut être très facilement ajusté par la droite y = x, alors on admet la normalité de ɛ 1,..., ɛ n. Principe du QQ plot : Le principe du QQ plot est le suivant : 1. Pour tout i {1,..., n}, si ɛ i N (0, σ 2 ), alors ɛ i = ɛ i σ 1 [X(X t X) 1 X t ] i,i T (ν). On considère alors la fonction de répartition F de ɛ 1 dans ce cas. 2. D autre part, un estimateur de la fonction de répartition de ɛ 1 dans le cas général est Ĝ(x) = (1/n) n i=1 I { ɛ i x}. Soit G(x) sa réalisation. 3. Par conséquent, si ɛ i N (0, σ 2 ), alors on a F (x) G(x) et, a fortiori, x F 1 (G(x)). Le graphique QQ plot consiste à tracer le nuage de points { (F 1 (G(e i )), e i ); i {1,..., n} }. Si ɛ i N (0, σ 2 ), alors, pour tout i {1,..., n}, (F 1 (G(e i )), e i ) (e i, e i ) et les points du C. Chesneau 29

30 nuage seront presque sur la droite d équation y = x. Notons que l on trace le QQ plot en fonction des résidus standardisés e 1,..., e n et la loi de Student T (ν). Si ν 30, on peut utiliser la loi normale N (0, 1) car T (ν) N (0, 1), on parle alors de QQ norm. plot(reg, 2) soit encore : qqnorm(rstandard(reg)) ou plus joli : library(car) qqplot(reg) Test de Shapiro-Wilk : Pour conclure à la normalité de ɛ 1,..., ɛ n, partant des résidus e 1,..., e n, on préconise le test de Shapiro-Wilk : si p-valeur > 0.05, on admet l hypothèse de normalité. shapiro.test(residuals(reg)) Si problème : Une rlm avec Y transformée (comme ln Y, Y ou 1/Y ) peut engendrer des nouvelles variables d erreurs ɛ 1,..., ɛ n suivant chacune une loi normale. Dès lors, on peut utiliser ce nouveau modèle pour une étude statistique. C. Chesneau 30

31 3.5 Multicolinéarité Problème : Si au moins une des variables parmi X 1,..., X p a une liaison (presque) linéaire avec d autres, alors det(x t X) 0. Par conséquent, les éléments de la matrice : (X t X) 1 = 1 det(x t X) com(xt X) t seront très grands (à cause du terme 1/ det(x t X) ). Comme, pour tout j {1,..., p}, β j N ( β j, σ 2 [(X t X) 1 ] j+1,j+1 ), la variance de β j explose. Conséquence : Cela entraîne une grande instabilité dans l estimation de β j et fausse tous les tests d hypothèses. En particulier, si au moins une variable parmi X 1,..., X p a une liaison linéaire avec d autres, il est possible qu aucune variable ne montre d influence significative sur Y et cela, en dépit de toute logique, du test de Fisher qui peut quand même indiquer une influence significative globale des coefficients (car il prend en compte toutes les variables). Il convient donc d étudier d éventuelles multicolinéarités dans les X 1,..., X p avant de valider des résultats statistiques (arrangeants ou pas). Méthodes : C. Chesneau 31

32 Règle de Klein, Facteur d inflation de la variance (vif). Règle de Klein : On calcule la matrice carré p p composée des estimations ponctuelles des corrélations : ρ i,j = C(X i, X j ) σ(x i )σ(x j ). Si une ou plusieurs valeurs au carré sont proches de R 2, alors on soupçonne que les variables associées sont colinéaires. c = cor(cbind(x1, X2, X3), cbind(x1, X2, X3)) cˆ2 Vif : Pour tout j {1,..., p}, on appelle j-ème facteur d inflation de la variance (vif) le réel : V j = 1 1 Rj 2, où R 2 j désigne le coefficient de détermination de la rlm de X j sur les autres variables. On peut montrer que la variance estimée de β j est proportionnelle à V j. Ainsi, plus le lien linéaire entre X j et les autres variables est fort, plus R 2 j est proche de 1, plus V j est grand et plus l estimation de β j est instable. Critère pratique : Si V j 5, on admet que X j a un lien linéaire avec les autres variables. library(car) vif(reg) Si problème : On propose 3 solutions : 1. On regroupe les variables colinéaires pour n en former qu une. C. Chesneau 32

33 Par exemple, si on soupçonne que X j et X k sont colinéaires, on peut considérer la nouvelle variable Z = a + b(x j + X k ) (ou Z = a + b(x j X k )), avec a et b arbitrairement choisis. 2. On élimine une ou plusieurs des variables colinéaires (en concertation avec un spécialiste des données pour savoir si cela a du sens). 3. On considère un autre estimateur de β : l estimateur Ridge, l estimateur LASSO. Estimateur Ridge : L estimateur ridge est défini par β = (X t X + λi p ) 1 X t Y, où λ désigne une constante positive. Il vérifie β = Argmin β R p+1 Y Xβ 2 + λ p j=1 β 2 j En general, on le calcule pour plusieurs valeurs de λ. Une constante λ convenable est estimable avec plusieurs méthodes, dont la méthode du maximum de vraisemblance. C. Chesneau 33

34 library(mass) reg = lm.ridge(y ~ X1 + X2 + X3, lambda = seq(0, 100, 1)) select(reg) Si cela renvoie une valeur estimée pour λ de 4 (par exemple), on considère : regridge = lm.ridge(y ~ X1 + X2 + X3, lambda = 4) summary(regridge) Estimateur LASSO : L estimateur LASSO est défini par β = Argmin β R p+1 Y Xβ 2 + λ p β j, j=1 où λ désigne une constante positive. library(lars) X = cbind(1, X1, X2) reglasso = lars(x, Y, type = "lasso") summary(reglasso) C. Chesneau 34

35 3.6 Détection des valeurs anormales Objectif : La détection de valeurs anormales dans les données est cruciale car ces valeurs peuvent avoir une influence négative dans les estimations et, a fortiori, dans les prévisions (effet levier de la fonction de régression). Méthodes : Méthode des résidus standardisés, Critère des distances de Cook. Méthode des résidus standardisés : Pour tout i {1,..., n}, si e i > 2, on envisage l anormalité de la i-ème observation. Cette règle repose sur la construction d un intervalle de confiance nous assurant qu il y a (environ) 95 chances sur 100 que la i-ème observation vérifie e i 2. e = rstandard(reg) plot(e) e[abs(e) > 2] Critère des distances de Cook : Pour tout i {1,..., n}, on défini la distance de Cook de la i-ème observation par Si d i = [X(X t X) 1 X t ] i,i (p + 1)(1 [X(X t X) 1 X t ] i,i ) (e i ) 2. d i > 1, C. Chesneau 35

36 on envisage l anormalité de la i-ème observation. On peut montrer que d i est la réalisation de D i = Ŷ Ŷ i 2 n (p + 1) σ 2, où Ŷ i = (X β) i qui correspond au calcul de X β = X(X t X) 1 X t Y avec X et Y privés de la i-ème observation. Ce critère mesure donc l influence d une observation sur l erreur de prévision. plot(reg, 4) cooks.distance(reg)[cooks.distance(reg) > 1] Admettons que les valeurs associées aux individus 4 et 26 soient anormales. On refait l analyse sans ces individus avec la commande : reg2 = lm(y ~ X1 + X2 + X3, subset = - c(4, 26)) Ou alors : ww = w[ - c(4, 26), ] attach(ww) reg = lm(y ~ X1 + X2 + X3) Peu importe la méthode et le résultat, il faut toujours s assurer auprès du spécialiste de l étude que une ou plusieurs observations peuvent être retirées des données. Régression robuste : S il y a une ou plusieurs valeurs considérées comme anormales mais qui ont lieu d être dans l analyse, on peut améliorer la prédiction en faisant ce que l on appelle de la "régression robuste". C. Chesneau 36

Introduction au modèle linéaire général

Introduction au modèle linéaire général Résumé Introductions au modèle linéaire général Retour au plan du cours Travaux pratiques 1 Introduction L objet de ce chapitre est d introduire le cadre théorique global permettant de regrouper tous les

Plus en détail

Régression de Poisson

Régression de Poisson ZHANG Mudong & LI Siheng & HU Chenyang 21 Mars, 2013 Plan Composantes des modèles Estimation Qualité d ajustement et Tests Exemples Conclusion 2/25 Introduction de modèle linéaire généralisé La relation

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

Économétrie 2 : données qualitatives, probit et logit

Économétrie 2 : données qualitatives, probit et logit URCA Hugo Harari-Kermadec 2008-2009 harari@ecogest.ens-cachan.fr Économétrie 2 : données qualitatives, probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours

Plus en détail

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES

DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Université Paris1, Licence 00-003, Mme Pradel : Principales lois de Probabilité 1 DEFINITION et PROPRIETES des PRINCIPALES LOIS de PROBABILITES Notations Si la variable aléatoire X suit la loi L, onnoterax

Plus en détail

Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Introduction au cours STA 102 Analyse des données : Méthodes explicatives Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr Infos et support du cours Slide

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

Examen d accès - 28 Septembre 2012

Examen d accès - 28 Septembre 2012 Examen d accès - 28 Septembre 2012 Aucun document autorisé - Calculatrice fournie par le centre d examen Cet examen est un questionnaire à choix multiples constitué de 50 questions. Plusieurs réponses

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

Analyse de la variance

Analyse de la variance M2 Statistiques et Econométrie Fanny MEYER Morgane CADRAN Margaux GAILLARD Plan du cours I. Introduction II. Analyse de la variance à un facteur III. Analyse de la variance à deux facteurs IV. Analyse

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7.

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7. UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre Fiche N 7 (avec corrigé) L objet de ce TD est de vous initier à la démarche et à quelques

Plus en détail

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse M1 IMAT, Année 2009-2010 MODELES LINEAIRES C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse Table des matières 1 Préambule 1 1.1 Démarche statistique...................................

Plus en détail

R i = a 0 +b 0 B i +ε i, R = Xβ +ε,

R i = a 0 +b 0 B i +ε i, R = Xβ +ε, Statistiques 2010-2011 TP sur le Modèle linéaire gaussien avec R 1 Les exercices Vous traiterez les exercices suivants avec le logiciel R. Exercice 1 Des photographies aériennes de champs d orge sont analysées

Plus en détail

1 Sujets donnés en option scientifique

1 Sujets donnés en option scientifique Les sujets suivants, posés aux candidats des options scientifique, économique, technologique et littéraire BL constituent la première version d un échantillon des sujets proposés lors des épreuves orales

Plus en détail

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014 Télécom Physique Strasbourg Module 2101 STATISTIQUES Cours I : Test d hypothèses Fabrice Heitz Octobre 2014 Fabrice Heitz (Télécom PS) Statistiques 2014 1 / 75 Cours I TESTS D HYPOTHÈSES Fabrice Heitz

Plus en détail

TP1 Master Finance logiciels Introduction à R

TP1 Master Finance logiciels Introduction à R TP1 Master Finance logiciels Introduction à R Emeline Schmisser, emeline.schmisser@math.univ-lille1.fr, bureau 314 (bâtiment M3). 1 Séquences, Vecteurs, Matrice Tableaux (arrays) Pour obtenir l aide de

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Analyse de la variance à deux facteurs

Analyse de la variance à deux facteurs 1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 1 Psychologie du développement 06-10-2008 Contexte Nous nous proposons d analyser l influence du temps et de trois espèces ligneuses d arbre

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold

Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold Le site web «The Fast Food Explorer» (www.fatcalories.com) propose des données relatives à la composition des

Plus en détail

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Examen Décembre 00. C. Hurlin Exercice 1 (15 points) : Politique de Dividendes On considère un problème de politique de

Plus en détail

Conditions d application des méthodes statistiques paramétriques :

Conditions d application des méthodes statistiques paramétriques : Conditions d application des méthodes statistiques paramétriques : applications sur ordinateur GLELE KAKAÏ R., SODJINOU E., FONTON N. Cotonou, Décembre 006 Conditions d application des méthodes statistiques

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

Atelier d économétrie

Atelier d économétrie Atelier d économétrie Chapitre 4 : Le problème de la multicolinéarité : application sous SAS Vincent Bouvatier Université de Paris Ouest - Nanterre La Défense Bâtiment G, bureau 308A vbouvatier@u-paris10.fr

Plus en détail

Prévention et gestion des risques naturels et environnementaux

Prévention et gestion des risques naturels et environnementaux Prévention et gestion des risques naturels et environnementaux Risque et assurance : quelques éléments théoriques Ecole des Ponts - Le 6 Avril 01 Jacques Pelletan 1 Théorie du risque et pérennité de l

Plus en détail

La régression logistique PLS

La régression logistique PLS La régression logistique PLS Michel Tenenhaus Groupe HEC, 78351 Jouy-en-Josas 1 Introduction La régression PLS permet de relier une ou plusieurs variables de réponse y àun ensemble de variables prédictives

Plus en détail

Cours de mathématiques

Cours de mathématiques Cours de mathématiques Thomas Rey classe de première ES ii Table des matières 1 Les pourcentages 1 1.1 Variation en pourcentage............................... 1 1.1.1 Calcul d une variation............................

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

Mth2302B - Intra Été 2011

Mth2302B - Intra Été 2011 École Polytechnique de Montréal page 1 Contrôle périodique Été 2011--------------------------------Corrigé--------------------------------------T.Hammouche Question 1 (12 points) Mth2302B - Intra Été 2011

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab scilab à l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab Tests de comparaison pour l augmentation du volume de précipitation 13 février 2007 (dernière date de mise à jour) Table

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Lois de probabilité à densité Loi normale

Lois de probabilité à densité Loi normale DERNIÈRE IMPRESSIN LE 31 mars 2015 à 14:11 Lois de probabilité à densité Loi normale Table des matières 1 Lois à densité 2 1.1 Introduction................................ 2 1.2 Densité de probabilité

Plus en détail

Calculs approchés d un point fixe

Calculs approchés d un point fixe M11 ÉPREUVE COMMUNE DE TIPE 2013 - Partie D TITRE : Calculs approchés d un point fixe Temps de préparation :.. 2 h 15 minutes Temps de présentation devant les examinateurs :.10 minutes Dialogue avec les

Plus en détail

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Simulation Examen de Statistique Approfondie II **Corrigé **

Simulation Examen de Statistique Approfondie II **Corrigé ** Simulation Examen de Statistique Approfondie II **Corrigé ** Ces quatre exercices sont issus du livre d exercices de François Husson et de Jérôme Pagès intitulé Statistiques générales pour utilisateurs,

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Sommaire. Chapitre 1 Variables et vecteurs aléatoires... 5. Chapitre 2 Variables aléatoires à densité... 65

Sommaire. Chapitre 1 Variables et vecteurs aléatoires... 5. Chapitre 2 Variables aléatoires à densité... 65 Sommaire Chapitre 1 Variables et vecteurs aléatoires............... 5 A. Généralités sur les variables aléatoires réelles.................... 6 B. Séries doubles..................................... 9

Plus en détail

Séminaire de Statistique

Séminaire de Statistique Master 1 - Economie & Management Séminaire de Statistique Support (2) Variables aléatoires & Lois de probabilité R. Abdesselam - 2013/2014 Faculté de Sciences Economiques et de Gestion Université Lumière

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

Économétrie - Une Étude de la Création d Entreprise entre 1994 et 2007

Économétrie - Une Étude de la Création d Entreprise entre 1994 et 2007 LESAUX Loïc MAROT Gildas TANGUY Brewal Économétrie - Une Étude de la Création d Entreprise entre 1994 et 007 Charpentier Arthur Semestre 008 Master 1 Cadoret Isabelle 1 Plan Introduction... 3 Présentation

Plus en détail

Correction du baccalauréat STMG Polynésie 17 juin 2014

Correction du baccalauréat STMG Polynésie 17 juin 2014 Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Simulation de variables aléatoires S. Robin INA PG, Biométrie Décembre 1997 Table des matières 1 Introduction Variables aléatoires discrètes 3.1 Pile ou face................................... 3. Loi de

Plus en détail

Cours de mathématiques

Cours de mathématiques Cours de mathématiques Thomas Rey classe de Terminale ES 2 Table des matières 1 Équations de droites. Second degré 7 1.1 Équation de droite.................................. 7 1.2 Polynôme du second degré..............................

Plus en détail

Session 2011. Enseignement de Spécialité. Durée de l épreuve : 3 heures. Coefficient : 7. Ce sujet comporte 7 pages numérotées de 1 à 7.

Session 2011. Enseignement de Spécialité. Durée de l épreuve : 3 heures. Coefficient : 7. Ce sujet comporte 7 pages numérotées de 1 à 7. BACCALAURÉAT GENÉRAL Session 2011 MATHÉMATIQUES Série ES Enseignement de Spécialité Durée de l épreuve : 3 heures Coefficient : 7 Ce sujet comporte 7 pages numérotées de 1 à 7. L utilisation d une calculatrice

Plus en détail

Analyse de données et méthodes numériques

Analyse de données et méthodes numériques Analyse de données et méthodes numériques Analyse de données: Que faire avec un résultat? Comment le décrire? Comment l analyser? Quels sont les «modèles» mathématiques associés? Analyse de données et

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

Devoir Surveillé n 5 BTS 2009 groupement B

Devoir Surveillé n 5 BTS 2009 groupement B EXERCICE 1 (12 points) Devoir Surveillé n 5 BTS 2009 groupement B Les trois parties de cet exercice peuvent être traitées de façon indépendante. A. Résolution d une équation différentielle On considère

Plus en détail

ECONOMETRIE (*) Hélène Hamisultane

ECONOMETRIE (*) Hélène Hamisultane ECONOMERIE (*) Hélène Hamisultane I/ QU ES CE QUE L ECONOMERIE? II/ LE MODELE DE REGRESSION SIMPLE II/ Méthode d estimation des Moindres Carrés Ordinaires (MCO) II/ Hypothèses et propriétés des estimateurs

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

La gestion des ventes.

La gestion des ventes. I. La prévision des ventes. A. Principe. La gestion des ventes. Elle consiste à déterminer les ventes futures à la fois en quantité et en valeur en tenant compte des tendances et contraintes imposées à

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Cahier de vacances - Préparation à la Première S

Cahier de vacances - Préparation à la Première S Cahier de vacances - Préparation à la Première S Ce cahier est destiné à vous permettre d aborder le plus sereinement possible la classe de Première S. Je vous conseille de le travailler pendant les 0

Plus en détail

Travaux Dirigés de Probabilités - Statistiques, TD 4. Lois limites ; estimation.

Travaux Dirigés de Probabilités - Statistiques, TD 4. Lois limites ; estimation. Travaux Dirigés de Probabilités - Statistiques, TD 4 Lois limites ; estimation. Exercice 1. Trois machines, A, B, C fournissent respectivement 50%, 30%, 20% de la production d une usine. Les pourcentages

Plus en détail

COUPLES DE VARIABLES ALÉATOIRES

COUPLES DE VARIABLES ALÉATOIRES CHAPITRE 13 COUPLES DE VARIABLES ALÉATOIRES Dans tout le chapitre, (Ω, P) désignera un espace probabilisé fini. 1 Couple de variables aléatoires Définition 13.1 On appelle couple de variables aléatoires

Plus en détail

PAD - Notes de cours. S. Rigal, D. Ruiz, et J. C. Satgé

PAD - Notes de cours. S. Rigal, D. Ruiz, et J. C. Satgé ALGÈBRE PAD - Notes de cours S. Rigal, D. Ruiz, et J. C. Satgé November 23, 2006 Table des Matières Espaces vectoriels Applications linéaires - Espaces vectoriels............................... 3 -. Approche

Plus en détail

Cahier de textes Page 1 sur 9. Cahier de textes

Cahier de textes Page 1 sur 9. Cahier de textes Cahier de textes Page 1 sur 9 Cahier de textes Jeudi 04/09/2014 9h-12h et 13h30-16h30 : Cours sur la logique : - Conjonction, disjonction, implication, équivalence - Quelques formules. - Quantificateurs

Plus en détail

Régression logistique ou modèle binomial

Régression logistique ou modèle binomial Résumé Régression logistique ou modèle binomial Introduction au modèle linéaire et modèle linéaire général : la régression logistique ou modèle binomial Retour au plan du cours 1 Introduction Dans ce chapitre,

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Rappels d Algèbre Linéaire de P.C.S.I

Rappels d Algèbre Linéaire de P.C.S.I Rappels d Algèbre Linéaire de PCSI Table des matières 1 Structure d espace vectoriel sur IK 3 11 Définition et règles de calcul 3 12 Exemples de référence 3 13 Espace vectoriel produit 4 14 Sous-espaces

Plus en détail

9. Distributions d échantillonnage

9. Distributions d échantillonnage 9. Distributions d échantillonnage MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v3) MTH2302D: distributions d échantillonnage 1/46 Plan 1. Échantillons aléatoires 2. Statistiques et distributions

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Mathématique - Cours Filière STAV 2014-2015 Centre de Formation aux Métier de la Montagne Marine Estorge

Mathématique - Cours Filière STAV 2014-2015 Centre de Formation aux Métier de la Montagne Marine Estorge Mathématique - Cours Filière STAV 2014-2015 Centre de Formation aux Métier de la Montagne Marine Estorge Le programme se compose ainsi : Rappels collège/seconde Partie STAV 1/3 Partie STAV 2/3 Partie STAV

Plus en détail

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés M1 MLG Année 2012 2013 Feuille de TP N 3 : Modèle log-linéaire - Travail guidé 1 Cancers : modèle log-linéaire à deux facteurs croisés Ce premier exercice reprend l exercice 1 de la feuille de TD n 3.

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé

Baccalauréat ES Centres étrangers 12 juin 2014 - Corrigé Baccalauréat ES Centres étrangers 1 juin 14 - Corrigé A. P. M. E. P. Exercice 1 5 points Commun à tous les candidats 1. On prend un candidat au hasard et on note : l évènement «le candidat a un dossier

Plus en détail

Exercices de simulation 1

Exercices de simulation 1 Licence MIA 2ème année Année universitaire 2009-2010 Simulation stochastique C. Léonard Exercices de simulation 1 Les simulations qui suivent sont à effectuer avec Scilab. Le générateur aléatoire de Scilab.

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

L analyse de variance à un critère de classification (ANOVA)

L analyse de variance à un critère de classification (ANOVA) Bio 041 L analyse de variance à un critère de classification (ANOVA) Pierre Legendre & Daniel Borcard, Université de Montréal Référence: Scherrer (007), section 14.1.1.1 et 14.1. 1 - Introduction Objectif:

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Chapitre 2: Prévisions des ventes

Chapitre 2: Prévisions des ventes Chapitre 2: Prévisions des ventes AVIS IMPORTANT : Ces notes sont basées sur le livre de Steven Nahmias : Production et Operations Analysis, 4 ième édition, McGraw-Hill Irwin 200. Les figures sont issues

Plus en détail

EXERCICES SANS PRÉPARATION HEC 2005. Question 11 D après HEC 2005-11 F 2 EXERCICES SANS PRÉPARATION 2008. Question 7 HEC 2006-7 F 1 élève

EXERCICES SANS PRÉPARATION HEC 2005. Question 11 D après HEC 2005-11 F 2 EXERCICES SANS PRÉPARATION 2008. Question 7 HEC 2006-7 F 1 élève 30-1- 2013 J.F.C. p. 1 F 1 F 2 F 3 Assez simple ou proche du cours. Demande du travail. Délicat. EXERCICES SANS PRÉPARATION HEC 2005 Question 11 D après HEC 2005-11 F 2 X est une variable aléatoire de

Plus en détail

Econométrie. février 2008. Boutin, Rathelot

Econométrie. février 2008. Boutin, Rathelot 5ème séance Xavier Boutin Roland Rathelot Supélec février 2008 Plan Variables binaires La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une

Plus en détail

Exercice 1 Métropole juin 2014 5 points

Exercice 1 Métropole juin 2014 5 points Le sujet comporte 6 pages. Seule l annexe est à rendre avec la copie. BAC BLANC MATHÉMATIQUES TERMINALE STMG Durée de l épreuve : 3 heures Les calculs doivent être détaillés. Les calculatrices sont autorisées,

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Exemples d application

Exemples d application Institut National Agronomique Paris - Grignon Exemples d application du modèle linéaire E Lebarbier, S Robin Département OMIP 12 février 2007 Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations

Plus en détail

Projets scilab. L3 Maths Appliquées lagache@biologie.ens.fr 02 Avril 2009

Projets scilab. L3 Maths Appliquées lagache@biologie.ens.fr 02 Avril 2009 Projets scilab L3 Maths Appliquées lagache@biologie.ens.fr 2 Avril 29 REMARQUE: quelques résultats importants concernant le théorème central limite et les intervalles de confiance sont rappelés dans la

Plus en détail

Programme de Première

Programme de Première BAC TECHNO STAV 66 I. Algèbre Programme de Première Objectif 1 - Effectuer de manière autonome des calculs numériques ou algébriques, résoudre des équations ou inéquations en vue de résoudre des problèmes

Plus en détail

Jackknife, bootstrap et cross-validation

Jackknife, bootstrap et cross-validation But de l inférence statistique On a X = (X 1,..., X n) un échantillon i.i.d. de fonction de répartition F θ(f ) une quantité d intérêt, qui dépend de F T (X ) une statistique, estimateur de θ(f ), on voudrait

Plus en détail

3.8 Introduction aux files d attente

3.8 Introduction aux files d attente 3.8 Introduction aux files d attente 70 3.8 Introduction aux files d attente On va étudier un modèle très général de problème de gestion : stocks, temps de service, travail partagé...pour cela on considère

Plus en détail

Méthodes d analyse empirique

Méthodes d analyse empirique Méthodes d analyse empirique Partie Quantitative Michel Beine (suppl. S. Laurent) michel.beine@uni.lu Université du Luxembourg http://www.michelbeine.be Méthodes d analyse empirique p. 1/? Méthodes d analyse

Plus en détail

5 Méthodes algorithmiques

5 Méthodes algorithmiques Cours 5 5 Méthodes algorithmiques Le calcul effectif des lois a posteriori peut s avérer extrêmement difficile. En particulier, la prédictive nécessite des calculs d intégrales parfois multiples qui peuvent

Plus en détail

Fonctions affines. Table des matières

Fonctions affines. Table des matières Fonctions affines Table des matières 1 fonction linéaire, fonction constante, fonction affine 3 1.1 activités.............................................. 3 1.1.1 activité 1 : fonction linéaire et variation

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail