Université de Caen Basse-Normandie. Christophe Chesneau.

Dimension: px
Commencer à balayer dès la page:

Download "Université de Caen Basse-Normandie. Christophe Chesneau. http://www.math.unicaen.fr/~chesneau/"

Transcription

1 Basse-Normandie Christophe Chesneau Caen, le 18 Juillet 2015

2 Table des matières 1 Présentation 6 2 Régression linéaire multiple (rlm) Contexte Estimations Coefficients de détermination Lois des estimateurs Intervalles de confiance Tests d hypothèses Améliorations et validation des hypothèses Motivation Analyses du/des nuages de points Analyses graphiques des résidus Outils de vérification Indépendance de ɛ 1,..., ɛ n V(ɛ 1 ) =... = V(ɛ n ) Normalité de ɛ 1,..., ɛ n Multicolinéarité Détection des valeurs anormales Stabilité du modèle Sélection de variables Traitement de variables qualitatives C. Chesneau 2

3 4 Méthode des moindres carrés généralisés (mcg) Contexte Quelques résultats Hétéroscédasticité des erreurs et mcg Cas de données groupées Correction d hétéroscedasticité Autocorrélation des erreurs et mcg Régression non-linéaire Contexte Régression polynomiale Résidus partiels Méthode itérative Extension : régression non-paramétrique Régression logistique Contexte Transformation logit Variable latente Estimation Significativité de la régression Rapport des côtes Intervalles de confiance Pertinence du modèle Détection des valeurs anormales C. Chesneau 3

4 6.10 Sélection de variables Qualité du modèle Cas des données groupées Régression polytomique Contexte Régression multinomiale (ou polytomique non-ordonnée) Contexte Estimation Significativité du modèle Sélection de variables Qualité du modèle Régression polytomique ordonnée Régression de Poisson Contexte Significativité de la régression Intervalles de confiance Pertinence du modèle Détection des valeurs anormales Sélection de variables Dispersion anormale Terme de décallage (offset) Jeux de données 141 C. Chesneau 4

5 10 Annexe : emv Méthode Résultats asymptotiques Test global Test partiel Algorithme de Newton-Raphson et emv Index 145 C. Chesneau 5

6 1 Présentation Ce document résume les notions abordées dans le cours Modèle de Régression du M2 MASS (MIASHS) de l université de Caen. Un des objectifs est de donner des pistes de réflexion à la construction de modèles prédictifs à partir de données. Les méthodes statistiques y sont décrites de manière concise, avec les commandes R associées. La présente version est la première, avec tous les défauts que cela comporte. Entre autre, on relève une absence totale d exemple et d application. Ce vide sera comblé dans le futur avec une quinzaine d études sur jeux de données réelles, actuellement en cours d amélioration. Je vous invite à me contacter pour tout commentaire : Bonne lecture. C. Chesneau 6

7 2 Régression linéaire multiple (rlm) 2.1 Contexte Problématique : On souhaite expliquer une variable (ou caractère) Y en fonction de p autres variables X 1,..., X p. Ainsi, Y est la variable à expliquer, X 1,..., X p sont des variables explicatives. Données : Les données constituent des observations de ces variables. Ce sont n observations de (Y, X 1,..., X p ) notées (y 1, x 1,1,..., x p,1 ),..., (y n, x 1,n,..., x p,n ). Elles se présentent généralement sous la forme d un tableau : Y X 1... X p y 1 x 1,1... x p,1 y 2 x 1,2 x p,2.... y n x 1,n... x p,n Modèle de régression linéaire multiple : Si une liaison linéaire entre Y et X 1,..., X p est envisageable, on peut considérer le modèle de régression linéaire multiple (rlm) : il existe p + 1 coefficients inconnus β 0,..., β p tels que C. Chesneau 7

8 Y = β 0 + β 1 X β p X p + ɛ, où ɛ est une quantité représentant une somme d erreurs. On modélise Y, X1, X2 et X3 par une rlm en faisant : reg = lm(y ~ X1 + X2 + X3) Objectif : Un objectif est d estimer les coefficients inconnus β 0,..., β p à l aide des données afin de prédire la valeur moyenne de Y pour une nouvelle valeur de (X 1,..., X p ). Modélisation : On modélise les variables considérées comme des variables aléatoires réelles (var) (définies sur un espace probabilisé (Ω, A, P)). Pour tout i {1,..., n}, (x 1,i,..., x p,i ) est une réalisation du vecteur aléatoire réel (X 1,..., X p ), sachant que (X 1,..., X p ) = (x 1,i,..., x p,i ), y i est une réalisation de Y i = β 0 + β 1 x 1,i β p x p,i + ɛ i, où ɛ i est une var modélisant une somme d erreurs. Remarque : Pour tout x = (x 1,..., x p ) R p, sous l hypothèse que E(ɛ {(X 1,..., X p ) = x}) = 0, le modèle de rlm peut s écrire comme E(Y {(X 1,..., X p ) = x}) = β 0 + β 1 x β p x p. Ainsi, sachant que (X 1,..., X p ) = x, la valeur moyenne de Y est une combinaison linéaire de (x 1,..., x p ). C. Chesneau 8

9 Écriture matricielle : Le modèle de rlm s écrit sous la forme matricielle : Y = Xβ + ɛ, où 1 x 1,1 x p,1 Y 1 β 0 ɛ 1 1 x 1,2 x p,2 Y 2 β 1 ɛ X =, Y =, β =, ɛ = x 1,n x p,n Y n β p ɛ n Hypothèses standards : On suppose que (X t X) 1 existe, ɛ et X 1,..., X p sont des var indépendantes et ɛ N n (0, σ 2 I n ) où σ est un paramètre inconnu. En particulier, cette dernière hypothèse entraîne que ɛ 1,..., ɛ n sont indépendantes, V(ɛ 1 ) =... = V(ɛ n ), ɛ 1,..., ɛ n suivent chacune la loi normale centrée. C. Chesneau 9

10 2.2 Estimations Emco : L estimateur des moindres carrés ordinaires (emco) de β est β = (X t X) 1 X t Y. Il est construit de sorte que l erreur d estimation entre X β et Y soit la plus petite possible au sens. 2 : où. désigne la norme euclidienne de R n : β = Argmin β R p+1 Y Xβ 2, < a, b >= a t b = b t a = n a i b i, a 2 =< a, a >= a t a = i=1 n a 2 i. i=1 Pour tout j {0,..., p}, la j + 1-ème composante de β, notée β j, est l emco de β j. Emco et emv : L emco de β est l estimateur du maximum de vraisemblance (emv) de β. En effet, la vraisemblance associée à (Y 1,..., Y n ) est L(β, z) = ) 1 z Xβ 2 (2πσ 2 exp ( ) n/2 2σ 2 ), z R n. Par conséquent Argmax β R p+1 L(β, Y ) = Argmin Y Xβ 2 = β. β R p+1 Estimateur de la prédiction : Soit y x la valeur prédite moyenne de Y lorsque (X 1,..., X p ) = C. Chesneau 10

11 (x 1,..., x p ) = x : y x = β 0 + β 1 x β p x p. Un estimateur de y x est Ŷ x = β 0 + β 1 x β p x p. Estimateur de σ 2 : Un estimateur de σ 2 est σ 2 = 1 n (p + 1) Y X β 2. Il vérifie E( σ 2 ) = σ 2. De plus, σ 2 et β sont indépendants. Estimations ponctuelles : En pratique, on considère les réalisations de β 0, β 1,..., β p, σ 2 correspondantes aux données. On travaille donc avec des réels. reg = lm(y ~ X1 + X2 + X3) On obtient les estimations ponctuelles de β 0, β 1, β 2 et β 3 par la commande : reg Pour isoler l estimation ponctuelle de β 2 (par exemple), on fait : reg$coeff[3] Les valeurs prédites moyennes de Y prises aux valeurs des données de X1, X2 et X3 s obtiennent en faisant : predict(reg) (ou fitted(reg)) La valeur prédite moyenne de Y pour la valeur (X1, X2, X3) = (1.2, 2.2, 6) est donnée par la commande : predict(reg, data.frame(x1 = 1.2, X2 = 2.2, X3 = 6)) Si le coefficient β 0 n a pas de sens dans la modélisation, on l enlève en faisant : reg = lm(y ~ X1 + X2 + X3-1) C. Chesneau 11

12 2.3 Coefficients de détermination Coefficients de détermination : On appelle coefficient de détermination la réalisation R 2 de R 2 = Ŷ Y 2 Y Y 2, où Ŷ = X β et Y = (1/n) n i=1 Y i. Ce R 2 est un coefficient réel toujours compris entre 0 et 1. Il mesure de la qualité de l ajustement des données par le modèle de rlm ; plus R 2 est proche de 1, (plus Ŷ est proche de Y ), meilleur est le modèle. Coefficients de détermination ajusté : On appelle coefficient de détermination ajusté le réel : R 2 = R 2 (1 R 2 p ) n (p + 1). Ce coefficient est considéré comme plus fiable que R 2 car il tient compte du nombre de variables. Le R 2 et R 2 sont donnés par la commande : summary(reg) C. Chesneau 12

13 2.4 Lois des estimateurs Loi de β : On a β N p+1 ( β, σ 2 (X t X) 1). La matrice de covariance estimée de β, qui est aussi la réalisation de σ 2 (X t X) 1, est donnée par la commande : vcov(reg) Loi de β j : Pour tout j {0,..., p}, on a β j N ( β j, σ 2 [(X t X) 1 ] j+1,j+1 ), βj β j σ [(X t X) 1 ] j+1,j+1 N (0, 1), où [(X t X) 1 ] j+1,j+1 désigne la j + 1-ème composante diagonale de (X t X) 1. Degrés de liberté : Dans ce qui suit, on travaillera avec le nombre de degrés de liberté : ν = n (p + 1). Loi associée à σ 2 : On a (n (p + 1)) σ2 σ 2 χ2 (ν). Apparition de la loi de Student : Pour tout j {0,..., p}, on a β j β j σ [(X t X) 1 ] j+1,j+1 T (ν). C. Chesneau 13

14 2.5 Intervalles de confiance Intervalle de confiance pour β j : Pour tout j {0,..., p}, un intervalle de confiance pour β j au niveau 100(1 α)%, α ]0, 1[, est la réalisation i βj de I βj = [ ] β j t α (ν) σ [(X t X) 1 ] j+1,j+1, βj + t α (ν) σ [(X t X) 1 ] j+1,j+1, où t α (ν) est le réel vérifiant P( T t α (ν)) = α, avec T T (ν). confint(reg, level = 0.95) Intervalle de confiance pour y x : Soient y x la prédiction moyenne de Y quand (X 1,..., X p ) = (x 1,..., x p ) = x et x = (1, x 1,..., x p ). Un intervalle de confiance pour y x au niveau 100(1 α)%, α ]0, 1[, est la réalisation i yx de I yx = [Ŷx t α (ν) σ x (X t X) 1 x t, Ŷ x + t α (ν) σ x (X t X) 1 x t ], où t α (ν) est le réel vérifiant P( T t α (ν)) = α, avec T T (ν). predict(reg, data.frame(x1 = 1.2, X2 = 2.2, X3 = 6), interval = "confidence") C. Chesneau 14

15 2.6 Tests d hypothèses p-valeur : On considère des hypothèses de la forme : H 0 : A contre H 1 : contraire de A La p-valeur est la probabilité exacte (ou presque) de se tromper en rejetant H 0. Ainsi, le plus petit risque de se tromper en rejetant H 0 est (100 p-valeur)%. Degrés de significativité : Le rejet de H 0 sera significatif si p-valeur ]0.01, 0.05], symbolisé par, très significatif si p-valeur ]0.001, 0.01], symbolisé par, hautement significatif si p-valeur < 0.001, symbolisé par, (presque significatif si p-valeur ]0.05, 0.1], symbolisé par. (un point)). Test de Student : Soit j {0,..., p}. L objectif du test de Student est d évaluer l influence de X j sur Y. On considère les hypothèses : H 0 : β j = 0 contre H 1 : β j 0. On calcule la réalisation t obs de T = β j σ [(X t X) 1 ] j+1,j+1. On considère une var T T (ν). Alors la p-valeur associée est p-valeur = P( T t obs ). Si C. Chesneau 15

16 , l influence de X j sur Y est significative,, l influence de X j sur Y est très significative,, l influence de X j sur Y est hautement significative. Test global de Fisher : L objectif du test global de Fisher est d étudier la pertinence du lien linéaire entre Y et X 1,..., X p. On considère les hypothèses : H 0 : β 1 = β 2 =... = β p = 0 contre H 1 : il y a au moins un coefficient non nul. On calcule la réalisation f obs de F = R 2 n (p + 1) 1 R. 2 p On considère une var F F(p, ν). Alors la p-valeur associée est p-valeur = P(F f obs ). Notons que ce test est moins précis que le test de Student car il ne précise pas quels sont les coefficients non nuls. Il est toutefois un indicateur utile pour déceler d éventuelles problèmes (comme des colinéarités entre X 1,..., X p ). Les tests d hypothèses précédents sont mis en œuvre par la commande : summary(reg) C. Chesneau 16

17 3 Améliorations et validation des hypothèses 3.1 Motivation Questions : 1. Peut-on améliorer les estimations des paramètres? 2. Comment valider ces hypothèses avec les données? Rappel : Les hypothèses suivantes ont été formulées : ɛ et X 1,..., X p sont indépendantes, ɛ 1,..., ɛ n sont indépendantes, V(ɛ 1 ) =... = V(ɛ n ), ɛ 1,..., ɛ n suivent des lois normale centrées. Commandes R clés : Une première analyse de la validation de ces hypothèses doit être graphique. Les commandes clés sont : par(mfrow = c(2, 2)) plot(reg, 1:4) Des tests d hypothèses rigoureux viendront ensuite confirmer/infirmer cette première analyse visuelle. C. Chesneau 17

18 3.2 Analyses du/des nuages de points Pertinence du modèle : Pour certain problème, le modèle de rlm n est pas le plus adapté. Il est parfois judicieux de transformer Y et X 1,..., X p, puis de les modéliser par une rlm. Ainsi, on considère un modèle de la forme : f(y ) = β 0 + β 1 g 1 (X 1 ) β p g p (X p ) + ɛ, où f, g 1,..., g p désignent des transformations/fonctions à choisir. Choix des transformations : Les p nuages de points : {(x j,i, y i ); i {1,..., n}}, j {1,..., p} peuvent nous aiguiller sur les transformations candidates. Pour tout j {1,..., p}, une approche intuitive consiste à déterminer des fonctions f et g j telles que le nuage de points {(g j (x j,i ), f(y i )); i {1,..., n}} soit ajustable par une droite. plot(w) ou pairs(cbind(y, X1, X2)) Nous verrons par la suite les limites de cette approche et étudierons les méthodes alternatives (dans le chapitre Régression non-linéaire). C. Chesneau 18

19 Exemple : Dans l exemple-ci dessous, on cherche à expliquer Y en fonction X 1 : Vu le nuage de points, il est préférable de considérer la transformation exp(y ) et de faire une régression linéaire sur X 1, soit exp(y ) = β 0 + β 1 X 1 + ɛ. On obtiendra des estimations de β 0 et β 1 avec un meilleur R 2. Un exemple de rlm avec variables transformées est reg = lm(log(y) ~ sqrt(x1) + exp(x2) + X3) C. Chesneau 19

20 3.3 Analyses graphiques des résidus Résidus : Pour tout i {1,..., n}, on appelle i-ème résidu la réalisation e i de ɛ i = Y i Ŷi, où Ŷi = β 0 + β 1 x 1,i β p x p,i. On appelle résidus les réels e 1,..., e n. Ces résidus vont nous permettre de valider ou non les hypothèses initiales. residuals(reg) Résidus standardisés : Pour tout i {1,..., n}, on appelle i-ème résidu standardisé la réalisation e i de ɛ i = ɛ i σ 1 [X(X t X) 1 X t ] i,i. On appelle résidus standardisés les réels e 1,..., e n. rstandard(reg) Lois : Pour tout i {1,..., n}, si les hypothèses initiales sont vérifiées, on a ɛ i N ( 0, σ 2 (1 [X(X t X) 1 X t ] i,i ) ), ɛ i 1 [X(X t X) 1 X t ] i,i N (0, σ 2 ) et ɛ i = ɛ i σ 1 [X(X t X) 1 X t ] i,i T (ν). C. Chesneau 20

21 Analyse graphique 1 : On trace le nuage de points : {(e i, y i e i ); i {1,..., n}}. Notons que y i e i est la réalisation de Ŷi = Y i ɛ i. Si on ne peut pas ajuster le nuage de points par une "ligne" (droite ou ondulée), on admet que ɛ et X 1,..., X p sont indépendantes : tout va bien. plot(reg, 1) Si problème : Si on peut ajuster le nuage de points par une "ligne" (droite ou ondulée), on soupçonne que ɛ et X 1,..., X p sont dépendantes. Le lien linéaire entre Y et X 1,..., X p peut être remis en question. Analyse graphique 2 : On trace le nuage de points : {(i, e i ); i {1,..., n}}. Si le nuage de points n a aucune structure particulière, il y a une symétrie dans la répartition des points par rapport à l axe des abscisses, alors on admet que ɛ N n (0, σ 2 I n ) : tout va bien. plot(residuals(reg)) Si problème : 1. Si le nuage de points a l allure d une route sinueuse ou d un mégaphone, on soupçonne que les var ɛ 1,..., ɛ n sont dépendantes (si cela a du sens), ou/et V(ɛ 1 ) =... = V(ɛ n ) n est pas C. Chesneau 21

22 vérifiée. 2. S il y a une asymétrie dans la répartition des points par rapport à l axe des abscisses, l hypothèse de normalité de ɛ 1,..., ɛ n est à étudier. C. Chesneau 22

23 3.4 Outils de vérification En cas de doute, il convient de vérifier, dans l ordre : l indépendance de ɛ 1,..., ɛ n, l égalité V(ɛ 1 ) =... = V(ɛ n ), la normalité de ɛ 1,..., ɛ n. C. Chesneau 23

24 3.4.1 Indépendance de ɛ 1,..., ɛ n Motivation : Si les observations de Y, X 1,..., X p portent sur des individus tous différents et que le modèle de rlm a du sens, ɛ 1,..., ɛ n sont indépendantes. Par conséquent, si on distingue une structure dans le nuage des points des résidus (route sinueuse, mégaphone,... ), soit le modèle n est pas adapté, soit il faut se tourner vers la vérification de l hypothèse V(ɛ 1 ) =... = V(ɛ n ). En revanche, si les observations de Y, X 1,..., X p présentent une dépendance temporelle, la dépendance de ɛ 1,..., ɛ n est à étudier. Corrélogramme : Pour étudier l indépendance de ɛ 1,..., ɛ n, partant des résidus e 1,..., e n, la première approche consiste à tracer le corrélogramme. Celui-ci représente les estimations ponctuelles de la fonction d autocorrélation (acf) définie par ρ(h) = C(ɛ i, ɛ i+h ), i {1,..., n h}, h {1,..., n 1}, σ(ɛ i )σ(ɛ i+h ) sous forme de bâtons. La liaison linéaire entre ɛ i et ɛ i+h est mesurée. On peut aussi calculer un intervalle de confiance pour ρ(h) au delà duquel la dépendance est remise en cause. Si les bâtons sont de tailles et de signes alternés (ou presque) et qu aucun d entre eux ne dépassent les bornes de l intervalle de confiance (ou presque), on admet l indépendance de ɛ 1,..., ɛ n : tout va bien. C. Chesneau 24

25 acf(residuals(reg)) Corrélogramme partiel : Le corrélogramme partiel vient compléter l étude précédente ; il représente les estimations ponctuelles de la fonction d autocorrélation partielle (pacf) sous forme de bâtons. Cette fonction mesure la liaison linéaire entre ɛ i et ɛ i+h une fois retirés les liens transitant par les variables intermédiaires ɛ i+1,..., ɛ i+h 1. L interprétation est la même que pour l acf. pacf(residuals(reg)) Si problème : Ainsi, si les sommets des bâtons peuvent être rejoints par une ligne serpentée "sans pic" ou si plusieurs bâtons dépassent les bornes de l intervalle de confiance, une dépendance peut-être soupçonnée. Cela peut être confirmé avec le test de Ljung-Box. Test de Ljung-Box (ou du portemanteau) : On considère les hypothèses : H 0 : ρ(1) =... = ρ(n) = 0 contre H 1 : au moins une corrélation n est pas nulle. Partant des résidus e 1,..., e n, on peut utiliser le test de Ljung-Box : si p-valeur < 0.05, on admet qu au moins une corrélation n est pas nulle, donc que ɛ 1,..., ɛ n ne sont pas indépendantes. library(lawstat) Box.test(residuals(reg), type = "Ljung") Structure de dépendance : Si la dépendance ɛ 1,..., ɛ n est avérée ; le modèle de rlm n est pas adapté. Afin de trouver une alternative, il est intéressant d identifier, si possible, la structure de dépendance associée. La structure AR(1) présentée ci-après est l une des plus répandue. C. Chesneau 25

26 Structure AR(1) : On dit que ɛ 1,..., ɛ n ont une structure auto-régressive de degré 1 (AR(1)) si il existe : ρ ] 1, 1[ {0}, n var iid u 1,..., u n suivant chacune la loi normale N (0, υ 2 ), tels que, pour tout i {1,..., n}, ɛ i = ρɛ i 1 + u i. Le réel ρ mesure la dépendance de ɛ 1,..., ɛ n ; si ρ = 0, pour tout i {1,..., n}, ɛ i = u i, donc ɛ 1,..., ɛ n sont indépendants, si ρ 0, on admet la structure AR(1 ) ; ɛ 1,..., ɛ n ne sont pas indépendants. Test de Durbin-Watson : On considère les hypothèses : H 0 : ρ = 0 contre H 1 : ρ 0. Partant des résidus e 1,..., e n, on peut utiliser le test de Durbin-Watson : si p-valeur < 0.05, alors on admet que ρ 0, entraînant la structure AR(1 ) de ɛ 1,..., ɛ n. library(lmtest) dwtest(reg) Si problème : Dans le cas d une structure AR(1) sur ɛ 1,..., ɛ n, on est capable d estimer efficacement β. Cela sera présenté dans le chapitre Méthode des moindres carrés généralisés. C. Chesneau 26

27 3.4.2 V(ɛ 1 ) =... = V(ɛ n ) Graphique "Scale-Location" : On considère le nuage de points : { } ( e i, y i e i ); i {1,..., n}. Si on ne distingue aucune structure, on peut admettre que V(ɛ 1 ) =... = V(ɛ n ) : tout va bien. plot(reg, 3) Test de White : Admettons que ɛ 1,..., ɛ n soient indépendantes. Pour étudier l égalité V(ɛ 1 ) =... = V(ɛ n ), partant des résidus e 1,..., e n, on préconise le test de White. L idée est de tester l existence d un lien linéaire entre ɛ 2 et les p 2 variables constituées de X 1,..., X p, les carrés : X1 2,..., X2 p, les produits croisés : X 1 X 2, X 1 X 3,..., X p 1 X p. Si p-valeur > 0.05, on admet que V(ɛ 1 ) =... = V(ɛ n ). library(bstats) white.test(reg) Alternativement, on peut utiliser le test de Breusch-Pagan qui repose sur une idée similaire. library(lmtest) bptest(reg) Méthode de Glejser : La méthode de Glejser étudie l existence d un lien linéaire entre ɛ et des transformations (subjectives) de X 1,..., X p. Si au moins une variable influe très significativement sur ɛ, on rejette V(ɛ 1 ) =... = V(ɛ n ). C. Chesneau 27

28 e = residuals(reg) reg2 = lm(abs(e) ~ sqrt(x1) + X2ˆ0.3 + log(x3)) summary(reg2) Si problème : On propose 2 solutions : Une rlm avec Y transformée (comme ln Y, Y ou 1/Y ) peut engendrer des nouvelles variables d erreurs ɛ 1,..., ɛ n vérifiant V(ɛ 1 ) =... = V(ɛ n ). Dès lors, on peut utiliser ce nouveau modèle pour une étude statistique. Si, pour tout i {1,..., n}, on a une idée de la valeur de V(ɛ i ) ou que celle-ci est estimable, alors nous verrons une solution dans le chapitre Méthode des moindres carrés généralisés. C. Chesneau 28

29 3.4.3 Normalité de ɛ 1,..., ɛ n QQ plot : Admettons que ɛ 1,..., ɛ n soient indépendantes et V(ɛ 1 ) =... = V(ɛ n ). Pour étudier plus finement la normalité de ɛ 1,..., ɛ n, on trace le nuage de points QQ plot associé (ou diagramme Quantile-Quantile). Si le nuage de points peut être très facilement ajusté par la droite y = x, alors on admet la normalité de ɛ 1,..., ɛ n. Principe du QQ plot : Le principe du QQ plot est le suivant : 1. Pour tout i {1,..., n}, si ɛ i N (0, σ 2 ), alors ɛ i = ɛ i σ 1 [X(X t X) 1 X t ] i,i T (ν). On considère alors la fonction de répartition F de ɛ 1 dans ce cas. 2. D autre part, un estimateur de la fonction de répartition de ɛ 1 dans le cas général est Ĝ(x) = (1/n) n i=1 I { ɛ i x}. Soit G(x) sa réalisation. 3. Par conséquent, si ɛ i N (0, σ 2 ), alors on a F (x) G(x) et, a fortiori, x F 1 (G(x)). Le graphique QQ plot consiste à tracer le nuage de points { (F 1 (G(e i )), e i ); i {1,..., n} }. Si ɛ i N (0, σ 2 ), alors, pour tout i {1,..., n}, (F 1 (G(e i )), e i ) (e i, e i ) et les points du C. Chesneau 29

30 nuage seront presque sur la droite d équation y = x. Notons que l on trace le QQ plot en fonction des résidus standardisés e 1,..., e n et la loi de Student T (ν). Si ν 30, on peut utiliser la loi normale N (0, 1) car T (ν) N (0, 1), on parle alors de QQ norm. plot(reg, 2) soit encore : qqnorm(rstandard(reg)) ou plus joli : library(car) qqplot(reg) Test de Shapiro-Wilk : Pour conclure à la normalité de ɛ 1,..., ɛ n, partant des résidus e 1,..., e n, on préconise le test de Shapiro-Wilk : si p-valeur > 0.05, on admet l hypothèse de normalité. shapiro.test(residuals(reg)) Si problème : Une rlm avec Y transformée (comme ln Y, Y ou 1/Y ) peut engendrer des nouvelles variables d erreurs ɛ 1,..., ɛ n suivant chacune une loi normale. Dès lors, on peut utiliser ce nouveau modèle pour une étude statistique. C. Chesneau 30

31 3.5 Multicolinéarité Problème : Si au moins une des variables parmi X 1,..., X p a une liaison (presque) linéaire avec d autres, alors det(x t X) 0. Par conséquent, les éléments de la matrice : (X t X) 1 = 1 det(x t X) com(xt X) t seront très grands (à cause du terme 1/ det(x t X) ). Comme, pour tout j {1,..., p}, β j N ( β j, σ 2 [(X t X) 1 ] j+1,j+1 ), la variance de β j explose. Conséquence : Cela entraîne une grande instabilité dans l estimation de β j et fausse tous les tests d hypothèses. En particulier, si au moins une variable parmi X 1,..., X p a une liaison linéaire avec d autres, il est possible qu aucune variable ne montre d influence significative sur Y et cela, en dépit de toute logique, du test de Fisher qui peut quand même indiquer une influence significative globale des coefficients (car il prend en compte toutes les variables). Il convient donc d étudier d éventuelles multicolinéarités dans les X 1,..., X p avant de valider des résultats statistiques (arrangeants ou pas). Méthodes : C. Chesneau 31

32 Règle de Klein, Facteur d inflation de la variance (vif). Règle de Klein : On calcule la matrice carré p p composée des estimations ponctuelles des corrélations : ρ i,j = C(X i, X j ) σ(x i )σ(x j ). Si une ou plusieurs valeurs au carré sont proches de R 2, alors on soupçonne que les variables associées sont colinéaires. c = cor(cbind(x1, X2, X3), cbind(x1, X2, X3)) cˆ2 Vif : Pour tout j {1,..., p}, on appelle j-ème facteur d inflation de la variance (vif) le réel : V j = 1 1 Rj 2, où R 2 j désigne le coefficient de détermination de la rlm de X j sur les autres variables. On peut montrer que la variance estimée de β j est proportionnelle à V j. Ainsi, plus le lien linéaire entre X j et les autres variables est fort, plus R 2 j est proche de 1, plus V j est grand et plus l estimation de β j est instable. Critère pratique : Si V j 5, on admet que X j a un lien linéaire avec les autres variables. library(car) vif(reg) Si problème : On propose 3 solutions : 1. On regroupe les variables colinéaires pour n en former qu une. C. Chesneau 32

33 Par exemple, si on soupçonne que X j et X k sont colinéaires, on peut considérer la nouvelle variable Z = a + b(x j + X k ) (ou Z = a + b(x j X k )), avec a et b arbitrairement choisis. 2. On élimine une ou plusieurs des variables colinéaires (en concertation avec un spécialiste des données pour savoir si cela a du sens). 3. On considère un autre estimateur de β : l estimateur Ridge, l estimateur LASSO. Estimateur Ridge : L estimateur ridge est défini par β = (X t X + λi p ) 1 X t Y, où λ désigne une constante positive. Il vérifie β = Argmin β R p+1 Y Xβ 2 + λ p j=1 β 2 j En general, on le calcule pour plusieurs valeurs de λ. Une constante λ convenable est estimable avec plusieurs méthodes, dont la méthode du maximum de vraisemblance. C. Chesneau 33

34 library(mass) reg = lm.ridge(y ~ X1 + X2 + X3, lambda = seq(0, 100, 1)) select(reg) Si cela renvoie une valeur estimée pour λ de 4 (par exemple), on considère : regridge = lm.ridge(y ~ X1 + X2 + X3, lambda = 4) summary(regridge) Estimateur LASSO : L estimateur LASSO est défini par β = Argmin β R p+1 Y Xβ 2 + λ p β j, j=1 où λ désigne une constante positive. library(lars) X = cbind(1, X1, X2) reglasso = lars(x, Y, type = "lasso") summary(reglasso) C. Chesneau 34

35 3.6 Détection des valeurs anormales Objectif : La détection de valeurs anormales dans les données est cruciale car ces valeurs peuvent avoir une influence négative dans les estimations et, a fortiori, dans les prévisions (effet levier de la fonction de régression). Méthodes : Méthode des résidus standardisés, Critère des distances de Cook. Méthode des résidus standardisés : Pour tout i {1,..., n}, si e i > 2, on envisage l anormalité de la i-ème observation. Cette règle repose sur la construction d un intervalle de confiance nous assurant qu il y a (environ) 95 chances sur 100 que la i-ème observation vérifie e i 2. e = rstandard(reg) plot(e) e[abs(e) > 2] Critère des distances de Cook : Pour tout i {1,..., n}, on défini la distance de Cook de la i-ème observation par Si d i = [X(X t X) 1 X t ] i,i (p + 1)(1 [X(X t X) 1 X t ] i,i ) (e i ) 2. d i > 1, C. Chesneau 35

36 on envisage l anormalité de la i-ème observation. On peut montrer que d i est la réalisation de D i = Ŷ Ŷ i 2 n (p + 1) σ 2, où Ŷ i = (X β) i qui correspond au calcul de X β = X(X t X) 1 X t Y avec X et Y privés de la i-ème observation. Ce critère mesure donc l influence d une observation sur l erreur de prévision. plot(reg, 4) cooks.distance(reg)[cooks.distance(reg) > 1] Admettons que les valeurs associées aux individus 4 et 26 soient anormales. On refait l analyse sans ces individus avec la commande : reg2 = lm(y ~ X1 + X2 + X3, subset = - c(4, 26)) Ou alors : ww = w[ - c(4, 26), ] attach(ww) reg = lm(y ~ X1 + X2 + X3) Peu importe la méthode et le résultat, il faut toujours s assurer auprès du spécialiste de l étude que une ou plusieurs observations peuvent être retirées des données. Régression robuste : S il y a une ou plusieurs valeurs considérées comme anormales mais qui ont lieu d être dans l analyse, on peut améliorer la prédiction en faisant ce que l on appelle de la "régression robuste". C. Chesneau 36

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse M1 IMAT, Année 2009-2010 MODELES LINEAIRES C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse Table des matières 1 Préambule 1 1.1 Démarche statistique...................................

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab scilab à l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab Tests de comparaison pour l augmentation du volume de précipitation 13 février 2007 (dernière date de mise à jour) Table

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Calculs approchés d un point fixe

Calculs approchés d un point fixe M11 ÉPREUVE COMMUNE DE TIPE 2013 - Partie D TITRE : Calculs approchés d un point fixe Temps de préparation :.. 2 h 15 minutes Temps de présentation devant les examinateurs :.10 minutes Dialogue avec les

Plus en détail

Lois de probabilité à densité Loi normale

Lois de probabilité à densité Loi normale DERNIÈRE IMPRESSIN LE 31 mars 2015 à 14:11 Lois de probabilité à densité Loi normale Table des matières 1 Lois à densité 2 1.1 Introduction................................ 2 1.2 Densité de probabilité

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Prévention et gestion des risques naturels et environnementaux

Prévention et gestion des risques naturels et environnementaux Prévention et gestion des risques naturels et environnementaux Risque et assurance : quelques éléments théoriques Ecole des Ponts - Le 6 Avril 01 Jacques Pelletan 1 Théorie du risque et pérennité de l

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours R.R. Université Lyon 2 1 Fichier de données Prédiction de la consommation de véhicules (1) Prédire la consommation des véhicules à partir de ses

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Correction du baccalauréat STMG Polynésie 17 juin 2014

Correction du baccalauréat STMG Polynésie 17 juin 2014 Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Devoir Surveillé n 5 BTS 2009 groupement B

Devoir Surveillé n 5 BTS 2009 groupement B EXERCICE 1 (12 points) Devoir Surveillé n 5 BTS 2009 groupement B Les trois parties de cet exercice peuvent être traitées de façon indépendante. A. Résolution d une équation différentielle On considère

Plus en détail

Travaux Dirigés de Probabilités - Statistiques, TD 4. Lois limites ; estimation.

Travaux Dirigés de Probabilités - Statistiques, TD 4. Lois limites ; estimation. Travaux Dirigés de Probabilités - Statistiques, TD 4 Lois limites ; estimation. Exercice 1. Trois machines, A, B, C fournissent respectivement 50%, 30%, 20% de la production d une usine. Les pourcentages

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Mathématiques appliquées à l informatique

Mathématiques appliquées à l informatique Mathématiques appliquées à l informatique Jean-Etienne Poirrier 15 décembre 2005 Table des matières 1 Matrices 3 1.1 Définition......................................... 3 1.2 Les différents types de matrices.............................

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Théorème du point fixe - Théorème de l inversion locale

Théorème du point fixe - Théorème de l inversion locale Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Examen d accès - 1 Octobre 2009

Examen d accès - 1 Octobre 2009 Examen d accès - 1 Octobre 2009 Aucun document autorisé - Calculatrice fournie par le centre d examen Ce examen est un questionnaire à choix multiples constitué de 50 questions. Plusieurs réponses sont

Plus en détail

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007 Université de Montréal 14 mars 2007 Christian FRANCQ GREMARS-EQUIPPE, Université Lille 3 Propriétés statistiques des modèles GARCH Outline 1 Identification 2 Test de bruit blanc faible Test d homoscédaticité

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Statistique descriptive et prévision

Statistique descriptive et prévision Statistique descriptive et prévision Année 2010/2011 L. Chaumont Contents 1. Étude d une variable 5 1.1. Définitions................................ 5 1.2. Représentations graphiques usuelles................

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Cours de mathématiques - Alternance Gea

Cours de mathématiques - Alternance Gea Cours de mathématiques - Alternance Gea Anne Fredet 11 décembre 005 1 Calcul matriciel Une matrice n m est un tableau de nombres à n lignes( et m colonnes. 1 0 Par exemple, avec n = et m =, on peut considérer

Plus en détail

X-ENS PSI - 2009 Un corrigé

X-ENS PSI - 2009 Un corrigé X-ENS PSI - 009 Un corrigé Première partie.. Des calculs élémentaires donnent χ A(α) = χ B(α) = X X + et χ A(α)+B(α) = X X + 4α + 4 On en déduit que Sp(A(α)) = Sp(B(α)) = {j, j } où j = e iπ 3 Sp(A(α)

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Econométrie Appliquée Séries Temporelles

Econométrie Appliquée Séries Temporelles Chapitre 1. UFR Economie Appliquée. Cours de C. Hurlin 1 U.F.R. Economie Appliquée Maîtrise d Economie Appliquée Cours de Tronc Commun Econométrie Appliquée Séries Temporelles Christophe HURLIN Chapitre

Plus en détail

Exercices : VAR discrètes

Exercices : VAR discrètes Exercices : VAR discrètes Exercice 1: Une urne contient 2 boules blanches et 4 boules noires. On tire les boules une à une sans les remettre jusqu à ce qu il ne reste que des boules d une seule couleur

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires CHAPITRE I. SIMULATION DE VARIABLES ALÉATOIRES 25 Chapitre I Simulation de variables aléatoires La simulation informatique de variables aléatoires, aussi complexes soient elles, repose sur la simulation

Plus en détail

Mathématiques assistées par ordinateur

Mathématiques assistées par ordinateur Mathématiques assistées par ordinateur Chapitre 4 : Racines des polynômes réels et complexes Michael Eisermann Mat249, DLST L2S4, Année 2008-2009 www-fourier.ujf-grenoble.fr/ eiserm/cours # mao Document

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Chapitre VI - Méthodes de factorisation

Chapitre VI - Méthodes de factorisation Université Pierre et Marie Curie Cours de cryptographie MM067-2012/13 Alain Kraus Chapitre VI - Méthodes de factorisation Le problème de la factorisation des grands entiers est a priori très difficile.

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

CCP PSI - 2010 Mathématiques 1 : un corrigé

CCP PSI - 2010 Mathématiques 1 : un corrigé CCP PSI - 00 Mathématiques : un corrigé Première partie. Définition d une structure euclidienne sur R n [X]... B est clairement symétrique et linéaire par rapport à sa seconde variable. De plus B(P, P

Plus en détail

Correction du Baccalauréat S Amérique du Nord mai 2007

Correction du Baccalauréat S Amérique du Nord mai 2007 Correction du Baccalauréat S Amérique du Nord mai 7 EXERCICE points. Le plan (P) a une pour équation cartésienne : x+y z+ =. Les coordonnées de H vérifient cette équation donc H appartient à (P) et A n

Plus en détail

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012. FOAD COURS D ECONOMETRIE CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 202. Christine Maurel Maître de conférences en Sciences Economiques Université de Toulouse - Capitole Toulouse School of Economics-ARQADE

Plus en détail

Cours STAT 2150. "Statistique non paramétrique: Méthodes de lissage"

Cours STAT 2150. Statistique non paramétrique: Méthodes de lissage Cours STAT 2150 "Statistique non paramétrique: Méthodes de lissage" Année académique 2008-2009 Séance 1 1 Table de matière du cours 1. Introduction (Fonction de répartition, histogramme, propriétés d un

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

L2 MIEE 2012-2013 VAR Université de Rennes 1

L2 MIEE 2012-2013 VAR Université de Rennes 1 . Sous-ensembles de R n et fonctions (suite) 1 Nappes paramétrées Si f une fonction de deux variables, son graphe est une surface incluse dans R 3 : {(x, y, f(x, y)) / (x, y) R 2 }. Une telle surface s

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015 Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Le Modèle Linéaire par l exemple :

Le Modèle Linéaire par l exemple : Publications du Laboratoire de Statistique et Probabilités Le Modèle Linéaire par l exemple : Régression, Analyse de la Variance,... Jean-Marc Azaïs et Jean-Marc Bardet Laboratoire de Statistique et Probabilités

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Exo7. Sujets de l année 2008-2009. 1 Partiel. Enoncés et corrections : Sandra Delaunay. Exercice 1 Soit A une matrice 2 2 à coefficients réels.

Exo7. Sujets de l année 2008-2009. 1 Partiel. Enoncés et corrections : Sandra Delaunay. Exercice 1 Soit A une matrice 2 2 à coefficients réels. Enoncés et corrections : Sandra Delaunay Exo7 Sujets de l année 28-29 1 Partiel Exercice 1 Soit A une matrice 2 2 à coefficients réels. On suppose a + c = b + d = 1 et a b 1. ( ) a b c d 1. Soient (x 1,x

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail