Université de Caen Basse-Normandie. Christophe Chesneau.

Dimension: px
Commencer à balayer dès la page:

Download "Université de Caen Basse-Normandie. Christophe Chesneau. http://www.math.unicaen.fr/~chesneau/"

Transcription

1 Basse-Normandie Christophe Chesneau Caen, le 18 Juillet 2015

2 Table des matières 1 Présentation 6 2 Régression linéaire multiple (rlm) Contexte Estimations Coefficients de détermination Lois des estimateurs Intervalles de confiance Tests d hypothèses Améliorations et validation des hypothèses Motivation Analyses du/des nuages de points Analyses graphiques des résidus Outils de vérification Indépendance de ɛ 1,..., ɛ n V(ɛ 1 ) =... = V(ɛ n ) Normalité de ɛ 1,..., ɛ n Multicolinéarité Détection des valeurs anormales Stabilité du modèle Sélection de variables Traitement de variables qualitatives C. Chesneau 2

3 4 Méthode des moindres carrés généralisés (mcg) Contexte Quelques résultats Hétéroscédasticité des erreurs et mcg Cas de données groupées Correction d hétéroscedasticité Autocorrélation des erreurs et mcg Régression non-linéaire Contexte Régression polynomiale Résidus partiels Méthode itérative Extension : régression non-paramétrique Régression logistique Contexte Transformation logit Variable latente Estimation Significativité de la régression Rapport des côtes Intervalles de confiance Pertinence du modèle Détection des valeurs anormales C. Chesneau 3

4 6.10 Sélection de variables Qualité du modèle Cas des données groupées Régression polytomique Contexte Régression multinomiale (ou polytomique non-ordonnée) Contexte Estimation Significativité du modèle Sélection de variables Qualité du modèle Régression polytomique ordonnée Régression de Poisson Contexte Significativité de la régression Intervalles de confiance Pertinence du modèle Détection des valeurs anormales Sélection de variables Dispersion anormale Terme de décallage (offset) Jeux de données 141 C. Chesneau 4

5 10 Annexe : emv Méthode Résultats asymptotiques Test global Test partiel Algorithme de Newton-Raphson et emv Index 145 C. Chesneau 5

6 1 Présentation Ce document résume les notions abordées dans le cours Modèle de Régression du M2 MASS (MIASHS) de l université de Caen. Un des objectifs est de donner des pistes de réflexion à la construction de modèles prédictifs à partir de données. Les méthodes statistiques y sont décrites de manière concise, avec les commandes R associées. La présente version est la première, avec tous les défauts que cela comporte. Entre autre, on relève une absence totale d exemple et d application. Ce vide sera comblé dans le futur avec une quinzaine d études sur jeux de données réelles, actuellement en cours d amélioration. Je vous invite à me contacter pour tout commentaire : christophe.chesneau@gmail.com Bonne lecture. C. Chesneau 6

7 2 Régression linéaire multiple (rlm) 2.1 Contexte Problématique : On souhaite expliquer une variable (ou caractère) Y en fonction de p autres variables X 1,..., X p. Ainsi, Y est la variable à expliquer, X 1,..., X p sont des variables explicatives. Données : Les données constituent des observations de ces variables. Ce sont n observations de (Y, X 1,..., X p ) notées (y 1, x 1,1,..., x p,1 ),..., (y n, x 1,n,..., x p,n ). Elles se présentent généralement sous la forme d un tableau : Y X 1... X p y 1 x 1,1... x p,1 y 2 x 1,2 x p,2.... y n x 1,n... x p,n Modèle de régression linéaire multiple : Si une liaison linéaire entre Y et X 1,..., X p est envisageable, on peut considérer le modèle de régression linéaire multiple (rlm) : il existe p + 1 coefficients inconnus β 0,..., β p tels que C. Chesneau 7

8 Y = β 0 + β 1 X β p X p + ɛ, où ɛ est une quantité représentant une somme d erreurs. On modélise Y, X1, X2 et X3 par une rlm en faisant : reg = lm(y ~ X1 + X2 + X3) Objectif : Un objectif est d estimer les coefficients inconnus β 0,..., β p à l aide des données afin de prédire la valeur moyenne de Y pour une nouvelle valeur de (X 1,..., X p ). Modélisation : On modélise les variables considérées comme des variables aléatoires réelles (var) (définies sur un espace probabilisé (Ω, A, P)). Pour tout i {1,..., n}, (x 1,i,..., x p,i ) est une réalisation du vecteur aléatoire réel (X 1,..., X p ), sachant que (X 1,..., X p ) = (x 1,i,..., x p,i ), y i est une réalisation de Y i = β 0 + β 1 x 1,i β p x p,i + ɛ i, où ɛ i est une var modélisant une somme d erreurs. Remarque : Pour tout x = (x 1,..., x p ) R p, sous l hypothèse que E(ɛ {(X 1,..., X p ) = x}) = 0, le modèle de rlm peut s écrire comme E(Y {(X 1,..., X p ) = x}) = β 0 + β 1 x β p x p. Ainsi, sachant que (X 1,..., X p ) = x, la valeur moyenne de Y est une combinaison linéaire de (x 1,..., x p ). C. Chesneau 8

9 Écriture matricielle : Le modèle de rlm s écrit sous la forme matricielle : Y = Xβ + ɛ, où 1 x 1,1 x p,1 Y 1 β 0 ɛ 1 1 x 1,2 x p,2 Y 2 β 1 ɛ X =, Y =, β =, ɛ = x 1,n x p,n Y n β p ɛ n Hypothèses standards : On suppose que (X t X) 1 existe, ɛ et X 1,..., X p sont des var indépendantes et ɛ N n (0, σ 2 I n ) où σ est un paramètre inconnu. En particulier, cette dernière hypothèse entraîne que ɛ 1,..., ɛ n sont indépendantes, V(ɛ 1 ) =... = V(ɛ n ), ɛ 1,..., ɛ n suivent chacune la loi normale centrée. C. Chesneau 9

10 2.2 Estimations Emco : L estimateur des moindres carrés ordinaires (emco) de β est β = (X t X) 1 X t Y. Il est construit de sorte que l erreur d estimation entre X β et Y soit la plus petite possible au sens. 2 : où. désigne la norme euclidienne de R n : β = Argmin β R p+1 Y Xβ 2, < a, b >= a t b = b t a = n a i b i, a 2 =< a, a >= a t a = i=1 n a 2 i. i=1 Pour tout j {0,..., p}, la j + 1-ème composante de β, notée β j, est l emco de β j. Emco et emv : L emco de β est l estimateur du maximum de vraisemblance (emv) de β. En effet, la vraisemblance associée à (Y 1,..., Y n ) est L(β, z) = ) 1 z Xβ 2 (2πσ 2 exp ( ) n/2 2σ 2 ), z R n. Par conséquent Argmax β R p+1 L(β, Y ) = Argmin Y Xβ 2 = β. β R p+1 Estimateur de la prédiction : Soit y x la valeur prédite moyenne de Y lorsque (X 1,..., X p ) = C. Chesneau 10

11 (x 1,..., x p ) = x : y x = β 0 + β 1 x β p x p. Un estimateur de y x est Ŷ x = β 0 + β 1 x β p x p. Estimateur de σ 2 : Un estimateur de σ 2 est σ 2 = 1 n (p + 1) Y X β 2. Il vérifie E( σ 2 ) = σ 2. De plus, σ 2 et β sont indépendants. Estimations ponctuelles : En pratique, on considère les réalisations de β 0, β 1,..., β p, σ 2 correspondantes aux données. On travaille donc avec des réels. reg = lm(y ~ X1 + X2 + X3) On obtient les estimations ponctuelles de β 0, β 1, β 2 et β 3 par la commande : reg Pour isoler l estimation ponctuelle de β 2 (par exemple), on fait : reg$coeff[3] Les valeurs prédites moyennes de Y prises aux valeurs des données de X1, X2 et X3 s obtiennent en faisant : predict(reg) (ou fitted(reg)) La valeur prédite moyenne de Y pour la valeur (X1, X2, X3) = (1.2, 2.2, 6) est donnée par la commande : predict(reg, data.frame(x1 = 1.2, X2 = 2.2, X3 = 6)) Si le coefficient β 0 n a pas de sens dans la modélisation, on l enlève en faisant : reg = lm(y ~ X1 + X2 + X3-1) C. Chesneau 11

12 2.3 Coefficients de détermination Coefficients de détermination : On appelle coefficient de détermination la réalisation R 2 de R 2 = Ŷ Y 2 Y Y 2, où Ŷ = X β et Y = (1/n) n i=1 Y i. Ce R 2 est un coefficient réel toujours compris entre 0 et 1. Il mesure de la qualité de l ajustement des données par le modèle de rlm ; plus R 2 est proche de 1, (plus Ŷ est proche de Y ), meilleur est le modèle. Coefficients de détermination ajusté : On appelle coefficient de détermination ajusté le réel : R 2 = R 2 (1 R 2 p ) n (p + 1). Ce coefficient est considéré comme plus fiable que R 2 car il tient compte du nombre de variables. Le R 2 et R 2 sont donnés par la commande : summary(reg) C. Chesneau 12

13 2.4 Lois des estimateurs Loi de β : On a β N p+1 ( β, σ 2 (X t X) 1). La matrice de covariance estimée de β, qui est aussi la réalisation de σ 2 (X t X) 1, est donnée par la commande : vcov(reg) Loi de β j : Pour tout j {0,..., p}, on a β j N ( β j, σ 2 [(X t X) 1 ] j+1,j+1 ), βj β j σ [(X t X) 1 ] j+1,j+1 N (0, 1), où [(X t X) 1 ] j+1,j+1 désigne la j + 1-ème composante diagonale de (X t X) 1. Degrés de liberté : Dans ce qui suit, on travaillera avec le nombre de degrés de liberté : ν = n (p + 1). Loi associée à σ 2 : On a (n (p + 1)) σ2 σ 2 χ2 (ν). Apparition de la loi de Student : Pour tout j {0,..., p}, on a β j β j σ [(X t X) 1 ] j+1,j+1 T (ν). C. Chesneau 13

14 2.5 Intervalles de confiance Intervalle de confiance pour β j : Pour tout j {0,..., p}, un intervalle de confiance pour β j au niveau 100(1 α)%, α ]0, 1[, est la réalisation i βj de I βj = [ ] β j t α (ν) σ [(X t X) 1 ] j+1,j+1, βj + t α (ν) σ [(X t X) 1 ] j+1,j+1, où t α (ν) est le réel vérifiant P( T t α (ν)) = α, avec T T (ν). confint(reg, level = 0.95) Intervalle de confiance pour y x : Soient y x la prédiction moyenne de Y quand (X 1,..., X p ) = (x 1,..., x p ) = x et x = (1, x 1,..., x p ). Un intervalle de confiance pour y x au niveau 100(1 α)%, α ]0, 1[, est la réalisation i yx de I yx = [Ŷx t α (ν) σ x (X t X) 1 x t, Ŷ x + t α (ν) σ x (X t X) 1 x t ], où t α (ν) est le réel vérifiant P( T t α (ν)) = α, avec T T (ν). predict(reg, data.frame(x1 = 1.2, X2 = 2.2, X3 = 6), interval = "confidence") C. Chesneau 14

15 2.6 Tests d hypothèses p-valeur : On considère des hypothèses de la forme : H 0 : A contre H 1 : contraire de A La p-valeur est la probabilité exacte (ou presque) de se tromper en rejetant H 0. Ainsi, le plus petit risque de se tromper en rejetant H 0 est (100 p-valeur)%. Degrés de significativité : Le rejet de H 0 sera significatif si p-valeur ]0.01, 0.05], symbolisé par, très significatif si p-valeur ]0.001, 0.01], symbolisé par, hautement significatif si p-valeur < 0.001, symbolisé par, (presque significatif si p-valeur ]0.05, 0.1], symbolisé par. (un point)). Test de Student : Soit j {0,..., p}. L objectif du test de Student est d évaluer l influence de X j sur Y. On considère les hypothèses : H 0 : β j = 0 contre H 1 : β j 0. On calcule la réalisation t obs de T = β j σ [(X t X) 1 ] j+1,j+1. On considère une var T T (ν). Alors la p-valeur associée est p-valeur = P( T t obs ). Si C. Chesneau 15

16 , l influence de X j sur Y est significative,, l influence de X j sur Y est très significative,, l influence de X j sur Y est hautement significative. Test global de Fisher : L objectif du test global de Fisher est d étudier la pertinence du lien linéaire entre Y et X 1,..., X p. On considère les hypothèses : H 0 : β 1 = β 2 =... = β p = 0 contre H 1 : il y a au moins un coefficient non nul. On calcule la réalisation f obs de F = R 2 n (p + 1) 1 R. 2 p On considère une var F F(p, ν). Alors la p-valeur associée est p-valeur = P(F f obs ). Notons que ce test est moins précis que le test de Student car il ne précise pas quels sont les coefficients non nuls. Il est toutefois un indicateur utile pour déceler d éventuelles problèmes (comme des colinéarités entre X 1,..., X p ). Les tests d hypothèses précédents sont mis en œuvre par la commande : summary(reg) C. Chesneau 16

17 3 Améliorations et validation des hypothèses 3.1 Motivation Questions : 1. Peut-on améliorer les estimations des paramètres? 2. Comment valider ces hypothèses avec les données? Rappel : Les hypothèses suivantes ont été formulées : ɛ et X 1,..., X p sont indépendantes, ɛ 1,..., ɛ n sont indépendantes, V(ɛ 1 ) =... = V(ɛ n ), ɛ 1,..., ɛ n suivent des lois normale centrées. Commandes R clés : Une première analyse de la validation de ces hypothèses doit être graphique. Les commandes clés sont : par(mfrow = c(2, 2)) plot(reg, 1:4) Des tests d hypothèses rigoureux viendront ensuite confirmer/infirmer cette première analyse visuelle. C. Chesneau 17

18 3.2 Analyses du/des nuages de points Pertinence du modèle : Pour certain problème, le modèle de rlm n est pas le plus adapté. Il est parfois judicieux de transformer Y et X 1,..., X p, puis de les modéliser par une rlm. Ainsi, on considère un modèle de la forme : f(y ) = β 0 + β 1 g 1 (X 1 ) β p g p (X p ) + ɛ, où f, g 1,..., g p désignent des transformations/fonctions à choisir. Choix des transformations : Les p nuages de points : {(x j,i, y i ); i {1,..., n}}, j {1,..., p} peuvent nous aiguiller sur les transformations candidates. Pour tout j {1,..., p}, une approche intuitive consiste à déterminer des fonctions f et g j telles que le nuage de points {(g j (x j,i ), f(y i )); i {1,..., n}} soit ajustable par une droite. plot(w) ou pairs(cbind(y, X1, X2)) Nous verrons par la suite les limites de cette approche et étudierons les méthodes alternatives (dans le chapitre Régression non-linéaire). C. Chesneau 18

19 Exemple : Dans l exemple-ci dessous, on cherche à expliquer Y en fonction X 1 : Vu le nuage de points, il est préférable de considérer la transformation exp(y ) et de faire une régression linéaire sur X 1, soit exp(y ) = β 0 + β 1 X 1 + ɛ. On obtiendra des estimations de β 0 et β 1 avec un meilleur R 2. Un exemple de rlm avec variables transformées est reg = lm(log(y) ~ sqrt(x1) + exp(x2) + X3) C. Chesneau 19

20 3.3 Analyses graphiques des résidus Résidus : Pour tout i {1,..., n}, on appelle i-ème résidu la réalisation e i de ɛ i = Y i Ŷi, où Ŷi = β 0 + β 1 x 1,i β p x p,i. On appelle résidus les réels e 1,..., e n. Ces résidus vont nous permettre de valider ou non les hypothèses initiales. residuals(reg) Résidus standardisés : Pour tout i {1,..., n}, on appelle i-ème résidu standardisé la réalisation e i de ɛ i = ɛ i σ 1 [X(X t X) 1 X t ] i,i. On appelle résidus standardisés les réels e 1,..., e n. rstandard(reg) Lois : Pour tout i {1,..., n}, si les hypothèses initiales sont vérifiées, on a ɛ i N ( 0, σ 2 (1 [X(X t X) 1 X t ] i,i ) ), ɛ i 1 [X(X t X) 1 X t ] i,i N (0, σ 2 ) et ɛ i = ɛ i σ 1 [X(X t X) 1 X t ] i,i T (ν). C. Chesneau 20

21 Analyse graphique 1 : On trace le nuage de points : {(e i, y i e i ); i {1,..., n}}. Notons que y i e i est la réalisation de Ŷi = Y i ɛ i. Si on ne peut pas ajuster le nuage de points par une "ligne" (droite ou ondulée), on admet que ɛ et X 1,..., X p sont indépendantes : tout va bien. plot(reg, 1) Si problème : Si on peut ajuster le nuage de points par une "ligne" (droite ou ondulée), on soupçonne que ɛ et X 1,..., X p sont dépendantes. Le lien linéaire entre Y et X 1,..., X p peut être remis en question. Analyse graphique 2 : On trace le nuage de points : {(i, e i ); i {1,..., n}}. Si le nuage de points n a aucune structure particulière, il y a une symétrie dans la répartition des points par rapport à l axe des abscisses, alors on admet que ɛ N n (0, σ 2 I n ) : tout va bien. plot(residuals(reg)) Si problème : 1. Si le nuage de points a l allure d une route sinueuse ou d un mégaphone, on soupçonne que les var ɛ 1,..., ɛ n sont dépendantes (si cela a du sens), ou/et V(ɛ 1 ) =... = V(ɛ n ) n est pas C. Chesneau 21

22 vérifiée. 2. S il y a une asymétrie dans la répartition des points par rapport à l axe des abscisses, l hypothèse de normalité de ɛ 1,..., ɛ n est à étudier. C. Chesneau 22

23 3.4 Outils de vérification En cas de doute, il convient de vérifier, dans l ordre : l indépendance de ɛ 1,..., ɛ n, l égalité V(ɛ 1 ) =... = V(ɛ n ), la normalité de ɛ 1,..., ɛ n. C. Chesneau 23

24 3.4.1 Indépendance de ɛ 1,..., ɛ n Motivation : Si les observations de Y, X 1,..., X p portent sur des individus tous différents et que le modèle de rlm a du sens, ɛ 1,..., ɛ n sont indépendantes. Par conséquent, si on distingue une structure dans le nuage des points des résidus (route sinueuse, mégaphone,... ), soit le modèle n est pas adapté, soit il faut se tourner vers la vérification de l hypothèse V(ɛ 1 ) =... = V(ɛ n ). En revanche, si les observations de Y, X 1,..., X p présentent une dépendance temporelle, la dépendance de ɛ 1,..., ɛ n est à étudier. Corrélogramme : Pour étudier l indépendance de ɛ 1,..., ɛ n, partant des résidus e 1,..., e n, la première approche consiste à tracer le corrélogramme. Celui-ci représente les estimations ponctuelles de la fonction d autocorrélation (acf) définie par ρ(h) = C(ɛ i, ɛ i+h ), i {1,..., n h}, h {1,..., n 1}, σ(ɛ i )σ(ɛ i+h ) sous forme de bâtons. La liaison linéaire entre ɛ i et ɛ i+h est mesurée. On peut aussi calculer un intervalle de confiance pour ρ(h) au delà duquel la dépendance est remise en cause. Si les bâtons sont de tailles et de signes alternés (ou presque) et qu aucun d entre eux ne dépassent les bornes de l intervalle de confiance (ou presque), on admet l indépendance de ɛ 1,..., ɛ n : tout va bien. C. Chesneau 24

25 acf(residuals(reg)) Corrélogramme partiel : Le corrélogramme partiel vient compléter l étude précédente ; il représente les estimations ponctuelles de la fonction d autocorrélation partielle (pacf) sous forme de bâtons. Cette fonction mesure la liaison linéaire entre ɛ i et ɛ i+h une fois retirés les liens transitant par les variables intermédiaires ɛ i+1,..., ɛ i+h 1. L interprétation est la même que pour l acf. pacf(residuals(reg)) Si problème : Ainsi, si les sommets des bâtons peuvent être rejoints par une ligne serpentée "sans pic" ou si plusieurs bâtons dépassent les bornes de l intervalle de confiance, une dépendance peut-être soupçonnée. Cela peut être confirmé avec le test de Ljung-Box. Test de Ljung-Box (ou du portemanteau) : On considère les hypothèses : H 0 : ρ(1) =... = ρ(n) = 0 contre H 1 : au moins une corrélation n est pas nulle. Partant des résidus e 1,..., e n, on peut utiliser le test de Ljung-Box : si p-valeur < 0.05, on admet qu au moins une corrélation n est pas nulle, donc que ɛ 1,..., ɛ n ne sont pas indépendantes. library(lawstat) Box.test(residuals(reg), type = "Ljung") Structure de dépendance : Si la dépendance ɛ 1,..., ɛ n est avérée ; le modèle de rlm n est pas adapté. Afin de trouver une alternative, il est intéressant d identifier, si possible, la structure de dépendance associée. La structure AR(1) présentée ci-après est l une des plus répandue. C. Chesneau 25

26 Structure AR(1) : On dit que ɛ 1,..., ɛ n ont une structure auto-régressive de degré 1 (AR(1)) si il existe : ρ ] 1, 1[ {0}, n var iid u 1,..., u n suivant chacune la loi normale N (0, υ 2 ), tels que, pour tout i {1,..., n}, ɛ i = ρɛ i 1 + u i. Le réel ρ mesure la dépendance de ɛ 1,..., ɛ n ; si ρ = 0, pour tout i {1,..., n}, ɛ i = u i, donc ɛ 1,..., ɛ n sont indépendants, si ρ 0, on admet la structure AR(1 ) ; ɛ 1,..., ɛ n ne sont pas indépendants. Test de Durbin-Watson : On considère les hypothèses : H 0 : ρ = 0 contre H 1 : ρ 0. Partant des résidus e 1,..., e n, on peut utiliser le test de Durbin-Watson : si p-valeur < 0.05, alors on admet que ρ 0, entraînant la structure AR(1 ) de ɛ 1,..., ɛ n. library(lmtest) dwtest(reg) Si problème : Dans le cas d une structure AR(1) sur ɛ 1,..., ɛ n, on est capable d estimer efficacement β. Cela sera présenté dans le chapitre Méthode des moindres carrés généralisés. C. Chesneau 26

27 3.4.2 V(ɛ 1 ) =... = V(ɛ n ) Graphique "Scale-Location" : On considère le nuage de points : { } ( e i, y i e i ); i {1,..., n}. Si on ne distingue aucune structure, on peut admettre que V(ɛ 1 ) =... = V(ɛ n ) : tout va bien. plot(reg, 3) Test de White : Admettons que ɛ 1,..., ɛ n soient indépendantes. Pour étudier l égalité V(ɛ 1 ) =... = V(ɛ n ), partant des résidus e 1,..., e n, on préconise le test de White. L idée est de tester l existence d un lien linéaire entre ɛ 2 et les p 2 variables constituées de X 1,..., X p, les carrés : X1 2,..., X2 p, les produits croisés : X 1 X 2, X 1 X 3,..., X p 1 X p. Si p-valeur > 0.05, on admet que V(ɛ 1 ) =... = V(ɛ n ). library(bstats) white.test(reg) Alternativement, on peut utiliser le test de Breusch-Pagan qui repose sur une idée similaire. library(lmtest) bptest(reg) Méthode de Glejser : La méthode de Glejser étudie l existence d un lien linéaire entre ɛ et des transformations (subjectives) de X 1,..., X p. Si au moins une variable influe très significativement sur ɛ, on rejette V(ɛ 1 ) =... = V(ɛ n ). C. Chesneau 27

28 e = residuals(reg) reg2 = lm(abs(e) ~ sqrt(x1) + X2ˆ0.3 + log(x3)) summary(reg2) Si problème : On propose 2 solutions : Une rlm avec Y transformée (comme ln Y, Y ou 1/Y ) peut engendrer des nouvelles variables d erreurs ɛ 1,..., ɛ n vérifiant V(ɛ 1 ) =... = V(ɛ n ). Dès lors, on peut utiliser ce nouveau modèle pour une étude statistique. Si, pour tout i {1,..., n}, on a une idée de la valeur de V(ɛ i ) ou que celle-ci est estimable, alors nous verrons une solution dans le chapitre Méthode des moindres carrés généralisés. C. Chesneau 28

29 3.4.3 Normalité de ɛ 1,..., ɛ n QQ plot : Admettons que ɛ 1,..., ɛ n soient indépendantes et V(ɛ 1 ) =... = V(ɛ n ). Pour étudier plus finement la normalité de ɛ 1,..., ɛ n, on trace le nuage de points QQ plot associé (ou diagramme Quantile-Quantile). Si le nuage de points peut être très facilement ajusté par la droite y = x, alors on admet la normalité de ɛ 1,..., ɛ n. Principe du QQ plot : Le principe du QQ plot est le suivant : 1. Pour tout i {1,..., n}, si ɛ i N (0, σ 2 ), alors ɛ i = ɛ i σ 1 [X(X t X) 1 X t ] i,i T (ν). On considère alors la fonction de répartition F de ɛ 1 dans ce cas. 2. D autre part, un estimateur de la fonction de répartition de ɛ 1 dans le cas général est Ĝ(x) = (1/n) n i=1 I { ɛ i x}. Soit G(x) sa réalisation. 3. Par conséquent, si ɛ i N (0, σ 2 ), alors on a F (x) G(x) et, a fortiori, x F 1 (G(x)). Le graphique QQ plot consiste à tracer le nuage de points { (F 1 (G(e i )), e i ); i {1,..., n} }. Si ɛ i N (0, σ 2 ), alors, pour tout i {1,..., n}, (F 1 (G(e i )), e i ) (e i, e i ) et les points du C. Chesneau 29

30 nuage seront presque sur la droite d équation y = x. Notons que l on trace le QQ plot en fonction des résidus standardisés e 1,..., e n et la loi de Student T (ν). Si ν 30, on peut utiliser la loi normale N (0, 1) car T (ν) N (0, 1), on parle alors de QQ norm. plot(reg, 2) soit encore : qqnorm(rstandard(reg)) ou plus joli : library(car) qqplot(reg) Test de Shapiro-Wilk : Pour conclure à la normalité de ɛ 1,..., ɛ n, partant des résidus e 1,..., e n, on préconise le test de Shapiro-Wilk : si p-valeur > 0.05, on admet l hypothèse de normalité. shapiro.test(residuals(reg)) Si problème : Une rlm avec Y transformée (comme ln Y, Y ou 1/Y ) peut engendrer des nouvelles variables d erreurs ɛ 1,..., ɛ n suivant chacune une loi normale. Dès lors, on peut utiliser ce nouveau modèle pour une étude statistique. C. Chesneau 30

31 3.5 Multicolinéarité Problème : Si au moins une des variables parmi X 1,..., X p a une liaison (presque) linéaire avec d autres, alors det(x t X) 0. Par conséquent, les éléments de la matrice : (X t X) 1 = 1 det(x t X) com(xt X) t seront très grands (à cause du terme 1/ det(x t X) ). Comme, pour tout j {1,..., p}, β j N ( β j, σ 2 [(X t X) 1 ] j+1,j+1 ), la variance de β j explose. Conséquence : Cela entraîne une grande instabilité dans l estimation de β j et fausse tous les tests d hypothèses. En particulier, si au moins une variable parmi X 1,..., X p a une liaison linéaire avec d autres, il est possible qu aucune variable ne montre d influence significative sur Y et cela, en dépit de toute logique, du test de Fisher qui peut quand même indiquer une influence significative globale des coefficients (car il prend en compte toutes les variables). Il convient donc d étudier d éventuelles multicolinéarités dans les X 1,..., X p avant de valider des résultats statistiques (arrangeants ou pas). Méthodes : C. Chesneau 31

32 Règle de Klein, Facteur d inflation de la variance (vif). Règle de Klein : On calcule la matrice carré p p composée des estimations ponctuelles des corrélations : ρ i,j = C(X i, X j ) σ(x i )σ(x j ). Si une ou plusieurs valeurs au carré sont proches de R 2, alors on soupçonne que les variables associées sont colinéaires. c = cor(cbind(x1, X2, X3), cbind(x1, X2, X3)) cˆ2 Vif : Pour tout j {1,..., p}, on appelle j-ème facteur d inflation de la variance (vif) le réel : V j = 1 1 Rj 2, où R 2 j désigne le coefficient de détermination de la rlm de X j sur les autres variables. On peut montrer que la variance estimée de β j est proportionnelle à V j. Ainsi, plus le lien linéaire entre X j et les autres variables est fort, plus R 2 j est proche de 1, plus V j est grand et plus l estimation de β j est instable. Critère pratique : Si V j 5, on admet que X j a un lien linéaire avec les autres variables. library(car) vif(reg) Si problème : On propose 3 solutions : 1. On regroupe les variables colinéaires pour n en former qu une. C. Chesneau 32

33 Par exemple, si on soupçonne que X j et X k sont colinéaires, on peut considérer la nouvelle variable Z = a + b(x j + X k ) (ou Z = a + b(x j X k )), avec a et b arbitrairement choisis. 2. On élimine une ou plusieurs des variables colinéaires (en concertation avec un spécialiste des données pour savoir si cela a du sens). 3. On considère un autre estimateur de β : l estimateur Ridge, l estimateur LASSO. Estimateur Ridge : L estimateur ridge est défini par β = (X t X + λi p ) 1 X t Y, où λ désigne une constante positive. Il vérifie β = Argmin β R p+1 Y Xβ 2 + λ p j=1 β 2 j En general, on le calcule pour plusieurs valeurs de λ. Une constante λ convenable est estimable avec plusieurs méthodes, dont la méthode du maximum de vraisemblance. C. Chesneau 33

34 library(mass) reg = lm.ridge(y ~ X1 + X2 + X3, lambda = seq(0, 100, 1)) select(reg) Si cela renvoie une valeur estimée pour λ de 4 (par exemple), on considère : regridge = lm.ridge(y ~ X1 + X2 + X3, lambda = 4) summary(regridge) Estimateur LASSO : L estimateur LASSO est défini par β = Argmin β R p+1 Y Xβ 2 + λ p β j, j=1 où λ désigne une constante positive. library(lars) X = cbind(1, X1, X2) reglasso = lars(x, Y, type = "lasso") summary(reglasso) C. Chesneau 34

35 3.6 Détection des valeurs anormales Objectif : La détection de valeurs anormales dans les données est cruciale car ces valeurs peuvent avoir une influence négative dans les estimations et, a fortiori, dans les prévisions (effet levier de la fonction de régression). Méthodes : Méthode des résidus standardisés, Critère des distances de Cook. Méthode des résidus standardisés : Pour tout i {1,..., n}, si e i > 2, on envisage l anormalité de la i-ème observation. Cette règle repose sur la construction d un intervalle de confiance nous assurant qu il y a (environ) 95 chances sur 100 que la i-ème observation vérifie e i 2. e = rstandard(reg) plot(e) e[abs(e) > 2] Critère des distances de Cook : Pour tout i {1,..., n}, on défini la distance de Cook de la i-ème observation par Si d i = [X(X t X) 1 X t ] i,i (p + 1)(1 [X(X t X) 1 X t ] i,i ) (e i ) 2. d i > 1, C. Chesneau 35

36 on envisage l anormalité de la i-ème observation. On peut montrer que d i est la réalisation de D i = Ŷ Ŷ i 2 n (p + 1) σ 2, où Ŷ i = (X β) i qui correspond au calcul de X β = X(X t X) 1 X t Y avec X et Y privés de la i-ème observation. Ce critère mesure donc l influence d une observation sur l erreur de prévision. plot(reg, 4) cooks.distance(reg)[cooks.distance(reg) > 1] Admettons que les valeurs associées aux individus 4 et 26 soient anormales. On refait l analyse sans ces individus avec la commande : reg2 = lm(y ~ X1 + X2 + X3, subset = - c(4, 26)) Ou alors : ww = w[ - c(4, 26), ] attach(ww) reg = lm(y ~ X1 + X2 + X3) Peu importe la méthode et le résultat, il faut toujours s assurer auprès du spécialiste de l étude que une ou plusieurs observations peuvent être retirées des données. Régression robuste : S il y a une ou plusieurs valeurs considérées comme anormales mais qui ont lieu d être dans l analyse, on peut améliorer la prédiction en faisant ce que l on appelle de la "régression robuste". C. Chesneau 36

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Correction du baccalauréat STMG Polynésie 17 juin 2014

Correction du baccalauréat STMG Polynésie 17 juin 2014 Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Théorème du point fixe - Théorème de l inversion locale

Théorème du point fixe - Théorème de l inversion locale Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Chapitre VI - Méthodes de factorisation

Chapitre VI - Méthodes de factorisation Université Pierre et Marie Curie Cours de cryptographie MM067-2012/13 Alain Kraus Chapitre VI - Méthodes de factorisation Le problème de la factorisation des grands entiers est a priori très difficile.

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012. FOAD COURS D ECONOMETRIE CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 202. Christine Maurel Maître de conférences en Sciences Economiques Université de Toulouse - Capitole Toulouse School of Economics-ARQADE

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

CCP PSI - 2010 Mathématiques 1 : un corrigé

CCP PSI - 2010 Mathématiques 1 : un corrigé CCP PSI - 00 Mathématiques : un corrigé Première partie. Définition d une structure euclidienne sur R n [X]... B est clairement symétrique et linéaire par rapport à sa seconde variable. De plus B(P, P

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Correction du Baccalauréat S Amérique du Nord mai 2007

Correction du Baccalauréat S Amérique du Nord mai 2007 Correction du Baccalauréat S Amérique du Nord mai 7 EXERCICE points. Le plan (P) a une pour équation cartésienne : x+y z+ =. Les coordonnées de H vérifient cette équation donc H appartient à (P) et A n

Plus en détail

Le Modèle Linéaire par l exemple :

Le Modèle Linéaire par l exemple : Publications du Laboratoire de Statistique et Probabilités Le Modèle Linéaire par l exemple : Régression, Analyse de la Variance,... Jean-Marc Azaïs et Jean-Marc Bardet Laboratoire de Statistique et Probabilités

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015 Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

2 TABLE DES MATIÈRES. I.8.2 Exemple... 38

2 TABLE DES MATIÈRES. I.8.2 Exemple... 38 Table des matières I Séries chronologiques 3 I.1 Introduction................................... 3 I.1.1 Motivations et objectifs......................... 3 I.1.2 Exemples de séries temporelles.....................

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Calcul différentiel sur R n Première partie

Calcul différentiel sur R n Première partie Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

IV- Equations, inéquations dans R, Systèmes d équations

IV- Equations, inéquations dans R, Systèmes d équations IV- Equations, inéquations dans R, Systèmes d équations 1- Equation à une inconnue Une équation est une égalité contenant un nombre inconnu noté en général x et qui est appelé l inconnue. Résoudre l équation

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin. Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Statistiques descriptives

Statistiques descriptives Statistiques descriptives L3 Maths-Eco Université de Nantes Frédéric Lavancier F. Lavancier (Univ. Nantes) Statistiques descriptives 1 1 Vocabulaire de base F. Lavancier (Univ. Nantes) Statistiques descriptives

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

avec des nombres entiers

avec des nombres entiers Calculer avec des nombres entiers Effectuez les calculs suivants.. + 9 + 9. Calculez. 9 9 Calculez le quotient et le rest. : : : : 0 :. : : 9 : : 9 0 : 0. 9 9 0 9. Calculez. 9 0 9. : : 0 : 9 : :. : : 0

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

4 Distributions particulières de probabilités

4 Distributions particulières de probabilités 4 Distributions particulières de probabilités 4.1 Distributions discrètes usuelles Les variables aléatoires discrètes sont réparties en catégories selon le type de leur loi. 4.1.1 Variable de Bernoulli

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables

Plus en détail

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES Théorème - Définition Soit un cercle (O,R) et un point. Une droite passant par coupe le cercle en deux points A et

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail