Fiches de Cours. CQLS : Jean-François Coeurjolly & Rémy Drouilhet Jean-Francois.Coeurjolly@upmf-grenoble.fr, Remy.Drouilhet@upmf-grenoble.

Dimension: px
Commencer à balayer dès la page:

Download "Fiches de Cours. CQLS : Jean-François Coeurjolly & Rémy Drouilhet Jean-Francois.Coeurjolly@upmf-grenoble.fr, Remy.Drouilhet@upmf-grenoble."

Transcription

1 Fiches de Cours CQLS : Jean-François Coeurjolly & Rémy Drouilhet Jean-Francois.Coeurjolly@upmf-grenoble.fr, Remy.Drouilhet@upmf-grenoble.fr

2 2

3 Table des matières 1 Phénomène de colinéarité Appréhension du phénomène via l étude d un jeu de données Définition et principaux effets Appréhension des conséquences via l A.E.P Détection de la colinéarité à partir d un unique jeu de données Correction des effets de colinéarité Analyse des résidus et données influentes Tracé des résidus bruts Mesure de consistance Mesures d influence Effet Levier Effet de la suppression d une observation Modèles linéaires avec bruit coloré Qu entend-on par bruit coloré? Définition mathématique Quelques exemples Peut-on faire comme si de rien n était? Moindres carrés généralisés Fondement mathématique Propriétés Retour sur les exemples Que faire lorsque la nature du bruit coloré est inconnue? Continuer à utiliser l estimateur des M.C.O Méthode des moindres carrés quasi-généralisés (M.C.Q.G.) Détection d un bruit coloré Pourquoi? Un moyen universel : tracé des résidus M.C.O Test de détection d hétéroscédasticité Test de détection de l autocorrélation d ordre 1 du bruit : test de Durbin- Watson Pratique sur des jeux de données Données agrégées Exemple de bruit AR(1)

4 4 TABLE DES MATIÈRES 4 Modèles Logit et Probit Introduction Modèles Logit et Probit et leurs interprétations Modèlisation via une variable latente Identifiabilité des paramètres Comparaison entre Logit et Probit Estimation des paramètres Généralités sur la méthode du maximum de vraisemblance Applications aux modèles Logit et Probit Propriétés des estimateurs et comportements aléatoires Qualité du modèle Déviance Critère AIC Outil de discrimination Analyse des résidus Une application pratique

5 Chapitre 1 Phénomène de colinéarité 1.1 Appréhension du phénomène via l étude d un jeu de données Concentrons-nous sur le jeu de données suivant décrivant le prix de 10 voitures en fonction de leur âge du nombre de km. Pour tenter d expliquer le prix d une voiture, on envisage un modèle linéaire en intégrant les deux régresseurs. On fera l hypothèse certainement abusive que le bruit est gaussien : > voiture age km prix > attach(voiture) > summary(lm(prix ~ age + km, data = voiture)) Call: lm(formula = prix ~ age + km, data = voiture) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-07 *** 5

6 6 CHAPITRE 1. PHÉNOMÈNE DE COLINÉARITÉ age km Signif. codes: 0 *** ** 0.01 * Residual standard error: on 7 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 2 and 7 DF, p-value: 8.326e-05 A première vue, aucun des deux régresseurs ne semble être significatif au seuil de 5% (pas même à 10% d ailleurs) ce qui n est pas très encourageant quant au caractère informatif de chacun des régresseurs. Pourtant à y regarder de plus près, le modèle semble assez prédictif puisque le R 2 est de l ordre de 93%. Continuons l analyse avec les deux régressions simples suivantes : > summary(lm(prix ~ age, data = voiture)) Call: lm(formula = prix ~ age, data = voiture) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-09 *** age e-06 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 8 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 8 DF, p-value: 7.724e-06 > summary(lm(prix ~ km, data = voiture)) Call: lm(formula = prix ~ km, data = voiture) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-08 *** km e-05 *** --- Signif. codes: 0 *** ** 0.01 *

7 1.1. APPRÉHENSION DU PHÉNOMÈNE VIA L ÉTUDE D UN JEU DE DONNÉES 7 Residual standard error: on 8 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 8 DF, p-value: 2.731e-05 En conséquence, les deux variables prises séparément apportent de l information dans l explication du prix et semblent ne plus en apporter lorsqu elles sont présentes ensemble dans le modèle. On remarquera facilement que ceci est dû au fait que les écarts-types estimés de chaque estimateur ont fortement augmenté lorsque les deux régresseurs sont intégrés dans le modèle comme le rappelle le petit tableau suivant : Le modèle à deux régresseurs Les deux modèle à un régresseur prix age+km prix age prix km age km age km Paramètre estimé Ecart-type estimé Avec le graphique suivant, on comprend un peu plus d où pourrait provenir le problème : les deux régresseurs sont pratiquement linéairement liés entre eux.

8 8 CHAPITRE 1. PHÉNOMÈNE DE COLINÉARITÉ 1.2 Définition et principaux effets Considérons le modèle de régression linéaire multiple suivant : Y = β 0 + β 1 x β p x P + ε Lorsque l on parle de phénomène de colinéarité, on peut en distinguer de deux types : colinéarité stricte et colinéarité statistique. colinéarité stricte : ce phénomène intervient lorsqu il existe exactement une combinaison linéaire entre les régresseurs, i.e. s il existe λ 0, λ 1,..., λ p p réels (non simultanément tous égaux à 0) tels que : λ 1 x λ p x p = λ 0 Un résultat mathématique montre que s il existe une telle combinaison linéaire, alors la matrice x t x n est plus inversible. Et de ce fait, on ne peut définir les estimations issues de la méthode M.C.O. puisqu ils sont justement définis à partir de la matrice inverse de x t x. Cette situation ne survient en pratique que si les régresseurs ont été mal choisis par l utilisateur : par exemple si on souhaitait expliquer la productivité d une entreprise,par un modèle linéaire, on ne peut choisir comme régresseurs simultanément les recettes, les dépenses et les bénéfices de l entreprise, ces trois variables étant strictement colinéaires (bénéfices=recettes-dépenses). colinéarité statistique : il s agit d une situation qui intervient souvent en pratique lorsqu il existe approximativement une combinaison linéaire entre deux (variables age et km de l exemple précdédent) ou plusieurs régresseurs. La matrice x t x devient inversible. En revanche, ses coefficients peuvent devenir très élevés. Or, il faut se rappeler que la matrice de covariance des estimateurs issus de la méthode M.C.O. s écrit : Σ bβ = σ 2 ( x t x ) 1 (1.1) D où la remarque générale suivante : en présence de colinéarité, la variance des estimateurs des paramètres infectés par la colinéarité peut devenir très élevée. Rappelons maintenant que la statistique du test de significativité locale d un paramètre β i s écrit sous H 0 : u 0 (Y x) = β i (Y x) σ bβi (Y x) St(n p 1). Même si le régresseur x i semble très informatif pour expliquer Y (par exemple le régresseur age pour l explication de prix, de l exemple précédent), s il est colinéaire à un ou plusieurs autres régresseurs, la variance estimée de l estimateur donc son écart-type estimé peuvent être très élevés, tellement élevés que la statistique de test peut devenir très petite. Et de ce fait la p valeur du test peut devenir très élevée et ne plus traduire l hypothèse que l on avait a priori sur la qualité du régresseur x i pour expliquer Y. Il s agit d une situation fort désagréable puisque sans attention particulière, à la seule lecture des résultats de régression on pourra confondre les régresseurs qui n apportent aucune information pour expliquer Y de ceux qui en possèdent. Il conviendra donc de savoir détecter puis corriger ces effects de colinéarité à partir d un unique jeu de données.

9 1.3. APPRÉHENSION DES CONSÉQUENCES VIA L A.E.P Appréhension des conséquences via l A.E.P. Essayons de visualiser les conséquences d un phénomène de colinéarité en appliquant l A.E.P. sur modèle linéaire qui présenterait ce genre de pathologie. Considérons le modèle : Y = β 0 + β 1 x 1 + β 2 x 2 + ε, que nous allons générer pour n = 50 données. Choisissons les régresseurs x 1 et x 2 tels que x 1 = v 1 et x 2 = v 2 + k v 1, où les vecteurs v 1 et v 2 sont deux vecteurs de n points choisis au hasard sur [0, 1] indépendants (donc non colinéaires). Ainsi si k = 0 les régresseurs x 1 et x 2 sont indépendants ; et plus k est grand (positif ou négatif) plus les régresseurs sont colinéaires. bruit gaussien avec σ = 0.5 Moyenne des m = 1000 estimations du paramètre Modèle β 0 β 1 β 2 β = (2, 0, 4) t, k = β = (2, 3, 4) t, k = β = (2, 3, 4) t, k = β = (2, 3, 4) t, k = Variance des m = 1000 estimations du paramètre Modèle β 0 β 1 β 2 β = (2, 0, 4) t, k = β = (2, 3, 4) t, k = β = (2, 3, 4) t, k = β = (2, 3, 4) t, k = Proportion parmi les m = 1000 simulations que le paramètre a été considéré différent de 0 au seuil de 5% Modèle β 0 β 1 β 2 β = (2, 0, 4) t, k = 0 100% 4.7% 100% β = (2, 3, 4) t, k = 0 100% 100% 100% β = (2, 3, 4) t, k = 5 100% 91.8% 100% β = (2, 3, 4) t, k = % 37.7% 100% 1.4 Détection de la colinéarité à partir d un unique jeu de données Conditionnement de la matrice x t x : le conditionnement d une matrice inversible est défini comme étant le rapport entre la plus grande et la plus petite valeur propre. Une matrice est dite bien conditionnée si son conditionnement est proche de 1 et mal conditionnée si ce rapport est élevé. Dans ce dernier cas, la matrice inverse peut avoir des coefficients très élevés. Application : > x <- cbind(1, age, km) > valpropres <- eigen(t(x) %*% x)$values > max(valpropres)/min(valpropres)

10 10 CHAPITRE 1. PHÉNOMÈNE DE COLINÉARITÉ [1] Variance Inflation Factor : pour détecter d éventuelles corrélations entre régresseurs une idée très simple consiste à régresser chaque régresseur sur l ensemble des autres. Cette idée naturelle trouve également son fondement dans la magnifique formule suivante qui permet de réécrire la variance théorique de β j (Y x) estimateur de β j (pour j = 1,..., p) : ) σ 2 βj b := (Σ bβ jj = σ2 n s 2 j 1 1 Rj 2, (1.2) Nous précisions un peu avant que cette formule était riche en information car on comprend aisément quels sont les acteurs qui influent sur la précision des estimateurs : σ 2 : plus le niveau du bruit est élevé et moins les estimateurs seront précis. n : plus la taille d échantillon est grande et plus la variance est faible, jusqu à tendre vers 0 lorsque n + (ce qui fait que les estimateurs sont consistants). s 2 j : ce terme ne dépend que du j-ème régresseur. Il exprime le fait que plus le support de ce régresseur est étendu, plus sa variance est élevée et plus les estimateurs seront précis. 1 1 R 2 j : dans la communauté statistique ce terme est appelé variance inflation factor (notée dans les logiciels VIF). Et l on comprend aisément pourquoi. Plus x j est colinéaire aux autres régresseurs, plus Rj 2 est proche de 1, donc plus le terme 1 1 Rj 2 est élevé ; la variance de l estimateur β j est alors très élevée. A l inverse, plus Rj 2 est proche de 0 plus le VIF associé est proche de 1 (le minimum). Ainsi, plus x j est indépendant des autres régresseurs, et moins les estimateurs seront détériorés. La précision ne dépend alors que du support, du niveau du bruit et de la taille d échantillon. En pratique, on estime (de manière tout à fait arbitraire) qu un régresseur est fortement colinéaire aux autres si son VIF associé est supérieur à 10. Application : > vif(lm(prix ~ age + km)) age km > 1-1/vif(lm(prix ~ age + km)) age km Matrice de corrélation et sa représentation graphique. Application : > cor(voiture) age km prix age km prix > plot(voiture)

11 1.5. CORRECTION DES EFFETS DE COLINÉARITÉ age km prix Correction des effets de colinéarité Face à la découverte d un problème de colinéarité, on peut observer notamment trois stratégies différentes : sélectionner un modèle par une méthode pas à pas ascendante ou descendante selon un certain critère comme celui de la significativité locale des régresseurs (mais il en existe bien d autres!!! Il ne s agit donc là que d une recette de cuisine). L inconvénient de la précédente stratégie est de potentiellement éliminer des variables qui ont de l information pour expliquer Y. Une stratégie pourrait être la suivante : à partir de deux (ou plus) variables colinéaires, on en construit une qui est combinaison linéaire de ces variables et on effectue la régression en utilisant cette nouvelle variable. Le problème revient alors de définir correctement la combinaison linéaire. Si le spécialiste n est pas satisfait par ces stratégies, on lui laisse les résultats tels qu ils sont en lui précisant que vous suspectez un problème de colinéarité et qu il vous est difficile d interpréter les estimations ainsi que les différents tests mis en place. Néanmoins si son objectif n est que d entreprendre une prévision ceci peut être amplement suffisant.

12 12 CHAPITRE 1. PHÉNOMÈNE DE COLINÉARITÉ

13 Chapitre 2 Analyse des résidus et données influentes Deux objectifs : vérifier des hypothèses mises en place. détecter des observations influentes pour la régression. 2.1 Tracé des résidus bruts 2.2 Mesure de consistance 2.3 Mesures d influence Effet Levier Effet de la suppression d une observation Distance de Cook Distance de Welsh-Kuh 13

14 14 CHAPITRE 2. ANALYSE DES RÉSIDUS ET DONNÉES INFLUENTES

15 Chapitre 3 Modèles linéaires avec bruit coloré 3.1 Qu entend-on par bruit coloré? Définition mathématique Les n observations d un modèle linéaire classique sont les réalisations du modèle : Y i = β 0 + β 1 x i β p x ip + ε i, i = 1,..., n où l on suppose (entre autres) que les variables aléatoires ε 1,..., ε n sont centrées, indépendantes et identiquement distribuées de variance σ 2 et non corrélées avec les régresseurs. A priori, on ne fera pas d hypothèse sur la distribution du bruit. Le modèle linéaire est dit homoscédastique et le bruit est alors appelé bruit blanc. La matrice de covariance du vecteur ε s écrit : σ σ Σ ε = σ = σ = σ 2 I n Dans certains domaines d applications (cf section suivante), il semblerait que cette hypothèse ne soit pas toujours adaptée. Il peut arriver que l on préfère modéliser le bruit différemment en le colorant i.e. soit en relâchant la contrainte que les variances sont identiques soit que les variables sont indépendantes, soit les deux. Comment pourrait-on décrire (le plus généralement possible) la matrice de covariance du bruit en fonction de ces trois situations? Les v.a. ε 1,..., ε n ne sont plus de variance identique mais restent indépendantes (on parle de modèle hétéroscédastique) : σ σ Σ ε = σ 2 n 15

16 16 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ sont homoscédastiques mais plus indépendantes entre elles (très fréquent lorque l on s intéresse à un phénomène temporel) : σ 2 ρ 1,2... ρ 1,n ρ 1,2 σ Σ ε = ρn 1,n ρ 1,n... ρ n 1,n σ 2 ne sont plus de variance constante et ne sont plus indépendantes : σ 2 1 ρ 1,2... ρ 1,n ρ 1,2 σ Σ ε = ρn 1,n ρ 1,n... ρ n 1,n σ 2 n Ces trois situations rentrent dans le même cadre mathématique à savoir : il existe une matrice Ω telle que : Σ ε = σ 2 Ω avec Ω I n (3.1) Dans la suite du cours, nous supposerons que nos données sont les réalisations du modèle : Y = xβ + ε (3.2) où ε est un bruit coloré dont la matrice de covariance vérifie (3.1) non corrélé avec les régresseurs Quelques exemples Nous présentons ici trois types de situations où pourrait intervenir un bruit coloré. Cette partie ne vise pas à traiter des jeux de données mais à présenter des situations où la matrice de covariance du bruit ne correspond plus à celle d un bruit blanc. Exemple 1 (un modèle aggrégé) : Imaginons qu on souhaite étudier le modèle linéaire très classique reliant la consommation individuelle au revenu individuel : C i = β 0 + β 1 R i + ε i (3.3) pour une certaine catégorie sociale d individus. On modélise souvent ceci par un modèle dont la variance du bruit est constante : Var(ε i ) = σ 2 pour i = 1,..., n (où n est le nombre d individus total interrogés). On suppose également qu il n y a pas de dépendance entre les consommations des individus, et donc que Cov(ε i1, ε i2 ) = 0 pour i 1 i 2. Cependant (supposons que) les données dont on dispose ne sont pas individuelles mais globalisées (sommées) pour des individus d une même région, et ce pour 20 régions de taille n j (j = 1,..., 20) différentes. Le modèle correspondant à ces données devrait donc plutôt s écrire : C j = β 0 + β 1 R j + ε j, j = 1,..., 20

17 3.1. QU ENTEND-ON PAR BRUIT COLORÉ? 17 où C j (resp. R j et ε j ) représente la consommation globale (resp. revenu global et bruit global) pour la j-ème région. Nous allons montrer que ce nouveau modèle appelé naturellement en statistiques modèle aggrégé constitue un modèle avec bruit coloré. Pour cela, calculons Var(ε j) = Var ε i i région j = Var(ε i ) i région j = n j Var(ε 1 ) = σ 2 n j Par ailleurs puisque les consommations individuelles sont indépendantes on a aussi : Cov(ε j 1, ε j 2 ) = 0 pour j 1 j 2. En rassemblant ces informations, on s aperçoit que la matrice de covariance du bruit s écrit n Σ ε =σ 2 0 n } 0... {{ 0 n 20 } σ 2 Ω Exemple 2 (deux groupes d individus) : Imaginons qu on souhaite étudier le même modèle que précédemment (modèle (3.3) liant la consommation individuelle au revenu mais que nos données correspondent à deux groupes d individus. Parmi les n individus interrogés, n 1 ont un revenu compris entre 1200 et 1500 euros et n 2 ont un salaire supérieur à 5000 euros. Il est assez naturel de penser que les fluctuations de la consommation ne soit pas les mêmes selon le revenu individuel. Pour des salaires modérés, on peut penser que la consommation fluctue en moyenne de euros alors que cette fluctuation pourrait être de euros pour des gens ayant de gros revenus. Pour prendre en compte cette différence de fluctuations (assez naturelle dans l exemple étudié), on peut par exemple modéliser la variance de ε t de la manière suivante : Var(ε t ) = { σ 2 1 t = 1,..., n 1 σ 2 2 t = n 1 + 1,..., n 2 si nos données ont été ordonnées de telle sorte que les n 1 premières correspondent au premier groupe d individus (revenu compris entre 1200 et 1500) et les n 2 secondes au second groupe (revenu supérieur à 5000 euros). Autrement dit, ceci revient à modéliser le bruit via sa matrice

18 18 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ de covariance de la manière suivante : σ σ Σ ε = 0 σ } {{ 0 σ 2 2 } σ 2 Ω Remarque : on pourrait aussi pourquoi pas modéliser la perturbation individuelle σ 2 i du revenu individuel par exemple de la manière suivante : σ 2 i = σ2 R i. en fonction Exemple 3 (autocorrélation d ordre 1 du bruit) : Le cas d autocorrélation des réalisations du bruit apparaît principalement dans des modèles faisant intervenir des séries chronologiques. Par exemple, le taux de chômage en 2004 ne sera pas sans rapport avec la valeur observée en Il est donc raisonnable de penser que les perturbations d un modèle estimé sur des séries chronologiques soient corrélées entre elles. Une des manières (les plus simples mais comprenez bien qu il en existe une infinité) de modéliser la corrélation entre les v.a. ε 1,..., ε n est de les définir via un processus AR(1) lui-même défini par : ε t = ρε t 1 + η t, t = 2,..., n avec ρ < 1 (3.4) Précisons que ε 1 = η 1. Pour tout t, η t est une v.a. centrée, de variance σ 2 η et non corrélée avec le passé de ε t. Calculons les coefficients de la matrice Σ ε. Commençons par les termes diagonaux : Var(ε t ) = Var(ρε t 1 + η t ) = ρ 2 Var(ε t 1 ) + Var(η t ) = ρ 2 Var(ε t ) + σ 2 η d où Var(ε t ) = σ2 η 1 ρ 2. Poursuivons, Cov(ε t, ε t 1 ) = Cov(ρε t 1 + η t, ε t 1 ) = ρ σ 2 η 1 ρ 2 En itérant ce calcul, on montre facilement que : Cov(ε t, ε t k ) = ρ k complètement la matrice Σ ε : 1 ρ... ρ n 1 Σ ε = σ 2 1. ρ 1... η }{{} 1 ρ σ ρ 2 } ρ n 1... {{ ρ 1 } Ω σ 2 η 1 ρ 2. Et ainsi, on décrit

19 3.2. MOINDRES CARRÉS GÉNÉRALISÉS Peut-on faire comme si de rien n était? La question abordée est : supposons que le vrai modèle soit un modèle linéaire avec bruit coloré, peut-on encore utiliser la méthode des M.C.O. pour estimer les paramètres. Les estimateurs gardent-ils les mêmes propriétés que lorsque le modèle est homoscédastique? On peut montrer que l estimateur M.C.O. dont nous rappelons qu il est calculé de la manière suivante : β MCO (Y x) = ( x T x ) 1 x T Y reste un estimateur sans biais mais ce n est plus le meilleur estimateur (au sens meilleur estimateur linéaire des observations non biaisé). Sachant cela, on peut se dire qu à près tout ça n est peut être pas si grave que ce ne soit pas le meilleur tant que l on parvient encore à estimer la précision des estimateurs (ces quantités sont importantes car rappelons qu elles sont à la base des tests de significativité locale entre autres). Or, le mathématicien nous précise que : Σ bβ MCO = σ 2 ( x T x ) 1 x T Ω x ( x T x ) 1 (3.5) A titre de rappel : la variance de β j (Y x) est le j ème élément diagonal de cette dernière matrice. La précision des estimateurs de la méthode des M.C.O. dépend donc de la nature du bruit coloré. Que cela signifie-t-il en pratique, i.e. en carricaturant si je tape la commande > summary(lm(y~x1+x2)) ## exemple à deux régresseurs alors que le vrai modèle liant Y à x 1 et x 2 est un modèle avec bruit coloré sans appliquer de correction ou de pré-traitement? les estimations que j obtiendrais seront relativement bonnes mais la précision des estimateurs n est pas bien estimée puisque l estimateur de la variance de β(y x) issu de l instruction précédente s écrit : σ 2 ( x T x ) 1 qui n est pas est un estimateur convergent de (3.5). Et donc si la précision des estimateurs n est pas bien estimée, les tests de significativité sont faussés et on peut faire une mauvaise interprétation quant à la significativité des régresseurs!!! Ce qui est plutôt gênant, convenons-en. Les sections suivantes tentent d apporter des solutions pratiques, des méthodologies pour résoudre ce problème. 3.2 Moindres carrés généralisés Fondement mathématique Dans la précédente section, nous précisions que l estimateur M.C.O. n est plus le meilleur estimateur lorsque le bruit est coloré. Comment doit-on procéder pour définir dans ces conditions le meilleur estimateur (linéaire non biaisé) lorsque le bruit est coloré? Rappelons qu il est bien connu que l estimateur des M.C.O. est le meilleur estimateur lorsque le bruit est blanc. Donc la méthode que nous allons mettre en oeuvre consiste à réaliser une transformation linéaire du modèle initial (3.2) pour se ramener à un bruit blanc. Définissons la matrice racine carrée de Ω 1/2 comme étant la matrice symétrique telle que : Ω 1/2 Ω 1/2 = Ω. On ne détaillera pas ici comment l on calcule la racine carrée d une matrice mais sachez qu il existe des algorithmes numériques performants implémentés dans de nombreux

20 20 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ logiciels de statistiques (et en particulier dans R). Regardons ce que donne le modèle initial transformé par la matrice Ω 1/2 (racine carrée inverse) : 1/2 x Ω 1/2 Y =Ω } {{ } } {{ } Y x β+ Ω 1/2 ε } {{ } ε Autrement dit on se ramène au nouveau modèle linéaire suivant : Calculons alors la matrice de covariance de ε : = E (Ω 1/2 ε T ε Ω 1/2) Σ ε Y = x β + ε (3.6) = Ω 1/2 σ 2 Ω Ω 1/2 = σ 2 I n (3.7) le bruit ε est un bruit blanc! Et donc très simplement, le meilleur estimateur de β du modèle (3.2) est l estimateur M.C.O. du modèle (3.6). Cette procédure s appelle la méthode des moindres carrés généralisés (méthode M.C.G.) et se résume brillamment par l équation ci-dessous : β MCG (Y x) = β MCO (Y x ) = β MCO ( ) Ω 1/2 Y Ω 1/2 x Matriciellement, l estimateur est donc défini par : β MCG (Y x) = ( x T x ) 1 x T Y = ( x T Ω 1 x ) 1 x T Ω 1 Y (3.8) Remarque : à la différence de l estimateur M.C.O., l estimateur des M.C.G. dépend de la nature du bruit coloré!! Et par conséquent pour être appliquée telle qu elle est il est nécessaire que la matrice Ω soit connue Propriétés L estimateur des M.C.G. est évidemment sans biais et de variance minimale parmi tous les estimateurs non biaisés qui sont linéaires en les observations. Il est également possible d obtenir mathématiquement l expression de son niveau de précision, de sa matrice de covariance : Σ bβ MCG = σ 2 ( x T Ω 1 x ) 1 (3.9) On peut estimer le niveau du bruit σ 2 comme dans un modèle linéaire classique σ 2 (Y x) = 1 n p 1 mais cette fois-ci les résidus sont calculés comme suit : ε = Ω 1/2 Y Ω 1/2 x β MCG. On peut alors estimer la variance de β MCG j très facilement n i=1 σ 2 MCG β b (Y x) = σ 2 (Y x) ( x T Ω 1 x ) 1 j ε 2 i

21 3.2. MOINDRES CARRÉS GÉNÉRALISÉS 21 et on peut encore montrer (entre autres) que bβ MCG j (Y x) β j bσ bβ MCG(Y x) j St(n p 1) si le vecteur ε est supposé gaussien approx. St(n p 1) si n est grand ce qui permet à nouveau d envisager des tests de significativité locale. Comment ça marche en R L implémentation dans R du calcul des estimations, des précisions des estimateurs, de la p valeur des tests de significativité locale,...est extrêmement simple car tout est basé sur le fait que la méthode des M.C.G. n est rien d autre qu un changement de variables. ## pour l exemple on a part d un modèle linéaire y~x1+x2 ## pour rappel les estimateurs issus de la méthode M.C.O. > summary(lm(y~x1+x2)) ## si le bruit est modélisé par une matrice de covariance Omega ## et que la matrice Omega^{-1/2} a été calculée au préalable ## et stockée dans une matrice M > x <- cbind(1,x1,x2) > summary(lm(m%*%y~m%*%x-1)) Retour sur les exemples Ici, nous souhaitons détailler comment s effectue la procédure des moindres carrés généralisés pour les trois exemples présentés et plus spécialement comment s écrit la matrice inverse de la matrice Ω nécessaire pour évaluer l expression (3.8). Pour faire ceci, nous supposons que la matrice de covariance du bruit est connue (l applicabilité sera discutée plus tard). Exemple 1 (modèle aggrégé) : La matrice Ω étant diagonale, il n y a pas de problème pour établir que 1 n Ω 1/2.. = n n20 Exemple 2 (modèle aggrégé) : Idem, la matrice Ω étant diagonale, 1 σ Ω 1/ σ = σ σ 2

22 22 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ Exemple 3 (autocorrélation d ordre 1 du bruit) : Cet exemple pourrait a priori poser des problèmes étant donnée la complexité de la matrice Ω et pourtant les mathématiciens savent calculer exactement cette matrice inverse (car il s agit d une forme de matrice bien connue appelée matrice de Vaan der Monde). On obtient ainsi 1 ρ ρ... Ω 1/2 = ρ ρ Que faire lorsque la nature du bruit coloré est inconnue? Pourquoi une telle section? C est bien simple parfois la modélisation que l on fait du bruit dépend de paramètres inconnus en pratique ou même parfois on ne sait pas modéliser le bruit tout en ayant conscience qu il n est certainement pas blanc. C est le cas des exemples 2 et 3 présentés précédemment. Remarquons que pour l exemple 1 (modèle agrégé) la matrice Ω ne dépend que des nombres d individus dans chacune des régions qui sont évidemment connus. Et donc cet exemple ne rentre pas dans cette section car la procédure des moindres carrés s adapte sans aucun problème Continuer à utiliser l estimateur des M.C.O. Comme nous l avons vu en introduction, l estimateur des M.C.O. n est pas tant détérioré que cela lorsque le bruit est de nature coloré puisque certes il n est plus de variance minimale, mais reste sans biais. Le problème réside dans le fait que si le bruit du modèle est coloré et que l on n en tient pas compte la précision des estimateurs n est pas bien estimée. C est sur ce point qu est dédié cette section. Précisons que tout ce qui suit n est possible que si le bruit est hétéroscédastique (le cas d autocorrélation ne peut être traité comme suit). Mathématiquement le problème consiste donc à trouver un estimateur de Σ bβ MCO = σ 2 ( x T x ) 1 x T Ω x ( x T x ) 1 MacKinnon et White (1985) ont proposé plusieurs estimateurs de cette matrice en utilisant les résidus estimés issus de la méthode des M.C.O. Nous présentons simplement celui que Long et Ervin (1998) ont jugé (par une étude de simulation assez complète) le meilleur quand le jeu de données est de taille inférieure à 250 (ce qui est tout de même la pluart du temps le cas). Ils proposent simplement d estimer la matrice σ 2 Ω (qui est diagonale puisque nous supposons que le bruit est hétéroscédastique) par la matrice diagonale de composantes : bε 2 i (1 H ii) 2 pour i = 1,..., n où H ii est le i ème élément diagonal de la matrice H = x ( x T x ) 1 x T et où le vecteur ε est le vecteur des résidus estimés issus de la méthode M.C.O. Ils proposent de noter l estimateur de la matrice de covariance associé par HC3 (third version of heteroskedastic correction covariance matrix) : HC3 = ( x T x ) ( ) 1 x T ε 2 i diag (1 H ii ) 2 x ( x T x ) 1

23 3.3. QUE FAIRE LORSQUE LA NATURE DU BRUIT COLORÉ EST INCONNUE? 23 Comment ça marche en R Comme d habitude tout pourrait paraître compliqué si R ne savait intégrer cette correction sur les précisions estimées des estimateurs. La fonction réalisant la correction des variances est hccm(...) et se trouve dans le package car (> require(car) pour y avoir accès). Dans les exemples ci-dessous formule est une formule R classique définissant un modèle dont vous suspectez être porteur d un bruit hétéroscédastique : ## matrice de cov des estimateurs MCO estimée ## correction de l hétéroscédasicité > hccm(lm(f),type="hc3") ## ce qui n est pas fait : le calcul des nouvelles p-valeurs ## des tests de significativité locale Méthode des moindres carrés quasi-généralisés (M.C.Q.G.) Généralités En pratique, on ne connaît pas toujours la matrice Ω, ce qui rend la méthode M.C.G. inapplicable en l état. Le principe de la méthode M.C.Q.G. est extrêmement simple puisqu elle consiste à remplacer Ω par une estimation de cette matrice. Elle se décompose donc en deux étapes : 1. estimation de la matrice de covariance du bruit Ω. 2. calcul de l estimateur M.C.G. en remplaçant Ω par Ω. Un peu comme précédemment, on pourrait résumer la méthode par la (très belle) formule suivante : β MCQG (Y x) = β MCO ( Ω 1/2 Y Ω 1/2 x ) Ce qui donne matriciellement (en remplaçant Ω 1 par Ω 1 dans l expression (3.8) : β MCG (Y x) = ( x T Ω 1 x ) 1 x T Ω 1 Y (3.10) Attention : les dernières formules cachent une difficulté qu il faut de suite mettre en exergue : comment faire pour estimer la matrice Ω 1? Si on ne paramètrise pas la matrice Ω on s aperçoit de la chose suivante : si le modèle est hétéroscédastique : on peut avoir n paramètres à estimer. si les v.a. ε 1,..., ε n sont homoscédastiques mais non indépendantes : on peut avoir n(n 1) 2 paramètres à estimer. si les v.a. ε 1,..., ε n sont hétéroscédastiques et non indépendantes : on peut avoir n(n+1) 2 paramètres à estimer. Inutile d en dire beaucoup plus, si on ne paramétrise pas la matrice de covariance du bruit, on a au moins n paramètres à estimer avec n observations tâche qu un statisticien se refuse de faire. L idée est donc de paramétriser Ω par un vecteur de paramètres disons θ ayant un faible nombre de composantes. Illustrons cette notion sur les exemples : Exemple 1 (modèle aggrégé) : Ω est connue. Exemple 2 (deux groupes d individus) : Ω est paramétrée par θ = ( σ 2 1, σ 2 2) T. Exemple 3 (autocorrélation d ordre 1) : Ω n est paramétrée que par ρ. Si l on ne fait pas d hypothèse sur la distribution du bruit, il n existe pas de méthode standard pour estimer le vecteur θ (dans le cas contraire par exemple où l on spécifie que le bruit est

24 24 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ gaussien on peut utiliser une méthode type maximum de vraisemblance, pas toujours facile à mettre en oeuvre) et cela dépend en grande partie de comment est paramétrée la matrice de covariance. Outrepassons ce problème et supposons que l on sache définir pour une problématique donnée un bon estimateur de θ disons θ (il faut mathématiquement que θ converge en probabilité vers θ ce qui est le cas pour les exemples considérés) permettant de définir Ω 1. Dans ces conditions, MCG on peut estimer la variance de β j : σ 2 MCG β b (Y x) = σ ) 1 2 (Y x) (x T Ω 1 x j où désormais σ 2 est calculé à partir des résidus eux-mêmes évalués avec l estimateur M.C.Q.G. Et on peut ainsi montrer (entre autres) que lorsque n est grand bβ MCQG j (Y x) β j bσ bβ MCG(Y x) j approx. St(n p 1) ce qui permet à nouveau d envisager des tests de significativité locale. La méthode en action pour les exemples Exemple 1 (modèle agrégé) : Z avez pas suivi ou quoi, on a dit qu il n y en avait pas besoin car la méthode des M.C.G. peut s appliquer directement. Exemple 2 (deux groupes d individus) : Il s agit d estimer σ 2 1 et σ 2 2. Une des manières (mais il peut en exister bien d autres) consiste à les estimer séparément en considérant deux régressions linéaires simples différentes mais chacune avec bruit blanc. Autrement dit, on pourrait les définir comme on le ferait pour un modèle linéaire avec bruit blanc : σ 2 1 = 1 n 1 2 σ 2 2 = 1 n 2 2 n 1 ε 2 t,1 t=1 n 2 ε 2 t,2 t=1 où le vecteur ε 1 (resp. ε 2 ) représente le vecteur des résidus en régressant la consommation sur le revenu uniquement pour les individus du premier groupe (resp. deuxième groupe) via la méthode des M.C.O. Et ainsi trivialement, Ω 1 = 1 cσ cσ cσ cσ 2 2

25 3.4. DÉTECTION D UN BRUIT COLORÉ 25 Exemple 3 (autocorrélation d ordre 1 du bruit) : Une des idées pour estimer le paramètre ρ résulte de la définition du processus AR(1) (3.4). Si l on disposait des observations du vecteur ε on pourrait estimer ρ en régressant ε t sur ε t 1 pour t = 2,..., n. Comme on ne dispose pas de ε on le remplace par le vecteur des résidus ε MCO obtenus par M.C.O. En résumé une estimation de ρ est donnée par : ρ = n t=2 εmco t n t=2 ( ε MCO t 1 ε MCO t 1 ) 2 Et ainsi tout comme l exemple précédent on estime facilement la matrice inverse de la matrice Ω : 1 ρ ρ 1 + ρ 2. ρ.... Ω = ρ 2 ρ ρ 1 Comment ça marche en R Voir la partie méthode des M.C.G. L implémentation ne change pas car il suffit de remplacer Omega par son estimation. 3.4 Détection d un bruit coloré Pourquoi? Une détection peut être utile si l on soupçonne une forme particulière d hétéroscédasticité et/ou d autocorrélation, ceci en vue de corriger les estimations (et donc les tests de significativité locale) par une méthode M.C.Q.G. ne servir à rien si l on ne parvient pas à définir un a priori sur la nature du bruit coloré que l on voudra tester et que l on applique en automatique la correction type White pour estimer la précision des estimateurs M.C.O Un moyen universel : tracé des résidus M.C.O. Rappelons pour commencer que nous définissons les résidus M.C.O. par : ε = y x β MCO Le tracé des résidus issus de la méthode des M.C.O. est une idée assez triviale car les résidus sont les estimations des ε i non observées et pourtant souvent révélatrices de beaucoup d informations. En effet, en traçant les résidus, on peut espérer repérer retrouver de l information sur le fait que les ε i n aient pas été générées avec la même variance ou que ces ε i sont dépendantes.

26 26 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ Examinons quelques exemples. Commençons par illustrer la figure Fig. 3.1 exhibant quelques cas qui pourraient survenir en pratique et traduire un phénomène d hétéroscédasticité. Dans ces 4 graphiques, nous avons volontairement omis de présenter en fonction de quoi ont été tracés les résultats, cette question étant laissé au soin du praticien qui choisira soit les valeurs prédites (de la variable expliquée ŷ), soit un régresseur qu il soupçonne être porteur de la maladie (comme le régresseur revenu dans l exemple 2). Ceci étant dit, revenons à l analyse. La question est donc : supposons que nos données et le modèle envisagé soit tels que le tracé des résidus M.C.O. ressemble à tel ou tel grpahique comment dois-je interpréter? graphique (a) : les résidus semblent sans structure apparente et relativement homogènes en terme de variabilité. L hypothèse d homoscédasticité et d indépendance des ε i ne semble (tout ceci n est que visuel) pas déraisonnée. graphique (b) : les résidus semblent clairement ne pas avoir été générés avec la même variance : forte variabilité pour les premières observations puis très faible variabilité pour les dernières observations. graphique (c) : l homoscédasticité du modèle n est pas appropriée ; la variance du bruit semble augmenter en fonction de la quantité définissant l abscisse. graphique (d) : à nouveau l hypothèse d homoscédasticité ne semble pas adaptée puisque l on décèle à l oeil trois niveaux de variabilité différente. Fig. 3.1 Exemples de tracés de résidus permettant une détection visuelle d un phénomène d hétéroscédasticité. Illustrons à présent le cas où les données sont temporelles, figure Fig Dans ce cas tracer les résidus en fonction du temps peut faire apparaître une structure sur les résidus. Commençons par regarder les graphiques (a), (b) et (c) représentant des résidus tracés en fonction du temps. Au contraire du graphique (a) les graphiques (b) et (c) semblent très structurés. Pour le graphique (b), une valeur au temps t semble positivement corrélée à (i.e. semble aller dans

27 3.4. DÉTECTION D UN BRUIT COLORÉ 27 le même sens que ) la précedente. En ce qui concerne, le graphique (c), une valeur au temps t semble corrélée négativement (i.e. semble aller dans le sens opposé ) à la précédente. Ainsi l hypothèse d indépendance des ε i ne semble pas déraisonnée pour l exemple (a) mais relativement infondée pour les exemples (b) et (c). Regardons à présent les graphiques (a-bis), (b-bis) et (c-bis) qui peuvent donner une idée de modélisation pour le bruit comme alternative au bruit blanc. En effet, il existe un moyen graphique pour savoir si une modélisation de type AR(1) serait adéquate. Celui-ci résulte de la définition du processus AR(1) : ε t ρε t 1. En remplaçant les ε t par les résidus M.C.O., on peut avoir espoir que si on trace les résidus en t en fonction des résidus en (t-1) ceux-ci soient approximativement alignés autour d une droite.c est justement ce qui semble se produire pour les exemples (b) et (c). Le graphique (b-bis) (associé vous l aurez compris à l exemple (b)) suggère de modéliser le bruit par un AR(1) avec un coefficient ρ > 0. Le graphique (c-bis) suggère plutôt de modéliser l exemple (c) par un AR(1) avec un coefficient ρ < 0. Le graphique (a-bis) quant à lui tout comme le graphique (a) semble sans structure. Fig. 3.2 Exemple de tracés de résidus permettant une détection visuelle de la corrélation entre les ε i. En bref, on peut tracer les résidus en fonction des valeurs prédites ou en fonction d une des variables explicatives que l on soupçonne d induire de l hétéroscédasticité. en fonction du temps s il s agit de données temporelles pour détecter une éventuelle dépendance des résidus. Comment ça marche en R Dans l exemple ci-dessous formule est une formule R classique définissant le modèle. > summary(regression <- lm(f) ) > resid <- residuals(regression)

28 28 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ ## tracé des résidus bruts (en fonction de l indice d observation) : > plot(resid) ## en fonction des valeurs prédites : > plot(resid)~fitted(reg)) ## si x1 est un régresseur dont on soupconne qu il engendre une hétéroscédasticité : > plot(resid~x1 ) ## relier les points par un segment (utile si les données sont temporelles) : > plot(resid,type= l ) ## tracé des résidus en t en fonction des résidus en t-1 : > plot(resid[-1]~resid[-length(resid)],type= l ) Test de détection d hétéroscédasticité Il existe une multitude de procédures pour tester l hétéroscédasticité. Chacun d entre eux correspond à une hypothèse que l on fait a priori sur la nature de l hétéroscédasticité, sa paramétrisation. Test de Goldfeld et Quandt Ce test repose sur l idée que la variance des perturbations peut être une fonction croissante d une (et une seule) variable observée. Comment ça marche en R? La fonction réalisant le test est gqtest(...) et se trouve dans le package lmtest (> require(lmtest) pour y avoir accès). Dans l exemple ci-dessous formule est une formule R classique définissant le modèle. ## test de Goldfeld-Quandt > gqtest(formule, point=t) ## T : indice d observation où l échantillon est coupé en deux. ## Rmq : si T<1 i.e. exprimé comme un pourcentage de n, ## l échantillon est coupé à n*t Test de Breusch et Pagan Ce test suppose que l hétéroscédasticité est de la forme : σ 2 i = g ( x T Q,i θ), où g est une fonction positive non spécifiée, x Q,i un ensemble de q régresseurs observés pour le i-ème individu, et où θ est un vecteur de dimension q de paramètres inconnus. En supposant cette forme paramétrique, le test s écrit : H 0 : θ 1 = θ 2 =... = θ q = 0 contre H 1 : i Q, θ i 0. La statistique de test à calculer N Rbε 2, où R2 bε est le coefficient de détermination multiple des résidus issus de la méthode des M.C.O. sur les variables x Q. Breusch et Pagan ont alors montré que sous H 0 : N Rbε 2 χ2 q 1, lorsque N +

29 3.4. DÉTECTION D UN BRUIT COLORÉ 29 Comment ça marche en R? La fonction réalisant le test est bptest(...) et se trouve dans le package lmtest (> require(lmtest) pour y avoir accès). Dans les exemples ci-dessous formule est une formule R classique définissant le modèle. ## test de Breusch-Pagan : l ensemble Q = tous les régresseurs. > bptest(formule) ## test de Breusch-Pagan : l ensemble Q = peut etre spécifié par une ## deuxième formule (disons formule2) dans le paramètre varformula > bptest(formule, varformula=formule2) Test de détection de l autocorrélation d ordre 1 du bruit : test de Durbin-Watson Durbin et Watson ont mis en place un test en 1950 pour détecter l autocorrélation d ordre 1. Les hypothèses sont très simples à établir : en effet si on suppose que le bruit est issu d un processus AR(1), la dépendance des variables ne dépend que de ρ et on sait (sinon référez vous à la définition du processus) que l indépendance est caractérisée par le fait que ρ = 0. D où les hypothèses suivantes : H 0 : ρ = 0 contre H 1 : ρ 0 La statistique de test appelée statistique de Durbin-Watson est calculée comme suit : D-W = ( ) 2 n 1 t=1 ε MCO t+1 ε MCO t ) 2 n t=1 ( ε MCO t où le vecteur ε MCO est le vecteur des résidus obtenus par la méthode des M.C.O. Le comportement aléatoire de D W ne correspond à aucune loi standard. Durbin et Watson à l origine sont parvenus à encadrer cette v.a. entre deux v.a. dont la loi était plus standard et à évaluer ainsi des zones d acceptation. Cependant avec le progés des ordinateurs, tout logiciel statistique digne de ce nom (donc R!!!) sait évaluer approximativement (par simulations) la p valeur du test de Durbin-Watson. Comment ça marche en R? La fonction réalisant le test est durbin.watson(...) et se trouve dans le package car (> require(car) pour y avoir accès). Dans les exemples ci-dessous formule est une formule R classique définissant le modèle. ## test de durbin watson : p-valeur simulée par bootstrap <=> pas d hypothèse ## sur la distribution du bruit : > durbin.watson(lm(formule)) ## si on suppose que les données sont gaussiennes. > durbin.watson(lm(formule),method="normal") ## pour tester rho>0 > durbin.watson(lm(formule),alternative="positive")

30 30 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ ## pour tester rho<0 > durbin.watson(lm(formule),alternative="negative") 3.5 Pratique sur des jeux de données Données agrégées 1 > exemple1 2 consoglob revenuglob nbreregion > ## méthode MCO 14 > summary(regmco <- lm(consoglob~revenuglob)) Call: 17 lm(formula = consoglob ~ revenuglob) Residuals: 20 Min 1Q Median 3Q Max Coefficients: 24 Estimate Std. Error t value Pr(> t ) 25 (Intercept) revenuglob e-15 *** Signif. codes: 0 *** ** 0.01 * Residual standard error: on 48 degrees of freedom 31 Multiple R-Squared: 0.731, Adjusted R-squared: F-statistic: on 1 and 48 DF, p-value: 2.739e > plot(residuals(regmco),xlab="région",ylab="résidus MCO") > ## correction des écarts-types des estimateurs MCO 36 > sqrt(diag(hccm(regmco))) 37 (Intercept) revenuglob > ## méthode MCG 41 > M<-diag(sqrt(nbreRegion)) 42 > x <- cbind(1,revenuglob)

31 3.5. PRATIQUE SUR DES JEUX DE DONNÉES > summary(regmcg<-lm(m%*%consoglob~m%*%x-1)) 44 > ## super R2!!!!!!!!!!!!!!!! 45 > plot(residuals(regmcg),xlab="région",ylab="résidus MCG")

32 32 CHAPITRE 3. MODÈLES LINÉAIRES AVEC BRUIT COLORÉ Exemple de bruit AR(1) 1 > investment 2 year inv gnp priceind > n <- nrow(investment) 24 > realinv <- inv/priceind 25 > realgnp <- gnp/priceind 26 > summary(lm(realinv~realgnp)->regmco) Call: 29 lm(formula = realinv ~ realgnp) Residuals: 32 Min 1Q Median 3Q Max Coefficients: 36 Estimate Std. Error t value Pr(> t ) 37 (Intercept) realgnp e-08 *** Signif. codes: 0 *** ** 0.01 * Residual standard error: on 18 degrees of freedom 43 Multiple R-Squared: , Adjusted R-squared: F-statistic: 92.9 on 1 and 18 DF, p-value: 1.570e > plot(residuals(regmco),xlab="temps",ylab="résidus MCO",type="l") > ## correction des écarts-types des estimateurs MCO

33 3.5. PRATIQUE SUR DES JEUX DE DONNÉES > sqrt(diag(hccm(regmco))) 49 (Intercept) realgnp > ## test de Durbin-Watson 53 > require(lmtest) 54 > durbin.watson(regmco) 55 lag Autocorrelation D-W Statistic p-value Alternative hypothesis: rho!= > ## estimation de rho 60 > resid <- residuals(regmco) 61 > rhoest<-as.vector(lm( resid[-n]~resid[-1])$coeff[2]) 62 > rhoest 63 [1] > ## construction de M=OmegaChapo^(-1/2) 66 > M <- toeplitz(c(1,-rhoest,rep(0,n-2))) 67 > M[n,n] <- sqrt(1-rhoest^2) > ## estimation MCG 70 > x <- cbind(1,realgnp) 71 > summary(regmcg <- lm(m%*%realinv~m%*%x-1)) Call: 74 lm(formula = M %*% realinv ~ M %*% x - 1) Residuals: 77 Min 1Q Median 3Q Max Coefficients: 81 Estimate Std. Error t value Pr(> t ) 82 M %*% x M %*% xrealgnp e-06 *** Signif. codes: 0 *** ** 0.01 * Residual standard error: on 18 degrees of freedom 88 Multiple R-Squared: , Adjusted R-squared: F-statistic: on 2 and 18 DF, p-value: < 2.2e > ## a faire super R2 91 > plot(residuals(regmcg),xlab="temps",ylab="résidus MCG",type="l") > ## test de Durbin-Watson sur les résidus MCG 94 > durbin.watson(regmcg) 95 lag Autocorrelation D-W Statistic p-value

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

MODELE A CORRECTION D ERREUR ET APPLICATIONS

MODELE A CORRECTION D ERREUR ET APPLICATIONS MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012. FOAD COURS D ECONOMETRIE CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 202. Christine Maurel Maître de conférences en Sciences Economiques Université de Toulouse - Capitole Toulouse School of Economics-ARQADE

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2. Eo7 Calculs de déterminants Fiche corrigée par Arnaud Bodin Eercice Calculer les déterminants des matrices suivantes : Correction Vidéo ( ) 0 6 7 3 4 5 8 4 5 6 0 3 4 5 5 6 7 0 3 5 4 3 0 3 0 0 3 0 0 0 3

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales Pierre Thomas Léger IEA, HEC Montréal 2013 Table des matières 1 Introduction 2 2 Spécifications

Plus en détail

Modèles Estimés sur Données de Panel

Modèles Estimés sur Données de Panel Modèles Estimés sur Données de Panel Introduction Il est fréquent en économétrie qu on ait à composer avec des données à deux dimensions : - une dimension chronologique - une dimension spatiale Par exemple,

Plus en détail

Cours de Tests paramétriques

Cours de Tests paramétriques Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Chapitre 1 : Évolution COURS

Chapitre 1 : Évolution COURS Chapitre 1 : Évolution COURS OBJECTIFS DU CHAPITRE Savoir déterminer le taux d évolution, le coefficient multiplicateur et l indice en base d une évolution. Connaître les liens entre ces notions et savoir

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme? Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version

Plus en détail

Programmation linéaire et Optimisation. Didier Smets

Programmation linéaire et Optimisation. Didier Smets Programmation linéaire et Optimisation Didier Smets Chapitre 1 Un problème d optimisation linéaire en dimension 2 On considère le cas d un fabricant d automobiles qui propose deux modèles à la vente, des

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Le théorème des deux fonds et la gestion indicielle

Le théorème des deux fonds et la gestion indicielle Le théorème des deux fonds et la gestion indicielle Philippe Bernard Ingénierie Economique& Financière Université Paris-Dauphine mars 2013 Les premiers fonds indiciels futent lancés aux Etats-Unis par

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

Économetrie non paramétrique I. Estimation d une densité

Économetrie non paramétrique I. Estimation d une densité Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Imputation du salaire d ego dans TeO

Imputation du salaire d ego dans TeO Imputation du salaire d ego dans TeO Objet de la note : linéariser la réponse en tranche du salaire, et imputer le salaire en cas de non réponse Champ et principe de la méthode Les individus qui se sont

Plus en détail

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1 Master IMEA Calcul Stochastique et Finance Feuille de T.D. n o Corrigé exercices8et9 8. On considère un modèle Cox-Ross-Rubinstein de marché (B,S) à trois étapes. On suppose que S = C et que les facteurs

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Suites numériques 4. 1 Autres recettes pour calculer les limites

Suites numériques 4. 1 Autres recettes pour calculer les limites Suites numériques 4 1 Autres recettes pour calculer les limites La propriété suivante permet de calculer certaines limites comme on verra dans les exemples qui suivent. Propriété 1. Si u n l et fx) est

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Chapitre 5 : Flot maximal dans un graphe

Chapitre 5 : Flot maximal dans un graphe Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices Corrigés Premières notions sur les espaces vectoriels Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Notion de fonction. Résolution graphique. Fonction affine.

Notion de fonction. Résolution graphique. Fonction affine. TABLE DES MATIÈRES 1 Notion de fonction. Résolution graphique. Fonction affine. Paul Milan LMA Seconde le 12 décembre 2011 Table des matières 1 Fonction numérique 2 1.1 Introduction.................................

Plus en détail

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 10 avril 2014 à 9 h 30 «Carrières salariales et retraites dans les secteurs et public» Document N 9 Document de travail, n engage pas le Conseil Simulation

Plus en détail

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas Fiche TD avec le logiciel : tdr335 Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas F. Menu, A.B. Dufour, E. Desouhant et I. Amat La fiche permet de se familiariser

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

Le financement adossé de l immobilier en gestion de patrimoine : une modélisation simple

Le financement adossé de l immobilier en gestion de patrimoine : une modélisation simple Le financement adossé de l immobilier en gestion de patrimoine : une modélisation simple Laurent Batsch ahier de recherche n 2005-01 Le financement adossé est une des modalités de financement de l investissement

Plus en détail

Probabilités Loi binomiale Exercices corrigés

Probabilités Loi binomiale Exercices corrigés Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre

Plus en détail

Théorie Financière 2. Valeur actuelle Evaluation d obligations

Théorie Financière 2. Valeur actuelle Evaluation d obligations Théorie Financière 2. Valeur actuelle Evaluation d obligations Objectifs de la session. Comprendre les calculs de Valeur Actuelle (VA, Present Value, PV) Formule générale, facteur d actualisation (discount

Plus en détail

Apprentissage par renforcement (1a/3)

Apprentissage par renforcement (1a/3) Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

LES TOUT PREMIERS PAS

LES TOUT PREMIERS PAS DESMODO, un logiciel de gestion d idées http://www.desmodo.net/ LES TOUT PREMIERS PAS Desmodo est un logiciel (libre) qui permet, entre autre, de visualiser et de synthétiser, de manière organisée, sous

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Exercices de dénombrement

Exercices de dénombrement Exercices de dénombrement Exercice En turbo Pascal, un entier relatif (type integer) est codé sur 6 bits. Cela signifie que l'on réserve 6 cases mémoires contenant des "0" ou des "" pour écrire un entier.

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

Modèle GARCH Application à la prévision de la volatilité

Modèle GARCH Application à la prévision de la volatilité Modèle GARCH Application à la prévision de la volatilité Olivier Roustant Ecole des Mines de St-Etienne 3A - Finance Quantitative Décembre 2007 1 Objectifs Améliorer la modélisation de Black et Scholes

Plus en détail

Les modèles de choix binaire

Les modèles de choix binaire Chapitre 4 Les modèles de choix binaire Les modèles de régression linéaire développés ci-dessus concernent une variable dépendante continue (comme par exemple le salaire ou le taux de chômage). Ce chapitre

Plus en détail

Complément d information concernant la fiche de concordance

Complément d information concernant la fiche de concordance Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours

Plus en détail

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème. I. Introduction. 1. Objectifs. Le but de ces quelques séances est d introduire les outils mathématiques, plus précisément ceux de nature probabiliste, qui interviennent dans les modèles financiers ; nous

Plus en détail

Gestion obligataire passive

Gestion obligataire passive Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail