Évaluation de la régression bornée
|
|
- Marie-Françoise Solange Denis
- il y a 8 ans
- Total affichages :
Transcription
1 Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement dans les secteurs de l assurance, de la banque et du marketing. Il permet de déterminer les variables explicatives qui interviennent dans le risque mesuré chez les assurés et dans les choix effectuées par la clientèle, et d en effectuer des estimations lorsqu ils sont inconnus. Le problème considéré dans cet article apparaît lorsque ces variables sont liées statistiquement, par exemple le revenu et la catégorie socioprofessionnelle. Les estimations données par le critère des moindres carrés ordinaires deviennent alors instables et peuvent prendre des valeurs en contradiction avec les valeurs réelles. Il existe de nombreuses méthodes adaptées à ce type de données. Nous proposons ici d évaluer l efficacité de la régression bornée en procédant par simulations. Les résultats sur ces données sont clairs : le gain en précision et en stabilité des coefficients de régression est impressionnant. 1Introduction Le modèle linéaire est une des méthodes statistiques les plus employées dans les sciences de l homme et de la société. Il donne en effet une réponse à la question récurrente de l effet propre d une variable sur une autre. En assurance automobile par exemple, la question pourrait être : l âge du conducteur joue-t-il un rôle dans le risque d accident indépendamment des autres facteurs? Ce risque dépend-il de son sexe toutes choses égales par ailleurs? Pour répondre à ces questions, on effectue la régression du risque par les facteurs d accident, et on étudie chacun des coefficients de régression de l âge et du sexe : la réponse est considérée comme positive si ce coefficient est significativement non nul. L hypothèse «toutes choses égales par ailleurs», formalisée par le choix des variables explicatives du modèle linéaire, est toutefois très discutée depuis fort longtemps parce qu elle ouvre la porte à des abus flagrants (Simiand, 1932). Sa formalisation demande beaucoup de précautions pour éviter des contradictions internes. Ces dernières se manifestent au plan mathématique par une relation linéaire exacte entre les variables explicatives. Dans ce dernier cas, l analyse statistique est impossible, la matrice de corrélation n étant pas inversible. Ces contradictions ne sont pas toujours totales. Il existe des situations dans lesquelles les variables explicatives ne sont pas liées au sens linéaire du terme (il n existe pas de combinaison linéaire strictement égale à 0), mais le sont au sens statistique ( il existe une combinaison linéaire «presque» égale à 0). L estimateur des moindres carrés ordinaires devient alors peu précis, et on est amené à utiliser d autres estimateurs dont les plus classiques sont ceux de la régression orthogonale (les variables explicatives sont choisies parmi les composantes principales de variance suffisante) et de la régression bornée que nous étudions ci-dessous.
2 Après avoir défini l estimateur de la régression bornée (ou ridge regression) introduite par Hoerl et Kennard en 1970, nous donnons quelques exemples des conséquences de la colinéarité statistique entre les variables explicatives d un modèle linéaire. Pour pouvoir comparer les estimations aux valeurs réelles des coefficients de régression, nous avons procédé par simulation. La généralisation de cette procédure donne un échantillon de l estimateur borné et par suite une estimation de l erreur quadratique moyenne. La comparaison de cette estimation avec l erreur quadratique de l estimateur des moindres carrés ordinaires montre clairement que la régression bornée améliore considérablement les estimations lorsqu il existe une colinéarité statistique entre les variables explicatives. Les données analysées dans cet article et les logiciels utilisés sont disponibles à l adresse suivante : (rubrique colinéarité). 2Colinéarité et modèle linéaire. 2.1 Estimateurs dans le modèle linéaire Le modèle linéaire consiste à représenter une relation entre une variable expliquée notée Y et p variables explicatives X 1, X 2,, X p par l équation ci-dessous : Y = β 0 + β 1 X 1 + β 2 X β j X j β p X p + ε dans laquelle : 1.les coefficients β j, j = 1, p, sont des paramètres théoriques appelés coefficients de régression ; 2.la variable ε est une variable aléatoire appelée variable résiduelle, centrée et de variance σ 2 appelée variance résiduelle, indépendante des variables explicatives ; 3.on suppose fréquemment que la variable ε suit la loi normale N(0,σ). Dans toute la suite du texte, les variables explicatives sont centrées et réduites et la variable résiduelle suit la loi normale. On considère un échantillon de taille n du vecteur (Y, X 1,, X p). On note X la matrice de n lignes et p colonnes contenant les observations x i,j (i = 1,, n et j = 1,, p) des variables X j et Y la matrice colonne contenant les observations y i (i = 1, n) de la variable Y. La matrice R définie ci-dessous est la matrice des corrélations observées : 1 R = n X t X L estimateur B des moindres carrés ordinaires du vecteur β = (β 1,, β p) t est égal à : 1 B = n R -1 X t Y
3 Thierry Foucart C est un estimateur efficace (de variance minimale dans la classe des estimateurs sans biais). On note b = (b 1,, b p) t l observation du vecteur B et b 0 l estimation de β 0 déduite des moyennes observées des variables Y et X j, j = 1,, p. La matrice variance V B de l estimateur B est égale à : σ 2 V B = R -1 n Le coefficient de détermination noté R 2 est le carré du coefficient de corrélation entre les valeurs observées y i, i = 1,, n et les valeurs estimées par le modèle y i : y i = b 0 + b 1 x i,1 + + b j x i,j b p x i,p Les résidus e i (i = 1,, n) sont les différences entre les valeurs observées de Y et les valeurs estimées : i = 1,, n e i = y i y i On sait que les résidus sont centrés et non corrélés aux variables explicatives. L estimation sans biais de la variance résiduelle σ 2 est donnée par : 1 n s 2 = Σ 2 e i n p 1 i = Colinéarité et estimateur borné. Les effets de la colinéarité entre les variables explicatives résultent de l inversion de la matrice R dans le calcul de l estimateur B et de sa matrice variance V B. La colinéarité crée tout d abord une grande instabilité des estimations des coefficients de régression : les variances des estimateurs, proportionnelles aux termes diagonaux de R -1, sont particulièrement élevées. Les signes des coefficients estimés peuvent même être contraires à ceux des vraies valeurs. Le coefficient de détermination R 2 peut aussi devenir très instable (Foucart, 2000). L interprétation des résultats est finalement sujette à caution. Il n est pas toujours facile de détecter cette colinéarité par une simple lecture de la matrice R. En effet, cette colinéarité apparaît lorsqu un coefficient de corrélation est proche d une des bornes de l intervalle dans lequel il peut varier conditionnellement aux autres (Foucart, 1997). On la recherche en examinant les valeurs propres de la matrice R et des indices comme les facteurs d inflation (termes diagonaux de la matrice R -1 ), l indice de conditionnement (inverse de la plus petite valeur propre de la matrice R) et l indice de multicolinéarité (moyenne des facteurs d inflation) : une petite valeur propre et des indices élevés indiquent une colinéarité statistique. On pourra sur ces points consulter l ouvrage de Tomassone «La régression» (Masson, 1992). Les procédures de simulation utilisée cidessous visualisent dans un premier temps ces propriétés connues au plan mathématique. Elles montrent aussi que la régression bornée (ou ridge regression) proposée par Hoerl et
4 Kennard (1970) donne de bien meilleurs résultats que la régression des moindres carrés ordinaires dans le cas de données statistiquement colinéaires. L idée générale est la suivante : un estimateur efficace X d un paramètre réel µ est un estimateur de variance minimale dans la classe des estimateurs sans biais (Ε(X) = µ), mais il ne minimise pas l erreur quadratique définie par E( X µ 2 ), dans laquelle X est un estimateur quelconque de µ. On peut donc chercher un estimateur biaisé X dont l erreur quadratique est plus petite. Nous avons représenté en figure 1 ci-dessous les intervalles [a, b] et [a, b ] symétriques de centres E(X) et E(X ) tels que : P( X [a, b] ) = 0.95 P( X [a, b ] ) = 0.95 La valeur µ n est pas au centre de l intervalle de variation [a, b ] de X puisque X est biaisé. Inversement, l estimateur X est sans biais : µ est au centre son intervalle de variation [a, b], mais ce dernier est plus grand que le précédent. La valeur observée de X appartient à l intervalle [a, b ] dans 60% des cas, et la valeur observée de X dans 95% des cas : l estimateur X est près de la vraie valeur µ plus «souvent» que l estimateur efficace X. FIG. 1 Intervalles de variation à 95% de l estimateur efficace X et d un estimateur quelconque X Cette situation se présente dans le cas du modèle linéaire lorsque les variables explicatives sont statistiquement colinéaires. Nous allons vérifier par simulation que l estimateur B r = (B r1, B r2,, B rp) t défini dans la régression bornée donne alors de meilleures estimations que l estimateur efficace B = (B 1, B 2,, B p) t des moindres carrés ordinaires. L estimateur B r est obtenu suivant le critère ders miondres carrés sous contrainte de norme : B r 2 = b r1 2 + b r2 2 + b rp 2 M En fait, ce n est pas le majorant M que l on fixe : on montre en effet qu il suffit de remplacer dans la formule de l estimateur des moindres carrés ordinaires la matrice R par la matrice R + k I, où I est la matrice identique et k une constante réelle positive, pour limiter la norme de l estimateur B r. En pratique, on recherche la meilleure constante k à l aide de la représentation graphique des coefficients de régression en fonction de k, appelée ridge trace. Les formules concernant l estimateur borné sont les suivantes : 1 σ 2 B r = [R + k I] -1 X t Y V Br = [R + k I] -1 R [R + k I] -1 n n
5 Thierry Foucart 3 Effets de la colinéarité. Exemples. 3.1 Colinéarité et matrice de corrélation On considère quatre variables X 1, X 2, X 3 et X 4 dont les coefficients de corrélation sont donnés ci-dessous : X 1 X 2 X 3 X 4 X X X X TAB. 1 Matrice de corrélation des variables explicatives. La colinéarité entre les variables ne peut guère être décelée par un simple examen de la matrice. Elle peut être mise en évidence de plusieurs façons : Les facteurs d inflation f j associés à chaque coefficient de régression sont élevés : f 1 = 62 f 2 = 26 f 3 = 14 f 4 = 50 l indice de multicolinéarité I, égal à 1 en l absence de toute colinéarité, est élevé : I = 38 la matrice R possède une valeur propre très faible (λ 4 = 0.007). La combinaison linéaire des variables X 1, X 2, X 3 et X 4 définie par la quatrième composante principale est donc presque constante et égale à 0 : on ne peut pas choisir une valeur de X 4 en toute liberté lorsque les trois autres sont fixées. On utilise souvent l indice de conditionnement, dont on trouvera une analyse dans Belsley (1980) : κ = 1 / λ 4 = Effet de la colinéarité sur les coefficients de régression estimés. Les données ridge1 contiennent les observations de cinq variables sur cent individus statistiques obtenues par simulation. On veut expliquer la cinquième variable, Y, par les quatre premières X 1, X 2, X 3 et X 4, dont la matrice de corrélation est égale à la précédente. Les variables explicatives sont centrées et réduites. Les coefficients de corrélation observés entre les variables explicatives et la variable expliquée sont donnés dans le tableau ci-dessous : X 1 X 2 X 3 X 4 Y TAB. 2 Coefficients de corrélation observés entre Y et X 1, X 2, X 3 et X 4 (données ridge1). La régression des moindres carrés ordinaires donne les résultats suivants :
6 degré de liberté Somme des carrés Variance estimée Pourcentage de variance totale Tot Exp Res TAB. 3 Analyse de variance (données ridge1, n = 100). Estimation Écart-type t de Student Facteur d inflation b b b b b TAB. 4 Estimation des coefficients de régression (données ridge1). Les variables explicatives étant réduites et l écart-type de la variable expliquée égal à 1.516, on peut apprécier intuitivement la taille des coefficients de régression. Les coefficients de régression b 1, b 3 prennent des valeurs élevées en valeur absolue. Le coefficient de régression b 2 est négatif, malgré un coefficient de corrélation positif entre X 2 et Y (0.216), et b 4 est positif malgré un coefficient de corrélation entre X 4 et Y fortement négatif (-0.491). Seul b 3 est significativement non nul pour un risque de première espèce α = 5% (t = ). Le coefficient de détermination (R 2 = 0.49) est hautement significatif. Ces résultats peuvent s expliquer par la forte colinéarité statistique entre X 1, X 2, X 3, et X 4 détectée en paragraphe Effet de la colinéarité sur les variances. On étudie maintenant les données ridge2, obtenues par simulation suivant le même modèle que précédemment. La matrice de corrélation entre les variables explicatives reste égale à R, les coefficients de régression théoriques sont les mêmes, mais les corrélations observées entre la variable expliquée et les variables explicatives sont les suivantes : X 1 X 2 X 3 X 4 Y TAB. 5 Coefficients de corrélation entre Y et X 1, X 2, X 3 et X 4 (données ridge2). La régression des moindres carrés ordinaires donne les résultats ci-dessous : degré de liberté Somme des carrés Variance estimée Pourcentage de variance totale Tot Exp Res TAB. 6 Analyse de variance (données ridge2, n = 100). Estimation Écart-type t de Student Facteur d inflation b b
7 Thierry Foucart b b b TAB. 7 Estimation des coefficients de régression (données ridge2). La situation est paradoxale : le coefficient de détermination R 2 est hautement significatif (R 2 = 0.50, n = 100), mais aucun des coefficients de régression n est significativement non nul. On peut apporter comme explication une surestimation des écarts-types des estimateurs B j. Les estimations b 1, b 2, b 3 et b 4 ne paraissent pas en effet spécialement grandes (les variables explicatives sont réduites, et l écart-type de la variable expliquée est égal à 1.372), et l augmentation des variances des estimateurs due à la colinéarité a pour effet de diminuer les t de Student, les rendant ainsi non significatifs. 4Simulation d un échantillon de l estimateur borné. 4.1 Démarche On peut, par simulation, visualiser de façon plus complète l effet de la colinéarité sur les coefficients de régression. La démarche est la suivante : 1) on choisit le nombre de variables explicatives p, le vecteur de régression théorique β = (β 1, β 2,, β p) t, le coefficient constant β 0, le coefficient de détermination R 2 et le nombre d observations n. On fixe la matrice de corrélation R entre les variables explicatives. On en déduit la variance résiduelle théorique σ 2. 2) on simule un échantillon des variables explicatives x i,j de matrice de corrélation égale à R. Il suffit pour cela de simuler un échantillon de taille n d un vecteur aléatoire quelconque de dimension p, d en effectuer l analyse en composantes principales pour obtenir un vecteur Z dont la matrice de covariance est strictement égale à la matrice identique I, et d effectuer une transformation linéaire de ce dernier de façon à obtenir un tableau de données X dont la matrice de corrélation est strictement égale à R. Cette transformation est définie par la matrice triangulaire inférieure T obtenue par l algorithme de Cholesky (Ciarlet, 1989) : R = T T t X = Z T t 3) on simule un échantillon indépendant (ε i) de taille n de la v.a. ε suivant la loi normale N(0, σ), et on en déduit les valeurs simulées y i, i = 1, n de la variable Y pour les valeurs x i,j du tableau X : i = 1, n y i = β 0 + β 1 x i, β p x i, p + ε i 4) on calcule le vecteur de régression estimé b = (b 1, b 2,, b p) t. 5) on recommence la simulation effectuée en 3) pour obtenir une autre simulation du vecteur de régression avec le même tableau X, etc. Chaque échantillon de la variable expliquée donne une estimation b du vecteur de régression β pour les mêmes valeurs des variables explicatives. On en déduit l erreur quadratique b β 2. En répétant m fois cette opération, on dispose donc d un échantillon de m vecteurs b l, l
8 = 1,, m conditionnellement à X. On peut calculer les erreurs quadratiques d l = b l β pour l = 1,, m choisissant comme estimateur l estimateur de la régression bornée B r pour différentes valeurs de k (pour k = 0, l estimateur de la régression bornée est confondu avec l estimateur des moindres carrés ordinaires). Certains auteurs donnent des indications sur le choix de cette constante k (Nordberg, 1982). 4.2 Exemple. Dans l exemple ci-dessous, la matrice de corrélation R entre les variables explicatives est donnée dans le tableau 1. Les coefficients de régression et la constante choisis sont les suivants : β 0 = 0 β 1 = 0.5 β 2 = 0.5 β 3 = -0.5 β 4 = -0.5 Le modèle théorique est donc égal à : Y = 0.5 X X X X 4 + ε Le coefficient R 2 étant fixé à 0.5, la variance résiduelle théorique est égale à On effectue ensuite la régression linéaire bornée des données simulées en effectuant la démarche précédente. Le coefficient constant estimé b 0 n est pas nécessairement nul, mais n est pas pris en compte dans le calcul des distances entre les vecteurs de régression. La taille de l échantillon étant fixée à n = 100, nous donnons ci-dessous les résultats de la régression sur un échantillon obtenus par l estimateur des moindres carrés ordinaires (k = 0) et par l estimateur borné pour différentes valeurs de la constante k : Coefficients théoriques Carré de la distance Coefficients estimés b r1 b r2 b r3 b r4 d 2 k = 0 (MCO) k = k = TAB. 8 Coefficients de régression estimés pour différentes valeurs de k. En dernière colonne : carré de la distance au vecteur de régression théorique. Le tableau précédent montre que l estimation donnée pour k = 0.05 est nettement meilleure que les autres, et que l estimateur des moindres carrés ordinaires (k = 0) est le moins bon. 4.3 Généralisation Pour généraliser ces résultats, nous avons généré, pour les mêmes valeurs x i,j des variables explicatives, cinquante échantillons de la v.a. Y, puis, pour chaque valeur de k, effectué les cinquante régressions et calculé les carrés d l 2 des distances, leur moyenne et leur variance : k moyennes variance
9 Thierry Foucart TAB. 9 Moyennes et variances des carrés des distances d l 2 (l = 1, 50) pour k = 0, 0.01 et D après le tableau précédent, la régression classique donne des estimations beaucoup plus éloignées en moyenne des coefficients de régression théoriques que la régression bornée. La variance des carrés des distances est très élevée par rapport aux autres variances, et le meilleur estimateur des trois précédents est celui de la régression bornée pour k = La fonction de répartition observée des carrés des distances du vecteur de régression estimé par le critère des moindres carrés ordinaires au vecteur de régression théorique est donnée en figure 2 ci-dessous. Elle met en évidence la fréquence de vecteurs de régression estimés par les moindres carrés ordinaires très différents du vecteur théorique. La valeur maximale des carrés des distances obtenues par l estimateur borné et calculées sur les cinquante échantillons en posant k = 0.05 est égale à : dans plus de 60% des cas, la régression des moindres carrés ordinaires donne un estimation moins bonne du vecteur théorique que la pire donnée par la régression bornée. FIG. 2 Fonction de répartition des carrés des distances (régression des moindres carrés ordinaires, échantillon simulé de 50 termes). Le tableau 10 contient les dix vecteurs de régression obtenus par les moindres carrés ordinaires les plus éloignés du vecteur théorique. Le coefficient de détermination R 2 et le coefficient constant b 0 sont à peu près correctement estimés. Ce n est pas le cas des coefficients de régression, très mal reconstruits. Dans tous les vecteurs de régression estimés, un au moins des coefficients est de signe contraire au coefficient théorique et certains autres sont très élevés en valeur absolue. Dans la pratique, le risque d obtenir ce genre de résultats est loin d être négligeable, puisque ces échantillons représentent 20% du nombre total d échantillons.
10 R 2 b 0 b 1 b 2 b 3 b 4 d 2 valeurs théoriques n n n n n n n n n n TAB. 10 Les dix vecteurs de régression les plus éloignés du vecteur théorique (régression des moindres carrés ordinaires). L idée qui vient naturellement est de déterminer sur ces cinquante échantillons la valeur de k qui donne les meilleurs résultats. En faisant varier k dans l intervalle [0, 1] avec un incrément de 0.001, on obtient k = : k moyenne variance TAB. 11 Moyenne et variance des carrés des distances d k 2 pour la valeur optimale k = (m = 50). La moyenne des carrés des distances est très faible par rapport à celle que l on obtient par les estimateurs des moindres carrés ordinaires (0.039 au lieu de 1.383), et ces distances varient beaucoup moins : l intérêt de la régression bornée est évident et considérable. La simulation montre aussi la robustesse de la méthode : la moyenne des carrés des distances diminue très rapidement lorsque k varie de 0 à 0.05, reste à peu près constante lorsque k varie de 0.05 à 0.1 environ, et augmente ensuite lentement à partir de 0.1 (cf. Figure 3 ci-dessous). La variance des distances, minimale aussi pour k = 0.078, suit la même évolution. La recherche précise de la meilleure valeur de la constante k ne présente visiblement guère d intérêt. Nous avons procédé à plusieurs simulations identiques : les résultats ont toujours été analogues aux précédents.
11 Thierry Foucart 5Applications. FIG. 3 Moyenne des carrés des distances entre le vecteur théorique et le vecteur estimé en fonction de k. Dans le cas de données réelles quelconques, on ne connaît ni le vecteur de régression théorique, ni la valeur optimale de la constante k. Pour choisir k, on utilise les ridge traces: l absence de colinéarité se traduisant par une ridge trace très régulière, on va choisir comme valeur celle pour laquelle les coefficients de régression sont stabilisés. 5.1 Régression bornée en l absence de colinéarité (données ridge0). Effectuons d abord la régression bornée dans le cas où les variables explicatives ne sont pas colinéaires. Les données analysées ci-dessous (fichier ridge0) ont été obtenues par simulation en supposant que les variables explicatives sont non corrélées. Les coefficients de régression et le coefficient de détermination théoriques sont les mêmes que ceux choisis précédemment pour créer les données ridge1 et ridge2. La figure 4 ci-dessous est la ridge trace obtenue en effectuant les régressions bornées pour des valeurs de k variant de 0 à 1. On observe une très grande stabilité des coefficients de régression par rapport à la constante k. Le choix de cette dernière n intervient guère dans les estimations.
12 FIG. 4 Ridge trace (données ridge0). 5.2 Régression bornée des données ridge1. Revenons au données traitées dans le paragraphe 2.1. La figure 5 ci-dessous donne la représentation graphique des estimations b 1, b 2, b 3 et b 4 des coefficients de régression suivant les valeurs de k. Pour k = 0, ces valeurs sont celles que l on obtient par la régression des moindres carrés ordinaires. FIG. 5 Ridge trace (données ridge1). On observe l instabilité de ces coefficients pour les faibles valeurs de k. Les coefficients de régression b 1 et b 3 diminuent très rapidement en valeur absolue, au contraire de b 2 et b 4.
13 Thierry Foucart On recherche sur ce graphique une valeur de k pour laquelle les coefficients de régression sont stabilisés : on peut prendre ici k = 0.1. La régression bornée donne alors les résultats suivants : Estimation Écart-type t de Student b r b r b r b r b TAB. 12 Résultats de la régression bornée (données ridge1, k = 0.1). Le biais de l estimateur B r apparaît dans le coefficient de corrélation r non nul entre les résidus et la variable expliquée estimée par le modèle : r = Les écarts-types indiquent une très grande stabilité de B r autour de son espérance E(B r), et les t de Student montrent que tous les coefficients sont significatifs. Les simulations précédentes montrent que les coefficients obtenus sont largement plus proches des vraies valeurs que les estimations données par le critère des moindres carrés ordinaires. 5.3 Régression bornée des données ridge2. La ridge trace (figure 6) montre une bonne stabilité des coefficients de régression, et les effets de la colinéarité concernent donc surtout les variances des estimateurs. FIG. 6 Ridge trace (données ridge2). On peut le vérifier en choisissant une petite valeur de k, par exemple, k = 0.01 ou k = Les résultats pour chacune de ces deux valeurs sont données dans les tableaux ci-dessous : Estimation écart-type t de Student b r
14 b r b r b r br TAB. 13 : Résultats de la régression bornée pour k = 0.01 (données ridge2). Estimation écart-type t de Student TAB. 14 Résultats de la régression bornée pour k = 0.02 (données ridge2). Il y a très peu de différences entre les estimations suivant les valeurs de k, mais les valeurs sont bien plus stables pour k = La colinéarité entre les variables explicatives exerce ici un effet sur les seules variances, et les estimations obtenues suivant le critère des moindres carrés ordinaires sont beaucoup plus proches des valeurs théoriques que les écarts-types des estimateurs ne l indiquent. 6Conclusion Les coefficients de régression théoriques de ces applications sont en réalité connus : le modèle utilisé pour créer les données ridge1 et ridge2 est celui qui a été précisé dans le paragraphe 3.2. Le coefficient de détermination est fixé à 0.5, et les coefficients de régression théoriques sont : β 0 = 0 β 1 = 0.5 β 2 = 0.5 β 3 = -0.5 β 4 = -0.5 Les estimations obtenues dans le premier cas par la régression bornée (données ridge1) sont beaucoup plus proches des valeurs théoriques que celles qui sont déduites du critère des moindres carrés ordinaires. Dans le second (données ridge2), elles sont beaucoup plus stables. Compte tenu des résultats des simulations donnés dans le paragraphe 3, on pouvait s y attendre. L intérêt de la régression bornée apparaît finalement sur trois points : 1) Lorsque les coefficients estimés par le critère des moindres carrés ordinaires sont très différents des vraies valeurs, elle donne des estimations bien meilleures ; 2) Elle permet de contrôler la stabilité des estimations. 3) Lorsque les variables explicatives sont non corrélées, elle ne modifie quasiment pas les estimations. 4) La stabilité des résultats par rapport à la constante k limite l importance d en rechercher la meilleure valeur : une approximation même grossière, déduite simplement de la ridge trace, donnera des résultats en moyenne bien meilleurs que la régression des moindres carrés ordinaires. Par suite, en effectuant systématiquement une régression bornée pour une faible valeur de la constante k (par exemple k= 0.01), les estimations des coefficients de régression ne peuvent être que meilleures, même lorsque la colinéarité entre les variables explicatives n est pas très forte.
15 Thierry Foucart Toutefois, lorsque les valeurs théoriques des coefficients de régression sont elles-mêmes élevées en valeur absolue, la régression bornée est à éviter. C est le cas par exemple lorsque les coefficients de régression théoriques sont égaux aux valeurs estimées sur les données ridge1 : la ridge trace est la même, et par suite la régression bornée donne de très mauvais résultats. Il est donc indispensable d analyser a priori la taille des coefficients de régression en suivant une démarche critique. Ces simulations montrent le danger d interpréter le signe des coefficients de régression sans précaution. Même lorsque toutes les hypothèses mathématiques sont satisfaites (distribution gaussienne de la variable résiduelle, linéarité des liaisons) ce qui est le cas dans les exemples donnés puisqu ils sont construits à partir de ces hypothèses, il est très possible d obtenir des estimations très différentes des valeurs théoriques. Lorsque ces hypothèses ne sont qu approximativement vérifiées, ce qui est le cas général des données réelles, la statistique produit des résultats qu il est indispensable d examiner avec prudence et de ne pas prendre pour certains même s ils sont largement significatifs. Bibliographie : Belsley D.A., Kuh E., Welsh R.E. (1980): Regression diagnostics: identifying influential data and sources of collinearity. Wiley, New York. Ciarlet P.G. 1989): Introduction to Numerical Linear Algebra and Optimisation, London, Cambridge University Press. Foucart T. (1997): Numerical Analysis of a Correlation Matrix. Statistics, 29/4, p Foucart T. (2000): Colinéarité et Instabilité Numérique dans le Modèle Linéaire, RAIRO Operations research, Vol.34, 2, p Hoerl A.E., R.W. Kennard ( ): Ridge regression : biased estimation for nonorthogonal problems. Technometrics, 12, Hoerl A.E., R.W. Kennard ( ): Ridge regression : Applications to nonorthogonal problems. Technometrics, 12, Nordberg L., 1982: A procedure of determination of a good ridge parameter in linear regression. Commun, Statist. Simula. Computa. 11(3), p Simiand F., Le salaire, l'évolution sociale et la monnaie, 1932, t. I, lien internet Tomassone R., Lesquoy E. et Millier C. (1992): La régression. Nouveaux regards sur une ancienne méthode statistique, Masson, Paris, 2e ed.. Summary: the linear model is very frequently employed in statistics and particularly in the sectors of insurance, bank and marketing. It makes it possible to determine the explanatory variables which play part in the risk measured in the policy-holders and in the choices carried out by the customers,
16 and to produce estimates of them when they are unknown. The problem considered in this article appears when these variables are dependent statistically, for example the income and the socio-professional group. Then, the estimates given by the criterion of ordinary least squares become not very reliable and can take values in contradiction with the real values. There are many methods adapted to this type of data. We propose here to evaluate the effectiveness of the ridge regression while proceeding by simulations. The results are clear: the gain in precision and in stability of the regression coefficients is impressive.
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailOptimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailLa fonction exponentielle
DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction
Plus en détailDirection des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailExercice : la frontière des portefeuilles optimaux sans actif certain
Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailSTATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Plus en détailTRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
Plus en détailExercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailUne étude de différentes analyses réalisées par le BIT
Association internationale de la sécurité sociale Quinzième Conférence internationale des actuaires et statisticiens de la sécurité sociale Helsinki, Finlande, 23-25 mai 2007 Comparaison des hypothèses
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailAICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailRégression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr
Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Plus en détailFonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Plus en détailChapitre 1 : Évolution COURS
Chapitre 1 : Évolution COURS OBJECTIFS DU CHAPITRE Savoir déterminer le taux d évolution, le coefficient multiplicateur et l indice en base d une évolution. Connaître les liens entre ces notions et savoir
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailProgrammation linéaire
Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire
Plus en détailCalcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.
1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailModèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz
Plus en détailLes simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Plus en détailOptimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h
Télécom Physique Strasbourg Master IRIV Optimisation et programmation mathématique Professeur Michel de Mathelin Cours intégré : 20 h Programme du cours d optimisation Introduction Chapitre I: Rappels
Plus en détailSujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailNOTE SUR LA MODELISATION DU RISQUE D INFLATION
NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailDETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES
Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application
Plus en détailLe Modèle Linéaire par l exemple :
Publications du Laboratoire de Statistique et Probabilités Le Modèle Linéaire par l exemple : Régression, Analyse de la Variance,... Jean-Marc Azaïs et Jean-Marc Bardet Laboratoire de Statistique et Probabilités
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailLe modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
Plus en détailSimulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Plus en détailTESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailLes indices à surplus constant
Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté
Plus en détailStatistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailThéorème du point fixe - Théorème de l inversion locale
Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion
Plus en détailTests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailPrécision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailActuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.
Actuariat I ACT2121 septième séance Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1 Exercice 1 En analysant le temps d attente X avant un certain événement
Plus en détailBac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)
Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre
Plus en détailCapital économique en assurance vie : utilisation des «replicating portfolios»
Capital économique en assurance vie : utilisation des «replicating portfolios» Anne LARPIN, CFO SL France Stéphane CAMON, CRO SL France 1 Executive summary Le bouleversement de la réglementation financière
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailExemples d application
AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détailApproche modèle pour l estimation en présence de non-réponse non-ignorable en sondage
Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012 Introduction et contexte 2/27 1 Introduction
Plus en détailValue at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061
Value at Risk 27 février & 13 mars 20061 CNAM Gréory Taillard CNAM Master Finance de marché et estion de capitaux 2 Value at Risk Biblioraphie Jorion, Philippe, «Value at Risk: The New Benchmark for Manain
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détailTP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options
Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce
Plus en détailContexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Plus en détail1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailProbabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailLe montant des garanties constituées aux fins du STPGV est-il excessif?
Le montant des garanties constituées aux fins du STPGV est-il excessif? Kim McPhail et Anastasia Vakos* L e système canadien de transfert des paiements de grande valeur (STPGV) sert à effectuer les paiements
Plus en détailRésolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailCorrection de l examen de la première session
de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi
Plus en détailExemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
Plus en détailImpact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet
Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar Florence Arestoff Baptiste Venet 1 Introduction : contexte du contrat de recherche Ce contrat de recherche fait suite
Plus en détailM2 IAD UE MODE Notes de cours (3)
M2 IAD UE MODE Notes de cours (3) Jean-Yves Jaffray Patrice Perny 16 mars 2006 ATTITUDE PAR RAPPORT AU RISQUE 1 Attitude par rapport au risque Nousn avons pas encore fait d hypothèse sur la structure de
Plus en détailSOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Plus en détailEXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG
Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailMémoire d Actuariat Tarification de la branche d assurance des accidents du travail Aymeric Souleau aymeric.souleau@axa.com 3 Septembre 2010 Plan 1 Introduction Les accidents du travail L assurance des
Plus en détailChapitre 4 : Régression linéaire
Exercice 1 Méthodes statistiques appliquées aux sciences sociales (STAT-D-203) Titulaire : Catherine Vermandele Chapitre 4 : Régression linéaire Le diplôme de Master of Business Administration ou MBA est
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailExo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.
Eo7 Calculs de déterminants Fiche corrigée par Arnaud Bodin Eercice Calculer les déterminants des matrices suivantes : Correction Vidéo ( ) 0 6 7 3 4 5 8 4 5 6 0 3 4 5 5 6 7 0 3 5 4 3 0 3 0 0 3 0 0 0 3
Plus en détailCorrection du baccalauréat STMG Polynésie 17 juin 2014
Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé
Plus en détailProbabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1
Introduction Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1 L auteur remercie Mme Sylvie Gervais, Ph.D., maître
Plus en détailFORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Plus en détailPEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?
PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS? Pierre Baumann, Michel Émery Résumé : Comment une propriété évidente visuellement en dimensions deux et trois s étend-elle aux autres dimensions? Voici une
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailAnalyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailModèles et Méthodes de Réservation
Modèles et Méthodes de Réservation Petit Cours donné à l Université de Strasbourg en Mai 2003 par Klaus D Schmidt Lehrstuhl für Versicherungsmathematik Technische Universität Dresden D 01062 Dresden E
Plus en détailCNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité
1 CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité Une situation fréquente en pratique est de disposer non pas d un résultat mais de plusieurs. Le cas se présente en assurance, par exemple :
Plus en détailSoutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
Plus en détail