Choix de modèle en régression linéaire
|
|
- Clotilde Jean
- il y a 8 ans
- Total affichages :
Transcription
1 Master pro Fouille de données Philippe Besse 1 Objectif Choix de modèle en régression linéaire La construction d un score d appétence sur les données bancaires correspond au choix et à l estimation d un modèle particulier pour la prédiction d une variable binaire. Avant d aborder ce point, les grands principes et les questions fondamentales des problèmes de choix de modèles sont abordés dans le cadre plus pédagogique du modèle gaussien ou de régression classique. Aussi, en vue d un objectif prédictif, ce TP compare les techniques visant à la recherche de modèles de régression linéaire multiple parcimonieux ainsi que celles des techniques de régression biaisée (ridge) ou encore de régression sur des facteurs (régression sur compposantes principales, pls) pour des données présentant un problème de multicolinéarité. 1 Régression linéaire simple Cette première section très élémentaire est optionnelle. Elle sera sautée en première approche et reprise plus tard si nécessaire. 1.1 Les données Pour 47 immeubles d appartements locatifs d une grande ville américaine, les données (Jobson, 1991) fournissent le revenu net en fonction du nombre d appartements. Liste des variables : Revenu : net operating income Nbappart : number of suites 1.2 Étapes préalables Lire les données >suit=read.table( /users/magist/besse/d ata/tp/suitincom.dat ) >names(suit)=c("revenu","nbappt") Afficher le contenu >suit Étude des distributions >hist(suit$revenu) >hist(suit$nbappt) >boxplot(suit$revenu) >boxplot(suit$nbappt) Même chose avec les variables transformées >hist(log(suit$revenu)) >hist(log(suit$nbappt)) >hist(sqrt(suit$revenu)) >hist(sqrt(suit$nbappt)) Estimations non paramétriques de la densité avec noyau gaussien >plot(density(log(suit$revenu))) >plot(density(log(suit$nbappt))) Quelles transformations vous semblent les plus raisonnables? 1.3 Première modélisation Ajuster (fit) le modèle revenu=β 0 + β 1 nbappt. >reg=lm(revenu nbappt,data=suit) >summary(reg) >anova(reg) Nuage des points >plot(suit$nbappt,suit$revenu) Ajouter la droite de régression >abline(reg) Graphique des résidus studentisés >plot(reg$fitted.values,rstudent(reg))
2 Master pro Fouille de données Philippe Besse 2 Détection de points influents par la distance de Cook >plot(reg$fitted.values, cooks.distance(reg)) Que penser de cette modélisation (R 2, résidus, points influents...)? 1.4 Deuxième modélisation Ajuster (fit) le modèle log(revenu)=β 0 + β 1 log(nbappt) >lsuit=data.frame(log(suit$nbappt),log(suit$revenu)) >names(lsuit)=c("lrevenu","lnbappt") >plot(lsuit$lnbappt,lsuit$lrevenu) >lreg=lm(lrevenu Lnbappt,data=lsuit) >summary(lreg) >anova(lreg) Graphe du nuage de points >plot(lsuit$lnbappt,lsuit$lrevenu) Ajouter la droite de régression >abline(lreg) Graphique des résidus studentisés >plot(lreg$fitted.values,rstudent(lreg)) Détection de points influents par la distance de Cook >plot(lreg$fitted.values, cooks.distance(lreg)) Que penser de cette modélisation (R 2, résidus, points influents...)? Laquelle préférer? 1.5 Régression non paramétrique Refaire le graphique de régression simple >plot(lsuit$lnbappt,lsuit$lrevenu) >abline(lreg) Lissage spline avec paramètre optimal >lsuit.spl=smooth.spline(lsuitlnbappt, lsuitlrevenu) Tracé de la courbe de régression non paramétrique >lines(lsuit.spl, col = "blue") Autre courbe présentatn plus de flexibilité >lines(smooth.spline(lsuit$lnbappt,lsuit$lrevenu, df=10), +lty=2, col = "red") 2 Sélection de variables en régression multiple 2.1 Les données Les données (Jobson, 1991) décrivent les résultats comptables de 80 entreprises du Royaume Uni. RETCAP est la variable à prédire. Les entreprises sont réparties aléatoirement en deux groupes de 40 entreprises. Descriptif des 13 variables : RETCAP WCFTDT LOGSALE LOGASST CURRAT QUIKRAT NFATAST FATTOT PAYOUT WCFTCL GEARRAT CAPINT INVTAST Return on capital employed Ratio of working capital flow to total debt Log to base 10 of total sales Log to base 10 of total assets Current ratio Quick ratio Ratio of net fixed assets to total assets Gross sixed assets to total assets Payout ratio Ratio of working capital flow to total current liabilities Gearing ratio (debt-equity ratio) Capital intensity (ratio of total sales to total assets) Ratio of total inventories to total assets Lecture des données
3 Master pro Fouille de données Philippe Besse 3 >ukcomp1=read.table( /users/magist/besse/d ata/tp/ukcomp1.datr, +header=true) >summary(ukcomp1) >boxplot(ukcomp1) Vérifier rapidement sur les graphes précédents l allure raisonnablement symétrique des distributions, la présence de quelques points atypiques. 2.2 Première modélisation Estimer le modèle complet sur le premier fichier expliquant RETCAP avec toutes les autres variables. Calculer et représenter les dignostics (ésidus studentisés, les distances de Cook). Interpréter les diagnostics en terme de colinéarité, de précisions des estimations (écarts-types des b j ) et d influence. Estimation du modèle >lm.uk=lm(retcap.,data=ukcomp1) Résultats numériques >summary(lm.uk) Regroupement des graphiques sur la même page >par(mfrow=c(2,2)) Résiduas et points influents >plot(lm.uk,las=1) 2.3 Choix de modèle à la main par élimination SAS, Splus et R proposent des algorithmes de sélection automatique des variables. Néanmoins il est nécessaire de savoir se débrouiller avec les outils plus limités proposés par d autres logiciels ou encore simplement de comprendre comment fonctionne ces algorithmes. Itérer la procédure suivante : 1. Estimer le modèle et choisir, parmi les variables explicatives, celle X j pour lequel le test de Student (H 0 : b j = 0) est le moins significatif, c est-à-dire avec la plus grande prob value. >lm.uk=lm(retcap WCFTCL+WCFTDT+GEARRAT+LOGSALE+LOGASST +NFATAST+CAPINT+FATTOT+INVTAST+PAYOUT+QUIKRAT+CURRAT,data=ukcomp1) >anova(lm.uk) 2. La retirer du modèle et recalculer l estimation. >lm.uk=lm(retcap WCFTCL+WCFTDT+LOGSALE+LOGASST +NFATAST+CAPINT+FATTOT+INVTAST+PAYOUT+QUIKRAT+CURRAT,data=ukcomp1) >anova(lm.uk) 3. Arrêter le processus lorsque tous les coefficients sont considérés comme significativement (à 5%) différents de 0 sauf celui du terme constant (intercept) qui reste présent. Noter la séquence des modèles ainsi obtenus. Comparer avec la procédure automatique identique descendante : >lm.uk=lm(retcap., data = ukcomp1) >step.uk=step(lm.uk,direction="backward",k=log(40)) >summary(step.uk) >step.uk$anova Ou encore avec la procédure ascendante : >lm.uk=lm(retcap 1, data = ukcomp1) >step.uk=step(lm.uk,direction="forward",k=log(40), scope=list(upper= WCFTCL+WCFTDT+GEARRAT+LOGSALE+LOGASST+ >summary(step.uk) >step.uk$anova Celle-ci fournit une solution différente. Cette stratégie d exploration du graphe ne passe pas par le même chemin que la stratégie descendante. En revanche la procédure mixte explorte plus de solutions : >lm.uk=lm(retcap 1, data = ukcomp1) >step.uk=step(lm.uk,direction="both",k=log(40), scope=list(upper= WCFTCL+WCFTDT+GEARRAT+LOGSALE+LOGASST+NFA >summary(step.uk) >step.uk$anova Remarquer en suivant la trace comment cette procédure débute comme la procédure forward, mais, autorisant la sortie de certaines variables revient finalement à la même solution optimale que celle proposée par la stratégie backward.
4 Master pro Fouille de données Philippe Besse Sélection automatique du modèle Parmi les différents types d algorithmes disponibles dans R et les différents critères de choix, une des façons les plus efficaces est la recherche exhaustive du meilleur modèle parmi tous les sous-modèles possibles selon l algorithme de Furnival et Wilson. Seul le meilleur pour chaque niveau, c est-à-dire pour chaque valeur q du nombre de variables explicatives sont donnés. Il est alors facile de choisir celui minimisant l un des critères globaux (C p, R2 ajusté... ) estimant un risque pénalisé. Cet algorithme est disponible dans le package leaps. Chargement de la librairie >library(leaps) Retour à un graphe par page >par(mfrow=c(1,1)) Extraction des variables explicatives >ukcomp=ukcomp1[,2 :13] Recherche des meilleurs modèles au sens du Cp >uk.choix1=leaps(ukcomp,ukcomp1[,"retcap"],method="cp",nbest=1) Résultats >uk.choix1$cp >plot(uk.choix1$size-1,uk.choix1$cp) Meilleur modèle >t=(uk.choix1$cp==min(uk.choix1$cp)) Liste des variables explicatives >colnames(ukcomp)[uk.choix1$whi[t]] Recherche des meilleurs modèles au sens du R2 ajusté >uk.choix2=leaps(ukcomp,ukcomp1[,"retcap"],method="adjr2",nbest=1) >uk.choix2$adjr2 >plot(uk.choix2$size-1,uk.choix2$adjr2) >t=(uk.choix12$adjr2==max(uk.choix2$adjr2)) Variables explicatives du meilleur modèle au sens du R2 ajusté >colnames(ukcomp)[uk.choix2$whi[t]] Liste des meilleurs modèles pour chaque dimension. >for (i in (1 :12)) cat(uk.choix2adjr2[i], uk.choix1cp[i], +colnames(ukcomp)[uk.choix1$whi[i,]],"\n")} Noter le modèle de C p minimum et celui de R 2 ajusté maximum. 2.5 Dernières estimations Estimer les différents modèles : complet, meilleur C p et meilleur R 2 ajusté. >lm.uk0=lm(retcap WCFTDT+LOGSALE+NFATAST+CURRAT,data=ukcomp1) >lm.uk1=lm(retcap WCFTDT+LOGSALE+NFATAST+CURRAT,data=ukcomp1) >lm.uk2=lm(retcap WCFTDT+LOGSALE+LOGASST+NFATAST+FATTOT+ +INVTAST+QUIKRAT+CURRAT,data=ukcomp1) Vérifer sur ces modèles les valeurs des différents diagnostics d influence, des résidus. >par(mfrow=c(2,2)) >plot(lm.uk0,las=1) >plot(lm.uk1,las=1) >plot(lm.uk2,las=1) Attention, la validité du modèle ainsi obtenu reste conditionnée à celle de l hypothèse de linéarité. Il peut posséder d honnêtes propriétés prédictives sans pour autant avoir des capacités d explication de la variable RETCAP. 3 Comparaison de méthodes sur un échantillon test L objet de cette section est de comparer plusieurs méthodes de modélisation dans le cas d un problème de multicolinéarité : par sélection de variables, par régression biaisée (ridge), par régression sur composantes principales, par régression PLS (partial least square). Nous disposons de deux échantillons. Le premier, dit échantillon d apprentissage, sert à rechercher un meilleur modèle pour chacune des méthodes et à estimer les paramètres de ce modèle. Chacun de ces modèles sont ensuite appliqués au deuxième échantillon, dit échantillon test, pour prédire les valeurs de la variable à expliquer. Une estimation de l erreur de
5 Master pro Fouille de données Philippe Besse 5 prédiction : la somme des carrés des différences entre valeurs prédites et valeurs observées, renseigne sur la qualité d un modèle et permet de les comparer entre eux et donc de comparer les différentes méthodes de régression. 3.1 Lecture des données Lire les données de l échantillon test. >ukcomp.test=read.table( /users/magist/besse/d ata/tp/ukcomp2.datr, +header=true) >summary(ukcomp.test) Réorganisation des colonnes de la base de test >ukcomp.test=data.frame(ukcomp.test[,names(ukcomp1)]) 3.2 Modèles obtenu par sélection de variables Les modèles lm.uk0, lm.uk1 et lm.uk2 ont été calculés ci-dessus. Ils vont être utilisés pour calculer les prédictions de l échantillon test et une estimation de l erreur quadratique. >sum((predict(lm.uk0,newdata=ukcomp.test)-ukcomp.test[,"retcap"])**2) >sum((predict(lm.uk1,newdata=ukcomp.test)-ukcomp.test[,"retcap"])**2) >sum((predict(lm.uk2,newdata=ukcomp.test)-ukcomp.test[,"retcap"])**2) Comparer ces erreurs. Conclusion? 3.3 Régression ridge La sélection de variables permet donc de restreindre les problemes de colinéarité source importante de variance des prédictions. Une autre façon de résoudre ce problème consiste à calculer une estimation sous contrainte sur la norme du vecteur des paramètres ou, c est équivalent, à translater d une valeur k la diagonale de la matrice à inverser afin d améliorer son conditionnement. Cette technique appelée ridge regression est calculée par une fonction de la librairie MASS. Chargement de la librairie >library(mass) Calcul pour différentes valeurs du paramètre de pénalisation >ridge.uk=lm.ridge(retcap.,data=ukcomp1,lambda=seq(0,0.4,0.001)) >par(mfrow=c(1,1)) Comportement des paramètres estimés en fonction de la pénalisation >plot(ridge.uk) Choix de la valeur minimisant l erreur estimée par validation croisée >select(ridge.uk) Estimation des paramètres pour la valeur optimale de pénalisation >ridgeopt.uk=lm.ridge(retcap.,data=cbind(ukcomp1,lambda=0.033) Petit souci pour construire les prédictions à partir de ce modèle car la fonction predict n est pas implémentée! 3.4 Régression PLS Cette dernière approche permet d illustrer l usage de la régression PLS très utilisée dans des situations de multicolinéarité et même lorsque le nombre de variables explicatives excède le nombre d observations comme par exemple en chimiométrie. Cette méthode est disponible dans un package spécifique de R (pls.pcr). >library(pls.pcr) Estimation avec recherche du nombre de composantes par validation croisée >uk.simpls= mvr(ukcomp, ukcomp1[,"retcap"], validation="cv", method="simpls") Résultats : un choix de 4 composantes est suggéré >summary(uk.simpls) graphique >plot(uk.simpls) Calcul des prédictions >pred.uk=predict(uk.simpls,as.matrix(ukcomp.test[,2 :13]),4) >sum((pred.uk-ukcomp.test[,"retcap"])**2)
6 Master pro Fouille de données Philippe Besse Régression sur composantes principales Cette approche peut, dans certaines situations, donner de bons résultats se déroule ; elle se déroule en deux étapes incluse dans une fonction de la librairie pls.pcr. 1. Calcul des variables principales deux à deux orthogonales et engendrant le même espace que les variables explicatives par une analyse en composantes principales, 2. Régression sur ces variables principales après une sélection automatique des variables. Estimation avec recherche du nombre de composantes par validation croisée >uk.pcr = mvr(ukcomp, ukcomp1[,"retcap"], validation="cv") Résultats : un choix de 7 composantes est suggéré >summary(uk.pcr) D autres exécutions peuvent donner d autres résultats car la validation croisée est un procédé aléatoire. Calcul des prédictions >pred.uk=predict(uk.pcr,as.matrix(ukcomp.test[,2 :13]),4) >sum((pred.uk-ukcomp.test[,"retcap"])**2) La variable à expliquer n est pas nécessairement liée aux variables principales de grande variance d où un problème pouvant apparaître dans cette méthode. 4 Conclusion Comparer les erreurs de prédictions de chaque modèle sur l échantillon test. Attention, en fonction de l exemple traité et du jeu de données, une méthode peut apparaître meilleure qu une autre sans généralisation possible.
Data mining II. Modélisation Statistique & Apprentissage
Publications du Laboratoire de Statistique et Probabilités Data mining II. Modélisation Statistique & Apprentissage Philippe BESSE Version janvier 2003 mises à jour : www.lsp.ups-tlse.fr/besse Laboratoire
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailExercice : la frontière des portefeuilles optimaux sans actif certain
Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailExercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Plus en détailIntroduction à MATLAB R
Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailExemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détail1 Importer et modifier des données avec R Commander
Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)
Plus en détailRenforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.
Master Mathématiques et Applications Spécialité : Ingénierie mathématique et modélisation Parcours : Mathématique et Informatique : Statistique, Signal, Santé (MI3S) 2015-2016 RÉSUMÉ DES COURS : (dernière
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailPROGRAMME (Susceptible de modifications)
Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des
Plus en détailLOGICIELS DE PRÉVISIONS
Pour vos appels d offre Mars 2014 LOGICIELS DE PRÉVISIONS 4 e ÉDITION BARLOWORLD SCS New Optimiza SupplyChainMagazine.fr 19, rue SaintGeorges 94700 MaisonsAlfort 1. NOM de l'éditeur BARLOWORLD Supply Chain
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détail1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailTransmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailAnalyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Plus en détaildistribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailModèles pour données répétées
Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailSTATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Plus en détailDonnées longitudinales et modèles de survie
ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan
Plus en détailThéorie Financière 3. Tableau de financement et planning financier
Théorie Financière 3. Tableau de financement et planning financier Objectifs de la session 1. Montrer comment les informations comptables permettent de déterminer les cash flows 2. Comprendre le concept
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détailScénario: Score d appétence de la carte visa premier
Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailDétection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones
Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones Abdeljelil Farhat Unité de recherche EAS-Mahdia Faculté des sciences économiques
Plus en détailde calibration Master 2: Calibration de modèles: présentation et simulation d
Master 2: Calibration de modèles: présentation et simulation de quelques problèmes de calibration Plan de la présentation 1. Présentation de quelques modèles à calibrer 1a. Reconstruction d une courbe
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailAnnées 1994 1995 1996 1997 1998 1999 2000 TOTAL 45 35 38 37 38 Moyenne europ. 42 37 37 36 34 Moyenne mond. 54 55 56 54 52
Quelques ratios boursiers couramment utilisés comme données de l élaboration du benchmarking du groupe Total : Total (avant les fusions avec Fina puis Elf) comparé aux moyennes des pétroliers (européenne
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailApproche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailDirection des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Plus en détailExemples d application
AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif
Plus en détailCommande Prédictive des. Convertisseurs Statiques
Commande Prédictive des Convertisseurs Statiques 1 Classification des méthodes de commande pour les convertisseurs statiques Commande des convertisseurs Hystérésis MLI Cde Linéaire Fuzzy Logic Sliding
Plus en détailChapitre 3 - L'interprétation des documents financiers et la planification financière. Plan
Chapitre 3 - L'interprétation des documents financiers et la planification financière Plan Le bilan - présentation et signification des postes Structure en grandes masses - Le BFR Les ratios de structure
Plus en détailThéorie des sondages : cours 5
Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur
Plus en détailApprentissage non paramétrique en régression
1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus
Plus en détailMémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.
Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY
Plus en détailAide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailIntégration de la dimension sémantique dans les réseaux sociaux
Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux
Plus en détailThéorie Financière 4E 4. Evaluation d actions et td d entreprises
Théorie Financière 4E 4. Evaluation d actions et td d entreprises Objectifs de la session 1. Introduire le «dividend discount model» (DDM) 2. Comprendre les sources de croissance du dividende 3. Analyser
Plus en détailFONCTION DE DEMANDE : REVENU ET PRIX
FONCTION DE DEMANDE : REVENU ET PRIX 1. L effet d une variation du revenu. Les lois d Engel a. Conditions du raisonnement : prix et goûts inchangés, variation du revenu (statique comparative) b. Partie
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailAnalyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
Plus en détailData mining 1. Exploration Statistique
PUBLICATIONS DU LABORATOIRE DE STATISTIQUE ET PROBABILITÉS Data mining 1 Exploration Statistique ALAIN BACCINI & PHILIPPE BESSE Version septembre 2004 mises à jour : wwwlspups-tlsefr/besse Laboratoire
Plus en détailLa place de SAS dans l'informatique décisionnelle
La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailMODELE A CORRECTION D ERREUR ET APPLICATIONS
MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailMaster IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1
Master IMEA Calcul Stochastique et Finance Feuille de T.D. n o Corrigé exercices8et9 8. On considère un modèle Cox-Ross-Rubinstein de marché (B,S) à trois étapes. On suppose que S = C et que les facteurs
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailFigure 3.1- Lancement du Gambit
3.1. Introduction Le logiciel Gambit est un mailleur 2D/3D; pré-processeur qui permet de mailler des domaines de géométrie d un problème de CFD (Computational Fluid Dynamics).Il génère des fichiers*.msh
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailBac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)
Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre
Plus en détailBaccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e
Plus en détailAnalyse dialectométrique des parlers berbères de Kabylie
Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation
Plus en détailCONCEPTION Support de cours n 3 DE BASES DE DONNEES
CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...
Plus en détail1 Définition de la non stationnarité
Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles
Plus en détailData Mining et Statistique
Data Mining et Statistique Philippe Besse, Caroline Le Gall, Nathalie Raimbault & Sophie Sarpy Résumé Cet article propose une introduction au Data Mining. Celle-ci prend la forme d une réflexion sur les
Plus en détailUne application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies
Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies Ariane Lançon (Observatoire de Strasbourg) en collaboration avec: Jean-Luc Vergely,
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailGestion obligataire passive
Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage
Plus en détailUtilisation d informations visuelles dynamiques en asservissement visuel Armel Crétual IRISA, projet TEMIS puis VISTA L asservissement visuel géométrique Principe : Réalisation d une tâche robotique par
Plus en détailImpact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet
Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar Florence Arestoff Baptiste Venet 1 Introduction : contexte du contrat de recherche Ce contrat de recherche fait suite
Plus en détailmaster Principes de Finance d Entreprise Corporate Finance Création de valeur Philippe Thomas Collection BANQUE FINANCE ASSURANCE
Collection master BANQUE FINANCE ASSURANCE Principes de Finance d Entreprise Corporate Finance Création de valeur Philippe Thomas Table des matières Introduction... 9 Chapitre 1 L entreprise : l investissement
Plus en détailCHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle
CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailIntroduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Plus en détailTable des matières. l a r c i e r
Chapitre 1 Introduction... 1 1.1. Objectifs et structure du livre.... 1 1.2. Qu est-ce que la gestion de portefeuille?.... 2 1.3. Qu est-ce que «investir»?.... 3 1.4. Canalisation des flux d épargne et
Plus en détailApprentissage par renforcement (1a/3)
Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours
Plus en détailFORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Plus en détailTP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3
TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3 03/11/2014 Plan du TP 2 Présentation de la suite Microsoft BI Ateliers sur SSIS (2H) Ateliers sur RS (2H) 3 Présentation de la suite Microsoft BI Présentation
Plus en détailPROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading
PROJET DE GESTION PORTEFEUILLE Evaluation d une Stratégie de Trading Encadré par M. Philippe Bernard Master 1 Economie Appliquée-Ingénierie Economique et Financière Taylan Kunal 2011-2012 Sommaire 1) Introduction
Plus en détailBureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr
Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/
Plus en détailSelon la charte de l expertise en évaluation immobilière, 3 ème édition Juin 2006, la valeur vénale est :
COMPAGNIE NATIONALE DES EXPERTS IMMOBILIERS * 1 Alain MANZON Expert Immobilier-Consultant JANVIER 2013 N d agrément - 1004 - Diplômé de l Enseignement Supérieur RD559 Beauvallon Guerre vieille 83310 GRIMAUD
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailPrésentation du logiciel
Chapitre A Présentation du logiciel R Pré-requis et objectif La lecture du chapitre sur l installation de R dans les Annexes peut se révéler utile. Ce chapitre présente les origines, l objectif et les
Plus en détailChapitre 1 : Introduction au contrôle de gestion. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 1
Chapitre 1 : Introduction au contrôle de gestion Introduction 2 Contrôle de gestion : fonction aujourd hui bien institutionnalisée dans les entreprises Objectif : permettre une gestion rigoureuse et une
Plus en détailAméliorer les performances du site par l'utilisation de techniques de Web Mining
Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire
Plus en détailStatistiques à deux variables
Statistiques à deux variables Table des matières I Position du problème. Vocabulaire 2 I.1 Nuage de points........................................... 2 I.2 Le problème de l ajustement.....................................
Plus en détailLes clients puissance cube
LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil
Plus en détailt 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détail