Choix de modèle en régression linéaire

Dimension: px
Commencer à balayer dès la page:

Download "Choix de modèle en régression linéaire"

Transcription

1 Master pro Fouille de données Philippe Besse 1 Objectif Choix de modèle en régression linéaire La construction d un score d appétence sur les données bancaires correspond au choix et à l estimation d un modèle particulier pour la prédiction d une variable binaire. Avant d aborder ce point, les grands principes et les questions fondamentales des problèmes de choix de modèles sont abordés dans le cadre plus pédagogique du modèle gaussien ou de régression classique. Aussi, en vue d un objectif prédictif, ce TP compare les techniques visant à la recherche de modèles de régression linéaire multiple parcimonieux ainsi que celles des techniques de régression biaisée (ridge) ou encore de régression sur des facteurs (régression sur compposantes principales, pls) pour des données présentant un problème de multicolinéarité. 1 Régression linéaire simple Cette première section très élémentaire est optionnelle. Elle sera sautée en première approche et reprise plus tard si nécessaire. 1.1 Les données Pour 47 immeubles d appartements locatifs d une grande ville américaine, les données (Jobson, 1991) fournissent le revenu net en fonction du nombre d appartements. Liste des variables : Revenu : net operating income Nbappart : number of suites 1.2 Étapes préalables Lire les données >suit=read.table( /users/magist/besse/d ata/tp/suitincom.dat ) >names(suit)=c("revenu","nbappt") Afficher le contenu >suit Étude des distributions >hist(suit$revenu) >hist(suit$nbappt) >boxplot(suit$revenu) >boxplot(suit$nbappt) Même chose avec les variables transformées >hist(log(suit$revenu)) >hist(log(suit$nbappt)) >hist(sqrt(suit$revenu)) >hist(sqrt(suit$nbappt)) Estimations non paramétriques de la densité avec noyau gaussien >plot(density(log(suit$revenu))) >plot(density(log(suit$nbappt))) Quelles transformations vous semblent les plus raisonnables? 1.3 Première modélisation Ajuster (fit) le modèle revenu=β 0 + β 1 nbappt. >reg=lm(revenu nbappt,data=suit) >summary(reg) >anova(reg) Nuage des points >plot(suit$nbappt,suit$revenu) Ajouter la droite de régression >abline(reg) Graphique des résidus studentisés >plot(reg$fitted.values,rstudent(reg))

2 Master pro Fouille de données Philippe Besse 2 Détection de points influents par la distance de Cook >plot(reg$fitted.values, cooks.distance(reg)) Que penser de cette modélisation (R 2, résidus, points influents...)? 1.4 Deuxième modélisation Ajuster (fit) le modèle log(revenu)=β 0 + β 1 log(nbappt) >lsuit=data.frame(log(suit$nbappt),log(suit$revenu)) >names(lsuit)=c("lrevenu","lnbappt") >plot(lsuit$lnbappt,lsuit$lrevenu) >lreg=lm(lrevenu Lnbappt,data=lsuit) >summary(lreg) >anova(lreg) Graphe du nuage de points >plot(lsuit$lnbappt,lsuit$lrevenu) Ajouter la droite de régression >abline(lreg) Graphique des résidus studentisés >plot(lreg$fitted.values,rstudent(lreg)) Détection de points influents par la distance de Cook >plot(lreg$fitted.values, cooks.distance(lreg)) Que penser de cette modélisation (R 2, résidus, points influents...)? Laquelle préférer? 1.5 Régression non paramétrique Refaire le graphique de régression simple >plot(lsuit$lnbappt,lsuit$lrevenu) >abline(lreg) Lissage spline avec paramètre optimal >lsuit.spl=smooth.spline(lsuitlnbappt, lsuitlrevenu) Tracé de la courbe de régression non paramétrique >lines(lsuit.spl, col = "blue") Autre courbe présentatn plus de flexibilité >lines(smooth.spline(lsuit$lnbappt,lsuit$lrevenu, df=10), +lty=2, col = "red") 2 Sélection de variables en régression multiple 2.1 Les données Les données (Jobson, 1991) décrivent les résultats comptables de 80 entreprises du Royaume Uni. RETCAP est la variable à prédire. Les entreprises sont réparties aléatoirement en deux groupes de 40 entreprises. Descriptif des 13 variables : RETCAP WCFTDT LOGSALE LOGASST CURRAT QUIKRAT NFATAST FATTOT PAYOUT WCFTCL GEARRAT CAPINT INVTAST Return on capital employed Ratio of working capital flow to total debt Log to base 10 of total sales Log to base 10 of total assets Current ratio Quick ratio Ratio of net fixed assets to total assets Gross sixed assets to total assets Payout ratio Ratio of working capital flow to total current liabilities Gearing ratio (debt-equity ratio) Capital intensity (ratio of total sales to total assets) Ratio of total inventories to total assets Lecture des données

3 Master pro Fouille de données Philippe Besse 3 >ukcomp1=read.table( /users/magist/besse/d ata/tp/ukcomp1.datr, +header=true) >summary(ukcomp1) >boxplot(ukcomp1) Vérifier rapidement sur les graphes précédents l allure raisonnablement symétrique des distributions, la présence de quelques points atypiques. 2.2 Première modélisation Estimer le modèle complet sur le premier fichier expliquant RETCAP avec toutes les autres variables. Calculer et représenter les dignostics (ésidus studentisés, les distances de Cook). Interpréter les diagnostics en terme de colinéarité, de précisions des estimations (écarts-types des b j ) et d influence. Estimation du modèle >lm.uk=lm(retcap.,data=ukcomp1) Résultats numériques >summary(lm.uk) Regroupement des graphiques sur la même page >par(mfrow=c(2,2)) Résiduas et points influents >plot(lm.uk,las=1) 2.3 Choix de modèle à la main par élimination SAS, Splus et R proposent des algorithmes de sélection automatique des variables. Néanmoins il est nécessaire de savoir se débrouiller avec les outils plus limités proposés par d autres logiciels ou encore simplement de comprendre comment fonctionne ces algorithmes. Itérer la procédure suivante : 1. Estimer le modèle et choisir, parmi les variables explicatives, celle X j pour lequel le test de Student (H 0 : b j = 0) est le moins significatif, c est-à-dire avec la plus grande prob value. >lm.uk=lm(retcap WCFTCL+WCFTDT+GEARRAT+LOGSALE+LOGASST +NFATAST+CAPINT+FATTOT+INVTAST+PAYOUT+QUIKRAT+CURRAT,data=ukcomp1) >anova(lm.uk) 2. La retirer du modèle et recalculer l estimation. >lm.uk=lm(retcap WCFTCL+WCFTDT+LOGSALE+LOGASST +NFATAST+CAPINT+FATTOT+INVTAST+PAYOUT+QUIKRAT+CURRAT,data=ukcomp1) >anova(lm.uk) 3. Arrêter le processus lorsque tous les coefficients sont considérés comme significativement (à 5%) différents de 0 sauf celui du terme constant (intercept) qui reste présent. Noter la séquence des modèles ainsi obtenus. Comparer avec la procédure automatique identique descendante : >lm.uk=lm(retcap., data = ukcomp1) >step.uk=step(lm.uk,direction="backward",k=log(40)) >summary(step.uk) >step.uk$anova Ou encore avec la procédure ascendante : >lm.uk=lm(retcap 1, data = ukcomp1) >step.uk=step(lm.uk,direction="forward",k=log(40), scope=list(upper= WCFTCL+WCFTDT+GEARRAT+LOGSALE+LOGASST+ >summary(step.uk) >step.uk$anova Celle-ci fournit une solution différente. Cette stratégie d exploration du graphe ne passe pas par le même chemin que la stratégie descendante. En revanche la procédure mixte explorte plus de solutions : >lm.uk=lm(retcap 1, data = ukcomp1) >step.uk=step(lm.uk,direction="both",k=log(40), scope=list(upper= WCFTCL+WCFTDT+GEARRAT+LOGSALE+LOGASST+NFA >summary(step.uk) >step.uk$anova Remarquer en suivant la trace comment cette procédure débute comme la procédure forward, mais, autorisant la sortie de certaines variables revient finalement à la même solution optimale que celle proposée par la stratégie backward.

4 Master pro Fouille de données Philippe Besse Sélection automatique du modèle Parmi les différents types d algorithmes disponibles dans R et les différents critères de choix, une des façons les plus efficaces est la recherche exhaustive du meilleur modèle parmi tous les sous-modèles possibles selon l algorithme de Furnival et Wilson. Seul le meilleur pour chaque niveau, c est-à-dire pour chaque valeur q du nombre de variables explicatives sont donnés. Il est alors facile de choisir celui minimisant l un des critères globaux (C p, R2 ajusté... ) estimant un risque pénalisé. Cet algorithme est disponible dans le package leaps. Chargement de la librairie >library(leaps) Retour à un graphe par page >par(mfrow=c(1,1)) Extraction des variables explicatives >ukcomp=ukcomp1[,2 :13] Recherche des meilleurs modèles au sens du Cp >uk.choix1=leaps(ukcomp,ukcomp1[,"retcap"],method="cp",nbest=1) Résultats >uk.choix1$cp >plot(uk.choix1$size-1,uk.choix1$cp) Meilleur modèle >t=(uk.choix1$cp==min(uk.choix1$cp)) Liste des variables explicatives >colnames(ukcomp)[uk.choix1$whi[t]] Recherche des meilleurs modèles au sens du R2 ajusté >uk.choix2=leaps(ukcomp,ukcomp1[,"retcap"],method="adjr2",nbest=1) >uk.choix2$adjr2 >plot(uk.choix2$size-1,uk.choix2$adjr2) >t=(uk.choix12$adjr2==max(uk.choix2$adjr2)) Variables explicatives du meilleur modèle au sens du R2 ajusté >colnames(ukcomp)[uk.choix2$whi[t]] Liste des meilleurs modèles pour chaque dimension. >for (i in (1 :12)) cat(uk.choix2adjr2[i], uk.choix1cp[i], +colnames(ukcomp)[uk.choix1$whi[i,]],"\n")} Noter le modèle de C p minimum et celui de R 2 ajusté maximum. 2.5 Dernières estimations Estimer les différents modèles : complet, meilleur C p et meilleur R 2 ajusté. >lm.uk0=lm(retcap WCFTDT+LOGSALE+NFATAST+CURRAT,data=ukcomp1) >lm.uk1=lm(retcap WCFTDT+LOGSALE+NFATAST+CURRAT,data=ukcomp1) >lm.uk2=lm(retcap WCFTDT+LOGSALE+LOGASST+NFATAST+FATTOT+ +INVTAST+QUIKRAT+CURRAT,data=ukcomp1) Vérifer sur ces modèles les valeurs des différents diagnostics d influence, des résidus. >par(mfrow=c(2,2)) >plot(lm.uk0,las=1) >plot(lm.uk1,las=1) >plot(lm.uk2,las=1) Attention, la validité du modèle ainsi obtenu reste conditionnée à celle de l hypothèse de linéarité. Il peut posséder d honnêtes propriétés prédictives sans pour autant avoir des capacités d explication de la variable RETCAP. 3 Comparaison de méthodes sur un échantillon test L objet de cette section est de comparer plusieurs méthodes de modélisation dans le cas d un problème de multicolinéarité : par sélection de variables, par régression biaisée (ridge), par régression sur composantes principales, par régression PLS (partial least square). Nous disposons de deux échantillons. Le premier, dit échantillon d apprentissage, sert à rechercher un meilleur modèle pour chacune des méthodes et à estimer les paramètres de ce modèle. Chacun de ces modèles sont ensuite appliqués au deuxième échantillon, dit échantillon test, pour prédire les valeurs de la variable à expliquer. Une estimation de l erreur de

5 Master pro Fouille de données Philippe Besse 5 prédiction : la somme des carrés des différences entre valeurs prédites et valeurs observées, renseigne sur la qualité d un modèle et permet de les comparer entre eux et donc de comparer les différentes méthodes de régression. 3.1 Lecture des données Lire les données de l échantillon test. >ukcomp.test=read.table( /users/magist/besse/d ata/tp/ukcomp2.datr, +header=true) >summary(ukcomp.test) Réorganisation des colonnes de la base de test >ukcomp.test=data.frame(ukcomp.test[,names(ukcomp1)]) 3.2 Modèles obtenu par sélection de variables Les modèles lm.uk0, lm.uk1 et lm.uk2 ont été calculés ci-dessus. Ils vont être utilisés pour calculer les prédictions de l échantillon test et une estimation de l erreur quadratique. >sum((predict(lm.uk0,newdata=ukcomp.test)-ukcomp.test[,"retcap"])**2) >sum((predict(lm.uk1,newdata=ukcomp.test)-ukcomp.test[,"retcap"])**2) >sum((predict(lm.uk2,newdata=ukcomp.test)-ukcomp.test[,"retcap"])**2) Comparer ces erreurs. Conclusion? 3.3 Régression ridge La sélection de variables permet donc de restreindre les problemes de colinéarité source importante de variance des prédictions. Une autre façon de résoudre ce problème consiste à calculer une estimation sous contrainte sur la norme du vecteur des paramètres ou, c est équivalent, à translater d une valeur k la diagonale de la matrice à inverser afin d améliorer son conditionnement. Cette technique appelée ridge regression est calculée par une fonction de la librairie MASS. Chargement de la librairie >library(mass) Calcul pour différentes valeurs du paramètre de pénalisation >ridge.uk=lm.ridge(retcap.,data=ukcomp1,lambda=seq(0,0.4,0.001)) >par(mfrow=c(1,1)) Comportement des paramètres estimés en fonction de la pénalisation >plot(ridge.uk) Choix de la valeur minimisant l erreur estimée par validation croisée >select(ridge.uk) Estimation des paramètres pour la valeur optimale de pénalisation >ridgeopt.uk=lm.ridge(retcap.,data=cbind(ukcomp1,lambda=0.033) Petit souci pour construire les prédictions à partir de ce modèle car la fonction predict n est pas implémentée! 3.4 Régression PLS Cette dernière approche permet d illustrer l usage de la régression PLS très utilisée dans des situations de multicolinéarité et même lorsque le nombre de variables explicatives excède le nombre d observations comme par exemple en chimiométrie. Cette méthode est disponible dans un package spécifique de R (pls.pcr). >library(pls.pcr) Estimation avec recherche du nombre de composantes par validation croisée >uk.simpls= mvr(ukcomp, ukcomp1[,"retcap"], validation="cv", method="simpls") Résultats : un choix de 4 composantes est suggéré >summary(uk.simpls) graphique >plot(uk.simpls) Calcul des prédictions >pred.uk=predict(uk.simpls,as.matrix(ukcomp.test[,2 :13]),4) >sum((pred.uk-ukcomp.test[,"retcap"])**2)

6 Master pro Fouille de données Philippe Besse Régression sur composantes principales Cette approche peut, dans certaines situations, donner de bons résultats se déroule ; elle se déroule en deux étapes incluse dans une fonction de la librairie pls.pcr. 1. Calcul des variables principales deux à deux orthogonales et engendrant le même espace que les variables explicatives par une analyse en composantes principales, 2. Régression sur ces variables principales après une sélection automatique des variables. Estimation avec recherche du nombre de composantes par validation croisée >uk.pcr = mvr(ukcomp, ukcomp1[,"retcap"], validation="cv") Résultats : un choix de 7 composantes est suggéré >summary(uk.pcr) D autres exécutions peuvent donner d autres résultats car la validation croisée est un procédé aléatoire. Calcul des prédictions >pred.uk=predict(uk.pcr,as.matrix(ukcomp.test[,2 :13]),4) >sum((pred.uk-ukcomp.test[,"retcap"])**2) La variable à expliquer n est pas nécessairement liée aux variables principales de grande variance d où un problème pouvant apparaître dans cette méthode. 4 Conclusion Comparer les erreurs de prédictions de chaque modèle sur l échantillon test. Attention, en fonction de l exemple traité et du jeu de données, une méthode peut apparaître meilleure qu une autre sans généralisation possible.

avec Multivariate Adaptative Regression Splines Bernard CLÉMENT, PhD Copyright Génistat Conseils Inc., 2014, Montréal, Canada

avec Multivariate Adaptative Regression Splines Bernard CLÉMENT, PhD Copyright Génistat Conseils Inc., 2014, Montréal, Canada avec Multivariate Adaptative Regression Splines Bernard CLÉMENT, PhD 1 Data Mining DÉFINITIONS du DATA MINING fouille de données, extraction de connaissances KDD = Knowledge Data Discovery est un nouveau

Plus en détail

Projet de MASTER 2 d'analyse statistique de données réelles

Projet de MASTER 2 d'analyse statistique de données réelles Projet de MASTER 2 d'analyse statistique de données réelles Guillaume SAINT PIERRE IFSTTAR/COSYS/LIVIC Institut français des sciences et technologies des transports, de l'aménagement et des réseaux Département

Plus en détail

Data mining II. Modélisation Statistique & Apprentissage

Data mining II. Modélisation Statistique & Apprentissage PUBLICATIONS DU LABORATOIRE DE STATISTIQUE ET PROBABILITÉS Data mining II. Modélisation Statistique & Apprentissage PHILIPPE BESSE Version mars 2005 mises à jour : www.lsp.ups-tlse.fr/besse Laboratoire

Plus en détail

Data mining II. Modélisation Statistique & Apprentissage

Data mining II. Modélisation Statistique & Apprentissage Publications du Laboratoire de Statistique et Probabilités Data mining II. Modélisation Statistique & Apprentissage Philippe BESSE Version janvier 2003 mises à jour : www.lsp.ups-tlse.fr/besse Laboratoire

Plus en détail

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE LES DONNEES OBS KW SURFACE PERS PAVILLON AGE VOL SBAINS 1 4805 130 4 1 65 410 1 2 3783 123 4 1 5 307 2 3 2689 98 3 0 18 254 1 4 5683 178 6 1 77 570 3 5 3750

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

Du Data Mining à l Apprentissage Statistique

Du Data Mining à l Apprentissage Statistique Du Data Mining à l Apprentissage Statistique Philippe Besse Contenu : 1. 2. Risque et erreur de prévision 3. Sélection de modèle dans le cas gaussien 4. PLS et sparse PLS (linéaire) 5. Régression logistique

Plus en détail

Apprentissage Statistique & Data mining

Apprentissage Statistique & Data mining Apprentissage Statistique & Data mining PHILIPPE BESSE Version Octobre 2006 Institut de Mathématiques de Toulouse Laboratoire de Statistique et Probabilités UMR CNRS C5583 Institut National des Sciences

Plus en détail

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Quelques révisions de R 1. Manipulation de vecteur. On rappelle que e x = k 0 Créer dans

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

La régression logistique PLS

La régression logistique PLS La régression logistique PLS Michel Tenenhaus Groupe HEC, 78351 Jouy-en-Josas 1 Introduction La régression PLS permet de relier une ou plusieurs variables de réponse y àun ensemble de variables prédictives

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Économétrie 2 : données qualitatives, probit et logit

Économétrie 2 : données qualitatives, probit et logit URCA Hugo Harari-Kermadec 2008-2009 harari@ecogest.ens-cachan.fr Économétrie 2 : données qualitatives, probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Table des matières 1 Graph Kernels for Molecular Structure-Activity Relationship Analysis

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Coefficient. 1 ère année. 2 ème année. 3 ème année. 4 ème année. Volume horaire par semaine (Cours magistral)

Coefficient. 1 ère année. 2 ème année. 3 ème année. 4 ème année. Volume horaire par semaine (Cours magistral) 1 ère 2 ème 3 ème 4 ème Université Mouloud MAMMERI de Tizi-Ouzou Faculté des Sciences Economiques et de Gestion Département : Sciences de Gestion Programme des études Enseignements Volume horaire par semaine

Plus en détail

Simulation Examen de Statistique Approfondie II **Corrigé **

Simulation Examen de Statistique Approfondie II **Corrigé ** Simulation Examen de Statistique Approfondie II **Corrigé ** Ces quatre exercices sont issus du livre d exercices de François Husson et de Jérôme Pagès intitulé Statistiques générales pour utilisateurs,

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_python.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_python.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_python.html 1 Scikit-learn? Scikit-learn est une librairie pour Python spécialisée dans le machine learning (apprentissage

Plus en détail

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés M1 MLG Année 2012 2013 Feuille de TP N 3 : Modèle log-linéaire - Travail guidé 1 Cancers : modèle log-linéaire à deux facteurs croisés Ce premier exercice reprend l exercice 1 de la feuille de TD n 3.

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

79, avenue de la République - 75543 PARIS CEDEX 11 - Tél. : 01.49.23.20.00. I&OM Information & Operations Management

79, avenue de la République - 75543 PARIS CEDEX 11 - Tél. : 01.49.23.20.00. I&OM Information & Operations Management 79, avenue de la République - 75543 PARIS CEDEX 11 - Tél. : 01.49.23.20.00 Département : I&OM Information & Operations Management Cours : Statistique et Analyse de Données pour le Management Titre du document

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

La régression logistique généralisée avec la procédure LOGISTIC

La régression logistique généralisée avec la procédure LOGISTIC La régression logistique généralisée avec la procédure LOGISTIC 1 Sommaire I / Régression logistique généralisée 3 a. Introduction 3 b. Présentation de l exemple à étudier 3 II / Modélisation avec la proc

Plus en détail

Chapitre 4 Modèles d actualisation des flux monétaires disponibles. FIN5570- Analyse et évaluation financière d'entreprise 1

Chapitre 4 Modèles d actualisation des flux monétaires disponibles. FIN5570- Analyse et évaluation financière d'entreprise 1 Chapitre 4 Modèles d actualisation des flux monétaires disponibles FIN5570- Analyse et évaluation financière d'entreprise 1 Plan de la séance Évaluation des Prévisions des flux monétaires disponibles FCFF

Plus en détail

LE QUESTIONNAIRE ISALEM : ETUDE STATISTIQUE

LE QUESTIONNAIRE ISALEM : ETUDE STATISTIQUE LE QUESTIONNAIRE ISALEM : ETUDE STATISTIQUE 1. OBJECTIFS DE L'ETUDE STATISTIQUE Le traitement statistique des données a été effectué par le Professeur A. ALBERT du Centre Interdisciplinaire de Statistique

Plus en détail

Courte initiation à R

Courte initiation à R Courte initiation à R Data science Master 2 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe OSMOSE

Plus en détail

TP 2 : Importation et exportation de données Les outils graphiques de

TP 2 : Importation et exportation de données Les outils graphiques de TP 2 : Importation et exportation de données Les outils graphiques de Consulter les données disponibles sur Consulter les données disponibles sur les packages chargées en mémoire : data( Consulter les

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Projet OAD Crédit-Scoring Deutsche Bank

Projet OAD Crédit-Scoring Deutsche Bank Année scolaire 2009/2010 Projet Modélisation de 3 ème année Projet OAD Crédit-Scoring Deutsche Bank Réalisé par : Guillaume BARANES-BERREBI Manon ROUSSEAU Sous la direction de Farid BENINEL Guillaume BARANES-BERREBI

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

TP1 Master Finance logiciels Introduction à R

TP1 Master Finance logiciels Introduction à R TP1 Master Finance logiciels Introduction à R Emeline Schmisser, emeline.schmisser@math.univ-lille1.fr, bureau 314 (bâtiment M3). 1 Séquences, Vecteurs, Matrice Tableaux (arrays) Pour obtenir l aide de

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Les données manquantes en statistique

Les données manquantes en statistique Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006 Les données manquantes

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

1 Importer et modifier des données avec R Commander

1 Importer et modifier des données avec R Commander Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)

Plus en détail

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base M.A. Knefati 1 & A. Oulidi 2 & P.Chauvet 1 & M. Delecroix 3 1 LUNAM Université, Université Catholique de l Ouest,

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Travaux pratiques de Séries Temporelles F. Lavancier, A. Philippe

Travaux pratiques de Séries Temporelles F. Lavancier, A. Philippe Université de Nantes UFR des Sciences et Techniques Département de Mathématiques Master 2 Ingénierie mathématique 2012-2013 Travaux pratiques de Séries Temporelles F. Lavancier, A. Philippe Étude préliminaire

Plus en détail

Théorie Financière 3. Tableau de financement et planning financier

Théorie Financière 3. Tableau de financement et planning financier Théorie Financière 3. Tableau de financement et planning financier Objectifs de la session 1. Montrer comment les informations comptables permettent de déterminer les cash flows 2. Comprendre le concept

Plus en détail

PROJET DE SPÉCIALITÉ DU MASTER DE MATHÉMATIQUES. MODÉLISATION MATHÉMATIQUE & ANALYSE STATISTIQUE

PROJET DE SPÉCIALITÉ DU MASTER DE MATHÉMATIQUES. MODÉLISATION MATHÉMATIQUE & ANALYSE STATISTIQUE PROJET DE SPÉCIALITÉ DU MASTER DE MATHÉMATIQUES. MODÉLISATION MATHÉMATIQUE & ANALYSE STATISTIQUE Porteurs du projet Marc Arnaudon, professeur des universités, responsable des relations avec les entreprises.

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

FACULTE DE MEDECINE D ANGERS. Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant

FACULTE DE MEDECINE D ANGERS. Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant FACULTE DE MEDECINE D ANGERS Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant Année scolaire 2007-2008 SANTE PUBLIQUE ET MEDECINE SOCIALE Responsable

Plus en détail

CHAPITRE 1 LA MÉTHODE DISCOUNTED CASH FLOWS

CHAPITRE 1 LA MÉTHODE DISCOUNTED CASH FLOWS CHAPITRE 1 LA MÉTHODE DISCOUNTED CASH FLOWS Ce chapitre est consacré à la valorisation par les cash flows actualisés ou DCF. Cette méthode est basée sur la capacité d une entreprise à générer des flux

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Régression logistique ou modèle binomial

Régression logistique ou modèle binomial 1 Régression logistique ou modèle binomial Résumé Régression logistique ou modèle binomial Rappels sur la régression logistique ou modèle binomial du modèle linéaire général. Définition de la notion de

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Pilotage Financier de de l entreprise

Pilotage Financier de de l entreprise 13-1 4 ième séance GFN GFN 106 106 Pilotage Financier de de l entreprise Analyse et interprétation des états financiers : rentabilité, efficacité Enseignant : Yosra BEJAR Maître de Conférences : TELECOM

Plus en détail

IFRS Financial Ratios IFRS Indicateurs Financiers. Dictionnaire Anglais / Français. www.cometis-publishing.de

IFRS Financial Ratios IFRS Indicateurs Financiers. Dictionnaire Anglais / Français. www.cometis-publishing.de 100 IFRS Financial Ratios IFRS Indicateurs Financiers Dictionnaire Anglais / Français Author s preface Dear readers, the financial markets have always been influenced by the Anglo-Saxon culture. As a consequence

Plus en détail

Introduction à la programmation sous Scilab : TP auto-correctifs II

Introduction à la programmation sous Scilab : TP auto-correctifs II Introduction à la programmation sous Scilab : TP auto-correctifs II Licence de Physique à distance Table des matières I Vecteurs et matrices (II) 1 a) Vecteurs........................................ 1

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Nouveautés de StatView 5

Nouveautés de StatView 5 Nouveautés de StatView 5 Nouvelles fonctionnalités Régression logistique StatView propose désormais la régression logistique, une technique de construction d un modèle semblable à la régression linéaire

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF Territoires, Environnement, Télédétection et Information Spatiale Unité mixte de recherche Cemagref - CIRAD - ENGREF Master ère année Analyse spatiale, analyse géographique, spatialité des sociétés Master

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

1. Vue rapide des logiciels disponibles

1. Vue rapide des logiciels disponibles Voici une revue rapide des progiciels gratuits accessibles [FREE AND SHAREWARE] dans la section SUITES du site KDNUGGETS (http://www.kdnuggets.com/software/suites.html). L étude sera approfondie pour les

Plus en détail

Chapitre 3 - L interprétation des documents financiers et la planification financière. Plan

Chapitre 3 - L interprétation des documents financiers et la planification financière. Plan Chapitre 3 - L interprétation des documents financiers et la planification financière Plan Le bilan - présentation et signification des postes Structure en grandes masses - Le BFR Les ratios de structure

Plus en détail

Aide - mémoire de statistique appliquée à la biologie

Aide - mémoire de statistique appliquée à la biologie Aide - mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Maxime HERVE 3 ème version 2011 (1 ère version 2010) Avant-propos Lors de mon

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction INFO # 34 dans le cadre d un modèle interne Comment les méthodes d apprentissage statistique peuvent-elles optimiser les calculs? David MARIUZZA Actuaire Qualifié IA Responsable Modélisation et Solvabilité

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Travaux pratiques de Génie Informatique TP 2 & 3. séances, mais vous pouvez en faire plus. Essayer d aller le plus loin possible.

Travaux pratiques de Génie Informatique TP 2 & 3. séances, mais vous pouvez en faire plus. Essayer d aller le plus loin possible. 1 BUT DE LA SÉANCE. TRAVAUX PRATIQUES DE GÉNIE INFORMATIQUE Ces deuxième et troisième séances ont pour but de vous faire avancer dans la programmation sous Matlab. Vous y découvrez les fonctions, les sous-programmes

Plus en détail

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos. Master Mathématiques et Applications Spécialité : Ingénierie mathématique et modélisation Parcours : Mathématique et Informatique : Statistique, Signal, Santé (MI3S) 2015-2016 RÉSUMÉ DES COURS : (dernière

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

Le Modèle Linéaire par l exemple :

Le Modèle Linéaire par l exemple : Le Modèle Linéaire par l exemple : Régression, Analyse de la Variance et Plans d Expériences Illustrations numériques avec les logiciels R, SAS et Splus Jean-Marc Azaïs et Jean-Marc Bardet 2 Chapitre 1

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

PROGRAMME (Susceptible de modifications)

PROGRAMME (Susceptible de modifications) Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des

Plus en détail

Exercice 1 du cours Gestion Financière à Court Terme : «Cas Wood SA»

Exercice 1 du cours Gestion Financière à Court Terme : «Cas Wood SA» Exercice 1 du cours Gestion Financière à Court Terme : «Cas Wood SA» Le cas Wood SA aborde la problématique du financement d une entreprise. Différents financements sont envisagés : dette à moyen long

Plus en détail

Méthodes non paramétriques par permutations

Méthodes non paramétriques par permutations Méthodes non paramétriques par permutations Denis Puthier 11 juin 2008 Laboratoire INSERM TAGC/ERM206, Parc Scientifique de Luminy case 928,13288 MARSEILLE cedex 09, FRANCE. http://biologie.univ-mrs.fr/view-data.php?id=245

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Modélisation et analyse des structures des réseaux hydrographiques

Modélisation et analyse des structures des réseaux hydrographiques Modélisation et analyse des structures des réseaux hydrographiques Université des Sciences et Techniques du Languedoc Stage de Master Parcours : Fonctionnement des Ecosystèmes Naturels Et Cultivés Réalisé

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours R.R. Université Lyon 2 1 Fichier de données Prédiction de la consommation de véhicules (1) Prédire la consommation des véhicules à partir de ses

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Analyse de données fonctionnelles avec le paquet fda

Analyse de données fonctionnelles avec le paquet fda Analyse de données fonctionnelles avec le paquet fda Christophe Pouzat Jeudi 29 mars 2012 Outline Introduction Des données brutes aux fonctions Analyse de l échantillon de fonctions Sommaire Introduction

Plus en détail

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Plus en détail

Didacticiel - Études de cas. Description succincte de la bibliothèque RExcel établissant une passerelle entre Excel et R.

Didacticiel - Études de cas. Description succincte de la bibliothèque RExcel établissant une passerelle entre Excel et R. 1 Objectif Description succincte de la bibliothèque RExcel établissant une passerelle entre Excel et R. Le couplage entre un logiciel spécialisé de data mining et un tableur est un argument certain pour

Plus en détail

Choisissez la formation. Qui vous intéresse! SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc. Tél : 037-67.08.66/67 Fax : 037-67.08.

Choisissez la formation. Qui vous intéresse! SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc. Tél : 037-67.08.66/67 Fax : 037-67.08. SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc Tél : 037-67.08.66/67 Fax : 037-67.08.69 Choisissez la formation spssmaroc@maghrebnet.net.ma Qui vous intéresse! Site web : www.spss.com/localoffices/morocco

Plus en détail