Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
|
|
- André Michaud
- il y a 8 ans
- Total affichages :
Transcription
1 Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par l intermédiaire du CRAN (Comprehensive R Archive Network) à l adresse Dans chaque exercice, nous ne donnerons que les sorties de R (ici nous ne donnerons pas les commandes utilisées). Exercice 1 : Nous souhaitons étudier les données enregistrées dans le fichier salaires.txt (téléchargeable sur et également sur ma page web). Ce fichier contient les données observées sur un échantillon de 474 employés tirés au sort dans une entreprise canadienne. Les variables étudiées sont les suivantes : salary : salaire brut actuel, en $/an salbegin : salaire de départ, en $/an jobtime : nombre de mois depuis l entrée dans l entreprise prevexp : expérience professionnelle antérieure (nombre de mois de travail avant l entrée dans l entreprise) educ : nombre d années d étude minority : appartenance à une minorité (Non, Oui) sex : sexe (H = Homme, F = Femme) 1. Décrire les données à l aide du résumé de variables et des graphiques ci-dessous. Indiquer quelles sont les variables quantitatives et qualitatives. Commenter les graphiques. Observations: 474 Variables: $ salary (int) 57, 42, 2145, 219, 45, 321, 36, $ salbegin (int) 27, 1875, 12, 132, 21, 135, 1875, $ jobtime (int) 98, 98, 98, 98, 98, 98, 98, 98, 98, 98, 98, 98, 98, 9... $ prevexp (int) 144, 36, 381, 19, 138, 67, 114,, 115, 244, 143, $ educ (int) 15, 16, 12, 8, 15, 15, 15, 12, 15, 12, 16, 8, 15, 15,... $ minority (fctr) Non, Non, Non, Non, Non, Non, Non, Non, Non, Non, No... $ sex (fctr) H, H, F, F, H, H, H, F, F, F, F, H, H, F, H, H, H, H... salary salbegin jobtime prevexp Min. : 1575 Min. : 9 Min. :63. Min. :. 1st Qu.: 24 1st Qu.: st Qu.:72. 1st Qu.: Median : Median :15 Median :81. Median : 55. Mean : 3442 Mean :1716 Mean :81.11 Mean : rd Qu.: rd Qu.:1749 3rd Qu.:9. 3rd Qu.: Max. :135 Max. :7998 Max. :98. Max. :476. educ minority sex Min. : 8. Non:37 H:258 1st Qu.:12. Oui:14 F:216 Median :12. Mean : rd Qu.:15. Max. :21. 1
2 H sex F Non minority Oui e+4 1e+5 salary salbegin Nous avons déterminé la matrice des corrélations pour l ensemble des variables quantitatives. salary salbegin jobtime prevexp educ salary salbegin jobtime prevexp educ Indiquer pour quels couples de variables la corrélation linéaire observée est la plus forte, la plus faible. Nous avons tracé, ci-dessous, à gauche le nuage de points représentant les observations conjointes des deux variables salaire de départ salbegin et salaire actuel salary et à droite l ajustement avec un modèle de régression linéaire simple. Nous avons également relevé les sorties de la régression linéaire simple. 2
3 16 1e+5 12 salary salary 8 5e salbegin salbegin Call: lm(formula = salary ~ salbegin, data = Salaire) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.928e e * salbegin 1.99e e <2e-16 *** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 Residual standard error: 8115 on 472 degrees of freedom Multiple R-squared:.7746, Adjusted R-squared:.7741 F-statistic: 1622 on 1 and 472 DF, p-value: < 2.2e Que peut-on dire de la corrélation linéaire entre le salaire de départ et le salaire actuel? La dispersion des salaires actuels augmente-t-elle quand le salaire de départ augmente? Commenter. 4. Commenter les résultats de la régression linéaire simple. On veut savoir si la variable salaire du départ a une influence sur le salaire actuel. Effectuer un test d hypothèses au niveau α = 5% pour répondre à la question (écrire les hypothèses du test, donner la p-valeur et conclure). 5. Que vaut R 2 (coefficient de détermination)? Donner son interprétation. 6. Quel est le graphe qui permet de vérifier la normalité des résidus? Quel est le graphe qui permet de vérifier l homoscédasticité des résidus? Commenter ces deux graphiques : pensez vous que ces deux conditions sur le modèle sont vérifiées? Justifier. 3
4 4 Residuals vs Fitted Normal Q Q Residuals 2 2 Standardized residuals Fitted values 2 2 Theoretical Quantiles 7. Commenter les résultats la régression linéaire multiple suivante. Que vaut R 2? Donner son interprétation. Que vaut R 2 ajusté? Call: lm(formula = salary ~ salbegin + jobtime + prevexp + educ + sex, data = Salaire) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e e *** salbegin 1.723e+ 6.51e < 2e-16 *** jobtime 1.545e e e-6 *** prevexp e e e-8 *** educ 5.93e e *** sexf e e ** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 Residual standard error: 741 on 468 degrees of freedom Multiple R-squared:.8137, Adjusted R-squared:.8117 F-statistic: 48.7 on 5 and 468 DF, p-value: < 2.2e-16 4
5 Exercice 2 : Nous traitons un problème de défaut bancaire (données du livre An Introduction to Statistical Learning de Gareth James, Daniela Witten Trevor Hastie et Robert Tibshirani, également disponibles sur R). Nous cherchons à déterminer quels clients seront en défaut sur leur dette de carte de crédit (ici defaut = yes si le client fait défaut). La variable defaut est la variable réponse. Nous disposons d un échantillon de taille 1 et 3 variables explicatives : student: Yes si le client est un étudiant et No sinon balance: montant moyen mensuel d utilisation de la carte de crédit income: revenu du client. 1. Décrire les données à l aide du résumé des variables et des graphiques suivants : Observations: 1 Variables: $ default (fctr) No, No, No, No, No, No, No, No, No, No, No, No, No, N... $ student (fctr) No, Yes, No, No, No, Yes, No, Yes, No, No, Yes, Yes,... $ balance (dbl) , , , , , $ income (dbl) , , , , ,... default student balance income No :9667 No :756 Min. :. Min. : 772 Yes: 333 Yes:2944 1st Qu.: st Qu.:2134 Median : Median :34553 Mean : Mean : rd Qu.: rd Qu.:4388 Max. : Max. : No default Yes 1 2 balance income No student Yes Sans perte de généralité, nous notons X une variable ou un vecteur de plusieurs variables explicatives. Nous allons estimer π(x) = P(default = 1 X = x) à l aide du modèle logistique. Pour illustrer un peu le problème 5
6 et le jeu de données, nous commencerons par des modèles simples et nous terminerons par des modèles multiples. Modèle 1 : Call: glm(formula = default ~ balance, family = binomial(link = "logit"), data = Default) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -1.65e e <2e-16 *** balance 5.499e e <2e-16 *** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 9999 degrees of freedom Residual deviance: on 9998 degrees of freedom AIC: 16.5 Number of Fisher Scoring iterations: 8 1. On veut savoir si la variable balance a une influence sur la variable default. Effectuer un test d hypothèses au niveau α = 5% pour répondre à la question (écrire les hypothèses du test. donner la p-valeur et conclure). 2. Utiliser les résultats ci-dessus pour donner l équation du modèle logistique ave les coefficients estimés. 3. Relever la valeur de la probabilité de défaut pour un client qui a un balance de 1 dollars et 2 dollars. Que peut-on en conclure? balance Modèle 2 : Call: glm(formula = default ~ student, family = binomial(link = "logit"), data = Default) Deviance Residuals: 6
7 Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** studentyes *** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 9999 degrees of freedom Residual deviance: on 9998 degrees of freedom AIC: Number of Fisher Scoring iterations: 6 4. Relever les coefficients estimées du modèle 2 et donner l équation du modèle logistique avec les coefficients estimés. Calculer aussi à la main les coefficients estimés du modèle à l aide du tableau de contingence suivant : student No Yes default No Yes Est-ce que vous obtenez les mêmes résultats que celui du logiciel R? 5. Donner à la main les estimations de P(default = Yes student = Yes) et P(default = Yes student = No) (aide : considerer Yes = 1 et No =). Est-ce que vos résultats coïncident avec les sorties ci-dessous? student 1 Yes 2 No Modèle 3 : Call: glm(formula = default ~ student + balance, family = binomial(link = "logit"), data = Default) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) 7
8 (Intercept) -1.75e e < 2e-16 *** studentyes e e e-6 *** balance 5.738e e < 2e-16 *** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 9999 degrees of freedom Residual deviance: on 9997 degrees of freedom AIC: Number of Fisher Scoring iterations: 8 π (x) Yes No student (Yes ou 1) et no student (No ou ) balance 6. Commenter le graphique obtenu avec les sorties du Modèle 3. Que pouvez vous suggérer? 7. Relever les valeurs estimées des trois coefficients du Modèle 3. Donner l équation du modèle logistique avec les coefficients estimés pour les student=yes et pour les student=no. 8. Commenter les sorties R suivantes : default student balance income 1 No No Yes Yes No No Nous avons relevé les valeurs estimées de la proportion de defaut selon les caractéristiques de trois clients au hasard. Est-ce qu on peut dire si ces trois clients feront default? Que peut-on en conclure? 8
9 Modèle 4 : Call: glm(formula = default ~ balance + income + student, family = binomial, data = Default) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -1.87e e < 2e-16 *** balance 5.737e e < 2e-16 *** income 3.33e e studentyes e e ** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 9999 degrees of freedom Residual deviance: on 9996 degrees of freedom AIC: Number of Fisher Scoring iterations: 8 1. Utiliser le critère AIC pour choisir un modèle. Lequel choisissez-vous? Justifier. AIC.glm1 AIC.glm2 AIC.glm3 AIC.glm4 [1,]
10 Exercice 3 : Une étude conduite aux USA en 1986 cherche à cerner les facteurs pouvant augmenter le risque de donner naissance à des bébés de faible poids inférieur à 25 g. Source : Hosmer, D.W. and Lemeshow, S. (1989). Applied Logistic Regression. New York : Wiley (site Les données sont stockées aussi dans le fichier birthwt.txt téléchargeables sur ma page web et également sous R dans le package MASS. Les variables considérées sont mesurées sur 189 bébés. Variable low age lwt race smoke ptl ht ui ftv bwt Nom 1 si poids à la naisance est superieur à 2.5 kg, sinon. âge de la mère. le poids de la mère lors des dernières menstruations l ethnicité de la mère (1 = white, 2 = black, 3 = other). 1 si tabagisme pendant la grossesse, sinon nombre d accouchement prématuré précédente. 1 si antécédent d hypertension, sinon. 1 si présence d irritabilité utérine, sinon. le nombre de visites médicales durant le premier trimestre de grossesse. poids à la naissance en grammes. Observations: 189 Variables: $ low (int),,,,,,,,,,,,,,,,,,,... $ age (int) 19, 33, 2, 21, 18, 21, 22, 17, 29, 26, 19, 19, 22, 3,... $ lwt (int) 182, 155, 15, 18, 17, 124, 118, 13, 123, 113, 95, $ race (int) 2, 3, 1, 1, 1, 3, 1, 3, 1, 1, 3, 3, 3, 3, 1, 1, 2, 1, 3,... $ smoke (int),, 1, 1, 1,,,, 1, 1,,,,, 1, 1,, 1,,... $ ptl (int),,,,,,,,,,,,, 1,,,,,,... $ ht (int),,,,,,,,,,,, 1,,,,,,,... $ ui (int) 1,,, 1, 1,,,,,,,,, 1,,,,, 1,... $ ftv (int), 3, 1, 2,,, 1, 1, 1,,, 1,, 2,,,, 3,,... $ bwt (int) 2523, 2551, 2557, 2594, 26, 2622, 2637, 2637, 2663, Ces nécessitent quelques recodages. Nous avons transformé certains variables à facteur (variables qualitatives). Observations: 189 Variables: $ low (fctr) normal, normal, normal, normal, normal, normal, normal,... $ age (int) 19, 33, 2, 21, 18, 21, 22, 17, 29, 26, 19, 19, 22, 3,... $ lwt (int) 182, 155, 15, 18, 17, 124, 118, 13, 123, 113, 95, $ race (fctr) black, other, white, white, white, other, white, other,... $ smoke (fctr) no, no, yes, yes, yes, no, no, no, yes, yes, no, no, no... $ ptl (int),,,,,,,,,,,,, 1,,,,,,... $ ht (fctr) no, no, no, no, no, no, no, no, no, no, no, no, yes, no... $ ui (fctr) yes, no, no, yes, yes, no, no, no, no, no, no, no, no,... $ ftv (int), 3, 1, 2,,, 1, 1, 1,,, 1,, 2,,,, 3,,... $ bwt (int) 2523, 2551, 2557, 2594, 26, 2622, 2637, 2637, 2663,
11 normal low low white black other race no smoke yes age lwt ftv 11
12 bwt ptl no ui yes no ht yes Parmi les variables d intérêt figurent : low, age, lwt, ftv, race. Nous avons croisé la varaible quantitative age avec la variable catégorielle low. Les résumés numériques séparés pour chaque niveau de la variable catégorielle sont : low: normal Min. 1st Qu. Median Mean 3rd Qu. Max low: low Min. 1st Qu. Median Mean 3rd Qu. Max Pour comprende le problème nous avons commencé par des modèles simples et nous avons terminé par des modèles plus complexes. Nous avons ajusté un modèle logistique expliquant la probabilité qu un bébé naisse avec un faible poids à partir de la variable explicative lwt. 12
13 Call: glm(formula = low ~ lwt, family = binomial, data = Poids) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) lwt * --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 188 degrees of freedom Residual deviance: on 187 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Nous avons ajusté un modèle logistique expliquant la probabilité qu un bébé naisse avec un faible poids à partir des variables explicatives age et lwt. Call: glm(formula = low ~ lwt + age, family = binomial, data = Poids) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) lwt * age Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 188 degrees of freedom Residual deviance: on 186 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Nous avons ajusté un modèle logistique expliquant la probabilité qu un bébé naisse avec un faible poids à partir des variables explicatives age, lwt, ftv et race. 13
14 Call: glm(formula = low ~ lwt + race + ftv + age, family = binomial, data = Poids) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) lwt * raceblack * raceother ftv age Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 188 degrees of freedom Residual deviance: on 183 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 14
Un exemple de régression logistique sous
Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les
Plus en détailDonnées longitudinales et modèles de survie
ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan
Plus en détailAnalyse exploratoire des données
Analyse exploratoire des données Introduction à R pour la recherche biomédicale http://wwwaliquoteorg/cours/2012_biomed Objectifs Au travers de l analyse exploratoire des données, on cherche essentiellement
Plus en détailUne introduction. Lionel RIOU FRANÇA. Septembre 2008
Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4
Plus en détailChapitre 4 : Régression linéaire
Exercice 1 Méthodes statistiques appliquées aux sciences sociales (STAT-D-203) Titulaire : Catherine Vermandele Chapitre 4 : Régression linéaire Le diplôme de Master of Business Administration ou MBA est
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailDensité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas
Fiche TD avec le logiciel : tdr335 Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas F. Menu, A.B. Dufour, E. Desouhant et I. Amat La fiche permet de se familiariser
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailAnalyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Plus en détail«Cours Statistique et logiciel R»
«Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailAnalyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)
Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle
Plus en détailÉtude des flux d individus et des modalités de recrutement chez Formica rufa
Étude des flux d individus et des modalités de recrutement chez Formica rufa Bruno Labelle Théophile Olivier Karl Lesiourd Charles Thevenin 07 Avril 2012 1 Sommaire Remerciements I) Introduction p3 Intérêt
Plus en détailMODELE A CORRECTION D ERREUR ET APPLICATIONS
MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques
Plus en détailExamen de Logiciels Statistiques
G. Hunault Angers, mai 2011 Licence MEF Examen de Logiciels Statistiques On s intéresse ici au dossier EAEF01 qui contient un extrait des données du recensement américain. On trouvera ces données et leur
Plus en détailLire ; Compter ; Tester... avec R
Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................
Plus en détailExemples d application
AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailLeçon N 4 : Statistiques à deux variables
Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d
Plus en détailImputation du salaire d ego dans TeO
Imputation du salaire d ego dans TeO Objet de la note : linéariser la réponse en tranche du salaire, et imputer le salaire en cas de non réponse Champ et principe de la méthode Les individus qui se sont
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailAnalyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Plus en détailDidacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.
1 Objectif Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat. Tout le monde l aura compris, je passe énormément de temps à analyser les logiciels
Plus en détailEstimation et tests statistiques, TD 5. Solutions
ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études
Plus en détailRégression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr
Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailLe risque Idiosyncrasique
Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes
Plus en détailSTATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Plus en détailModèles pour données répétées
Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque
Plus en détail1 Importer et modifier des données avec R Commander
Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)
Plus en détailStatistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011
Master 1 Biologie et technologie du végétal Année 010-011 Statistiques Rappels de cours et travaux dirigés (Seul ce document sera autorisé en examen) auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailLe modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détaildistribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Plus en détailINTRODUCTION AU LOGICIEL R
INTRODUCTION AU LOGICIEL R Variables et mise en jambe Anne Dubois, Julie Bertrand, Emmanuelle Comets emmanuelle.comets@inserm.fr INSERM UMR738 (UMR738) 1 / 68 Sur le site www.cran.r-project.org : Ou trouver
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailL'évaluation par les pairs dans un MOOC. Quelle fiabilité et quelle légitimité? Rémi Bachelet Ecole Centrale de Lille 24 novembre 2014, Université
L'évaluation par les pairs dans un MOOC. Quelle fiabilité et quelle légitimité? Rémi Bachelet Ecole Centrale de Lille 24 novembre 2014, Université Paris-Est séminaire annuel IDEA Les diapos seront tweetées
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailStatistique de l assurance
Statistique de l assurance Arthur Charpentier To cite this version: Arthur Charpentier. Statistique de l assurance. 3ème cycle. Université de Rennes 1 et Université de Montréal, 2010, pp.133.
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailFeuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.
Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences
Plus en détailTraitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Plus en détailINTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R
INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R Y. BROSTAUX (1) RÉSUMÉ Cette note constitue une introduction au langage et à l'environnement de programmation 5 dans sa version 1.4.1 pour
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailTP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options
Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce
Plus en détailPREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,
Plus en détailModélisation de la réforme des pensions
Modèle PROST de la Banque Mondiale Modélisation de la réforme des pensions Mécanisme de simulation des options de réforme des retraites, de la Banque Mondiale L es politiques de pension d aujourd hui peuvent
Plus en détailAICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Plus en détailÉtude de cas Assurance (d après une étude de Philippe Périé, CISIA)
Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailPremière partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015
Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailCorrection du baccalauréat STMG Polynésie 17 juin 2014
Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé
Plus en détailActuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.
Actuariat I ACT2121 septième séance Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1 Exercice 1 En analysant le temps d attente X avant un certain événement
Plus en détailDirection des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Plus en détailChapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Plus en détailTerminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader
Terminale STMG O. Lader Table des matières Interrogation 1 : Indice et taux d évolution........................... 2 Devoir maison 1 : Taux d évolution................................ 4 Devoir maison 1
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailLe patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites
CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 08 juillet 2015 à 9 h 30 «Le patrimoine des retraités et l épargne retraite» Document N 2 bis Document de travail, n engage pas le Conseil Le patrimoine
Plus en détailChapitre 3. Mesures stationnaires. et théorèmes de convergence
Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée
Plus en détailDimensionnement d une roue autonome pour une implantation sur un fauteuil roulant
Dimensionnement d une roue autonome pour une implantation sur un fauteuil roulant I Présentation I.1 La roue autonome Ez-Wheel SAS est une entreprise française de technologie innovante fondée en 2009.
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailProbabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1
Introduction Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1 L auteur remercie Mme Sylvie Gervais, Ph.D., maître
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailApproche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Plus en détailLicence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015.
Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015. Thèmes des séances de TD Thème n.1: Tableaux statistiques et représentations graphiques. Thème
Plus en détailModèle GARCH Application à la prévision de la volatilité
Modèle GARCH Application à la prévision de la volatilité Olivier Roustant Ecole des Mines de St-Etienne 3A - Finance Quantitative Décembre 2007 1 Objectifs Améliorer la modélisation de Black et Scholes
Plus en détailUtilisation du module «Geostatistical Analyst» d ARCVIEW dans le cadre de la qualité de l air
Etude n 10 Assistance en modélisation (Rapport 3/3) Utilisation du module «Geostatistical Analyst» d ARCVIEW dans le cadre de la qualité de l air Novembre 2004 Convention : 04000087 Giovanni CARDENAS Utilisation
Plus en détailTP de Statistiques: Utilisation du logiciel R
TP de Statistiques: Utilisation du logiciel R Année 2006-2007 2 Table des matières Introduction i 1 Premiers pas avec R 1 1.1 R est une calculatrice............................................. 1 1.2 R
Plus en détailTRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
Plus en détailExposing a test of homogeneity of chronological series of annual rainfall in a climatic area. with using, if possible, the regional vector Hiez.
Test d homogéné$é Y. BRUNET-MORET Ingénieur hydrologue, Bureau Central Hydrologique Paris RÉSUMÉ Présentation d un test d homogénéi.té spécialement conçu pour vérijier Z homogénéité des suites chronologiques
Plus en détailAide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailFORMULAIRE DE DÉCLARATION DE PATRIMOINE
FORMULAIRE DE DÉCLARATION DE PATRIMOINE TYPE DE DÉCLARATION: Entrée en Fonction Référence : Loi du 20 Février 2008 et Moniteur No. 17 Sortie de Fonction Titre de la Fonction Date de la déclaration../ /.
Plus en détailAnalyse des durées de vie avec le logiciel R
Analyse des durées de vie avec le logiciel R Ségolen Geffray Des outils ainsi que des données pour l analyse des durées de vie sont disponibles dans les packages survival MASS Il est nécessaire de charger
Plus en détailt 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
Plus en détailAnalyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9
Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 L analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un facteur (un critère de classification,
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détailFrance. Conditions d ouverture des droits. Calcul des prestations. Indicateurs essentiels. France : le système de retraite en 2012
France France : le système de retraite en 212 Dans le secteur privé, le système de retraite repose sur deux piliers obligatoires : un régime général lié à la rémunération et des dispositifs professionnels
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailContexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Plus en détailExercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailquelques Repères pour Doctorants
Gilles HUNAULT 2005 quelques Repères en STATISTIQUES pour Doctorants Université d Angers c gilles.hunault@univ-angers.fr http ://www.info.univ-angers.fr/pub/gh/ 3 Le principe consistant à ne pouvoir affirmer
Plus en détailDidacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).
1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence
Plus en détailÉquations non linéaires
Équations non linéaires Objectif : trouver les zéros de fonctions (ou systèmes) non linéaires, c-à-d les valeurs α R telles que f(α) = 0. y f(x) α 1 α 2 α 3 x Equations non lineaires p. 1/49 Exemples et
Plus en détailCOURS CALCULS FINANCIERS STATISTIQUE
UNIVERSITÉ JOSEPH FOURIER M1 MIAGE UFR IMA COURS DE CALCULS FINANCIERS ET STATISTIQUE Serge Dégerine 4 octobre 2007 INTRODUCTION Ce document comporte trois parties consacrées à deux thèmes très indépendants
Plus en détailFeuille TD n 1 Exercices d algorithmique éléments de correction
Master Sciences, Technologies, Santé Mention Mathématiques, spécialité Enseignement des mathématiques Algorithmique et graphes, thèmes du second degré Feuille TD n 1 Exercices d algorithmique éléments
Plus en détailLe modèle de régression linéaire
Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le
Plus en détailLa fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de 2007-2008
La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de 2007-2008 Ce document se veut une analyse succincte des indicateurs se rapportant à
Plus en détail