TP 3 : analyses statistiques



Documents pareils
ACP Voitures 1- Méthode

Initiation à l analyse en composantes principales

Introduction aux Statistiques et à l utilisation du logiciel R

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

La classification automatique de données quantitatives

Logiciel XLSTAT version rue Damrémont PARIS

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

données en connaissance et en actions?

Scénario: Données bancaires et segmentation de clientèle

TRANSPORT ET LOGISTIQUE :

1 Complément sur la projection du nuage des individus

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

La place de SAS dans l'informatique décisionnelle

TP1 : LOGICIEL R ET PRÉDICTION DE L EFFLORESCENCE ALGALE

«Cours Statistique et logiciel R»

Travaux pratiques avec RapidMiner

Lire ; Compter ; Tester... avec R

SEMIN. Données sous R : stockage et échange. Julio PEDRAZA ACOSTA

1 Modélisation d être mauvais payeur

Principe d un test statistique

Séance 0 : Linux + Octave : le compromis idéal

Estimation et tests statistiques, TD 5. Solutions

Aide-mémoire de statistique appliquée à la biologie

Introduction au Data-Mining

Extraction d informations stratégiques par Analyse en Composantes Principales

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Introduction au Data-Mining

R01 Import de données

Analyse de la variance Comparaison de plusieurs moyennes

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Optimiser ses graphiques avec R

Arbres binaires de décision

Exemples d Analyses de Variance avec R

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Aide - mémoire gnuplot 4.0

Sillage Météo. Notion de sillage

REALISATION D UNE CALCULATRICE GRACE AU LOGICIEL CROCODILE CLIPS 3.

Ricco.Rakotomalala

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Gestion des données avec R

Coup de Projecteur sur les Réseaux de Neurones

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

1 Importer et modifier des données avec R Commander

Transmission d informations sur le réseau électrique

Cours 7 : Utilisation de modules sous python

ESIEA PARIS

TP de Statistiques: Utilisation du logiciel R

Fiche TD avec le logiciel. Courbes de niveau. D. Chessel

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

LES TYPES DE DONNÉES DU LANGAGE PASCAL

SPHINX Logiciel de dépouillement d enquêtes

Tutoriel Mathematica Les graphiques

SEMIN- Gestion des couleurs sous R. Michel BAYLAC. MNHN Département Systématique et Evolution OSEB

Cartographie avec R. Baptiste Coulmont. 16 septembre 2010

INF6304 Interfaces Intelligentes

Annexe commune aux séries ES, L et S : boîtes et quantiles

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

Une introduction au langage R

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction à MATLAB R

Régression linéaire. Nicolas Turenne INRA

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

7 ingrédients pour personnaliser l expérience client et booster votre chiffre d affaires en seulement 5 semaines

Extraction d information des bases de séquences biologiques avec R

ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008

document proposé sur le site «Sciences Physiques en BTS» : BTS AVA 2015

Introduction à la statistique non paramétrique

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Travailler avec les télécommunications

Température corporelle d un castor (une petite introduction aux séries temporelles)

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Les Français et le chauffage. Résultats de l étude menée

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

MODELE A CORRECTION D ERREUR ET APPLICATIONS

La fraude à la carte bancaire

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

TABLE DES MATIERES. C Exercices complémentaires 42

MCMC et approximations en champ moyen pour les modèles de Markov

Apprentissage statistique dans les graphes et les réseaux sociaux

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Package TestsFaciles

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Méthodes d apprentissage statistique «Machine Learning»

Etude des propriétés empiriques du lasso par simulations

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Transcription:

TP 3 : analyses statistiques Exercice I : Le test de student Construire un vecteur (nommé X de 100 valeurs dont chaque élément est issu d une loi normale de moyenne nulle et de variance unitaire. Construire un vecteur (nommé Y de 50 valeurs dont chaque élément est issu d une loi normale centrée en 1 et de variance unitaire. Réaliser un test de student pour tester l égalité des moyennes Quel type d objet est renvoyé par la fonction utilisée en question Récupérer la p-valeur du test. Qu en concluez-vous? Exercice II : La régression linéaire simple Dans le package datasets est disponible le jeu de données cars. Ce jeu de données est composé de deux variables la première indiquant la vitesse de voitures et la seconde le temps de freinage. Charger le jeu de donnée 'cars' Tracer le graphe bivarié (abscisses=vitesse, ordonées= distance. Que constate t on? Construire un modèle linéaire qui analyse la distance de freinage comme fonction de la vitesse. Stocker le résultat du modèle dans un objet nommé result.lm. Ajouter au graphe bivarié construit à la question 1, la droite de régression résultant du modèle de la question Donner les valeurs prédites par le modèle pour chacune des observations. Calculer la différence entre les valeurs prédites par le modèle et les valeurs observées. Comparer ce résultat aux résidus disponibles dans l objet residuals de la liste des outputs 7. Construire et visualiser des intervalles de prédiction et de confiance. Exercice III : l analyse en composantes principales Pour illustrer l Analyse en Composantes Principales, nous allons utiliser le jeu de données bordeaux_r.txt. Charger le jeu de données bordeaux_r. Réaliser une analyse en composantes principales (à partir des 4 variables température, soleil, chaleur, pluie sur les variables centrées réduites.

Afficher sur un même graphique les variables et les individus (biplot sur les deux premiers axes principaux. Afficher les qualités des vins comme labels des individus. Interpréter le résultat de l analyse. Donner le pourcentage de variance expliquée par les deux premières composantes Exercice IV : la régression logistique Récupérer les deux premières composantes principales de l exercice précédent et les stocker dans un objet nommé X. Construire une variable binaire (nommée y prenant la valeur 1 si le vin est «bon» et prenant la valeur 0 si le vin est «moyen» ou «médiocre» En utilisant la fonction glm( construire un modèle logistique de Y sur X. Récupérer les probabilités prédites par le modèle En déduire les décisions du modèle pour chacun des individus (On seuillera les probabilités d appartenance à un seuil fixé à 0.5. Renvoyer le tableau de contingence. En déduire le taux de bonne classification en apprentissage. 7. On s intéresse maintenant au taux de bonne classification en test. Pour ce faire sélectionner aléatoirement 22 individus (avec la fonction sample pour construire votre modèle et le restant pour le tester. 8. Comparer les tableaux de contingence d apprentissage et de test. En déduire les taux d erreur en apprentissage et en test. Exercice V : La methode des k-means Récupérer l objet nommé X avec les scores de l analyse en composantes principales et tracer le graphe bivarié du premier score sur le deuxième ; colorer les points selon leur qualité («bon», «moyen», «médiocre». Construire une partition de 3 groupes de ce nuage de points via l algorithme des kmeans. Lier chacune des observations à son centroïde par un segment et compter visuellement le taux de mal classés.

Correction de l exercice I : Le test de student X = rnorm(100 ; Y = rnorm(50, mean = 1 res = t.test(x, Y res est un objet de type list( summary(res names(res On constate que la p-valeur est stockée dans le troisième élément de la liste. On récupère la p-valeur par la commande res[[3]]. La p- valeur est inférieur à 0.05 ce qui nous conduit, comme attendu, à rejeter l hypothèse nulle d égalité des moyennes. Correction de l exercice II : La régression linéaire simple library(datasets # déjà chargé plot(cars$speed, cars$dist on constate une relation linéaire entre la distance de freinage et la vitesse du véhicule. Comme on pouvait s y attendre, plus le véhicule est rapide, plus le temps d arrêt est important. result.lm = lm(cars$dist ~ cars$speed abline(result.lm Yhat = predict(result.lm cbind(cars$dist - Yhat, result.lm$residuals # à comparer à result.lm$residuals 7. #intervalle de prediction!: predict(result.lm, interval="prediction" #intervalle de confiance!: predict(result.lm, interval="confidence" # visulalisation pred1<-predict(result.lm, interval="prediction" pred2<-predict(result.lm, interval="confidence" l.min = min(pred1[,2],pred2[, 2] l.max = max(pred1[,3],pred2[, 3] plot(cars$speed, cars$dist, ylim = c(l.min, l.max ord<-order(cars$speed lines(cars$speed[ord], pred1[ord, 2], lwd = 1, col = "green" lines(cars$speed[ord], pred1[ord, 3], lwd = 1, col = "green" lines(cars$speed[ord], pred2[ord, 2], lwd = 1, col = "red" lines(cars$speed[ord], pred2[ord, 3], lwd = 1, col = "red"

Correction de l exercice III : l analyse en composantes principales A = read.table("datasets/bordeaux_r.txt", row.names=1, header = TRUE, sep = "\t" result.pca = princomp(a[,1:4], cor = TRUE biplot(result.pca nom = factor(a$qualite, labels=c("bon", "moyen", "mediocre" #ou nom = c("bon", "moyen", "mediocre"[as.numeric(a$qualite] biplot(result.pca, xlabs = nom On remarque qu une année peu pluvieuse jumelée à de forte chaleur fournira des vins de bonne qualité summary(result.pca # = (result.pca$sdev^2/4 plot(result.pca Correction de l exercice IV : la régression logistique X <- result.pca[[6]][,1:2] # ou X <- result.pca$scores[,1:2] y <- A$QUALITE ; y[which(y>1] = 0 ; y[y>1] <- 0 res.log <- glm(y~x, family = "binomial" proba <- res.log$fitted.values ypredit = rep(1, nrow(a ; ypredit[proba<0.5] = 0 tab = table(y, ypredit ; sum(diag(tab/nrow(a 7. set.seed(11 ind = sample(nrow(a,22 glm.app = glm(y~x, family = "binomial", subset=ind glm.app$fitted.values glm.proba <- predict(glm.app,type ="response", newdata=as.data.frame(x proba.app <- glm.proba[ind] proba.test <- glm.pred[-ind] pred.app <- rep(1,length(proba.app pred.app[proba.app<0.5] = 0 pred.test <- rep(1,length(proba.test pred.test[proba.test<0.5] = 0 tab.app <- table(pred.app, y[ind] sum(diag(tab.app/sum(tab.app

tab.test <- table(pred.test, y[-ind] sum(diag(tab.test/sum(tab.test Remarque importante : Si l on souhaite évaluer la qualité d un modèle, le taux d erreur important est celui évaluer sur la base de test. Un taux d erreur faible sur la base d apprentissage et fort sur la base de test indique que le modèle n a pas de capacité de généralisation. Correction de l exercice V : La methode des k-means result.pca$scores[,1:2] <- X plot(x, col = A$QUALITE result.kmeans = kmeans(x, 3 plot( X, col = A$QUALITE, xlab = "premiere composante principale", ylab = "deuxieme composante principale ", main = "Les vins de bordeaux" points(result.kmeans$centers, col = c(2, 1,3, pch = 7, lwd = 3 segments(x[result.kmeans$cluster == 1, ][, 1], X[result.kmeans$cluster == 1, ][, 2], result.kmeans$centers[1, 1], result.kmeans$centers[1, 2], col = 2 segments(x[result.kmeans$cluster == 2, ][, 1], X[result.kmeans$cluster == 2, ][, 2], result.kmeans$centers[2, 1], result.kmeans$centers[2, 2], col = 1 segments(x[result.kmeans$cluster == 3, ][, 1], X[result.kmeans$cluster == 3, ][, 2], result.kmeans$centers[3, 1], result.kmeans$centers[3, 2], col = 3