TP machine IV (Statistique inférentielle : tests d hypothèse)

Documents pareils
SEMIN. Données sous R : stockage et échange. Julio PEDRAZA ACOSTA

Lire ; Compter ; Tester... avec R

INTRODUCTION AU LOGICIEL R

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

CRÉATION MODIFICATION

R01 Import de données

1 Introduction - Qu est-ce que le logiciel R?

D r o i t s D r o i t s Q u i z z : i n t e r n e t t e x t e

T de Student Khi-deux Corrélation

Examen de Logiciels Statistiques

AutoCAD Petit exercice sous

La simulation probabiliste avec Excel

Lois de probabilité. Anita Burgun

Logistique, Transports

Gestion des données avec R

La gestion des boîtes aux lettres partagées

TP de Statistiques: Utilisation du logiciel R

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Documentation Ellipses Windows. Auteur : Léonard FRECHET Date : 10/01/07 Diffusion : Publique ELLIPSES Envoi Automatisé de SMS Ellipses SMS

Séance 0 : Linux + Octave : le compromis idéal

TP3 Intégration de pratiques agiles. 1. User Stories (1) Scénario d intégration agile. En direct-live du château

Aide - mémoire gnuplot 4.0

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

TP Blender n 2 : Importation d un modèle SketchUp et animation

Projet : Pauk Poker. Le site

Les dates SAS expliquées à ma fille

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

1. Structure d'un programme FORTRAN 95

FEN FICHE EMPLOIS NUISANCES

Utilisation du Logiciel de statistique SPSS 8.0

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Introduction aux Statistiques et à l utilisation du logiciel R

Estimations définitives des prix pour les bobines d acier laminé à chaud européens, reconnues par le secteur

Connectiques et Utilisation d un disque dur multimédia MMEMUP

Installation d un serveur de messagerie en local. Télécommunications & réseaux. Nom-prénom: Fiche contrat

Les suites numériques

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

td3a correction session7az

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Aide pour une complémentaire santé et tiers payant social

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

Créer des documents interactifs

Chapitre 3: TESTS DE SPECIFICATION

Modèle de demande d'habilitation d'un Mastère LMD

Les deux points les plus proches

Analyse de données linguistiques

1 Importer et modifier des données avec R Commander

Introduction à MATLAB R

Manipuler des données calendaires

KompoZer. Composition du site : _ une page d'accueil : index.html. _ une page pour la théorie : theorie.html. _ une page pour les photos : photos.

DOMAINES RESULTATS. Nb : il ne doit pas y avoir d interdit et que les droits d inscription aient été réglés.

1 Démarrage de Marionnet

UTILISATION DE L'APPLICATION «PARTAGE DE FICHIERS EN LIGNE»

TP 1 Prise en main de l environnement Unix

Une introduction aux codes correcteurs quantiques

Première session de travail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Calcul élémentaire des probabilités

Guidance de Statistique : Epreuve de préparation à l examen

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Rampes et garde-corps

41,29 euros par mois et par adhérent* par mois et par adhérent* 59,87 euros par mois et par adhérent* par mois et par adhérent*

Fiche d utilisation du logiciel. 1 - Installation. J. Thioulouse & D. Chessel

2 Serveurs OLAP et introduction au Data Mining

Chaînes de Markov au lycée

Chap III : Les tableaux

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

Initiation à html et à la création d'un site web

Enseignements d exploration de seconde. Sciences de l Ingénieur. Création et Innovation Technologiques

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Créer vos données sources avec OpenOffice, adieu Excel

Libérez votre intuition

REPUBLIQUE TUNISIENNE MINISTERE DE L'ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE * * QUALIFICATION DES CONSULTANTS

TP : Shell Scripts. 1 Remarque générale. 2 Mise en jambe. 3 Avec des si. Systèmes et scripts

TP 1. Prise en main du langage Python

TP Administration Oracle

GEST_INSTANCES APPLICATION DE GESTION DES INSTANCES ET REUNIONS EN EPLE ETABLISSEMENT PUBLIC LOCAL D ENSEIGNEMENT

ENT ONE Note de version. Version 1.10

SESSION BREVET DE TECHNICIEN SUPÉRIEUR COMPTABILITÉ ET GESTION DES ORGANISATIONS E4 : OBLIGATIONS COMPTABLES, FISCALES ET SOCIALES

sicareme.com : Tél. :

l u N D I 15 M D I D I 3 17 J u D I N D D I I M N C h COuPE Du PrEsIDENT OPEN 104 FEuChErOllEs EAuBONNE s1 20h15 COuPE Du OPEN 104 EAuBONNE s2 20h15

Aide-mémoire de statistique appliquée à la biologie

Guide de configuration d'une classe

Solution de gestion de newsletter 12all Version 1.0 p.montier

GUIDE DE DEMARRAGE V1.02

Formation. Module WEB 4.1. Support de cours

Petit memo rapide pour vous guider dans la gestion des engagements de vos compétitions FFM

Une entreprise plus saine

Aide pour une complémentaire santé et tiers payant social

Correction Code nécessaire à la compilation : let bs ="\\" let nl = "\n" ;; let appliquer = List.map ;; (* affichage d'un noeud *)

TP 1 : 1 Calculs en binaire, octal et hexadécimal

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Lycée des métiers de l hôtellerie et du tourisme de Grenoble

Transcription:

MOSE2014 1 Département Licence MOSE2014 Probabilités et statistiques Mathématiques TP machine 4 Ph. Thieullen TP machine IV (Statistique inférentielle : tests d hypothèse) Le TP en entier est à rendre. N oubliez pas de commencer votre script par # TP4.R et les noms de chaque étudiant : # noms, prenoms formant le binôme ou le trinôme. Récupérer un fichier de données sur internet par la commande suivante (sans ajouter de retour à la ligne à la chaîne de caractères) adresse_fichier <- "http://www.math.u-bordeaux1.fr/ thieulle/data/2012_001.txt" poids <- read.table(adresse_fichier, header=true, sep="", quote="", dec=",") Bien comprendre l aide en ligne de?read.table et ses paramètres header pour une première ligne de texte, sep pour la séparation des colonnes, quote pour les données non numériques, dec pour la convention des nombres décimaux. Le résultat poids est un data.frame ou une liste de vecteurs de même longueur. Le fichier donne le poids de petits pots de caramel ou de chocolat. Extraire d abord quelques informations cat("affichage des 10 premières lignes : \n") print(poids[1:10,]) cat("noms des colonnes : \n") print(names(poids)) cat("nombre de petits pots : \n") print(length(poids[,1])) cat("résumé statistique : \n") print(summary(poids)) Afficher sur une même figure les deux histogrammes (on rappelle qu on accède aux objets d une liste par $) hist(poids$caramels,...)

MOSE2014 2 hist(poids$chocolats,...) On devra trouver la figure 1 et on n oubliera pas d annoter les graphiques. Histogramme des pots de caramels Histogramme des pots de chocolats nombre de pots 0 20 40 60 80 nombre de pots 0 20 40 60 80 99 100 102 98.5 99.5 100.5 poids en gramme poids en gramme Figure 1 Histogramme des poids de petits pots lactés Remarquer comme les deux histogrammes sont différents. Le fabriquant produit par heure 200 pots et garantit que le poids dans chacun des cas est de 100 g. Faire un test sur l hypothèse nulle «le poids est inférieur à 100 g» d abord sur tous les pots produits pendant une heure (tout le fichier). Utiliser t.test en allant voir l aide en ligne et formater les réponses sous la forme test_caramels <- t.test(poids$caramels,...) cat("test sur 200 pots de caramels : \n") print(test_caramels) Quelle est la p-valeur du test? Il est possible que le contrôle de ces pots soit destructif (le fabriquant contrôle la composition en même temps). Le fabriquant ne peut pas se permettre alors de détruire la production d une heure. Il choisit au hasard 20 pots parmis ces 200 et fait le test sur cet échantillon. Pour choisir au hasard, utiliser sample et son aide en ligne. poids_caramels <- sample(poids$caramels,...) test_caramels <- t.test(poids_caramels,...) cat("test sur 20 pots de caramels : \n") print(test_caramels) Remarquer maintenant comme la p-valeur a augmenté.

MOSE2014 3 Pour bien comprendre ce que fournit t.test, calculer la p-valeur de l échantillon de 20 pots en utilisant la formule du cours t crit = n x 100 s n 1, p valeur = P(T > t crit ). où T est une loi de Student de ddl = n 1. On écrira les calculs sous la forme suivante et on comparera avec le dernier print(test_caramels). t_crit <-... p_valeur <-... cat("p-valeur du cours : \n") cat("t_crit : ", t_crit, "\n") cat("p-valeurs : ", p_valeur, "\n") Faire tourner cette dernière partie du programme (y compris le choix des 20 pots de caramels) plusieurs fois en remarquant que t crit et p valeur changent à chaque fois. Comment l expliquez-vous? On réalise maintenant un test d hypothèse sur la différence des moyennes des poids. On prendra là aussi, d abord les 200 pots, puis deux échantillons de 20 pots de caramel et chocolat pris au hasard. On choisira entre le cas apparié et le cas indépendant. Formuler par exemple les réponses sous la forme poids_chocolats <- sample(poids$chocolats,...) test_poids <- t.test(poids$caramels, poids$chocolats,...) cat("test de différence de moyenne sur 200 pots : \n") print(test_poids) test_poids <- t.test(poids_caramels, poids_chocolats,...) cat("test de différence de moyenne sur 20 pots : \n") print(test_poids) On notera que les moyennes des poids des 200 pots diffèrent à une erreur de 1.4, alors que pour 20 pots, ces moyennes peuvent différer avec une grande p valeur (par exemple de 70%) montrant qu en fait elles coïncident. L histogramme des poids des 200 pots de chocolats suggère que la répartition est gaussienne. On cherche à réaliser un test du chi-deux d ajustement. On commence par créer un tableau de poids par classes. On prendra ]98.5, 99], ]99, 99.5],..., ]101, 101.5]. On utilisera seq pour générer les classes, et cut pour récupérer les effectifs par classes. Le tableau des effectifs par classes est donné par la nouvelle structure table. La fonction levels récupère le nom des classes. On rédigera la réponse suivant le modèle suivant.

MOSE2014 4 cat("test d ajustement avec la loi gaussien \n") mu <- mean(...) # moyenne des 200 pots de chocolat sigma <- sd(...) # écart-type cat("moyenne : ",mu,"\n") cat("sigma : ", sigma,"\n") # Dans la commande suivante, créer 7 valeurs limites # de 98.5 à 101.5 pour obtenir 6 classes classes <- seq(...) facteurs <- cut(poids$chocolats, classes) nom_classes <- levels(facteurs) dist_chocolats <- table(facteurs) print(dist_chocolats) On doit obtenir le tableau suivant ]98.5, 99] ]99, 99.5] ]99.5, 100] ]100, 100.5] ]100.5, 101] ]101, 101.5] 3 20 54 86 26 11 On crée ensuite un vecteur de distribution des 200 poids comme si ces poids suivaient la loi normale N(µ, σ). On complètera le code dist_normale = vector(mode="numeric", length=6) dist_normale[1] = pnorm(99,mu,sigma) dist_normale[2] =... dist_normale[3] =... dist_normale[4] =... dist_normale[5] =... dist_normale[6] = 1 - pnorm(101,mu,sigma) names(dist_normale) <- nom_classes print(length(poids$chocolats)*dist_normale) On trouvera (après arondi à la première décimale) ], 99] ]99, 99.5] ]99.5, 100] ]100, 100.5] ]100.5, 101] ]101, + ] 2.1 16.8 55.6 74.8 40.9 9.9 Faire enfin un test d ajustement du chi-deux test_ajust <- chisq.test(dist_chocolats, p=dist_normale) print(test_ajust) Refaire ces calculs en utilisant les formules du cours d crit = r i=1 (N i np 0 i )2 np 0, p valeur = P(χ 2 > d crit ), i où χ 2 est un chi-deux à r 1 degrés de liberté. On complètera le code

MOSE2014 5 cat("p-valeur du cours : \n") d_crit <-... ddl <-... p_valeur <- 1 - pchisq(...,...) cat("d_crit : ", d_crit, "\n") cat("p_valeur : ", p_valeur, "\n") On comparera avec les valeurs données par chisq.test.