3ICBE UFBC11 Statistique

Documents pareils
Lire ; Compter ; Tester... avec R

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Analyse de la variance Comparaison de plusieurs moyennes

Un exemple de régression logistique sous

Introduction aux Statistiques et à l utilisation du logiciel R

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Données longitudinales et modèles de survie

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Exemple PLS avec SAS

Utilisation du Logiciel de statistique SPSS 8.0

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Fonctions de deux variables. Mai 2011

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Introduction à la statistique non paramétrique

Exemples d application

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Leçon N 4 : Statistiques à deux variables

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

L exclusion mutuelle distribuée

Programmation Linéaire - Cours 1

Raisonnement par récurrence Suites numériques

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R

KX-DT321 Guide d utilisation rapide

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices sur le chapitre «Probabilités»

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Imputation du salaire d ego dans TeO

TABLE DES MATIERES. C Exercices complémentaires 42

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Correction du bac blanc CFE Mercatique

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

Statistique : Résumé de cours et méthodes

INTRODUCTION AU LOGICIEL R

Chapitre 2 Le problème de l unicité des solutions

Définitions. Numéro à préciser. (Durée : )

Comment évaluer une banque?

Cours d Analyse. Fonctions de plusieurs variables

Modèle GARCH Application à la prévision de la volatilité

Chapitre 3. Les distributions à deux variables

Chapitre 4 : Régression linéaire

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Modèles Estimés sur Données de Panel

Continuité et dérivabilité d une fonction

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

données en connaissance et en actions?

Modèles pour données répétées

Skype (v2.5) Protocol Data Structures (French) Author : Ouanilo MEDEGAN

Équations non linéaires

Guide Utilisateur ACQUIT : Anomalies issues du Guichet XML

Introduction au pricing d option en finance

Donner les limites de validité de la relation obtenue.

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Introduction à l approche bootstrap

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Statistiques avec la graph 35+

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Exemples d utilisation de G2D à l oral de Centrale

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

1 Définition de la non stationnarité

Tableau récapitulatif de l analyse fréquentielle

DISQUE DUR. Figure 1 Disque dur ouvert

Annexe commune aux séries ES, L et S : boîtes et quantiles

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Statistiques descriptives

Structures algébriques

Faire un semi variograme et une carte krigée avec surfer

Principe d un test statistique

Chapitre 6. Fonction réelle d une variable réelle


Durée : 4 heures Le sujet se présente sous la forme de deux dossiers indépendants

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Les devoirs en Première STMG

Limites finies en un point

Baccalauréat ES Amérique du Nord 4 juin 2008

Probabilités sur un univers fini

Numbers en EPS UN TUTORIEL POUR LA! NOUVELLE VERSION DE NUMBERS EST! DISPONIBLE SUR TICEPS.FREE.FR. ticeps.free.fr

Cours 7 : Utilisation de modules sous python

Université de la Méditerranée Centre d'océanologie de Marseille L3 Science de la Mer et de l Environnement Année

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

1 Presentation du bandeau. 2 Principe de création d un projet : C2 industrialisation Apprendre Gantt project Ver 2.6 planifier

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

3 Approximation de solutions d équations

Sujet. calculatrice: autorisée durée: 4 heures

Logistique, Transports

Si la source se rapproche alors v<0 Donc λ- λo <0. La longueur d onde perçue est donc plus petite que si la source était immobile

Transcription:

3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 1/8 3ICBE UFBC11 Statistique Contrôle du jeudi 7 novembre 2013 Les documents ne sont pas autorisés Modéliser la perte de poids du café lors de la torréfaction El Ringo achète du café vert dans le monde entier avant de le torréfier puis de le redistribuer. Son problème est de prévoir la perte de poids due à la torréfaction. Cette perte, qui peut atteindre 20%, conditionne directement sa marge bénéficiaire, et doit donc être estimée le plus précisément possible au moment de l'achat afin de pouvoir négocier le prix au plus juste. Son nez, légendaire lors de la torréfaction, est inefficace sur du café vert. El Ringo fait l'acquisition d'un chromatographe en proche infra rouge (NIR) qui peut lui fournir rapidement des indicateurs numériques à partir d'un échantillon. Il réalise alors 189 expériences sur des échantillons de diverses provenances du café vert (Arabie, Afrique, Amérique (Variable «origine» codée de 1 à 7) et construit un tableau contenant pour chaque échantillon les mesures chromatographiques sur le café vert et la perte de poids après torréfaction. L'objectif est de construire un bon modèle de prévision de cette perte de poids. Les variables produites par chromatographie sont notées lumin, xa, xb, xy et xgn.

3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 2/8 Aidez-vous des tableaux et figures de l annexe pour répondre aux questions suivantes. Chaque réponse doit être justifiée à partir d un résultat numérique ou d un graphique fourni par le logiciel R dont il faut préciser le numéro. 1. Etude préalable 1.1 Entre quelles valeurs se situent 50% des valeurs de perte en poids? Calculer la déviation standard ou écart-type de l'estimation de la moyenne de la perte en poids. 1.2 Que dire des distributions des différentes variables (figure 1)? 1.3 Plus précisément, que représente la figure 2 et que dire des distributions des variables perte et lumin? 1.4 Que représente la figure 3 et que dire des distributions des variables perte et lumin? 1.5 Quelles hypothèses H0 sont testées dans le tableau 2? Que conclure? 1.6 Donner un intervalle de confiance à 95% de la moyenne de la perte en poids. 2. On s inquiète de l effet possible de l origine du café sur la perte de poids. 2.1 Quelle méthode permet de répondre à cette question? Quel est le principe de cette méthode? Quelle hypothèse H0 est posée dans le test correspondant? 2.2 Quelles hypothèses doivent être vérifiées par les données pour ce test soit légitime? 2.3 Quelle hypothèse H0 est associée au test de Bartlett? Que conclure? 2.4 Que dire des résidus au modèle? Le test est-il légitime? 2.5 Que vaut la F-value X.XXX du tableau 6? Que dire de l influence de l origine du café sur la perte de poids? 2.6 Quelle hypothèse H0 est testée dans le tableau 7? Le résultat est-il cohérent avec le précédent? 3. Modélisation de la perte en poids par différents modèles. 3.1 Ecrire l'équation du premier modèle (tableau 8) de la perte. Que représente la figure 5 et que dire de la validité de ce modèle? 3.2 Quels problèmes soulève la matrice des nuages de points de la figure 6? Cette remarque aurait évidemment dû être faite avant de modéliser. 3.3 Une transformation est appliquée à la variable lumin. Déduire de la figure 7 quelle est cette transformation. 3.4 Que devient la distribution de la variable transformée Tlumin? Ecrire l'équation du nouveau modèle, que signifie la figure 9? 3.5 Que dire de la validité du modèle? Le tableau 11 fournit 3 p-valeurs associées à 3 tests. Quelles sont les 3 hypothèses H0 associées? 3.6 Les tableaux 12 et 13 donnent les estimations de deux modèles de régression multiple. Les mêmes transformations ont été appliquées aux variables xy (Txy) et xgn (Txgn) qu à lumin (Tlumin). Quelle est l hypothèse H0 associée à la Statistique de Fisher F=371.8 et à la P-valeur 2.2e-16 (tableau 13)? Quelle est l hypothèse alternative? 3.7 Parmi les 4 modèles considérés, lequel ajuste le mieux les données? Lequel est le susceptible de mieux prévoir la perte? Justifier précisément ces choix. 3.8 Avec les valeurs lumin=29.62, xa=12.41, xb=23.66, xy=6.08, xgn=4.61 prévoyez la perte en poids avec le meilleur modèle. Complément important : Le "meilleur" modèle précédent est correct mais trop élémentaire. La matrice des nuages de points montre que l'origine du café est sans doute influente dans la modélisation. En fait un modèle dit d'analyse de covariance associant cette variable qualitative avec les variables quantitatives fournit les résultats du tableau 15 complémentaire. Il montre l'importance du rôle de l'origine et d un terme quadratique dans le modèle.

3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 3/8 Annexe Tableau 1. Statistiques élémentaires summary(cafe) perte lumin xa xb xy xgn origine Min. :11.87 Min. :15.06 Min. : 5.730 Min. : 6.42 Min. : 1.920 Min. :1.660 1:50 1st Qu.:14.72 1st Qu.:19.78 1st Qu.: 8.620 1st Qu.:12.18 1st Qu.: 2.890 1st Qu.:2.420 2:42 Median :16.41 Median :23.41 Median :10.010 Median :16.30 Median : 3.790 Median :3.140 3:42 Mean :16.55 Mean :24.03 Mean : 9.953 Mean :16.86 Mean : 4.257 Mean :3.466 4:13 3rd Qu.:18.16 3rd Qu.:27.51 3rd Qu.:11.490 3rd Qu.:21.03 3rd Qu.: 5.150 3rd Qu.:4.130 5:15 Max. :22.81 Max. :41.15 Max. :13.130 Max. :30.57 Max. :11.970 Max. :9.120 6:14 sapply(cafe, sd) perte lumin xa xb xy xgn 2.425769 5.339778 1.725604 5.597634 1.861382 1.439771 Figure 1. Diagrammes boîtes des variables perte, lumin, xa, xb, xy, xgn Figure 2. A gauche la variable perte, à droite lumin.

3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 4/8 Figure 3. A gauche la variable «perte», à droite la variable «lumin» data: cafe$perte W = 0.986, p-value = 0.05731 Tableau 2. data: cafe$lumin W = 0.9551, p-value = 1.069e-05 Tableau 3. One Sample t-test data: cafe$perte t = 93.7925, df = 188, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 16.20150 16.89765 sample estimates: mean of x 16.54958 Tableau 4. Bartlett test of homogeneity of xxxxxxxx data: perte by origine Bartlett's K-squared = 5.1569, df = 6, p-value = 0.5238 Figure 4. Diagramme boîtes parallèles de la perte de poids selon la provenance du café et droite de Henri des résidus.

3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 5/8 Tableau 5. data: res.anova$residuals W = 0.9856, p-value = 0.04987 Tableau 6. Df Sum Sq Mean Sq F value Pr(>F) origine 6 18.5 3.075 X.XXX 0.797 Residuals 182 1087.8 5.977 Kruskal-Wallis rank sum test Tableau 7. data: perte by origine Kruskal-Wallis chi-squared = 3.3647, df = 6, p-value = 0.7619 Tableau 8. Modèle res1.reg Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 26.04437 0.40321 64.59 <2e-16 *** lumin -0.39519 0.01638-24.12 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.2 on 187 degrees of freedom Multiple R-squared: 0.7568, Adjusted R-squared: 0.7555 F-statistic: 581.8 on 1 and 187 DF, p-value: < 2.2e-16 Figure 5. Résidus vs. Ychap. data: res1.reg$residuals W = 0.9779, p-value = 0.004279 Tableau 9.

3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 6/8 Figure 6. Matrice des nuages de points. Le symbole dépend de l origine du café. Figure 7 A gauche perte vs. Lumin, à droite perte vs. Tlumin.

3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 7/8 Figure 8 Variable Tlumin. data: Tlumin W = 0.9858, p-value = 0.05312 Tableau 10. Figure 9. A gauche les résidus et à droite la distance de Cook en fonction de Ychap.

3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 8/8 Tableau 11. Modèle res2.reg Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 6.1726 0.3784 16.31 <2e-16 *** Tlumin 238.0935 8.4983 28.02 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.067 on 187 degrees of freedom Multiple R-squared: 0.8076, Adjusted R-squared: 0.8066 F-statistic: 784.9 on 1 and 187 DF, p-value: < 2.2e-16 Tableau 12. Modèle res3.reg Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 46.0688 11.1869 4.118 5.81e-05 *** lumin -1.1478 0.4965-2.312 0.021926 * xa -2.0401 0.2312-8.823 9.59e-16 *** xb 1.0416 0.2783 3.743 0.000245 *** xy 0.4483 0.3629 1.235 0.218301 xgn -0.1811 0.3935-0.460 0.645967 Tlumin 107.5538 143.2527 0.751 0.453755 Txy -4.0892 4.7737-0.857 0.392796 Txgn -12.2165 4.1312-2.957 0.003522 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.7403 on 180 degrees of freedom Multiple R-squared: 0.9108, Adjusted R-squared: 0.9069 F-statistic: 229.8 on 8 and 180 DF, p-value: < 2.2e-16 Tableau 13. Modèle res4.reg Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 53.3826 3.8958 13.703 < 2e-16 *** lumin -1.4637 0.2322-6.305 2.10e-09 *** xa -2.1163 0.2033-10.411 < 2e-16 *** xb 1.1767 0.2198 5.354 2.56e-07 *** xy 0.6935 0.2224 3.119 0.00211 ** Txgn -10.2423 2.4834-4.124 5.64e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.7361 on 183 degrees of freedom Multiple R-squared: 0.9104, Adjusted R-squared: 0.9079 F-statistic: 371.8 on 5 and 183 DF, p-value: < 2.2e-16 press(res1.reg) [1] 1.462953 press(res2.reg) [1] 1.148794 press(res3.reg) [1] 0.5775684 press(res4.reg) [1] 0.5566293 Tableau 14. Fonction PRESS appliquée aux précédents modèles Tableau 15 complémentaire. Modèle res5.reg Df Deviance Resid. Df Resid. Dev Pr(>Chi) NULL 188 1106.26 xa 1 969.81 187 136.45 < 2.2e-16 *** xgn 1 17.54 186 118.90 8.928e-13 *** origine 6 16.74 180 102.16 8.457e-09 *** Tlumin 1 34.97 179 67.19 < 2.2e-16 *** Txgn 1 3.92 178 63.27 0.0007269 *** xgn:tlumin 1 2.47 177 60.80 0.0073862 ** press(res5.reg) [1] 0.3689789