3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 1/8 3ICBE UFBC11 Statistique Contrôle du jeudi 7 novembre 2013 Les documents ne sont pas autorisés Modéliser la perte de poids du café lors de la torréfaction El Ringo achète du café vert dans le monde entier avant de le torréfier puis de le redistribuer. Son problème est de prévoir la perte de poids due à la torréfaction. Cette perte, qui peut atteindre 20%, conditionne directement sa marge bénéficiaire, et doit donc être estimée le plus précisément possible au moment de l'achat afin de pouvoir négocier le prix au plus juste. Son nez, légendaire lors de la torréfaction, est inefficace sur du café vert. El Ringo fait l'acquisition d'un chromatographe en proche infra rouge (NIR) qui peut lui fournir rapidement des indicateurs numériques à partir d'un échantillon. Il réalise alors 189 expériences sur des échantillons de diverses provenances du café vert (Arabie, Afrique, Amérique (Variable «origine» codée de 1 à 7) et construit un tableau contenant pour chaque échantillon les mesures chromatographiques sur le café vert et la perte de poids après torréfaction. L'objectif est de construire un bon modèle de prévision de cette perte de poids. Les variables produites par chromatographie sont notées lumin, xa, xb, xy et xgn.
3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 2/8 Aidez-vous des tableaux et figures de l annexe pour répondre aux questions suivantes. Chaque réponse doit être justifiée à partir d un résultat numérique ou d un graphique fourni par le logiciel R dont il faut préciser le numéro. 1. Etude préalable 1.1 Entre quelles valeurs se situent 50% des valeurs de perte en poids? Calculer la déviation standard ou écart-type de l'estimation de la moyenne de la perte en poids. 1.2 Que dire des distributions des différentes variables (figure 1)? 1.3 Plus précisément, que représente la figure 2 et que dire des distributions des variables perte et lumin? 1.4 Que représente la figure 3 et que dire des distributions des variables perte et lumin? 1.5 Quelles hypothèses H0 sont testées dans le tableau 2? Que conclure? 1.6 Donner un intervalle de confiance à 95% de la moyenne de la perte en poids. 2. On s inquiète de l effet possible de l origine du café sur la perte de poids. 2.1 Quelle méthode permet de répondre à cette question? Quel est le principe de cette méthode? Quelle hypothèse H0 est posée dans le test correspondant? 2.2 Quelles hypothèses doivent être vérifiées par les données pour ce test soit légitime? 2.3 Quelle hypothèse H0 est associée au test de Bartlett? Que conclure? 2.4 Que dire des résidus au modèle? Le test est-il légitime? 2.5 Que vaut la F-value X.XXX du tableau 6? Que dire de l influence de l origine du café sur la perte de poids? 2.6 Quelle hypothèse H0 est testée dans le tableau 7? Le résultat est-il cohérent avec le précédent? 3. Modélisation de la perte en poids par différents modèles. 3.1 Ecrire l'équation du premier modèle (tableau 8) de la perte. Que représente la figure 5 et que dire de la validité de ce modèle? 3.2 Quels problèmes soulève la matrice des nuages de points de la figure 6? Cette remarque aurait évidemment dû être faite avant de modéliser. 3.3 Une transformation est appliquée à la variable lumin. Déduire de la figure 7 quelle est cette transformation. 3.4 Que devient la distribution de la variable transformée Tlumin? Ecrire l'équation du nouveau modèle, que signifie la figure 9? 3.5 Que dire de la validité du modèle? Le tableau 11 fournit 3 p-valeurs associées à 3 tests. Quelles sont les 3 hypothèses H0 associées? 3.6 Les tableaux 12 et 13 donnent les estimations de deux modèles de régression multiple. Les mêmes transformations ont été appliquées aux variables xy (Txy) et xgn (Txgn) qu à lumin (Tlumin). Quelle est l hypothèse H0 associée à la Statistique de Fisher F=371.8 et à la P-valeur 2.2e-16 (tableau 13)? Quelle est l hypothèse alternative? 3.7 Parmi les 4 modèles considérés, lequel ajuste le mieux les données? Lequel est le susceptible de mieux prévoir la perte? Justifier précisément ces choix. 3.8 Avec les valeurs lumin=29.62, xa=12.41, xb=23.66, xy=6.08, xgn=4.61 prévoyez la perte en poids avec le meilleur modèle. Complément important : Le "meilleur" modèle précédent est correct mais trop élémentaire. La matrice des nuages de points montre que l'origine du café est sans doute influente dans la modélisation. En fait un modèle dit d'analyse de covariance associant cette variable qualitative avec les variables quantitatives fournit les résultats du tableau 15 complémentaire. Il montre l'importance du rôle de l'origine et d un terme quadratique dans le modèle.
3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 3/8 Annexe Tableau 1. Statistiques élémentaires summary(cafe) perte lumin xa xb xy xgn origine Min. :11.87 Min. :15.06 Min. : 5.730 Min. : 6.42 Min. : 1.920 Min. :1.660 1:50 1st Qu.:14.72 1st Qu.:19.78 1st Qu.: 8.620 1st Qu.:12.18 1st Qu.: 2.890 1st Qu.:2.420 2:42 Median :16.41 Median :23.41 Median :10.010 Median :16.30 Median : 3.790 Median :3.140 3:42 Mean :16.55 Mean :24.03 Mean : 9.953 Mean :16.86 Mean : 4.257 Mean :3.466 4:13 3rd Qu.:18.16 3rd Qu.:27.51 3rd Qu.:11.490 3rd Qu.:21.03 3rd Qu.: 5.150 3rd Qu.:4.130 5:15 Max. :22.81 Max. :41.15 Max. :13.130 Max. :30.57 Max. :11.970 Max. :9.120 6:14 sapply(cafe, sd) perte lumin xa xb xy xgn 2.425769 5.339778 1.725604 5.597634 1.861382 1.439771 Figure 1. Diagrammes boîtes des variables perte, lumin, xa, xb, xy, xgn Figure 2. A gauche la variable perte, à droite lumin.
3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 4/8 Figure 3. A gauche la variable «perte», à droite la variable «lumin» data: cafe$perte W = 0.986, p-value = 0.05731 Tableau 2. data: cafe$lumin W = 0.9551, p-value = 1.069e-05 Tableau 3. One Sample t-test data: cafe$perte t = 93.7925, df = 188, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 16.20150 16.89765 sample estimates: mean of x 16.54958 Tableau 4. Bartlett test of homogeneity of xxxxxxxx data: perte by origine Bartlett's K-squared = 5.1569, df = 6, p-value = 0.5238 Figure 4. Diagramme boîtes parallèles de la perte de poids selon la provenance du café et droite de Henri des résidus.
3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 5/8 Tableau 5. data: res.anova$residuals W = 0.9856, p-value = 0.04987 Tableau 6. Df Sum Sq Mean Sq F value Pr(>F) origine 6 18.5 3.075 X.XXX 0.797 Residuals 182 1087.8 5.977 Kruskal-Wallis rank sum test Tableau 7. data: perte by origine Kruskal-Wallis chi-squared = 3.3647, df = 6, p-value = 0.7619 Tableau 8. Modèle res1.reg Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 26.04437 0.40321 64.59 <2e-16 *** lumin -0.39519 0.01638-24.12 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.2 on 187 degrees of freedom Multiple R-squared: 0.7568, Adjusted R-squared: 0.7555 F-statistic: 581.8 on 1 and 187 DF, p-value: < 2.2e-16 Figure 5. Résidus vs. Ychap. data: res1.reg$residuals W = 0.9779, p-value = 0.004279 Tableau 9.
3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 6/8 Figure 6. Matrice des nuages de points. Le symbole dépend de l origine du café. Figure 7 A gauche perte vs. Lumin, à droite perte vs. Tlumin.
3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 7/8 Figure 8 Variable Tlumin. data: Tlumin W = 0.9858, p-value = 0.05312 Tableau 10. Figure 9. A gauche les résidus et à droite la distance de Cook en fonction de Ychap.
3 ème année INSA-ICBE 2013/2014 UFBC11 contrôle de Statistique 8/8 Tableau 11. Modèle res2.reg Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 6.1726 0.3784 16.31 <2e-16 *** Tlumin 238.0935 8.4983 28.02 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.067 on 187 degrees of freedom Multiple R-squared: 0.8076, Adjusted R-squared: 0.8066 F-statistic: 784.9 on 1 and 187 DF, p-value: < 2.2e-16 Tableau 12. Modèle res3.reg Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 46.0688 11.1869 4.118 5.81e-05 *** lumin -1.1478 0.4965-2.312 0.021926 * xa -2.0401 0.2312-8.823 9.59e-16 *** xb 1.0416 0.2783 3.743 0.000245 *** xy 0.4483 0.3629 1.235 0.218301 xgn -0.1811 0.3935-0.460 0.645967 Tlumin 107.5538 143.2527 0.751 0.453755 Txy -4.0892 4.7737-0.857 0.392796 Txgn -12.2165 4.1312-2.957 0.003522 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.7403 on 180 degrees of freedom Multiple R-squared: 0.9108, Adjusted R-squared: 0.9069 F-statistic: 229.8 on 8 and 180 DF, p-value: < 2.2e-16 Tableau 13. Modèle res4.reg Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 53.3826 3.8958 13.703 < 2e-16 *** lumin -1.4637 0.2322-6.305 2.10e-09 *** xa -2.1163 0.2033-10.411 < 2e-16 *** xb 1.1767 0.2198 5.354 2.56e-07 *** xy 0.6935 0.2224 3.119 0.00211 ** Txgn -10.2423 2.4834-4.124 5.64e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.7361 on 183 degrees of freedom Multiple R-squared: 0.9104, Adjusted R-squared: 0.9079 F-statistic: 371.8 on 5 and 183 DF, p-value: < 2.2e-16 press(res1.reg) [1] 1.462953 press(res2.reg) [1] 1.148794 press(res3.reg) [1] 0.5775684 press(res4.reg) [1] 0.5566293 Tableau 14. Fonction PRESS appliquée aux précédents modèles Tableau 15 complémentaire. Modèle res5.reg Df Deviance Resid. Df Resid. Dev Pr(>Chi) NULL 188 1106.26 xa 1 969.81 187 136.45 < 2.2e-16 *** xgn 1 17.54 186 118.90 8.928e-13 *** origine 6 16.74 180 102.16 8.457e-09 *** Tlumin 1 34.97 179 67.19 < 2.2e-16 *** Txgn 1 3.92 178 63.27 0.0007269 *** xgn:tlumin 1 2.47 177 60.80 0.0073862 ** press(res5.reg) [1] 0.3689789