Statistique ème année INSA-ICBE 9 /7 Contrôle du jeudi avril 9 Le polycopié de cours est seul autorisé. Modéliser et prévoir le nombre de nids de chenilles processionnaires La processionnaire du pin (Thaumetopea pityocampa) est un insecte de l'ordre des lépidoptères. Les larves sont connues pour leur mode de déplacement en file indienne, se nourrissent des aiguilles de diverses espèces de pins, provoquant un affaiblissement important des arbres. Si leurs longs poils (soies) sont inoffensifs, ces chenilles projettent dans l'air de minuscules poils très urticants à partir du ème stade larvaire. Leur fort caractère urticant peut provoquer d'importantes réactions allergiques (cf. Wikipédia). L étude proposée pour le contrôle s inspire d un exemple extrait du livre de Tomassone et col. (La régression : nouveaux regards sur une ancienne méthode, ème édition, Masson, 99). Dans cette étude on désire connaître l'influence de certaines caractéristiques de peuplements forestiers sur la densité de la processionnaire et, plus précisément, on souhaite construire un modèle prédictif d une variable mesurant cette densité afin de fournir des recommandations aux forestiers dans la conduite et la surveillance des zones forestières. L unité, qui représente ici l observation, est une parcelle forestière de hectares d un seul tenant, considérée comme homogène par rapport aux variables considérées. En fait, dans chaque parcelle, on a mesuré les variables sur plusieurs placettes de 5 ares chacune. Et la valeur attribuée à la parcelle pour chaque variable est la moyenne des valeurs obtenue pour ses placettes. Les variables observées sont les suivantes : Alti : altitude (en m) Pent : pente (en degrés) NbPi : nombre de pins par placette Haut : hauteur (en m) du pin central de la placette Diam : diamètre de ce pin Dens : note de densité de la végétation de la placette Orie : orientation (de vers le sud à vers le nord) Hdom : hauteur (en m) de l arbre dominant Stra : nombre moyen de strates de végétation Mela : mélange du peuplement (de, pas mélangé à, mélangé) NbNi : densité de processionnaire (nombre moyen de nids par arbre) Aidez vous des tableaux et figures de l annexe pour répondre aux questions suivantes. Chaque réponse doit être justifiée à partir d un résultat numérique fourni par le logiciel Minitab ou en précisant le numéro de la figure concernée.. Etude préalable. Quelle est la population étudiée? Quelle est la taille de l échantillon?. Commentez les graphiques de la figure. Que dire sur la distribution de la variable NbNi?. Un test apparaît dans cette figure. Quelle est l hypothèse testée? Que faut-il en conclure?.4 Cette variable a été transformée par la fonction logarithme (figure ). Dans quel but? Cette transformation vous semble-t-elle appropriée? La variable LNbNi est utilisée par la suite.
Statistique ème année INSA-ICBE 9 /7.5 Le tableau ci-dessous donne les coefficients de corrélation des variables à. La figure précise ces informations. Alti Pent NbPi Haut Diam Dens Orie Hdom Stra Mela Pent, NbPi,5, Haut,,7,44 Diam,4,,95,95 Dens,55,,9,49, Orie, -,5,,5 -,79,5 Hdom,,,759,77,59,, Stra,4,,77,4,7,99,,54 Mela -,,9, -,45 -,5,,,54,75 LNbNi -,54 -,49 -,5 -,45 -, -,5 -, -,54 -,594 -, Quelles variables vous semblent le plus appropriées pour expliquer le nombre de nids? La figure soulève-t-elle des problèmes?. Quelle méthode d analyse multivariée pourriez-vous utiliser avec les données d observation, avant de faire des régressions, pour étudier globalement les liens entre les différentes variables? Indiquez brièvement le principe de la méthode..7 Quel est l écart-type de la variable LNbNi? L écart-type de l estimation de sa moyenne?. Quel est le quantile à 97,5% de la loi de student à degrés de liberté? Donnez l expression d un intervalle de confiance à 95% de la moyenne de LNbNi. Comparaisons La zone forestière étudiée s étend sur collines (A, B, C). Chaque parcelle appartient à une seule colline. On veut savoir si la densité de processionnaire est différente selon la colline.. Quelle méthode permet de répondre à cette question? Quel est le principe de cette méthode?. Quelles hypothèses doivent être vérifiées par les données pour que ce test soit légitime?. Les résultats obtenus par cette méthode sont indiqués ci-dessous. Qu en concluez-vous? Collines.5.49.5. Error.49. Total 9.54 Individual 95% CIs For Mean(LNbNi) Level N Mean StDev +---------+---------+---------+--------- A -.79.57 (---------*---------) B 9 -.5.54 (-----------*-----------) C -.55.557 (----------*----------) +---------+---------+---------+--------- -.9 -. -...4 L étude sera menée à nouveau l année suivante, en suivant le même protocole, avec les mêmes parcelles et les mêmes placettes. On aimerait savoir si la densité de processionnaires a changé d une année sur l autre. Quel test proposez-vous d utiliser pour le savoir? Pourquoi?
Statistique ème année INSA-ICBE 9 /7 Modèle de régression simple. On choisit tout d abord de modéliser le nombre de nids par stratification de la végétation. Justifier ce choix à partir de résultats statistiques. Les résultats de l analyse de régression sont indiqués ci-dessous. Les graphes associés aux résidus sont dans la figure 4. Regression Analysis: LNbNi versus Stra The regression equation is LNbNi =,77 -,57 Stra Predictor Coef SE Coef T P Constant,77,9,7, Stra -,59,79-4,, S =,4494 R-Sq = 5,% R-Sq(adj) =,% PRESS =,5 R-Sq(pred) = 7,5% Analysis of Variance Regression,5,5 ******, Residual Error,59 ****** Total 9,544. Quelles sont les hypothèses à vérifier sur ce modèle?. Deux valeurs ont été remplacées par des «*****» dans le tableau ci-dessus. Comment peut-on retrouver ces valeurs? Que représentent-elles?.4 Quelle est l hypothèse testée à la ligne Stra? Quelle est l hypothèse testée par le tableau «Analysis of Variance»? Que concluez-vous sur le modèle? Exprimez votre conclusion de façon concrète par rapport à la question sylvicole?.5 Donnez un intervalle de confiance à 95% du coefficient de Stra du modèle ci-dessous.. Que pouvez-vous dire de la qualité d ajustement du modèle? Et de la précision des prévisions? 4 Modèle de régression multiple Il s agit maintenant de comparer plusieurs modèles pour trouver le meilleur modèle de prévision. 4. Après le modèle à une variable explicative ci-dessus on s intéresse au modèle complet à variables explicatives. Que dire de sa validité (figure 5)? Attention, ne pas trop attacher d importance à la présence d un ou deux grands résidus pour apprécier la forme du nuage. The regression equation is LNbNi = 4,7 -,9 Alti -,4 Pent +,95 NbPi -,5 Haut +, Diam -,55 Dens -, Orie +,79 Hdom -,55 Stra-, Mela
Statistique ème année INSA-ICBE 9 4/7 4. Que penser de sa significativité? Analysis of Variance Regression,57,5 5,, Residual Error,57,97 Total 9,544 4. Quels sont les problèmes soulevés par les résultats ci-dessous? Predictor Coef SE Coef T P Constant 4,777,9,59, Alti -,94,7 -,5,9 Pent -,7,95 -,4, NbPi,95,4,,5 Haut -,5,449 -,9, Diam,,45,,7 Dens -,55, -,, Orie -,,49 -,4, Hdom,7,,7,45 Stra -,55,75 -,49,5 Mela -,,9 -,59,5 S =,5 R-Sq = 9,5% R-Sq(adj) = 55,% PRESS = 5,747 R-Sq(pred) = 9,4% 4.4 Un autre modèle est testé avec seulement 4 variables. Les résultats sont reportés dans la figure et dans le tableau ci-dessous. Regression Analysis: LNbNi versus Alti; Pent; Haut; Diam The regression equation is LNbNi =, -,7 Alti -,49 Pent -,59 Haut +, Diam Predictor Coef SE Coef T P Constant,5,45 5,9, Alti -,74,494 -,4, Pent -,494,4 -,9, Haut -,59,9-4,4, Diam,9,,7, S =,47 R-Sq = 4,7% R-Sq(adj) = 59,7% PRESS = 4, R-Sq(pred) = 5,% Analysis of Variance Regression 4,5,5,, Residual Error,,79 Total 9,544 Des trois modèles considérés pour prévoir le nombre de nids, quel est celui qui vous semble le plus adapté? Quel critère vous permet de justifier ce choix? Remarques - Pourquoi ces 4 variables?: Le choix optimal de ce modèle a été obtenu par l option «Best subsets» du menu «Regression» de Minitab. - Noter le paradoxe : ce modèle optimal à 4 variables ne prend pas en compte la «meilleure» variable (stratification) expliquant le nombre de nids. - Souvent, plusieurs sous-ensembles de variables donnent des modèles aux qualités voisines. Des raisons autres que statistiques (facilité ou économie pour mesurer la variable, compréhension de son effet, ) conduiront à choisir un des modèles.
Statistique ème année INSA-ICBE 9 5/7 Annexe : figures Summary for NbNi A nderson-darling Normality Test A-Squared, P-Value <,5 Mean, StDev, V ariance,5 Skew ness,44 Kurtosis,494 N,,,,4, Minimum, st Q uartile,55 Median,7 rd Q uartile,7 Maximum, 95% C onfidence Interv al for Mean Mean 95% Confidence Intervals,554,979 95% C onfidence Interv al for Median,49,95 95% C onfidence Interv al for StDev,4,9 Median,,4,,,, Figure Summary for LNbNi A nderson-darling Normality Test A-Squared,4 P-Value,4 Mean -,5 StDev,547 V ariance,9 Skew ness -,45 Kurtosis -,9 N -,5 -, -,5,,5 Minimum -,5 st Q uartile -,59 Median -,79 rd Q uartile,79 Maximum,477 95% C onfidence Interv al for Mean Mean 95% Confidence Intervals -,5449 -,49 95% C onfidence Interv al for Median -,49 -,5 95% C onfidence Interv al for StDev,44,754 Median -, -,5 -,4 -, -, -,, Figure
Statistique ème année INSA-ICBE 9 /7 Pent 4 Haut NbPi 5 4 4 Diam Dens. Orie.5. 5 Hdom 5 Stra. Mela.75.5 LNbNi. -. -. 5 Alti 5 Pent 4 5 NbPi 4 Haut Diam 4 Dens..5 Orie. 5 Hdom 5 Stra.5.75. Mela Figure : Graphique matriciel représentant les variables deux à deux Residual Plots for LNbNi Percent Normal Probability Plot of the Residuals 99 9 5 - - Residuals Versus the Fitted Values - - -, -,75 -,5 -,5, Fitted Value Frequency 4 Histogram of the Residuals -, -,5 -, -,5,,5,,5 Residuals Versus the Order of the Data - - 5 5 5 Observation Order Figure 4 : Régression simple
Statistique ème année INSA-ICBE 9 7/7 Residual Plots for LNbNi Percent Normal Probability Plot of the Residuals 99 9 5 - - Residuals Versus the Fitted Values - - -,5 -, -,5,,5 Fitted Value Frequency 4 Histogram of the Residuals - - Residuals Versus the Order of the Data - - 5 5 5 Observation Order Figure 5 : Regression multiple avec variables explicatives Residual Plots for LNbNi Percent Normal Probability Plot of the Residuals 99 9 5 - - Residuals Versus the Fitted Values - - -,5 -, -,5,,5 Fitted Value Histogram of the Residuals Residuals Versus the Order of the Data Frequency 9 -,4 -,,,,4 - - 5 5 5 Observation Order Figure : Régression multiple avec 4 variables explicatives