Nous avons le plaisir aujourd hui de vous proposer une séance de travaux pratiques de statistique, c est-à-dire, une séance où vous allez pouvoir mettre les mains dans le cambouis (dans les données) et faire calculer vous-mêmes les résumés statistiques sous SPSS qu en cours nous vous présentons. «Monsieur, on fait quoi?» Instructions. Vous compléterez au fur et à mesure ce document et le rendrez à la fin de la séance ; vous pouvez effectuer le travail seul ou en groupe de deux, mais pas à plus de deux. Il suffit de rendre un document par groupe. Chaque étudiant-e ou chaque groupe avancera en autonomie, à son rythme ; de temps à autre, des corrections ou compléments seront proposés au tableau par vos professeurs. C est parti, remplissez votre nom ou vos noms, et continuez la lecture, n attendez pas un hypothétique signal de départ! Etudiant-e 1 : Etudiant-e 2 : Fichier de données. L étape zéro du TP est de se procurer le fichier de données que nous allons traiter. Il est disponible sur le site web du cours http://www.hec.fr/stoltz rubrique Statistiques L3 (menu à gauche), puis allez en bas de la page. Attention, lors de l enregistrement, veillez à ce que le fichier soit sauvegardé dans un endroit que vous identifiiez bien (par exemple, le bureau) et sous le nom Ventes.sav (si votre navigateur propose de l appeler Ventes.htm, refusez et forcez l extension.sav). Pour ouvrir le fichier, il suffit ensuite de double-cliquer dessus et le logiciel SPSS se lancera automatiquement. «Monsieur, SPSS est en anglais, je fais quoi?» Note sur la version de SPSS. Ce document a été rédigé à partir de la version 19 française de SPSS, qui n est pas nécessairement la version disponible dans les salles informatiques d HEC... qui est sans doute désormais en version 20 anglaise dans ces salles. C est la vie! Il n est pas possible de changer la langue, mais en revanche, il est possible à chacun-e d entre vous de mobiliser ses connaissances en anglais pour malgré tout avancer dans ce sujet. «Monsieur, je ne sais pas utiliser SPSS, je fais quoi?» La réponse est : Vous tâtonnez. Notre objectif n est pas en effet de vous apprendre un logiciel en particulier, SPSS donc, même si certain-e-s professeurs de marketing et de finance l utilisent et le recommandent chaudement. D autres professeurs lui préfèrent en effet R, Jump, Stata, voire Excel. Il y a ainsi un véritable écosystème des logiciels statistiques. Notre objectif réel est par conséquent de vous apprendre à apprendre un logiciel statistique, puisque nous ne pouvons pas savoir à l avance lesquels vous rencontrerez dans votre vie future. Cependant, tous procurent les mêmes fonctionnalités essentielles, peu ou prou. Il vous faut donc apprendre à (accepter de) tâtonner, à expérimenter, à fouiller dans les menus. C est d ailleurs ainsi que nous-mêmes avons appris SPSS! TP sous SPSS Eléments de statistique Rosenberg / Stoltz / Vieille 1
Problème et données Les données rapportent, semestre après semestre, la valeur (convertie en euros courants) de différents indicateurs pour une entreprise : elles correspondent aux ventes de son produit phare en fonction de différentes variables explicatives. On dispose : de l index du semestre (semestre) ; du marché total de la branche (mt, en millions d euros) ; des remises effectuées aux grossistes (rg, en milliers d euros) ; du prix de vente unitaire du produit phare (prix, en euros) ; du budget recherche (br, en milliers d euros) ; des investissements (inv, en valeur comptable, de sorte que des entrées peuvent être négatives, en milliers d euros) ; du budget de publicité (pub, en milliers d euros) ; et enfin, du montant des ventes (ventes, en milliers d euros). 1. Un peu de statistiques descriptives Faisons mieux connaissance avec ces données : précisez les statistiques d échantillon demandées. On utilisera à cet effet les éléments Analyse / Statistiques descriptives / Effectifs ( Frequencies en anglais), et Analyse / Statistiques descriptives / Descriptives si besoin. Moyenne et écart-type des montants de vente : Montants minimum et maximum des investissements : Médiane et quartiles des marchés totaux de branche : TP sous SPSS Eléments de statistique Rosenberg / Stoltz / Vieille 2
2. Diagrammes de dispersion On va tracer ici des diagrammes de dispersion ( scatterplots ou plus simplement plots ) ; ils représentent une variable (typiquement, la variable à expliquer, les ventes) en fonction d une autre variable (typiquement, une variable explicative). 2.1 Diagrammes de dispersion simples Tracez avec Graphes / Générateur de diagrammes ( Chart builder en anglais) le diagramme de dispersion des ventes en fonction du marché total de la branche. Double-cliquez sur le dessin obtenu, l éditeur de graphiques s affiche. Identifiez l icône permettant de tracer la régression linéaire (il s agit d une toute petite image d un nuage de points, avec une droite et des axes ; c est un peu le jeu «Où est Charlie?»). Faites afficher la droite de régression et le calcul du r 2. Reportez la valeur de ce dernier, dans la belle phrase habituelle : Refaites de même avec la variable explicative des remises de grossistes. Faites valider les dessins obtenus par votre enseignant lors de son prochain passage. De ces deux variables explicatives, laquelle est la meilleure? 2.2 Matrices de diagrammes de dispersion Tracez maintenant, toujours avec Graphes / Générateur de diagrammes, une matrice de tels diagrammes de corrélation, celle de toutes les variables en fonction de toutes les autres. Tracez l ensemble des régressions linéaires. Le dessin est sans doute peu lisible. Agrandissez-le, en utilisant le menu Edition / Propriétés de la fenêtre d édition graphique. Faites valider le résultat par votre enseignant lors de son prochain passage. Parmi les régressions simples du montant des ventes, quelle semble être la meilleure? Lesquelles semblent les moins bonnes (il y en a deux)? TP sous SPSS Eléments de statistique Rosenberg / Stoltz / Vieille 3
3. Calcul des régressions linéaires simples On calcule une sortie de régression linéaire, simple ou multiple, en suivant le chemin Analyse / Régression / Linéaire. Calculez chacune des régressions linéaires simples du montant des ventes. Pour chacune d entre elles, indiquez les modèles statistiquement valides, et parmi ces derniers, ceux qui sont également économiquement valides. Quels semblent les deux pires modèles? Retrouve-t-on ce dont on avait eu l intuition sur les diagrammes de dispersion? Parmi les modèles valides à la fois statistiquement et économiquement, lequel est le meilleur? Ecrivez et interprétez la relation qu il propose : quelle est notre part de marchés nouveaux? TP sous SPSS Eléments de statistique Rosenberg / Stoltz / Vieille 4
4. Régression linéaire complète et méthode de sélection backward Calculez la régression complète, i.e., celle de la variable à expliquer en fonction de toutes les variables explicatives. Qu en pensez-vous? On se propose de corriger cela, par exemple selon la méthode de régression descendante ( backward ). Calculez son résultat en changeant, dans la fenêtre de régression linéaire, la méthode de considération des variables explicatives (cliquez sur la liste déroulante située juste sous la liste des variables explicatives considérées). Combien d étapes sont-elles nécessaires, quelles sont les variables successivement éliminées? Commentez l absence de significativité marginale des variables prix et semestre dans le modèle complet et le fait que seule la variable prix se retrouve éliminée : ici, au vu de la matrice des diagrammes de dispersion, on a une explication claire à ces phénomènes, laquelle? Dans le même genre d idées, pouvait-on s attendre à la suppression des variables rg (remises aux grossistes) et br (budget recherche)? D un point de vue économique, le modèle finalement retenu vous plaît-il, et sinon, quels modèles proches pourraient, selon vous, être plus satisfaisants pour l esprit? On pourra proposer deux tels modèles. TP sous SPSS Eléments de statistique Rosenberg / Stoltz / Vieille 5
5. Votre conclusion Trois modèles semblent en concurrence. Rappelez lesquels, calculez ou re-calculez les trois régressions linéaires multiples associées, comparez-les, discutez-les, et retenez-les finalement un modèle en justifiant votre choix. Ecrivez et interprétez la relation linéaire associée. Vous porterez un grand soin à la rédaction. A quoi va servir, selon vous, le modèle ainsi retenu? «Monsieur, j ai fini le TP, je peux partir?» Oui, mais seulement si j ai validé votre copie : relisons-la ensemble le plus tranquillement possible afin que je détecte les erreurs (méthodologiques, de rédaction, etc.). C est important : ce TP est diablement proche de ce que vous aurez dans la seconde partie de l examen du 17 décembre! Et comme toujours, une partie substantielle de la note repose sur la précision et la formulation de vos réponses. TP sous SPSS Eléments de statistique Rosenberg / Stoltz / Vieille 6