Formation SPSS (version 22) L objectif général de cette formation est d utiliser SPSS pour réaliser des analyses descriptives et explicatives. SOMMAIRE 1. Saisir les noms des variables... 1 2. Saisir des données... 2 3. Importer des données... 2 4. Transformer des données... 3 5. Modifier les propriétés des variables... 3 6. Trier les données... 3 7. Réaliser une analyse de fréquence sur une variable nominale... 3 8. Récupérer des résultats dans un traitement de texte... 4 9. Réaliser des analyses descriptives sur des variables métriques... 4 10. Réaliser un tableau croisé... 4 11. Réaliser une analyse factorielle des correspondances... 4 12. Interpréter les résultats d un analyse factorielle des correspondances... 5 13. Réaliser une analyse de corrélation... 5 14. Réaliser une analyse de la variance (ANOVA)... 6 15. Réaliser une analyse des composantes principales... 7 16. Réaliser une analyse de régression simple... 11 17. Réaliser une analyse de régression multiple... 12 Télécharger le dossier Stats.zip disponible à l URL http://bit.ly/1podwx5 > décompresser Stats.zip dans Mes documents vous disposez désormais des fichiers nécessaires pour cette formation. 1. SAISIR LES NOMS DES VARIABLES Problème : J ai administré une enquête. Je souhaite maintenant saisir les données dans SPSS afin de réaliser des calculs statistiques. Solution : Ouvrir SPSS : Démarrer > Tous les programmes > IBM SPSS Statistics > IBM SPSS Statistics 22 En haut à gauche, sous la rubrique Nouvaux fichiers, cliquer sur Nouveau jeu de données > OK Cliquer en bas à gauche sur l onglet Vue des variables la fenêtre qui s affiche va permettre de saisir les variables et de préciser leurs caractéristiques À la ligne 1, dans la colonne Nom > saisir : Identite > Tab Cliquer à droite de Numérique > cocher Chaîne > OK Dans la colonne Largeur, saisir : 50 (taille maximale du texte) Dans la colonne Libellé, saisir : Nom et prénom Dans la colonne Colonnes, saisir : 12 Cliquer à la ligne 2, dans la colonne Nom > saisir : Classe Cliquer à droite de Numérique > cocher Chaîne > OK Dans la colonne Largeur, saisir : 15 SPSS_formation_22.docx 1 / 12 Y. CINOTTI
Dans la colonne Valeur, cliquer sur l icône à droite de Aucun > dans la fenêtre Libellés de valeurs, sous la rubrique Valeur, saisir 1 > sous la rubrique Libellé saisir L3 MIIT > cliquer sur le pavé Ajouter Dans la rubrique Valeur, saisir : 2 > dans la rubrique Libellé saisir : LP HR > cliquer sur le pavé Ajouter > OK Cliquer à la ligne 3, dans la colonne Nom > saisir : NivoInfo Dans la colonne Décimales, saisir 0 Dans la colonne Libellé, saisir : Niveau d informatique Dans la colonne Mesure, choisir Echelle Vous devriez obtenir exactement ceci : NB : Dans la colonne Mesure, trois types sont possibles : Nominales, Ordinales et Echelle. Une variable Echelle est une variable métrique (d intervalles ou de proportion). 2. SAISIR DES DONNÉES Problème : Comment saisir les premières données Solution : En bas de la fenêtre, à gauche, cliquer sur l onglet Vue de données les trois variables créées précédemment sont devenues les en-tête des colonnes Saisir, comme dans une feuille de tableur, les données ci-dessous : Ctrl+S (ou Menu Fichier > Enregistrer) > Chercher dans : Mes documents > Nom du fichier : Premier > Enregistrer un fichier Premier.sav apparaît dans Mes documents Réduire la fenêtre qui s est ouverte qui précise l opération de sauvegarde qui vient d être réaliser et dans laquelle s afficheront également tous les résultats. 3. IMPORTER DES DONNÉES Problème : J ai administré un questionnaire sur Internet. Je dispose désormais d un fichier Excel. Comment puis-je importer les données dans SPSS? Solution : Dans SPSS : Menu Fichier > Ouvrir > Données > Fichiers de type : Excel > naviguer jusqu au dossier Mes documents > sélectionner le fichier EvalTic.xlsx > Ouvrir Si nécessaire, cocher Lire les noms de variable à partir de la première ligne de données > OK SPSS_formation_22.docx 2 / 12 Y. CINOTTI
4. TRANSFORMER DES DONNÉES Problème : Dans la colonne Venues, au lieu de «jamais», «une seule fois» et «deux fois», je voudrais «0», «1» et «2» Solution : Menu Transformer > Recoder des variables > dans la liste à gauche, cliquer sur Venues > cliquer sur la flèche au milieu pour faire passer Venues sous Variables : > cliquer sur le pavé Anciennes et nouvelles valeurs Sous Ancienne valeur, saisir : jamais > sous Nouvelle valeur, saisir : 0 > Ajouter Sous Ancienne valeur, saisir : une seule fois > sous Nouvelle valeur, saisir : 1 > Ajouter Sous Ancienne valeur, saisir : deux fois > sous Nouvelle valeur, saisir : 2 > Ajouter Pavé Poursuivre > OK > réduire la fenêtre apparue 5. MODIFIER LES PROPRIÉTÉS DES VARIABLES Problème : En bas de la fenêtre, à gauche, cliquer sur l onglet Vue des variables. Je m aperçois que les propriétés des variables ne sont pas correctes. Solution : Si ce n est pas déjà fait, en bas de la fenêtre, à gauche, cliquer sur l onglet Vue des variables Si nécessaire, dans la colonne Décimales, remplacer tous les 1 par des 0 Dans la colonne Type, à la ligne 8 (variable Venues), remplacer Chaîne par Numérique Dans la colonne Mesure, à la ligne 1 (variable Identite), remplacer Echelle par Nominales De la ligne 3 à 12, remplacer Nominales par Echelle Ctrl+S > enregistrer le fichier sous le nom Eval.sav dans Mes documents 6. TRIER LES DONNÉES Problème : Comment trier les réponses par classe, comme on peut le faire dans un tableur? Solution : Cliquer en bas à gauche sur l onglet Vue de données Menu Données > Trier les observations... > dans la fenêtre Trier les observations, cliquer sur Classe > cliquer sur la flèche au milieu pour faire passer Classe sous Trier par : > OK > réduire la fenêtre apparue 7. RÉALISER UNE ANALYSE DE FRÉQUENCE SUR UNE VARIABLE NOMINALE Problème : Comment savoir combien d étudiants de chaque classe ont répondu? Solution : Menu Analyse > Statistiques descriptives > Fréquences > faire passer la variable Classe sous Variable(s) > OK dans la fenêtre Résultats1, sous Effectifs, s affichent deux tableaux : Le premier tableau précise le nombre de réponses valides (137) et le nombre de cases sans réponse (0) Le second indique en particulier l effectif en valeur absolue (colonne Fréquence) et la fréquence (colonne Pourcentage) SPSS_formation_22.docx 3 / 12 Y. CINOTTI
8. RÉCUPÉRER DES RÉSULTATS DANS UN TRAITEMENT DE TEXTE Problème : Je veux récupérer le second tableau pour l intégrer dans un document sous traitement de texte. Solution : Clic droit au-dessus du second tableau (Classe) > Copier Ouvrir le traitement de texte > clic droit > Coller 9. RÉALISER DES ANALYSES DESCRIPTIVES SUR DES VARIABLES MÉTRIQUES Problème : Je veux connaître la moyenne, le maximum, le minimum, l étendue et l écart-type des variables NivoInfo et Progression. Solution : Revenir vers SPSS (fichier Eval.sav) Menu Analyse > Statistiques descriptives > Descriptives > par un cliquer-glisser, faire passer NivoInfo et Progression sous Variable(s) > Options > cocher Moyenne, Ecart type, Minimum, Maximum et Plage > pavé Poursuivre > OK dans la fenêtre Sortie1, le tableau Statistiques descriptives présente les statistiques demandées. 10. RÉALISER UN TABLEAU CROISÉ Problème : Comment croiser les données des variables NivoInfo et Progression (comme dans un tableau croisé dynamique avec Excel)? Solution : Revenir vers SPSS (fichier Eval.sav) Menu Analyse > Statistiques descriptives > Tableaux croisés > cliquer-glisser NivoInfo sous Ligne(s) > cliquer-glisser Progression sous Colonne(s) Pavé Cellules... > dans la rubrique Pourcentages, cocher Ligne > Poursuivre > OK Fermer la fenêtre Sortie1 > enregistrer le fichier dans le dossier Mes documents Fermer le fichier EvalTic.sav en l enregistrant 11. RÉALISER UNE ANALYSE FACTORIELLE DES CORRESPONDANCES Problème : Je dispose des résultats d une enquête auprès de femmes et d hommes. Il a été demandé aux individus s ils étaient intéressés par le magasinage (le shopping en franglais). Cette enquête confirme-t-elle l hypothèse intuitive que les femmes sont plus intéressées par le shopping que les hommes? Solution : Dans SPSS, ouvrir le fichier magasin.sav (dans Mes documents) Réalisons d abord un tableau croisé pour nous faire une première idée : Analyse > Statistiques descriptives > Tableaux croisés > cliquer-glisser la variable intérêt pour le magasinage [intmag] sous Ligne(s) > cliquer-glisser sexe de la personne [sexe] sous Colonne(s) Pavé Cellules... > dans la rubrique Effectifs, décocher Observé > dans la rubrique Pourcentages, cocher Position > Poursuivre > OK SPSS_formation_22.docx 4 / 12 Y. CINOTTI
NB : À la vue de ce tableau, les femmes semblent plus intéressées par le magasinage que les hommes. Mais il reste à le démontrer statistiquement Pour cela, calculons le Khi-deux : Analyse > Statistiques descriptives > Tableaux croisés normalement la variable intmag est dans la zone Ligne(s) et sexe dans la zone Colonne(s) Pavé Statistiques... > cocher Khi-deux et Phi et V de Cramer > Poursuivre > OK Dans la fenêtre Tableaux croisés, la variable sexe est placée en colonne parce qu il s agit de la variable indépendante, celle qui a une influence sur la variable dépendante, intmag. 12. INTERPRÉTER LES RÉSULTATS D UN ANALYSE FACTORIELLE DES CORRESPONDANCES Problème : Mais que signifie les résultats dans les deux tableaux ci-contre? Solution : Les deux éléments intéressants dans ces tableaux sont entourés : On appelle aussi «valeur p» le niveau de signification asymptotique. Si la valeur p est inférieure à 0,05 l hypothèse est confirmée. C est bien le cas ici puisque p = 0,000 (en réalité il y a des décimales, mais masquées). Le V de Cramer nous renseigne sur la force de la relation entre les deux variables. La valeur de V est généralement comprise entre 0 (pas de relation) et 1 (relation complète). Étant donné que le V de Cramer est de seulement 0,274, la relation est faible. Rappel : On peut donc conclure que la relation entre le sexe et l intérêt pour le magasinage est statistiquement significative (p = 0,000) mais faible (V = 0,274). L analyse factorielle des correspondances ne doit être utilisée que pour des variables non métriques. 13. RÉALISER UNE ANALYSE DE CORRÉLATION Problème : Dans le questionnaire, il était aussi demandé aux répondants d évaluer le plaisir qu ils ressentent à magasiner (faire du shopping). On veut étudier si l intérêt pour le magasinage et le plaisir de magasiner sont corrélés. Solution : Analyse > Corrélation > Bivariée > faire glisser les variables intérêt pour le magasinage [intmag] et plaisir ressenti à magasiner [hédo1] sous Variables : > pavé Options > cocher Exclure toute observation incomplète > Poursuivre > OK SPSS_formation_22.docx 5 / 12 Y. CINOTTI
Rappel : On voit dans le tableau ci-dessus que la corrélation est de 0,526 et que la valeur p (signification bilatérale) est de 0,000. On peut conclure qu il y a une corrélation entre ces deux variables. C est d ailleurs écrit sous le tableau. L analyse de corrélation ne doit être utilisée que pour des variables métriques. Une corrélation n indique pas le sens de la relation : est-ce l intérêt pour le magasinage qui a une influence sur le plaisir de magasiner ou l inverse? Il y a peut-être même une interdépendance entre ces deux variables. Corrélation n est pas causalité. 14. RÉALISER UNE ANALYSE DE LA VARIANCE (ANOVA) Problème : Je veux vérifier l hypothèse intuitive que le niveau de scolarité 1 n a pas d influence sur le plaisir de magasiner. Solution : Analyse > Comparer les moyennes > ANOVA à 1 facteur > faire glisser la variable plaisir ressenti à magasiner [hédo1] sous Liste Variables dépendantes et la variable scolarité (recodifiée) [nscolarité] sous Facteurs > pavé Options > cocher Caractéristique > Poursuivre > OK Dans le tableau Descriptives, on voit que les moyennes sont assez différentes suivant le niveau de scolarité. L hypothèse semble devoir être rejetée. Afin de le prouver statistiquement, il faut d abord comparer la grande moyenne (entourée dans le tableau Descriptives) avec le test F (dans le tableau Anova à 1 facteur ci-dessous). Puisque la grande moyenne (2,81) est inférieure au test F (7,515), les différences de moyennes sont statistiquement significatives. De plus, puisque la valeur p du test est de 0,001 (colonne Sig.) on peut affirmer qu il y a une chance sur mille de se tromper en disant que les moyennes sont inégales. L hypothèse est bien rejetée. Donc le niveau de scolarité a un impact sur le plaisir de magasiner. Pour évaluer la force de la relation entre les deux variables on calcule : = 16,476 258,746 = 0,25 L interprétation de (êta) suit la même logique que celle du V de Kramer (cf. point 12). La relation est donc faible. 1 Curieusement dans l affichage des variables de magasin.sav, la variable scolarité recodifiée est caractérisée comme une variable métrique (Echelle) alors qu il s agit bien évidemment d une variable ordinale. La codification est la suivante : 1 = primaire/secondaire, 2 = collégiale (jusqu à bac +3) et 3 = universitaire (au-delà de bac+3). SPSS_formation_22.docx 6 / 12 Y. CINOTTI
NB : L ANOVA est adaptée pour étudier l influence d une ou plusieurs variable(s) nominale(s) ou ordinale(s) sur une variable métrique. 15. RÉALISER UNE ANALYSE DES COMPOSANTES PRINCIPALES Problème : On cherche à étudier quels sont les critères de choix d un jeans et comment se situent quatre marques par rapport à ces critères. Un questionnaire a été administré auprès de 96 personnes. On leur a demandé, entre autres, d appliquer des qualificatifs à chaque marque avec des questions comme : Je trouve les jeans Calvin Klein durable : 1) Pas du tout d accord 2) Plutôt pas d accord 3) Plutôt d accord 4) Tout à fait d accord Solution : On dispose d informations nombreuses et on cherche à les résumer en dégageant les principales composantes (également appelés «dimensions» ou «facteurs»). Dans SPSS, ouvrir le fichier ACPjeans.sav (dans Mes documents) Lorsque l on affiche les données, on remarque que le tableau ne compte pas 96 lignes (une par répondant), mais 384 lignes. En effet, comme on a demandé aux répondants d appliquer des qualificatifs à chaque marque de jeans, il faut 4 96 lignes. C est pourquoi on remarque, dans la colonne Sujet, de la ligne 1 à 4, le même numéro de répondant et dans la colonne Marque les numéros de chaque marque (1 = Calvin Klein, 2 = Rica Lewis, 3 = Levi s, 4 = Hudson). Afficher les variables > on voit, dans la colonne Libellé, de la ligne 3 à 15, les qualificatifs proposés : durable, moulant, confortable, etc. De la ligne 16 à 34, on voit que des questions ont été posées concernant le répondant et ses préférences, ses achats et le type de jeans qu il/elle porte. Menu Analyse > Réduction des dimensions > Analyse factorielle Faire passer les 13 variables durables, moulant, confortable, de mauvaise qualité, pratique, jeans design, cher, d allure nonchalante, masculin, à la mode, country, sexy, chic sous Variables Pavé Descriptives > cocher comme indiqué ci-dessous > Poursuivre pour obtenir des statistiques descriptives pour chaque variable fournit la communalité (qualité de la représentation) initiale, les valeurs propres et le pourcentage de variance expliqué de toutes les variables pour obtenir une matrice des corrélations entre les variables pour obtenir l indice KMO et réaliser un test de Barlett Pavé Extraction (permet de fixer le nombre de composantes qui doivent être retenus par SPSS) > cocher comme indiqué ci-dessous > Poursuivre SPSS_formation_22.docx 7 / 12 Y. CINOTTI
pour ne retenir que les valeurs propres supérieures à 1 Mais on pourrait aussi fixer le nombre de composantes Pavé Rotation > cocher Carte(s) factorielle(s) > Poursuivre Pavé Scores > cocher Afficher la matrice des scores factoriels > Poursuivre Pavé Options > cocher Classement des variables par taille > Poursuivre > OK Problème : Les variables sont-elles factorisables, c'est-à-dire ne sont-elles pas trop hétérogènes pour que l on puisse trouver les composantes principales? 1 er indice : Dans la matrice de corrélation, on voit des corrélations supérieures à 0,5 ou inférieures à 0,5. Par exemple, il existe une corrélation de 0,526 pour les variables durable et confortable et une corrélation de 0,505 pour moulant et country. Donc on pourra en regrouper certaines, c'est-à-dire les factoriser. 2 e indice : Dans le tableau Indice KMO et test de Bartlett, le KMO est de 0,889. Le KMO tend vers 1. Si le KMO est supérieure à 0,5 les données sont factorisables. 3 e indice : Dans le tableau Indice KMO et test de Bartlett, la signification de Bartlett est de 0,000 c'est-à-dire que le test est très significatif. Tant que la signification est inférieure à 0,05 il est possible de factoriser. Problème : Toutes les variables sont-elles bien prises en compte dans l ACP? Solution : Dans le tableau Qualité de représentation, toutes les variables sont supérieures à 0,5 sauf à la mode. Il faut donc supprimer cette variable, c'est-à-dire réaliser une nouvelle ACP sans à la mode : menu Analyse > Réduction des dimensions > Analyse factorielle > faire passer la variable à la mode vers la gauche en la sélectionnant puis en cliquant sur la flèche au milieu > OK une nouvelle ACP s affiche. Problème : Combien de composantes retenir? Solution : Dans cette deuxième analyse factorielle, dans le tableau Variance totale expliquée, dans la colonne % cumulés, on voit que si l on retient 2 composantes (ou facteurs), on restitue 62,306 % de l information totale contenue dans les données. C est pour l instant ce que fait SPSS car on lui a demandé lors du paramétrage (voir plus haut la fenêtre Analyse factorielle : Extraction) de ne retenir que les valeurs propres supérieures à l (c est la règle de Kaiser). Un autre indice nous est fourni par le Tracé d effondrement qui n est que la représentation graphique de la colonne Total du tableau Variance totale expliquée. On voit que, après la composante 2, il y a une forte chute. Il faut donc ne retenir que deux composantes. Si le chercheur souhaite, par exemple, une restitution minimale de 70 %, on voit, dans le tableau Variance totale expliquée, qu il lui faut retenir 4 facteurs. Il peut fixer le nombre de facteurs dans la fenêtre Analyse factorielle : Extraction (voir page précédente). SPSS_formation_22.docx 8 / 12 Y. CINOTTI
Problème : Quelles sont finalement les composantes principales? Solution : Dans le Tracé des composantes, on voit deux nuages de points, mais il faudrait que les deux axes passent entre les nuages de points. Il est nécessaire de faire une rotation des axes pour mieux ajuster les données : menu Analyse > Réduction des dimensions > Analyse factorielle > pavé Rotation > cocher Varimax > Poursuivre > OK Dans le nouveau Tracé des composantes dans l espace après rotation, l axe horizontale passe bien au milieu d un nuage de points, mais pas l axe verticale. On voit aussi que la variable mqual (mauvaise qualité) se trouve isolée. On réalise une nouvelle ACP avec rotation Varimax en retirant la variable mqual on constate que, dans le tableau Variance totale expliquée, le pourcentage cumulés des valeurs propres initiales pour deux composantes s est amélioré : il est désormais à 63,606 %. Problème : À quoi correspondent les deux composantes? Solution : Le chercheur doit maintenant décider à quoi correspondent les deux composantes. SPSS ne peut pas le faire. On constate, dans le tableau Rotation de la matrice des composantes que : - la composante 1 (axe horizontal dans le Tracé des composantes dans l espace après rotation) attire les six variables pratique, durable, d allure nonchalante, confortable, masculin et country ; on peut donc la nommer «décontracté» ; - la composante 2 (axe vertical) attire les cinq variables moulant, cher, chic, sexy et jean design ; on peut la dénommer «classe». On peut donc résumer les données obtenues en disant que les deux critères principaux en matière de jeans sont la décontraction et la classe. Problème : Comment se situent les quatre marques étudiées par rapport à ces deux composantes? Solution : Il faut d abord créer deux nouvelles variables qui correspondront aux deux composantes. Il faut pour cela réaliser une nouvelle ACP : Analyse > Réduction des dimensions > Analyse factorielle > pavé Scores > cocher Enregistrer dans des variables > Poursuivre > OK Revenir vers l affichage des variables deux nouvelles variables sont apparues à la ligne 35 et à la ligne 36 > à la ligne 35, dans la colonne Libellé, renommer REGR factor score 1 for analysis 1 en décontracté > renommer REGR factor score 1 for analysis 2 en classe SPSS_formation_22.docx 9 / 12 Y. CINOTTI
Pour connaître la position moyenne de chaque marque sur les deux axes : Analyse > Comparer les moyennes > Moyennes > passer les deux nouvelles variables, décontracté et classe, sous Liste Variables dépendantes > passer la variable Marque sous Liste Variable indépendante Pavé Options > ne garder sous Statistiques de cellules que Moyenne > Poursuivre > OK Clic droit sur le tableau Rapport > Copier Il faut maintenant réaliser le graphique à l aide du tableur Dans Excel 2007, 2010 ou 2013 Coller le tableau en A1 > sélectionner les cellules de B4 à C7 > n afficher que deux décimales > dans l onglet Insertion, dans la zone Graphiques, cliquer sur l icône Nuage de points > cliquer sur l icône Nuages de points avec marqueurs uniquement (Nuage de points dans 2013) Déplacer le graphique dans une nouvelle feuille nommée Nuage Si nécessaire, supprimer la légende Série 1 à droite Pour nommer chaque point, il faut utiliser la manip expliquée au point 16 de la formation tableur niveau 5. Dans LibreOffice 4 Ouvrir une feuille LibreOffice Calc Cliquer en A1 > coller le tableau Sélectionner les cellules de B4 à C7 > n afficher que deux décimales > Menu Insertion > Objet > Diagramme > choisir un type de diagramme : XY (dispersion) > Terminer Supprimer la légende Colonne C à droite Menu Format > Plages de données > onglet Séries de données... > à droite de la zone de saisie Étiquettes de données cliquer sur la flèche vers le haut > sélectionner les cellules A4:A7 > OK Menu Insertion > Étiquettes de données > cocher Afficher la catégorie > OK Dans le graphique ci-dessus, l axe horizontal est celui de la décontraction et le vertical celui de la «classe». On voit que la marque Rica Lewis est considérée comme peu «classe» et un peu décontractée alors que Calvin Klein est «classe» et pas très décontractée SPSS_formation_22.docx 10 / 12 Y. CINOTTI
16. RÉALISER UNE ANALYSE DE RÉGRESSION SIMPLE Problème : Je cherche à comprendre quels sont les éléments qui expliquent le nombre de restaurants gastronomiques dans les régions françaises. Pour être plus précis, j ai totalisé le nombre d étoiles Michelin de tous les restaurants de chaque région. Intuitivement, il me semble que le PIB par habitant d une région explique le nombre d étoiles. Pour le vérifier, je réalise une analyse de régression linéaire simple. Solution : Dans SPSS, importer les données du fichier etoiles_michelin.xlsx (dans Mes documents) Cliquer sur l onglet Vue des variables > préciser que la variable EtoilesMichelin n est pas une variable nominale, mais métrique (Echelle) Supprimer la variable V5 : à gauche, clic droit sur 5 pour sélectionner toute la ligne > Effacer Menu Analyse > Régression > Linéaire > passer la variable EtoilesMichelin sous Dépendant > passer la variable PIBhabitant sous Variables indépendantes Cliquer sur le pavé OK Dans le tableau Récapitulatif des modèles, il faut s intéresser au coefficient de détermination, R-deux (ou R²), qui varie entre 0 (relation linéaire nulle) et 1 (relation parfaite). Avec un R-deux de 0,674 on peut dire que le PIB par habitant explique à 67,4 % le nombre total d étoiles Michelin d une région. La relation est donc forte. NB : Dans le tableau ANOVA, on voit que la statistique F atteint 41,362 avec une valeur p de 0,000. On en conclut que la relation est statistiquement significative. L analyse de régression linéaire simple permet d étudier le lien entre deux variables métriques, comme l analyse de corrélation. Cette dernière est plutôt appropriée lorsqu il peut y avoir une interdépendance entre les variables, ce qui n est pas le cas ici. Les restaurants gastronomiques ne participent que très faiblement au PIB. La régression linéaire est aussi recommandée pour prédire une valeur, par exemple le chiffre d affaires en fonction des dépenses publicitaires. SPSS_formation_22.docx 11 / 12 Y. CINOTTI
17. RÉALISER UNE ANALYSE DE RÉGRESSION MULTIPLE Problème : La revue de littérature m a permis de découvrir que le tourisme (nombre de nuitées touristiques) explique également le nombre d étoiles dans une région. Mais cette variable a- t-elle le même poids que le PIB par habitant? Pour le savoir, réalisons une analyse de régression linéaire multiple. Solution : Menu Analyse > Régression > Linéaire > passer Millionsdenuiteestouristiques sous Variables indépendantes > OK Le R-deux atteint 0,890. Donc le nombre d étoiles d une région est prédit à 89 % par les deux variables. La relation est forte. Le modèle est statistiquement significatif (p = 0,000). Dans le tableau Coefficients, dans la colonne Sig, on voit que la constante et les deux variables contribuent significativement à la régression (p = 0,000) et donc que les variables ont un effet réel et positif sur le nombre d étoiles Michelin. À l aide des coefficients standardisés, on peut dessiner le modèle : PIB par habitant Millions de nuitées touristiques 0,733 0,473 Nombre d étoiles Michelin On en conclut que le PIB par habitant a plus d influence que le nombre de touristes sur le nombre d étoiles Michelin d une région. SPSS_formation_22.docx 12 / 12 Y. CINOTTI