Formation SPSS (version 22)



Documents pareils
Traitement des données avec Microsoft EXCEL 2010

Formation tableur niveau 1 (Excel 2013)

Logiciel XLSTAT version rue Damrémont PARIS

Sommaire. 2. Utiliser la télécommande Télécommande Administrateur Télécommande Utilisateur Échanger une télécommande...

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes

Localisation des fonctions

Infolettre #18 : Les graphiques avec Excel 2010

Activité 11 : Nuage de points ou diagramme de dispersion

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

COURS DE MS EXCEL 2010

LibreOffice Calc : introduction aux tableaux croisés dynamiques

Excel 2007 Niveau 3 Page 1

GUIDE D UTILISATION DU BROWSER DE BEYOND 20/20

Utiliser un tableau de données

EXCEL Les tableaux croisés dynamiques

Le cas «BOURSE» annexe

SPHINX Logiciel de dépouillement d enquêtes

Avant-propos FICHES PRATIQUES EXERCICES DE PRISE EN MAIN CAS PRATIQUES

ANNEXE 8 : Le Mailing

Le cas «BOURSE» annexe

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

EXCEL TUTORIEL 2012/2013

12 Tableaux croisés dynamiques

GUIDE D UTILISATION 1

COURS BARDON - EXCEL 2010

VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET

Mon aide mémoire traitement de texte (Microsoft Word)

Cours pratique Excel. Dans chacune des feuilles, les donnés sont déjà entrées afin de gagner du temps.

Note de cours. Introduction à Excel 2007

GUIDE Excel (version débutante) Version 2013

Vous venez d acquérir un fichier de données issues de la Base de données SIRENE. Comment utiliser votre fichier?

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

Utilisation avancée de SugarCRM Version Professional 6.5

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

Microsoft Excel Présentation du tableur Excel

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

La Clé informatique. Formation Excel XP Aide-mémoire

MAILING KOMPOZER... 2 CREEZ UNE PAGE... 2 FORMAT DE LA PAGE... 2 AJOUTER DU TEXTE SUR UNE PAGE... 4

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

Les tableaux croisés dynamiques

1.1 L EXPLORATEUR WINDOWS

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE LA FORMATION PROFESSIONNELLE. Microsoft. Excel XP

Microsoft Excel 2000 Fonctions avancées

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Cours Excel : les bases (bases, texte)

Planifier et contrôler un projet avec Microsoft Project

Débuter avec Excel. Excel

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Chapitre 3. Les distributions à deux variables

Comment insérer une image de fond?

Guide de l utilisateur Mikogo Version Windows

Relation entre deux variables : estimation de la corrélation linéaire

Manuel de formation Spaceman 1 ère journée

IBM SPSS Statistics Base 20

Statistiques descriptives sous Excel. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

TABLEAU CROISE DYNAMIQUE

Formation Web (Internet Explorer 7)

Préparez la rentrée!

GUIDE D UTILISATION DE L AGENDA

Page Paragraphe Modification Mise en page du document Le bouton "Format de page" est maintenant "Page"

Création d une SIGNATURE ANIMÉE avec PHOTOFILTRE 7

Modes Opératoires WinTrans Mai 13 ~ 1 ~

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10

GESTION DE L'ORDINATEUR

Créer sa première base de données Access Partie 4/4 - Création d un état

Démonstration d utilisation De NesmaCom

Programme d Accès Communautaire / Atelier 4 Initiation à Microsoft Excel PLAN DE COURS 3 MICROSOFT EXCEL 4 LANCER EXCEL 4

Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2)

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

PromoPost Manuel d utilisation

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Maîtrisez votre Navigateur

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Installation et lancement d ETHNOS Configuration requise... 5 Installation... 5 Lancement Les modules d ETHNOS... 7

EVOLUTION 7.1 Déroulement DREAM INFO 1 Dossier 23 Ciel Gestion Commerciale.

Créer son questionnaire en ligne avec Google Documents

Table des matières A. Introduction... 4 B. Principes généraux... 5 C. Exemple de formule (à réaliser) :... 7 D. Exercice pour réaliser une facture

Manuel d utilisation Profilsearch

Centre de formation: Collège IBN BASSAM - TEMARA. Ce cours est proposé par le professeur d informatique:

Utiliser le logiciel Photofiltre Sommaire

1 ) L élaboration des factures, des bordereaux de livraison et des factures proforma.

NOTICE D UTILISATION

Créer un tableau avec LibreOffice / Calc

Manuel d utilisation de la base de données nationale sur la situation de l enfance en Tunisie CHILDINFO 6.0

Guide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT

Comment consolider des données

CAPTURE DES PROFESSIONNELS

Installation et configuration du serveur syslog sur Synology DSM 4.0

Access 2010 Entraînement 1 Garage Renault Dossier 24 MCD

données en connaissance et en actions?

Transcription:

Formation SPSS (version 22) L objectif général de cette formation est d utiliser SPSS pour réaliser des analyses descriptives et explicatives. SOMMAIRE 1. Saisir les noms des variables... 1 2. Saisir des données... 2 3. Importer des données... 2 4. Transformer des données... 3 5. Modifier les propriétés des variables... 3 6. Trier les données... 3 7. Réaliser une analyse de fréquence sur une variable nominale... 3 8. Récupérer des résultats dans un traitement de texte... 4 9. Réaliser des analyses descriptives sur des variables métriques... 4 10. Réaliser un tableau croisé... 4 11. Réaliser une analyse factorielle des correspondances... 4 12. Interpréter les résultats d un analyse factorielle des correspondances... 5 13. Réaliser une analyse de corrélation... 5 14. Réaliser une analyse de la variance (ANOVA)... 6 15. Réaliser une analyse des composantes principales... 7 16. Réaliser une analyse de régression simple... 11 17. Réaliser une analyse de régression multiple... 12 Télécharger le dossier Stats.zip disponible à l URL http://bit.ly/1podwx5 > décompresser Stats.zip dans Mes documents vous disposez désormais des fichiers nécessaires pour cette formation. 1. SAISIR LES NOMS DES VARIABLES Problème : J ai administré une enquête. Je souhaite maintenant saisir les données dans SPSS afin de réaliser des calculs statistiques. Solution : Ouvrir SPSS : Démarrer > Tous les programmes > IBM SPSS Statistics > IBM SPSS Statistics 22 En haut à gauche, sous la rubrique Nouvaux fichiers, cliquer sur Nouveau jeu de données > OK Cliquer en bas à gauche sur l onglet Vue des variables la fenêtre qui s affiche va permettre de saisir les variables et de préciser leurs caractéristiques À la ligne 1, dans la colonne Nom > saisir : Identite > Tab Cliquer à droite de Numérique > cocher Chaîne > OK Dans la colonne Largeur, saisir : 50 (taille maximale du texte) Dans la colonne Libellé, saisir : Nom et prénom Dans la colonne Colonnes, saisir : 12 Cliquer à la ligne 2, dans la colonne Nom > saisir : Classe Cliquer à droite de Numérique > cocher Chaîne > OK Dans la colonne Largeur, saisir : 15 SPSS_formation_22.docx 1 / 12 Y. CINOTTI

Dans la colonne Valeur, cliquer sur l icône à droite de Aucun > dans la fenêtre Libellés de valeurs, sous la rubrique Valeur, saisir 1 > sous la rubrique Libellé saisir L3 MIIT > cliquer sur le pavé Ajouter Dans la rubrique Valeur, saisir : 2 > dans la rubrique Libellé saisir : LP HR > cliquer sur le pavé Ajouter > OK Cliquer à la ligne 3, dans la colonne Nom > saisir : NivoInfo Dans la colonne Décimales, saisir 0 Dans la colonne Libellé, saisir : Niveau d informatique Dans la colonne Mesure, choisir Echelle Vous devriez obtenir exactement ceci : NB : Dans la colonne Mesure, trois types sont possibles : Nominales, Ordinales et Echelle. Une variable Echelle est une variable métrique (d intervalles ou de proportion). 2. SAISIR DES DONNÉES Problème : Comment saisir les premières données Solution : En bas de la fenêtre, à gauche, cliquer sur l onglet Vue de données les trois variables créées précédemment sont devenues les en-tête des colonnes Saisir, comme dans une feuille de tableur, les données ci-dessous : Ctrl+S (ou Menu Fichier > Enregistrer) > Chercher dans : Mes documents > Nom du fichier : Premier > Enregistrer un fichier Premier.sav apparaît dans Mes documents Réduire la fenêtre qui s est ouverte qui précise l opération de sauvegarde qui vient d être réaliser et dans laquelle s afficheront également tous les résultats. 3. IMPORTER DES DONNÉES Problème : J ai administré un questionnaire sur Internet. Je dispose désormais d un fichier Excel. Comment puis-je importer les données dans SPSS? Solution : Dans SPSS : Menu Fichier > Ouvrir > Données > Fichiers de type : Excel > naviguer jusqu au dossier Mes documents > sélectionner le fichier EvalTic.xlsx > Ouvrir Si nécessaire, cocher Lire les noms de variable à partir de la première ligne de données > OK SPSS_formation_22.docx 2 / 12 Y. CINOTTI

4. TRANSFORMER DES DONNÉES Problème : Dans la colonne Venues, au lieu de «jamais», «une seule fois» et «deux fois», je voudrais «0», «1» et «2» Solution : Menu Transformer > Recoder des variables > dans la liste à gauche, cliquer sur Venues > cliquer sur la flèche au milieu pour faire passer Venues sous Variables : > cliquer sur le pavé Anciennes et nouvelles valeurs Sous Ancienne valeur, saisir : jamais > sous Nouvelle valeur, saisir : 0 > Ajouter Sous Ancienne valeur, saisir : une seule fois > sous Nouvelle valeur, saisir : 1 > Ajouter Sous Ancienne valeur, saisir : deux fois > sous Nouvelle valeur, saisir : 2 > Ajouter Pavé Poursuivre > OK > réduire la fenêtre apparue 5. MODIFIER LES PROPRIÉTÉS DES VARIABLES Problème : En bas de la fenêtre, à gauche, cliquer sur l onglet Vue des variables. Je m aperçois que les propriétés des variables ne sont pas correctes. Solution : Si ce n est pas déjà fait, en bas de la fenêtre, à gauche, cliquer sur l onglet Vue des variables Si nécessaire, dans la colonne Décimales, remplacer tous les 1 par des 0 Dans la colonne Type, à la ligne 8 (variable Venues), remplacer Chaîne par Numérique Dans la colonne Mesure, à la ligne 1 (variable Identite), remplacer Echelle par Nominales De la ligne 3 à 12, remplacer Nominales par Echelle Ctrl+S > enregistrer le fichier sous le nom Eval.sav dans Mes documents 6. TRIER LES DONNÉES Problème : Comment trier les réponses par classe, comme on peut le faire dans un tableur? Solution : Cliquer en bas à gauche sur l onglet Vue de données Menu Données > Trier les observations... > dans la fenêtre Trier les observations, cliquer sur Classe > cliquer sur la flèche au milieu pour faire passer Classe sous Trier par : > OK > réduire la fenêtre apparue 7. RÉALISER UNE ANALYSE DE FRÉQUENCE SUR UNE VARIABLE NOMINALE Problème : Comment savoir combien d étudiants de chaque classe ont répondu? Solution : Menu Analyse > Statistiques descriptives > Fréquences > faire passer la variable Classe sous Variable(s) > OK dans la fenêtre Résultats1, sous Effectifs, s affichent deux tableaux : Le premier tableau précise le nombre de réponses valides (137) et le nombre de cases sans réponse (0) Le second indique en particulier l effectif en valeur absolue (colonne Fréquence) et la fréquence (colonne Pourcentage) SPSS_formation_22.docx 3 / 12 Y. CINOTTI

8. RÉCUPÉRER DES RÉSULTATS DANS UN TRAITEMENT DE TEXTE Problème : Je veux récupérer le second tableau pour l intégrer dans un document sous traitement de texte. Solution : Clic droit au-dessus du second tableau (Classe) > Copier Ouvrir le traitement de texte > clic droit > Coller 9. RÉALISER DES ANALYSES DESCRIPTIVES SUR DES VARIABLES MÉTRIQUES Problème : Je veux connaître la moyenne, le maximum, le minimum, l étendue et l écart-type des variables NivoInfo et Progression. Solution : Revenir vers SPSS (fichier Eval.sav) Menu Analyse > Statistiques descriptives > Descriptives > par un cliquer-glisser, faire passer NivoInfo et Progression sous Variable(s) > Options > cocher Moyenne, Ecart type, Minimum, Maximum et Plage > pavé Poursuivre > OK dans la fenêtre Sortie1, le tableau Statistiques descriptives présente les statistiques demandées. 10. RÉALISER UN TABLEAU CROISÉ Problème : Comment croiser les données des variables NivoInfo et Progression (comme dans un tableau croisé dynamique avec Excel)? Solution : Revenir vers SPSS (fichier Eval.sav) Menu Analyse > Statistiques descriptives > Tableaux croisés > cliquer-glisser NivoInfo sous Ligne(s) > cliquer-glisser Progression sous Colonne(s) Pavé Cellules... > dans la rubrique Pourcentages, cocher Ligne > Poursuivre > OK Fermer la fenêtre Sortie1 > enregistrer le fichier dans le dossier Mes documents Fermer le fichier EvalTic.sav en l enregistrant 11. RÉALISER UNE ANALYSE FACTORIELLE DES CORRESPONDANCES Problème : Je dispose des résultats d une enquête auprès de femmes et d hommes. Il a été demandé aux individus s ils étaient intéressés par le magasinage (le shopping en franglais). Cette enquête confirme-t-elle l hypothèse intuitive que les femmes sont plus intéressées par le shopping que les hommes? Solution : Dans SPSS, ouvrir le fichier magasin.sav (dans Mes documents) Réalisons d abord un tableau croisé pour nous faire une première idée : Analyse > Statistiques descriptives > Tableaux croisés > cliquer-glisser la variable intérêt pour le magasinage [intmag] sous Ligne(s) > cliquer-glisser sexe de la personne [sexe] sous Colonne(s) Pavé Cellules... > dans la rubrique Effectifs, décocher Observé > dans la rubrique Pourcentages, cocher Position > Poursuivre > OK SPSS_formation_22.docx 4 / 12 Y. CINOTTI

NB : À la vue de ce tableau, les femmes semblent plus intéressées par le magasinage que les hommes. Mais il reste à le démontrer statistiquement Pour cela, calculons le Khi-deux : Analyse > Statistiques descriptives > Tableaux croisés normalement la variable intmag est dans la zone Ligne(s) et sexe dans la zone Colonne(s) Pavé Statistiques... > cocher Khi-deux et Phi et V de Cramer > Poursuivre > OK Dans la fenêtre Tableaux croisés, la variable sexe est placée en colonne parce qu il s agit de la variable indépendante, celle qui a une influence sur la variable dépendante, intmag. 12. INTERPRÉTER LES RÉSULTATS D UN ANALYSE FACTORIELLE DES CORRESPONDANCES Problème : Mais que signifie les résultats dans les deux tableaux ci-contre? Solution : Les deux éléments intéressants dans ces tableaux sont entourés : On appelle aussi «valeur p» le niveau de signification asymptotique. Si la valeur p est inférieure à 0,05 l hypothèse est confirmée. C est bien le cas ici puisque p = 0,000 (en réalité il y a des décimales, mais masquées). Le V de Cramer nous renseigne sur la force de la relation entre les deux variables. La valeur de V est généralement comprise entre 0 (pas de relation) et 1 (relation complète). Étant donné que le V de Cramer est de seulement 0,274, la relation est faible. Rappel : On peut donc conclure que la relation entre le sexe et l intérêt pour le magasinage est statistiquement significative (p = 0,000) mais faible (V = 0,274). L analyse factorielle des correspondances ne doit être utilisée que pour des variables non métriques. 13. RÉALISER UNE ANALYSE DE CORRÉLATION Problème : Dans le questionnaire, il était aussi demandé aux répondants d évaluer le plaisir qu ils ressentent à magasiner (faire du shopping). On veut étudier si l intérêt pour le magasinage et le plaisir de magasiner sont corrélés. Solution : Analyse > Corrélation > Bivariée > faire glisser les variables intérêt pour le magasinage [intmag] et plaisir ressenti à magasiner [hédo1] sous Variables : > pavé Options > cocher Exclure toute observation incomplète > Poursuivre > OK SPSS_formation_22.docx 5 / 12 Y. CINOTTI

Rappel : On voit dans le tableau ci-dessus que la corrélation est de 0,526 et que la valeur p (signification bilatérale) est de 0,000. On peut conclure qu il y a une corrélation entre ces deux variables. C est d ailleurs écrit sous le tableau. L analyse de corrélation ne doit être utilisée que pour des variables métriques. Une corrélation n indique pas le sens de la relation : est-ce l intérêt pour le magasinage qui a une influence sur le plaisir de magasiner ou l inverse? Il y a peut-être même une interdépendance entre ces deux variables. Corrélation n est pas causalité. 14. RÉALISER UNE ANALYSE DE LA VARIANCE (ANOVA) Problème : Je veux vérifier l hypothèse intuitive que le niveau de scolarité 1 n a pas d influence sur le plaisir de magasiner. Solution : Analyse > Comparer les moyennes > ANOVA à 1 facteur > faire glisser la variable plaisir ressenti à magasiner [hédo1] sous Liste Variables dépendantes et la variable scolarité (recodifiée) [nscolarité] sous Facteurs > pavé Options > cocher Caractéristique > Poursuivre > OK Dans le tableau Descriptives, on voit que les moyennes sont assez différentes suivant le niveau de scolarité. L hypothèse semble devoir être rejetée. Afin de le prouver statistiquement, il faut d abord comparer la grande moyenne (entourée dans le tableau Descriptives) avec le test F (dans le tableau Anova à 1 facteur ci-dessous). Puisque la grande moyenne (2,81) est inférieure au test F (7,515), les différences de moyennes sont statistiquement significatives. De plus, puisque la valeur p du test est de 0,001 (colonne Sig.) on peut affirmer qu il y a une chance sur mille de se tromper en disant que les moyennes sont inégales. L hypothèse est bien rejetée. Donc le niveau de scolarité a un impact sur le plaisir de magasiner. Pour évaluer la force de la relation entre les deux variables on calcule : = 16,476 258,746 = 0,25 L interprétation de (êta) suit la même logique que celle du V de Kramer (cf. point 12). La relation est donc faible. 1 Curieusement dans l affichage des variables de magasin.sav, la variable scolarité recodifiée est caractérisée comme une variable métrique (Echelle) alors qu il s agit bien évidemment d une variable ordinale. La codification est la suivante : 1 = primaire/secondaire, 2 = collégiale (jusqu à bac +3) et 3 = universitaire (au-delà de bac+3). SPSS_formation_22.docx 6 / 12 Y. CINOTTI

NB : L ANOVA est adaptée pour étudier l influence d une ou plusieurs variable(s) nominale(s) ou ordinale(s) sur une variable métrique. 15. RÉALISER UNE ANALYSE DES COMPOSANTES PRINCIPALES Problème : On cherche à étudier quels sont les critères de choix d un jeans et comment se situent quatre marques par rapport à ces critères. Un questionnaire a été administré auprès de 96 personnes. On leur a demandé, entre autres, d appliquer des qualificatifs à chaque marque avec des questions comme : Je trouve les jeans Calvin Klein durable : 1) Pas du tout d accord 2) Plutôt pas d accord 3) Plutôt d accord 4) Tout à fait d accord Solution : On dispose d informations nombreuses et on cherche à les résumer en dégageant les principales composantes (également appelés «dimensions» ou «facteurs»). Dans SPSS, ouvrir le fichier ACPjeans.sav (dans Mes documents) Lorsque l on affiche les données, on remarque que le tableau ne compte pas 96 lignes (une par répondant), mais 384 lignes. En effet, comme on a demandé aux répondants d appliquer des qualificatifs à chaque marque de jeans, il faut 4 96 lignes. C est pourquoi on remarque, dans la colonne Sujet, de la ligne 1 à 4, le même numéro de répondant et dans la colonne Marque les numéros de chaque marque (1 = Calvin Klein, 2 = Rica Lewis, 3 = Levi s, 4 = Hudson). Afficher les variables > on voit, dans la colonne Libellé, de la ligne 3 à 15, les qualificatifs proposés : durable, moulant, confortable, etc. De la ligne 16 à 34, on voit que des questions ont été posées concernant le répondant et ses préférences, ses achats et le type de jeans qu il/elle porte. Menu Analyse > Réduction des dimensions > Analyse factorielle Faire passer les 13 variables durables, moulant, confortable, de mauvaise qualité, pratique, jeans design, cher, d allure nonchalante, masculin, à la mode, country, sexy, chic sous Variables Pavé Descriptives > cocher comme indiqué ci-dessous > Poursuivre pour obtenir des statistiques descriptives pour chaque variable fournit la communalité (qualité de la représentation) initiale, les valeurs propres et le pourcentage de variance expliqué de toutes les variables pour obtenir une matrice des corrélations entre les variables pour obtenir l indice KMO et réaliser un test de Barlett Pavé Extraction (permet de fixer le nombre de composantes qui doivent être retenus par SPSS) > cocher comme indiqué ci-dessous > Poursuivre SPSS_formation_22.docx 7 / 12 Y. CINOTTI

pour ne retenir que les valeurs propres supérieures à 1 Mais on pourrait aussi fixer le nombre de composantes Pavé Rotation > cocher Carte(s) factorielle(s) > Poursuivre Pavé Scores > cocher Afficher la matrice des scores factoriels > Poursuivre Pavé Options > cocher Classement des variables par taille > Poursuivre > OK Problème : Les variables sont-elles factorisables, c'est-à-dire ne sont-elles pas trop hétérogènes pour que l on puisse trouver les composantes principales? 1 er indice : Dans la matrice de corrélation, on voit des corrélations supérieures à 0,5 ou inférieures à 0,5. Par exemple, il existe une corrélation de 0,526 pour les variables durable et confortable et une corrélation de 0,505 pour moulant et country. Donc on pourra en regrouper certaines, c'est-à-dire les factoriser. 2 e indice : Dans le tableau Indice KMO et test de Bartlett, le KMO est de 0,889. Le KMO tend vers 1. Si le KMO est supérieure à 0,5 les données sont factorisables. 3 e indice : Dans le tableau Indice KMO et test de Bartlett, la signification de Bartlett est de 0,000 c'est-à-dire que le test est très significatif. Tant que la signification est inférieure à 0,05 il est possible de factoriser. Problème : Toutes les variables sont-elles bien prises en compte dans l ACP? Solution : Dans le tableau Qualité de représentation, toutes les variables sont supérieures à 0,5 sauf à la mode. Il faut donc supprimer cette variable, c'est-à-dire réaliser une nouvelle ACP sans à la mode : menu Analyse > Réduction des dimensions > Analyse factorielle > faire passer la variable à la mode vers la gauche en la sélectionnant puis en cliquant sur la flèche au milieu > OK une nouvelle ACP s affiche. Problème : Combien de composantes retenir? Solution : Dans cette deuxième analyse factorielle, dans le tableau Variance totale expliquée, dans la colonne % cumulés, on voit que si l on retient 2 composantes (ou facteurs), on restitue 62,306 % de l information totale contenue dans les données. C est pour l instant ce que fait SPSS car on lui a demandé lors du paramétrage (voir plus haut la fenêtre Analyse factorielle : Extraction) de ne retenir que les valeurs propres supérieures à l (c est la règle de Kaiser). Un autre indice nous est fourni par le Tracé d effondrement qui n est que la représentation graphique de la colonne Total du tableau Variance totale expliquée. On voit que, après la composante 2, il y a une forte chute. Il faut donc ne retenir que deux composantes. Si le chercheur souhaite, par exemple, une restitution minimale de 70 %, on voit, dans le tableau Variance totale expliquée, qu il lui faut retenir 4 facteurs. Il peut fixer le nombre de facteurs dans la fenêtre Analyse factorielle : Extraction (voir page précédente). SPSS_formation_22.docx 8 / 12 Y. CINOTTI

Problème : Quelles sont finalement les composantes principales? Solution : Dans le Tracé des composantes, on voit deux nuages de points, mais il faudrait que les deux axes passent entre les nuages de points. Il est nécessaire de faire une rotation des axes pour mieux ajuster les données : menu Analyse > Réduction des dimensions > Analyse factorielle > pavé Rotation > cocher Varimax > Poursuivre > OK Dans le nouveau Tracé des composantes dans l espace après rotation, l axe horizontale passe bien au milieu d un nuage de points, mais pas l axe verticale. On voit aussi que la variable mqual (mauvaise qualité) se trouve isolée. On réalise une nouvelle ACP avec rotation Varimax en retirant la variable mqual on constate que, dans le tableau Variance totale expliquée, le pourcentage cumulés des valeurs propres initiales pour deux composantes s est amélioré : il est désormais à 63,606 %. Problème : À quoi correspondent les deux composantes? Solution : Le chercheur doit maintenant décider à quoi correspondent les deux composantes. SPSS ne peut pas le faire. On constate, dans le tableau Rotation de la matrice des composantes que : - la composante 1 (axe horizontal dans le Tracé des composantes dans l espace après rotation) attire les six variables pratique, durable, d allure nonchalante, confortable, masculin et country ; on peut donc la nommer «décontracté» ; - la composante 2 (axe vertical) attire les cinq variables moulant, cher, chic, sexy et jean design ; on peut la dénommer «classe». On peut donc résumer les données obtenues en disant que les deux critères principaux en matière de jeans sont la décontraction et la classe. Problème : Comment se situent les quatre marques étudiées par rapport à ces deux composantes? Solution : Il faut d abord créer deux nouvelles variables qui correspondront aux deux composantes. Il faut pour cela réaliser une nouvelle ACP : Analyse > Réduction des dimensions > Analyse factorielle > pavé Scores > cocher Enregistrer dans des variables > Poursuivre > OK Revenir vers l affichage des variables deux nouvelles variables sont apparues à la ligne 35 et à la ligne 36 > à la ligne 35, dans la colonne Libellé, renommer REGR factor score 1 for analysis 1 en décontracté > renommer REGR factor score 1 for analysis 2 en classe SPSS_formation_22.docx 9 / 12 Y. CINOTTI

Pour connaître la position moyenne de chaque marque sur les deux axes : Analyse > Comparer les moyennes > Moyennes > passer les deux nouvelles variables, décontracté et classe, sous Liste Variables dépendantes > passer la variable Marque sous Liste Variable indépendante Pavé Options > ne garder sous Statistiques de cellules que Moyenne > Poursuivre > OK Clic droit sur le tableau Rapport > Copier Il faut maintenant réaliser le graphique à l aide du tableur Dans Excel 2007, 2010 ou 2013 Coller le tableau en A1 > sélectionner les cellules de B4 à C7 > n afficher que deux décimales > dans l onglet Insertion, dans la zone Graphiques, cliquer sur l icône Nuage de points > cliquer sur l icône Nuages de points avec marqueurs uniquement (Nuage de points dans 2013) Déplacer le graphique dans une nouvelle feuille nommée Nuage Si nécessaire, supprimer la légende Série 1 à droite Pour nommer chaque point, il faut utiliser la manip expliquée au point 16 de la formation tableur niveau 5. Dans LibreOffice 4 Ouvrir une feuille LibreOffice Calc Cliquer en A1 > coller le tableau Sélectionner les cellules de B4 à C7 > n afficher que deux décimales > Menu Insertion > Objet > Diagramme > choisir un type de diagramme : XY (dispersion) > Terminer Supprimer la légende Colonne C à droite Menu Format > Plages de données > onglet Séries de données... > à droite de la zone de saisie Étiquettes de données cliquer sur la flèche vers le haut > sélectionner les cellules A4:A7 > OK Menu Insertion > Étiquettes de données > cocher Afficher la catégorie > OK Dans le graphique ci-dessus, l axe horizontal est celui de la décontraction et le vertical celui de la «classe». On voit que la marque Rica Lewis est considérée comme peu «classe» et un peu décontractée alors que Calvin Klein est «classe» et pas très décontractée SPSS_formation_22.docx 10 / 12 Y. CINOTTI

16. RÉALISER UNE ANALYSE DE RÉGRESSION SIMPLE Problème : Je cherche à comprendre quels sont les éléments qui expliquent le nombre de restaurants gastronomiques dans les régions françaises. Pour être plus précis, j ai totalisé le nombre d étoiles Michelin de tous les restaurants de chaque région. Intuitivement, il me semble que le PIB par habitant d une région explique le nombre d étoiles. Pour le vérifier, je réalise une analyse de régression linéaire simple. Solution : Dans SPSS, importer les données du fichier etoiles_michelin.xlsx (dans Mes documents) Cliquer sur l onglet Vue des variables > préciser que la variable EtoilesMichelin n est pas une variable nominale, mais métrique (Echelle) Supprimer la variable V5 : à gauche, clic droit sur 5 pour sélectionner toute la ligne > Effacer Menu Analyse > Régression > Linéaire > passer la variable EtoilesMichelin sous Dépendant > passer la variable PIBhabitant sous Variables indépendantes Cliquer sur le pavé OK Dans le tableau Récapitulatif des modèles, il faut s intéresser au coefficient de détermination, R-deux (ou R²), qui varie entre 0 (relation linéaire nulle) et 1 (relation parfaite). Avec un R-deux de 0,674 on peut dire que le PIB par habitant explique à 67,4 % le nombre total d étoiles Michelin d une région. La relation est donc forte. NB : Dans le tableau ANOVA, on voit que la statistique F atteint 41,362 avec une valeur p de 0,000. On en conclut que la relation est statistiquement significative. L analyse de régression linéaire simple permet d étudier le lien entre deux variables métriques, comme l analyse de corrélation. Cette dernière est plutôt appropriée lorsqu il peut y avoir une interdépendance entre les variables, ce qui n est pas le cas ici. Les restaurants gastronomiques ne participent que très faiblement au PIB. La régression linéaire est aussi recommandée pour prédire une valeur, par exemple le chiffre d affaires en fonction des dépenses publicitaires. SPSS_formation_22.docx 11 / 12 Y. CINOTTI

17. RÉALISER UNE ANALYSE DE RÉGRESSION MULTIPLE Problème : La revue de littérature m a permis de découvrir que le tourisme (nombre de nuitées touristiques) explique également le nombre d étoiles dans une région. Mais cette variable a- t-elle le même poids que le PIB par habitant? Pour le savoir, réalisons une analyse de régression linéaire multiple. Solution : Menu Analyse > Régression > Linéaire > passer Millionsdenuiteestouristiques sous Variables indépendantes > OK Le R-deux atteint 0,890. Donc le nombre d étoiles d une région est prédit à 89 % par les deux variables. La relation est forte. Le modèle est statistiquement significatif (p = 0,000). Dans le tableau Coefficients, dans la colonne Sig, on voit que la constante et les deux variables contribuent significativement à la régression (p = 0,000) et donc que les variables ont un effet réel et positif sur le nombre d étoiles Michelin. À l aide des coefficients standardisés, on peut dessiner le modèle : PIB par habitant Millions de nuitées touristiques 0,733 0,473 Nombre d étoiles Michelin On en conclut que le PIB par habitant a plus d influence que le nombre de touristes sur le nombre d étoiles Michelin d une région. SPSS_formation_22.docx 12 / 12 Y. CINOTTI