Traitement statistique des données d enquête avec introduction à SPSS



Documents pareils
1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Logiciel XLSTAT version rue Damrémont PARIS

Traitement des données avec Microsoft EXCEL 2010

Statistiques Descriptives à une dimension

IBM SPSS Statistics Base 20

Cahiers de l IMA. Fascicule SPSS

données en connaissance et en actions?

Lire ; Compter ; Tester... avec R

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Séries Statistiques Simples

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Introduction aux Statistiques et à l utilisation du logiciel R

1. Vocabulaire : Introduction au tableau élémentaire

3. Caractéristiques et fonctions d une v.a.

Utilisation du Logiciel de statistique SPSS 8.0

Analyse de donnés sur les ménages à l aide de SPSS pour Windows

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Résumé du Cours de Statistique Descriptive. Yves Tillé

Localisation des fonctions

Statistique Descriptive Élémentaire

Annexe commune aux séries ES, L et S : boîtes et quantiles

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

TD d économétrie appliquée : Introduction à STATA

SAS de base : gestion des données et procédures élémentaires

Analyse exploratoire des données

IBM SPSS Direct Marketing 21

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Package TestsFaciles

Introduction à l approche bootstrap

Gestion des données avec R

Fitted Surface; Variable: Y_REND 2 factors, 1 Blocks, 13 Runs; MS Pure Error=.053 DV: Y_REND

Aide-mémoire de statistique appliquée à la biologie

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Pour plus d informations sur les logiciels SPSS, visitez notre site Web à l adresse suivante : ou contactez

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Statistique : Résumé de cours et méthodes

Introduction à la statistique non paramétrique

Statistiques descriptives

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Principe d un test statistique

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Biostatistiques : Petits effectifs

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Chapitre 3 : INFERENCE

Initiation à LabView : Les exemples d applications :

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

1 Modélisation d être mauvais payeur

Représentation d une distribution

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

TABLE DES MATIERES. C Exercices complémentaires 42

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

LES TYPES DE DONNÉES DU LANGAGE PASCAL

Guide abrégé d IBM SPSS Statistics 21

Le chi carré. Le sommaire. Approche quantitative

Quantification Scalaire et Prédictive

L export de SAS vers Excel expliqué à ma fille

Chapitre 3. Les distributions à deux variables

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

1 Importer et modifier des données avec R Commander

Table des matières. I Mise à niveau 11. Préface

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

MATHÉMATIQUES. Mat-4104

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

La place de SAS dans l'informatique décisionnelle

La classification automatique de données quantitatives

Estimation et tests statistiques, TD 5. Solutions

URECA Initiation Matlab 2 Laurent Ott. Initiation Matlab 2

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

Mémo d utilisation de ADE-4

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Données longitudinales et modèles de survie

Introduction au Data-Mining

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

TP: Représentation des signaux binaires. 1 Simulation d un message binaire - Codage en ligne

Faire un semi variograme et une carte krigée avec surfer

Créer et modifier un fichier d'import des coordonnées approximatives avec Excel

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

Introduction à la statistique descriptive

Projet de Traitement du Signal Segmentation d images SAR

Codage d information. Codage d information : -Définition-

La nouvelle planification de l échantillonnage

IBM SPSS Regression 21

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

FORMULAIRE DE STATISTIQUES

Séance 0 : Linux + Octave : le compromis idéal

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Transcription:

Traitement statistique des données d enquête avec introduction à SPSS Gilbert Ritschard Département d économétrie, Université de Genève gilbert.ritschard@themes.unige.ch Bamako, 7-11 octobre 2002 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 1

Traitement statistique des données d enquête avec introduction à SPSS Gilbert Ritschard Département d économétrie, Université de Genève Plan 1 Objectifs 2 Introduction à SPSS 3 Gestion des données avec SPSS 4 Analyse statistique descriptive 5 Éléments de statistique inférentielle http://mephisto.unige.ch Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 2

1 Objectifs 1. Savoir gérer (importer, exporter, recoder, transformer, filtrer) les données avec SPSS. 2. Analyse statistique descriptive (notion de distribution, graphiques et indicateurs statistiques) (a) analyse univariée (b) analyse bivariée 3. Quelques principes de statistique inférentielle (a) Estimation ponctuelle : biais et variance (b) Intervalle de confiance et marge d erreur (c) Principe du test statistique d hypothèse Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 3

2 Introduction à SPSS SPSS (Statistical Package for the Social Sciences) Logiciel commercial pour le traitement et l analyse statistique de données. Distribué par SPSS Inc. (http://www.spss.com ) sous forme d un module de base et de plusieurs modules spécialisés (advanced, categories, trend,...) Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 4

Les trois fenêtres Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 5

L éditeur de données Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 6

Utilisation Les opérations saisie ou lecture des données transformation et construction de variables analyse statistique peuvent se faire par le menu et les dialogues appropriés avantage : intuitif, rapidement opérationnel par la syntaxe avantage : peut être mémorisée et donc réutilisée et transférée aux collègues. Certaines options ne sont accessibles que par la syntaxe. Suggestion : utiliser le menu la première fois et sauver la syntaxe en cliquant sur Paste Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 7

Exemple de dialogues : recodage d une variable Paste génère la syntaxe : RECODE ec_txt ( celibataire =1) ( marie =2) ( divorce =3) ( veuf =4) INTO ec_rec. EXECUTE. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 8

Éléments de syntaxe Commande : commence avec le nom de commande (GET, COMPUTE, FREQUENCY,...), suivie des arguments et se termine par un point.. Sous-commandes : précédées d un / (peut être omis s il suit directement le nom de commande) et séparées des éventuels arguments par =. Séparateurs entre arguments : espace ou virgule. Commentaire : entre /* et */ ou ligne commençant avec *.. Exemples : GET FILE= exemple.sav. /* lecture du fichier exemple.sav */ * ceci est un commentaire. FREQUENCY VARIABLES = ec_rec anaiss /* distribution empirique */ /ORDER= ANALYSIS /* des variables ec_rec et anaiss */ /BARCHART. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 9

Cas et variables Dans SPSS : données organisées sous forme de tableau Lignes : Cas Colonnes : Variables Noms de variables (entêtes de colonnes) : au plus 8 caractères (pas d espace) dont le premier doit être une lettre (ou @,# ou $). Les lignes sont numérotées. Il peut être utile de définir une variable (colonne) identificateur prenant une valeur différente pour chaque cas. Remarque : SPSS permet de construire facilement des variables par combinaison de colonnes (combinaison d éléments d une même ligne). Les transformations nécessitant des fonctions d éléments d une même colonne (retrancher la moyenne par exemple) requièrent des opérations avancées avec MATRIX que nous ne traitons pas ici. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 10

2.1 Trois commandes statistiques fondamentales Commandes fondamentales pour l exploration initiale des données : FREQUENCIES, DESCRIPTIVES, GRAPHS FREQUENCIES : tableau des fréquences de chaque valeur (+ graphique en barres) DESCRIPTIVEs : nombre valeurs valides, minimum, maximum, moyenne, écart type,... Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 11

Dialogue FREQUENCIES et syntaxe FREQUENCIES VARIABLES=catage /BARCHART FREQ /ORDER= ANALYSIS. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 12

FREQUENCIES exemple Valid 1 2 3 Total classe d'age Cumulative Frequency Percent Valid Percent Percent 32 32.0 32.0 32.0 33 33.0 33.0 65.0 35 35.0 35.0 100.0 100 100.0 100.0 40 classe d'age 30 20 Frequency 10 0 1 2 3 classe d'age Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 13

DESCRIPTIVES : exemple Descriptive Statistics NUMÉRO SEXE classe d'age INSTRUCT profession du père NUMERO SEX classe d'age ETUDE profession du père Valid N (listwise) N Minimum Maximum Mean Std. Deviation 100 102 1101 160.50 99.205 100 1 3 1.58.516 100 1 3 2.03.822 100 1 2 1.38.488 100 1 4 3.02.864 100 101 200 150.50 29.011 100 1 2 1.56.499 100 1 3 2.01.823 100 1 2 1.38.488 100 1 4 3.05.869 100 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 14

GRAPHS : divers graphiques : Données catégorielles : barres (bars), circulaire (pie) Données ordinales : lines, surfaces (area), boxplot Données quantitatives : histogrammes (histogram), dispersion (scatterplot) Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 15

GRAPHS/BAR : exemple 35.5 35.0 34.5 34.0 33.5 33.0 32.5 Classes d'âge Count 32.0 31.5 1 2 3 classe d'age!! Observer l'échelle!! Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 16

GRAPHS/PIE : exemple Classes d'âge AGE3 AGE1 AGE2 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 17

3 Gestion des données avec SPSS 1. Définition des variables et entrées des données 2. Pré-traitement des données (a) Codage de données (b) Tests de cohérence de données (c) Filtre et sélection de variables (d) Données manquantes 3. Exportation et importation de fichiers 4. Agrégation et fusion de fichiers Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 18

3.1 Définition des variables et entrées des données Échelles de mesure des variables nominale dichotomique, binaire : Homme/Femme, Oui/Non,... polytomique : Activité, Avec qui?, Où?,... ordinale Souhaitiez-vous cette grossesse : a) à ce moment, b) plus tard, c) non quantitative (métrique) de type intervalle Température, A quelle heure de la journée?,... quantitative (métrique) de type ratio Âge, Depuis combien de temps?,... SPSS distingue : nominal, ordinal, scale (=métrique) Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 19

Définition d une variable : (éditeur de données, page 6) Nom (Name) obligatoire, 8 caractères au maximum Type : numérique (par défaut), date, monétaire, texte Width : nombre maximal de caractères des valeurs (8 par défaut) Decimals : nombre de décimales (par défaut 2 ou 0 selon type) Label : description longue de la variable Values : description des valeurs (vivement conseillé pour variables nominales) Columns : Largeur affichée de la colonne (8 par défaut) Align (Alignement) : Left (à gauche), center (centré), right (à droite) Measure : Nominal, ordinal, scale (par défaut) Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 20

3.2 Codage de données 3.2.1 Codage de données nominales Présentation de données nominales : État civil texte (string) code étiquette (label) célibataire 1 célibataire marié 2 marié divorcé 3 divorcé veuf 4 veuf 9 NR Attention : variable codée numériquement quantitative. Les logiciels comme SPSS requièrent souvent des données codées numériquement. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 21

Voir Dialogue «recode» transparent 8 Autorecode : recodage automatique (selon ordre alphabétique) Met les anciennes valeurs en étiquettes (value labels). Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 22

Syntaxe de recodages GET /FILE= exemple.sav. AUTORECODE VARIABLES=ec_txt /PRINT. /INTO ec_reco RECODE ec_txt ( celibataire =1) ( marie =2) ( divorce =3) ( veuf =4) INTO ec_rec. VALUE LABEL ec_rec 1 celibataire 2 marie 3 divorce 4 veuf. VARIABLE LABEL ec_rec état-civil (ec_rec). FREQUENCIES VARIABLES= anaiss ec_txt ec_reco ec_rec /ORDER= ANALYSIS. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 23

3.2.2 Transformation et création de variables par calcul COMPUTE nllevar = expression IF (condition) nllevar = expression expression : opération arithmétique entre variables {+,,, /, } exemple : compute duree = fin - debut. fonction de variables ( ABS(),RND(),SUM(),MEAN(),MAX(),MED(),...) exemple : compute max dur = max(duree1,duree2,duree3). Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 24

condition : expression logique (var1 OP var2) = { true (vrai) false (faux) relations (true si vérifiée, false sinon) EQ ou = NE ou ~= ou <> LT ou < LE ou <= GT ou > GE ou >= négation : NOT ou ~ égal à pas égal à plus petit que plus petit ou égal à plus grand que plus grand ou égal à var = 0 if var if false var > 1 NOT(var) = false Exemples : if (agefin < agedeb) erreur = 1. if missing(annais) age = year - annais. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 25

Opérateur logique : AND et OR AND ou & (cond1 & cond2) true si cond1 et cond2 sont vrais OR ou (cond1 cond2) true si cond1 ou cond2 est vrai AND true false missing true true false missing false false false false OR true false missing true true true true false true false missing Exemple : compute filter = 0. if ((age>22) and (sexe=1)) filter = 1. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 26

Menu : Transform/Compute... Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 27

3.3 Tests de cohérence de données Il s agit de repérer Les valeurs interdites de variables variable discrète : si valeur / liste des valeurs autorisées exemple : sexe (1=homme,2=femme) repérer valeurs de sexe autre que 1 ou 2. variable continue : si valeur < minimum ou > maximum exemple : age ([15; 30]) repérer cas avec age<15 ou age>30. Les valeurs d une variable incompatibles avec valeur prise par une autre exemple : état matrimonial = célibataire et âge du mari = 25. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 28

*** charger les données demo_amiegal.sav. get file= demo_amiegal.sav. *** sauvegarder sous autre nom ( demo1.sav ). save outfile= demo1.sav. ** vérifier égalité entre. * numéro, sex, profper, etude, age. * numero, sexe, travpere, instruct, catage. compute sel = 0. /* valeur par défaut */ if travpere <> profper sel = 1. if sexe <> sex sel = 2. if instruct <> etude sel = 3. if catage <> age sel = 4. if numéro <> numero sel= 9. value label sel 0 toutes les variables égales 1 travpere <> profper 2 sexe <> sex 3 instruct <> etude 4 catage <> age 9 numéro <> numéro. frequencies sel. ** filtrer et lister les erreurs. compute filtre_ = 0. if sel > 0 filtre_ = 1. filter by filtre_. list numéro numero travpere profper sexe sex instruct etude catage age. filter off. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 29

3.4 Filtre et sélection de variables Pour travailler sur sous-ensemble des cas, deux possibilités : FILTER BY var rend inactifs les cas non sélectionnés (pur lesquels var=0) sans les supprimer de la base de données courante. Exemple : Distribution des femmes selon état matrimonial compute filtre = 0. if sexe=2 filtre=1. filter by filtre. frequencies variable=etatmat. filter off. SELECT IF cond supprime de la base courante les cas ne vérifiant pas la condition. Exemple : définir un fichier avec les femmes seulement select if sexe=2. save outfile= fichier_femmes.sav. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 30

Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 31

3.5 Données manquantes Donnée manquante système (si pas de valeur entrée) Donnée manquante utilisateur (si = valeur définie par utilisateur) Définir valeurs des données manquantes MISSING VALUES var1 (7,8,9). MISSING VALUES var1 (). /* supprime les valeurs manquantes déclarées. MISSING VALUES all (999). /* déclare valeur pour toutes les variables. Fonctions de valeurs manquantes (utiliser dans expression ou condition) VALUE(var1) SYSMIS(var1) MISSING(var1) ignore le statut missing. = 1 si valeur manquante système, 0 sinon = 1 si valeur manquante système ou utilisateur, 0 sinon. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 32

Gestion des données manquantes Supprimer les cas avec données manquantes listwise : cas avec valeur manquante dans une variable de la liste. pairwise : lorsque le cas intervient effectivement dans un calcul. Imputer une valeur de substitution Imputation fondée sur la seule variable (colonne) exemples : moyenne, moyenne des cas voisins, médiane, (mode),... RMV /age_1 = smean(age). (voir aussi dialogue) Inconvénient : réduit la dispersion. Imputation fondée sur valeurs prises par d autres variables (lignes). (Plus complexe, non décrit ici.). Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 33

Menu : Transform/Replace Missing Values... Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 34

3.6 Exportation et importation de fichiers Sauvegarde Menu : File/Save As... SAVE OUTFILE= demo.sav /DROP ec_rec. Exportation SAVE TRANSLATE OUTFILE= demo.dat /TYPE=TAB /MAP /REPLACE /FIELDNAMES. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 35

Ouverture fichier Menu : File/Open/Data... GET FILE= demo.sav. Importation GET DATA Syntaxe lourde. Utiliser de préférence le dialogue File/Open/Data... Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 36

Format d échange de fichier Si l autre logiciel lit/écrit le format SPSS (.sav), utiliser de préférence ce format (qui optimise la taille et préserve toutes les informations : étiquettes, format des variables,...) Sinon, les formats les plus courants d échange sont : tab-delimited (TAB) : colonnes séparées par des tabulateurs. champs fixe (ASCII) : valeurs alignées en colonnes. Excel (XLS) : lit/crée un fichier Excel l option /fieldnames met les noms de variables dans la première ligne.!!! toutes étiquettes de variable et de valeurs sont perdues!!! A la lecture, il faut aussi préciser si le fichier contient les noms de variables en première ligne. Le type des variables est déterminé selon la valeur qui est en première ligne. Exemple : 4.5 numérique, célibataire string. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 37

3.7 Agrégation et fusion de fichiers Agrégation : regrouper les cas selon une ou plusieurs variables (break) Exemple : selon sexe, classe d âge, quartier. + calculer pour chaque groupe des valeurs synthétiques des variables retenues : SUM, MEAN, MEDIAN, MIN, MAX, N (nbre cas),... Fusion : ajouter les cas (lignes) d un fichier à un autre (ADD FILES) les variables (colonnes) d un fichier à un autre (MATCH FILES) mixte, mettre à jour un fichier avec données (cas et variables) d un autre (UPDATE) Les deux derniers requièrent un identificateur (key variables) unique pour chaque cas et commun aux deux fichiers. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 38

Agrégation Menu : Data/Aggregate... AGGREGATE /OUTFILE= aggr.sav /BREAK=sexe age /hcou_moy = MEAN(hcoucher) /N_BREAK=N. get file= aggr.sav. list all. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 39

L exemple précédent à partir d un fichier de 40 cas produit : SEXE AGE HCOU_MOY N_BREAK 1 13 22.00 1 1 14 24.00 1 1 15 21.00 2 1 16 21.33 3 1 17 19.50 6 1 18 22.75 4 1 19 22.33 3 1 20 18.20 5 1 21 1.67 3 1 22 22.50 2 1 24 24.00 1 1 25 6.00 1 1 28 23.50 2 1 29 8.33 3 1 30 11.75 4 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 40

Fusion Menu : Data/Merges Files Add cases ADD FILES /FILE=* /FILE= exemple2.sav /IN=file2. VARIABLE LABELS file2 Case de exemple2.sav. EXECUTE. ID EC_TXT ANAISS EC_RECO SEXE FILE2 1 marie 1978 2. 0 2 veuf 1970 3. 0 3 celibataire 1980 1. 0 4 celibataire 1988 1. 0 1 marie 1978 2 1 1 2 veuf 1970 3 1 1 3 celibataire 1980 1 2 1 5 celibataire 1988 1 2 1 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 41

Fusion Menu : Data/Merges Files Add Variables MATCH FILES /FILE=* /FILE= exemple2.sav /RENAME (anaiss ec_reco ec_txt = d0 d1 d2) /IN=file2 /BY id /DROP= d0 d1 d2. EXECUTE. ID EC_TXT ANAISS EC_RECO SEXE FILE2 1 marie 1978 2 1 1 2 veuf 1970 3 1 1 3 celibataire 1980 1 2 1 4 celibataire 1988 1. 0 5.. 2 1 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 42

UPDATE (seulement par syntaxe) UPDATE FILE= exemple.sav /IN= updated /FILE= exemple2.sav /BY id. EXECUTE. list all. produit : ID EC_TXT ANAISS EC_RECO SEXE UPDATED 1 marie 1978 2 1 1 2 veuf 1970 3 1 1 3 celibataire 1980 1 2 1 4 celibataire 1988 1. 1 5 celibataire 1988 1 2 0 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 43

4 Analyse statistique descriptive Données univariées 1. Tableau de distribution 2. Présentations graphiques 3. Indicateurs statistiques positionnement dispersion, asymétrie et aplatissement Données bivariées 1. Tableau croisé et présentation graphique de données bivariées 2. Association, Indépendance 3. Corrélation et autres mesures d association Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 44

4.1 Tableau de distribution Variables discrètes sans trop (< 15) de modalités. tableau des fréquences généré avec FREQUENCIES heure pt déjeuner Valid Missing Total 5 6 7 8 9 10 11 Total non concerné Cumulative Frequency Percent Valid Percent Percent 1 2.4 4.3 4.3 1 2.4 4.3 8.7 5 12.2 21.7 30.4 10 24.4 43.5 73.9 2 4.9 8.7 82.6 3 7.3 13.0 95.7 1 2.4 4.3 100.0 23 56.1 100.0 18 43.9 41 100.0 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 45

Variables continues ou avec beaucoup de modalités. regrouper les valeurs en classes de valeurs. Exemple : Regrouper les valeurs de «hcoucher» en 6 classes de longueurs égales. (voir syntaxe page suivante) HCOU_CLS Valid 0-4 5-8 17-20 21-24 Total Cumulative Frequency Percent Valid Percent Percent 9 22.0 22.0 22.0 1 2.4 2.4 24.4 1 2.4 2.4 26.8 30 73.2 73.2 100.0 41 100.0 100.0 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 46

get file= donnéesbama1.sav. ** recherche du min et du max. compute temp=1. AGGREGATE /OUTFILE= aggr.sav /BREAK=temp /hcou_max = MAX(hcoucher) /hcou_min = MIN(hcoucher) ** ajouter les min et max à chaque cas du fichier original. MATCH FILES /TABLE= aggr.sav /FILE=* /* base de données courante */ /BY temp. VARIABLE LABELS hcou_min min(hcoucher) hcou_max max(hcoucher). ** calcul de la classe. compute delta_h = (hcou_max - hcou_min)/6. /* longueur du pas */ compute hcou_cls=1. /* initialisation */ loop #i = 1 to 5. + if (hcoucher > hcou_min + #i*delta_h) hcou_cls = (#i+1). end loop. value labels hcou_cls 1 0-4 2 5-8 3 9-12 4 13-16 5 17-20 6 21-24. frequencies hcou_cls. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 47

Quantiles Découpage en classes d égale longueur pas satisfaisant pour notre exemple. Il est préférable de définir les classes en fonctions de quantiles. Exemple : 6 classes ayant chacune la même proportion de cas. Groupes 1, 2, 5, 6 : 20% chacun, Groupes 3 et 4 : 10% chacun quantiles 20%, 40%, 50%, 60%, 80% Statistics Statistics heure coucher heure coucher N Percentiles Valid Missing 20 40 50 60 80 41 0 2.40 21.00 22.00 22.20 23.60 N Percentiles Valid Missing 16.66666667 33.33333333 50 66.66666667 83.33333333 41 0 2.00 21.00 22.00 23.00 24.00 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 48

percentiles FREQUENCIES VARIABLES=hcoucher /FORMAT=notable /PERCENTILES= 20 40 50 60 80. ntiles FREQUENCIES VARIABLES=hcoucher /FORMAT=notable /NTILES= 6. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 49

4.2 Présentations graphiques Principe : surfaces proportionnelles aux grandeurs illustrées. Barres : hauteurs proportionnelles aux fréquences si bases égales. Histogramme (diagramme en barres pour données quantitatives) Partition des valeurs en classes disjointes les barres se touchent Bases des barres représentent amplitude si amplitudes pas toutes égales, n k a k adapter hauteurs pour avoir surfaces proportionnelles. 2.0 1.5 1.0 0.5 0.0 25 30 35 40 45 50 55 Age d engagement 8 6 4 2 0 100 f k a k classe d âge amplitude nombre 27.5 32.5 5 6 32.5 37.5 5 9 37.5 42.5 5 6 42.5 52.5 10 4 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 50

4.3 Indicateurs statistiques n données : x 1, x 2,..., x n, exemple : 20, 25, 25, 30, 50 Tendance centrale : mode, médiane, moyenne Mode : valeur la plus fréquente Exemple : mode = 25 Médiane : 50% des x i med et 50% des x i med Exemple : med = 25 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 51

Moyenne : Exemple : x = 150/5 = 30 x = 1 n n x i = 1 n (x 1 + x 2 + + x n ) i=1 Moyenne pondérée : x = n i=1 w i x i avec i w i = 1 Exemple : w 1 = w 5 = 1 8 et w 2 = w 3 = w 4 = 2 8 x = 230/8 = 28, 75 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 52

Dispersion : variance et écart type -20-10 0 10 20-20 -10 0 10 20 dispersion plus faible dispersion plus forte Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 53

Variance : moyenne des carrés des écarts à la moyenne var(x) = n w i (x i x) 2 i=1 Écart type : écart type(x) = s x = var(x) Écart interquartile : q 3 q 1 q 1 : 1er quartile 25% des x i q 1 et 75% des x i q 1 q 3 : 3ème quartile 75% des x i q 3 et 25% des x i q 3 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 54

Boxplot 1er quartile médiane 3ème quartile 29 33 35 41 51 Voir procédure EXPLORE (menu/descriptives/explore) Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 55

Asymétrie et aplatissement (kurtose) 20 0 20 asymétrie positive 20 0 20 symétrie 20 0 20 asymétrie négative λ > 0 étalement à droite λ < 0 étalement à gauche 20 0 20 forme en pic kurt grand : pic et grosses queues 20 0 20 forme aplatie kurt petit : aplatissement Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 56

4.4 Tableau croisé et présentation graphique de données bivariées menu : Analysis/Descriptives/Crosstabs... INSTRUCT * profession du père Crosstabulation INSTRUCT Total EDU1 EDU2 Count Expected Count % within INSTRUCT % within profession du père Count Expected Count % within INSTRUCT % within profession du père Count Expected Count % within INSTRUCT % within profession du père profession du père PPERE1 PPERE2 PPERE3 PPERE4 Total 3 19 20 20 62 2.5 14.9 23.6 21.1 62.0 4.8% 30.6% 32.3% 32.3% 100.0% 75.0% 79.2% 52.6% 58.8% 62.0% 1 5 18 14 38 1.5 9.1 14.4 12.9 38.0 2.6% 13.2% 47.4% 36.8% 100.0% 25.0% 20.8% 47.4% 41.2% 38.0% 4 24 38 34 100 4.0 24.0 38.0 34.0 100.0 4.0% 24.0% 38.0% 34.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 57

Graphiques menu : Graphs/Bars 100 300 80 60 200 40 profession du père 20 INSTRUCT 100 PPERE4 PPERE3 Percent 0 PPERE1 PPERE2 PPERE3 PPERE4 EDU2 EDU1 Percent 0 EDU1 EDU2 PPERE2 PPERE1 profession du père INSTRUCT Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 58

Données quantitatives : diagramme de dispersion (scatterplot) menu : Graphs/Scatter 11 10 9 8 7 6 heure réveil 5 4 3 0 10 20 30 heure coucher Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 59

4.5 Association, Indépendance Indépendance Si distributions lignes semblables Si distributions colonnes semblables B1 B2 total A1 10 30 40 A2 20 60 80 total 30 90 120 Association Si distribution ligne dépend de la ligne. Association parfaite Si un seul élément non nul par colonne (ou ligne) B1 B2 total A1 40 0 40 A2 0 80 80 total 40 80 120 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 60

4.6 Corrélation et autres mesures d association Coefficient de corrélation linéaire r xy Mesure la tendance des points à s aligner le long le d une droite, c est-à-dire l allongement du nuage de points forte association faible forte -1 négative 0 positive 1 r xy Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 61

Corrélation : exemples r = 1 r = 0.95 30 30 25 25 20 20 15 15 y 10 y 10 5 5 0 0-5 -5-10 -10 0 5 10 15 20 25 30 0 5 10 15 20 25 30 x x y 30 25 20 15 10 5 0-5 r = -1 y 30 25 20 15 10 5 0-5 r = 0.39-10 0 5 10 15 20 25 30-10 0 5 10 15 20 25 30 x x Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 62

Khi-2 de Pearson et v de Cramer (Tableau croisé) Khi-2 de Pearson : distance entre distribution conjointe et distribution indépendante. Khi-2 = 0 toutes les distributions ligne (colonne) identiques. Dépend du nombre d observations et de la dimension du tableau v de Cramer : forme standardisée du Khi-2 de Pearson association faible forte 0 1 v Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 63

v Cramer : exemples revenu taille [20,30[ [30,50[ [50,60] total 1 ou 2 0 50 0 50 3 ou 4 25 0 25 50 total 25 50 50 100 corrélation = 0, v-cramer = 1. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 64

Chi-Square Tests Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases a. Asymp. Sig. Value df (2-sided) 4.850 a 3.183 5.107 3.164 2.212 1.137 100 2 cells (25.0%) have expected count less than 5. The minimum expected count is 1.52. Symmetric Measures Nominal by Nominal N of Valid Cases Phi Cramer's V a. Not assuming the null hypothesis. Value Approx. Sig..220.183.220.183 100 b. Using the asymptotic standard error assuming the null hypothesis. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 65

5 Éléments de statistique inférentielle 1. Estimation ponctuelle: biais, variance, erreur 2. Estimation par intervalle: marge d erreur 3. Principe du test statistique d hypothèse Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 66

B B Statistique inférentielle Quelle information l observation d un échantillon donne-t-il sur le tout? Evaluation de la confiance, marge d erreur,... 2 F K = J E F? D = J E? D = J E B Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 67

Aléa de l échantillonnage Echantillon aléatoire de taille n : (X 1, X 2,..., X n ) Le résultat x i obtenu au ième tirage diffère d un échantillon à l autre. Toute fonction (moyenne, variance, proportion,...) de l échantillon aléatoire est aléatoire. Estimation : quantification, à partir de l échantillon, de la valeur d une caractéristique numérique de la population (moyenne µ, variance σ 2, proportion p, corrélation ρ,...). Test statistique : validation empirique d une hypothèse. L estimation ou la conclusion du test varie d un échantillon à l autre. Fiabilité de l estimation ou du test? Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 68

5.1 Estimation ponctuelle : biais, variance, erreur Absence de biais : espérance de l estimateur (estimation moyenne) = vraie valeur du paramètre. Efficacité : faible dispersion des valeurs d un échantillon à l autre Erreur quadratique moyenne : EQM = var +biais 2 petit Exemple : X estimateur de µ Si tirage au hasard (même prob pour chacun) et indépendants E( X) = µ et var( X) = σ2 n D autant plus efficace que n est grand. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 69

Estimation : analogie avec tir sur une cible Estimation non biaisée Estimation biaisée Estimation plus efficace Estimation par intervalle Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 70

5.2 Estimation par intervalle : marge d erreur Degré de confiance : probabilité d obtenir a priori un intervalle qui comprend la vraie valeur. La longueur de l intervalle croît avec - le degré de confiance - la dispersion de l estimateur (erreur standard ˆσ X) Exemple : intervalle pour la moyenne µ µ = x ± z 1 α/2ˆσ X où z 1 α/2 est un seuil critique qui augmente avec le degré de confiance 1 α. Confiance 1 α = 95% z 1 α/2 2 Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 71

Cas d un intervalle centré sur ˆΘ f(θ) θ 10 intervalles ( 10 échantillons ) 8 intervalles recouvrent l estimé θ Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 72

Marge d erreur erreur d échantillonnage biais erreur aléatoire erreur d observation erreur d interprétation En général, la marge d erreur concerne l erreur d échantillonnage, qui est, si le biais est nul, l erreur aléatoire. Marge d erreur 2 erreur standard Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 73

Pour l estimation d une proportion p, c est approximativement 2 ˆp(1 ˆp) Par exemple, si l on estime qu une proportion est de 30% avec un échantillon de n = 100 personnes, 0, 3 0, 7 marge d erreur 2 100 = 2 0, 0021 = 2 0, 046 = 0, 092 n proportion = 30% ± 9, 2% Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 74

5.3 Principe du test statistique d hypothèse On rejette l hypothèse s il est peu vraisemblable d obtenir l échantillon observé par tirage au hasard dans une population vérifiant l hypothèse. Test de H 0 contre H 1 Règle de décision fondée sur une statistique Q quantité (p.ex. Khi-2 pour test de l indépendance) dépendant de l échantillon. Région critique (rejet de H 0 ) : ensemble des valeurs de Q peu probables ( 5%) lorsque H 0 vrai. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 75

Risque d erreur Deux risques d erreur Décision Etat de la nature H 0 H 1 H 0 α H 1 β On contrôle α : risque de première espèce. β : risque de seconde espèce. 1 β : puissance du test. Plus α est petit, plus β explose. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 76

Degré de signification (p-valeur) Probabilité qu un échantillon provenant d une population vérifiant l hypothèse H 0 (par exemple l indépendance) donne lieu à une valeur de la statistique de test Q plus extrême que la valeur observée. p( Q > q 0 H 0 ) q 0 valeur observée Degré de signification petit (<5%) échantillon exceptionnel sous H 0 rejet de l hypothèse H 0. @ A C H @ A I EC EBE? = JE Exemple : Test d indépendance, khi-2 = 8,27, d.l.=3, deg. signif. = 4% D E > I A HL Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 77

Références Droesbeke, J.-J. (1992). Eléments de statistique (2ème ed.). Bruxelles: Editions Ellipses. Ritschard, G. (1989). Introduction à la statistique. Polycopié, Faculté des SES, Genève. Ritschard, G. (2002). Statistique pour sciences sociales I, transparents du cours. Polycopié, Faculté des SES, Genève. SPSS Inc. (1992). SPSS Base System Reference Guide, Release 5.0. Chicago, IL: SPSS Inc. Wonacott, T. H. and R. J. Wonacott (1991). Statistique. Paris: Economica. Traitement données d enquête Plan SPSS Données Descr Infer 3/10/2002gr 78