Introduction à SAS : statistiques descriptives

Documents pareils
Statistique : Résumé de cours et méthodes

Séries Statistiques Simples

SAS de base : gestion des données et procédures élémentaires

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Annexe commune aux séries ES, L et S : boîtes et quantiles

Lire ; Compter ; Tester... avec R

Statistiques Descriptives à une dimension

Logiciel XLSTAT version rue Damrémont PARIS

Chapitre 3. Les distributions à deux variables

Statistique Descriptive Élémentaire

INTRODUCTION AU DATA MINING

INITIATION AU LOGICIEL SAS

données en connaissance et en actions?

: seul le dossier dossier sera cherché, tous les sousdomaines

Séance 11 : Typologies

Initiation au logiciel SAS(9) pour Windows

Leçon N 4 : Statistiques à deux variables

1. Vocabulaire : Introduction au tableau élémentaire

Exemples d application

Introduction aux Statistiques et à l utilisation du logiciel R

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Représentation d une distribution

Séance 0 : Linux + Octave : le compromis idéal

Exemple PLS avec SAS

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Exercice : la frontière des portefeuilles optimaux sans actif certain

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Introduction au logiciel SAS François-Xavier LEJEUNE

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Activité 11 : Nuage de points ou diagramme de dispersion

Electricité : caractéristiques et point de fonctionnement d un circuit

Formation au logiciel SAS Statistical Analysis System

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

La place de SAS dans l'informatique décisionnelle

Note de cours. Introduction à Excel 2007

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

L export de SAS vers Excel expliqué à ma fille

ODS : organiser et diffuser des sorties

Microsoft Excel : tables de données

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Introduction à l approche bootstrap

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Cours d algorithmique pour la classe de 2nde

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Faire un semi variograme et une carte krigée avec surfer

CAPTEURS - CHAINES DE MESURES

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 5 : Flot maximal dans un graphe

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Cours 7 : Utilisation de modules sous python

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Du bon usage de gnuplot

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Analyse des correspondances avec colonne de référence

1 Modélisation d être mauvais payeur

Le langage SQL Rappels

Encryptions, compression et partitionnement des données

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Formation tableur niveau 1 (Excel 2013)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Aide-mémoire de statistique appliquée à la biologie

TRAVAUX PRATIQUES SCIENTIFIQUES SUR SYSTÈME

LES AMORTISSEMENTS : CALCULS ENREGISTREMENTS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Gnuplot. Chapitre Lancer Gnuplot. 3.2 Options des graphes

SPHINX Logiciel de dépouillement d enquêtes

Utilisation du Logiciel de statistique SPSS 8.0

Fonctions de plusieurs variables

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

ACP Voitures 1- Méthode

Débuter avec Excel. Excel

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Championnat de France de Grilles Logiques Finale 7 juin Livret d'instructions

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Statistiques avec la graph 35+

Étude comparative sur les salaires et les échelles salariales des professeurs d université. Version finale. Présentée au

Introduction à la présentation graphique avec xmgrace

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Lecture graphique. Table des matières

Algebra & Trigonometry High School Level Glossary English / French

SAP BusinessObjects Web Intelligence (WebI) BI 4

Introduction à la statistique descriptive

Guide pour les chercheurs. Version 1.0

Validation probabiliste d un Système de Prévision d Ensemble

La classification automatique de données quantitatives

Découverte du tableur CellSheet

- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel

Principe d un test statistique

TD d économétrie appliquée : Introduction à STATA

Statistiques à une variable

COMMUNAUTE ECONOMIQUE ET MONETAIRE DE L AFRIQUE CENTRALE LA COMMISSION

SEMIN- Gestion des couleurs sous R. Michel BAYLAC. MNHN Département Systématique et Evolution OSEB

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Transcription:

Université Paris 2 L3 Économie et Gestion Parcours analyse économique Analyse des données Introduction à SAS : statistiques descriptives Les fichiers sont accessibles à l adresse www.di.ens.fr/users/ccheval/sas. I Statistiques courantes On reprend le programme du chapitre précédent : data prog1; options nodate; title Saisie de données ; input id$ age genre$ salaire anciennete etatcivil$; cards; AD4632 42 M 42000 10 M HF4523 39 F 38000 12 C SD4510 47 F 35000 14 M DE4512 24 M 28000 2 M SO5601 43 M 38000 15 M CK4539 62 M 45000 28 C VK3461 27 M 44000 4 C SO4218 55 F 30000 2 M ST5324 32 F 28000 4 M DO6529 24 F 24000 2 C GI4319 42 M 40000 8 M EZ4531 34 M 42000 10 M proc print; La procédure proc means permet d obtenir les statistiques les plus courantes en précisant les mots-clef en options (elle les calcule et les affiche), par exemple n : la taille de l échantillon mean : la moyenne arithmétique std : l écart-type var : la variance min : la valeur minimale de l échantillon max : la valeur maximale de l échantillon range : l étendue sum : la somme Comme avec la procédure proc print, il est possible de n obtenir des statistiques que pour certaines variables à l aide de la commande var. De même, à condition d avoir trié les variables au préalable, il est possible de demander des statistiques triées par groupe à l aide de la commande by. Remarquons que la commande class, qui ne demande pas de tri préalable, renvoie quasiment le même résultat que la commande by, mais en présentant les valeurs différemment. Par exemple, pour afficher la moyenne et l écart-type des salaires et des anciennetés pour les femmes d un côté et pour les hommes de l autre, (...) proc sort; by genre; proc means mean std; var salaire anciennete; by genre;

Remarquons qu il n y a pas besoin de procédure proc print. Exercice 1 Modifiez votre programme en demandant l affichage de la moyenne et de l écart-type des âges, salaires et anciennetés pour les femmes d un côté et les hommes de l autre. Affichez également la somme des salaires. Comparez l affichage obtenu en utilisant les commandes by ou class. Testez également la procédure means sans options : quelles statistiques affiche-t-elle par défaut? La procédure proc univariate, utilisée sans options, permet d obtenir encore plus de statistiques (valeurs extrêmes, médiane, centiles, distributions de fréquences, diagrammes,...) et d effectuer des tests statistiques. L option plot permet de dessiner un diagramme en feuilles, en boîte, et une courbe de probabilités normales cumulées, et l option freq permet d obtenir la liste des valeurs de la variable, la fréquence absolue, le pourcentage de ces valeurs et le pourcentage cumulé de ces valeurs. Exercice 2 Testez cette procédure sur votre programme. II Corrélation linéaire La procédure proc corr permet d obtenir les coefficients de corrélation linéaire, éventuellement à l aide des commandes by et var. La procédure renvoie d abord des statistiques de base pour chaque variable : taille de l échantillon (n), moyenne arithmétique (Mean), écart-type (Std Dev), somme (Sum), valeur minimale (Minimum), valeur maximale (Maximum) puis les valeurs des coefficients de corrélation linéaire. Exercice 3 Quelle est la valeur du coefficient de corrélation linéaire entre l ancienneté et le salaire pour les femmes? Entre l âge et le salaire? Même question pour les hommes. Remarque : tous ces résultats peuvent être obtenus par un seul programme. La commande with permet d obtenir des coefficients de corrélation linéaire pour certains couples de variables seulement. Enfin, on peut éliminer les statistiques de base pour se restreindre aux coefficients de corrélation linéaire en ajoutant les options noprob et nosimple et demander l affichage des covariances à l aide de l option cov. Par exemple, pour résoudre d une autre manière l exercice précédent : (...) proc corr noprob nosimple; var age anciennete; with salaire; Exercice 4 Comparez le résultat de ce programme avec celui du programme de l exercice précédent. III Distribution de fréquences 1 Fréquences La procédure proc freq permet d afficher les fréquences et fréquences cumulées précisées à l aide de la commande tables : proc freq; tables anciennete etatcivil; Il est possible de préciser l ordre souhaité en option : proc freq; proc freq order=data; proc freq order=freq; Exercice 5 Faites afficher les fréquences concernant l ancienneté des employés de l entreprise. Quelle est la différence entre les trois écritures?

2 Graphiques La procédure proc chart permet d afficher 5 types de graphiques différents : histogramme (vbar), diagramme à barres horizontales (hbar), diagramme en blocs (block), diagramme à secteurs circulaires et diagramme en étoile. 3 Histogrammes La procédure s utilise de la façon suivante : vbar variable; Exercice 6 Copiez-coller le fichier sas2_01.txt (qui correspond à l exercice 11 du chapitre précédent : chaque ligne est composée d un numéro d élève, de son genre, de son groupe et de ses trois notes) et affichez l histogramme de la variable correspondant à la première note. Par défaut, l échelle de l axe vertical représente les fréquences absolues. Il est possible de demander l échelle en pourcentages (type = percent), en pourcentages cumulés (type = cpercent), ou en moyenne d une autre variable (type = mean sumvar = variable), ainsi que de changer la valeur des points milieu. vbar note / type=percent midpoints = 2 6 10 14 18; Enfin, on peut demander l affichage de l histogramme par groupe. Par exemple, pour séparer les résultats pour les filles et les garçons : vbar genre / type=mean sumvar=note; Enfin, pour afficher l histogramme des notes, et pour chaque barre séparer les filles et les garçons : vbar note / subgroup=genre; Exercice 7 Testez ces fonctions sur l exemple des élèves, sur chacune des deux notes, et en les séparant pour les filles et les garçons. Testez également la commande vbar genre / group = groupe type = mean sumvar=note1. Que représente-t-elle? 4 Diagrammes circulaires La commande pie permet d afficher un diagramme circulaire. Elle prend les mêmes options que la commande vbar (à l intérieur d une procédure ). Exercice 8 En vous inspirant des programmes précédents sur les histogrammes, affichez un diagramme circulaire représentant la moyenne de la première note par groupe. 5 Avec la procédure gplot La procédure gplot (proc gplot data =...) permet d afficher graphiquement des données numériques. Par exemple pour un nuage de points (avec variable1 en abscisses et variable2 en ordonnées), plot variable2*variable1; Pour faire afficher plusieurs variables en ordonnées en fonction de la même variable en abscisses, plot (variable2 variable3)*variable1; Pour préciser les axes, on peut les définir au préalable : axis1 label=("nom de l axe des abscisses" justify=right); axis2 label=("nom de l axe des ordonnées") order=(0 to 1000 by 100);

Le label permet de donner un nom à l axe et le order de faire figurer l échelle sur l axe. Pour utiliser les axes ainsi définis, on précise alors l appel au graphique avec : plot variable2*variable1 / haxis=axis1 vaxis=axis2; On peut aussi ajouter une grille (quadrillage) avec grid. Enfin, on peut changer l apparence du graphique en précisant l aspect souhaité pour les symboles juste avant l instruction plot : symbol1 interpol=... value=...; Pour interpol, citons join pour relier les points par des droites (on peut alors préciser line=1, line=2, etc. pour l aspect des lignes), spline pour les rejoindre par des courbes, RL pour une régression linéaire et needle pour des diagrammes en bâtons. Pour value, citons dot (point), star (étoile), square (carré), circle (rond) et plus (plus). Attention, SAS Studio ne dispose pas de la procédure proc gplot : il faut utiliser proc sgplot. Voici les équivalents des principales options vues ci-dessus : proc gplot data=table3; /* proc sgplot data=table3; */ axis1 label=("nom de l axe des abscisses"); axis2 label=("nom de l axe des ordonnées") order=(0 to 1000 by 100); /* xaxis label="nom de l axe des abscisses"; */ /* yaxis label="nom de l axe des ordonnées" values=(0 to 1000 by 100); */ symbol1 value=star; plot variable2*variable1; /* scatter x=variable1 y=variable2 / markerattrs=(symbol=star); */ Exercice 9 On reprend les données de l exercice 14 de la séance 1. AD4632 42 M 42000 10 M HF4523 39 F 38000 12 C SD4510 47 F 35000 14 M DE4512 24 M 28000 2 M SO5601 43 M 38000 15 M CK4539 62 M 45000 28 C VK3461 27 M 44000 4 C SO4218 55 F 30000 2 M ST5324 32 F 28000 4 M DO6529 24 F 24000 2 C GI4319 42 M 40000 8 M EZ4531 34 M 42000 10 M AD4632 77 3 HF4523 86 2 SD4510 45 1 DE4512 73 0 SO5601 62 1 CK4539 13 4 VK3461 83 1 SO4218 49 2 ST5324 29 2 DO6529 14 0 GI4319 75 3 EZ4531 92 1 1. Commencez par fusionner (horizontalement) les deux tables afin d obtenir un unique tableau pour les employés comportant leur identifiant, leur âge, leur genre, leur salaire, leur ancienneté, leur état-civil, le nombre de leurs enfants et leur département d origine. 2. Faites afficher graphiquement le salaire en fonction de l ancienneté. Testez l effet des différentes options présentées ci-dessus. Adaptez en particulier les échelles pour les axes. 3. Faites afficher le nombre d enfants en fonction de l âge.

Exercice 10 1. Créez une table SAS avec les données suivantes : Nb enfants 0 1 2 3 4 5 6 Effectif 235 183 285 139 88 67 3 2. Ajoutez une nouvelle variable représentant les fréquences relatives (il y a 1000 couples interrogés). 3. Créez une nouvelle table à partir de la première (avec data / set) triée par effectif croissant. 4. On peut créer une nouvelle variable qui se calcule de proche en proche en utilisant retain. Par exemple, pour les effectifs cumulés : retain EffectifCumule 0; EffectifCumule = EffectifCumule + Effectif; Le plus simple pour attribuer un nom à cette nouvelle colonne est alors d utiliser attrib : attrib EffectifCumule label="effectifs cumulés"; Ajoutez deux colonnes à votre nouvelle table, une pour les effectifs cumulés, l autre pour les fréquences cumulées. 5. Tracez alors la courbe des fréquences cumulées en adaptant les axes. Testez aussi interpol=step.