TP 1. Introduction au logiciel SAS Analyse Statistique Univariée



Documents pareils
INITIATION AU LOGICIEL SAS

SAS de base : gestion des données et procédures élémentaires

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

LES ACCES ODBC AVEC LE SYSTEME SAS

Séance 0 : Linux + Octave : le compromis idéal

TP1 - Prise en main de l environnement Unix.

Exemples d application

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Ouvrir le compte UQÀM

BIRT (Business Intelligence and Reporting Tools)

TD d économétrie appliquée : Introduction à STATA

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Traitement des données avec Microsoft EXCEL 2010

8. Gestionnaire de budgets

Guide de l usager - Libre-service de bordereaux de paie en ligne

Guide d utilisation pour W.access - Client

Microsoft Excel. Tableur

Securexam Consignes pour l EFU Les 2, 3 et 4 juin 2015

La Clé informatique. Formation Excel XP Aide-mémoire

EXCEL TUTORIEL 2012/2013

TP1 : Initiation à l algorithmique (1 séance)

Le langage C. Séance n 4

Réglages du module de sauvegarde de Biblionet (Monoposte)

Gestion des documents avec ALFRESCO

GUIDE D UTILISATION 1

données en connaissance et en actions?

Débuter avec Excel. Excel

VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET

INTERCONNEXION ENT / BCDI / E - SIDOC

TP 1 Prise en main de l environnement Unix

TP 1. Prise en main du langage Python

PROTEGER SA CLE USB AVEC ROHOS MINI-DRIVE

Tutorial Cadence Virtuoso

Date : juin 2009 AIDE SUR LES CERTIFICATS. Comment sauvegarder et installer son certificat

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

Netstorage et Netdrive pour accéder à ses données par Internet

2. Cliquez Contact Directory of Public Administration. 5. Tapez le mot de passe - Hello (pour OFPA). Changez le mot de passe en cas de

Une ergonomie intuitive

Découverte du tableur CellSheet

Introduction à Eclipse

PARTAGER UN ANNUAIRE COLLECTIF DE SIGNETS AVEC DEL.ICIO.US

CREER UN PETIT SITE WEB EN COMPOSANT DES PAGES HTML

Excel 2007 Niveau 3 Page 1

INTERCONNEXION ENT / BCDI / E - SIDOC

Logiciel XLSTAT version rue Damrémont PARIS

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

Initiation au logiciel SAS(9) pour Windows

TP Contraintes - Triggers

Guide d utilisation commandes des pièces de rechange Rev.1.0.3

PRÉSENTÉ PAR : NOVEMBRE 2007

RECOPLUS LOGICIEL DE GESTION DES RECOMMANDES NOTICE D UTILISATION DE RECOPLUS RESEAU. N de série

1. Introduction Création d'une requête...2

Comment installer le gestionnaire de licence avec une nouvelle version de Arche / Effel / Melody?

Statistiques à une variable

ESPACE COLLABORATIF SHAREPOINT

3. Caractéristiques et fonctions d une v.a.

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

Utilisez Toucan portable pour vos sauvegardes

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Direction générale statistique et information économique. Manuel d usage : l application web pour l enquête sur la structure des entreprises

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Microsoft Excel Présentation du tableur Excel

Manuel d utilisation de la messagerie.

Tapez le titre de la page «BASTIA ville méditerranéenne», puis allez deux fois à la ligne à l aide de la touche Entrée.

Manuel d utilisation du logiciel RÉSULTATS. Édition destinée aux départements

Manuel d'installation de GESLAB Client Lourd

Introduction : L accès à Estra et à votre propre espace Connexion Votre espace personnel... 5

DE MODIFICATION PROCEDURE ELYXBADGE APPLICATION. PI Électronique Restobadge

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

INTERCONNEXION ENT / BCDI / E - SIDOC

Grain Tracker Manuel d'utilisation

SAS base Introduction à SAS SQL SAS IML

Cahier n o 6. Mon ordinateur. Fichiers et dossiers Sauvegarde et classement

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

ENVOI EN NOMBRE DE SMS

FEN FICHE EMPLOIS NUISANCES

OPPassessment Guide d utilisateur

Résumé succinct des fonctions de messagerie électronique

HEITZ X Pro GESTION CLIENTÈLE

SOMMAIRE. 1. Préambule Le calendrier Trajectoire d un objet lancé Régression linéaire...9

GUIDE Excel (version débutante) Version 2013

Travaux pratiques avec RapidMiner

Calculateur de primes de l'ofsp Manuel

Signature électronique sécurisée. Manuel d installation

ENVOI EN NOMBRE DE SMS

Gestion des Factures

SPHINX Logiciel de dépouillement d enquêtes

Création WEB avec DreamweaverMX

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

Services bancaires par Internet aux entreprises. Guide pratique pour : Rapports de solde Version

INTRODUCTION AU CMS MODX

SAS Foundation Installation sous Windows

Introduction à Expression Web 2

Modes Opératoires WinTrans Mai 13 ~ 1 ~

Manuel BlueFolder ADMINISTRATION

Logiciels de gestion FAC. Analyste AgExpert. Guide de démarrage rapide 2014

Mes premiers diaporamas avec Open Office Impress?

Création d un formulaire de contact Procédure

1) Installation de Dev-C++ Téléchargez le fichier devcpp4990setup.exe dans un répertoire de votre PC, puis double-cliquez dessus :

Transcription:

DESS de Mathématiques Université Paris 6 TP 1. Introduction au logiciel SAS Analyse Statistique Univariée 1. Premier contact avec SAS 1. Connectez-vous sur ibm1. Lancez le logiciel : sas & Vous voyez apparaître les fenêtres Editor, Results, Log et Explore. 2. Dans la fenêtre SAS : Program Editor entrez le programme suivant : DATA TP1; /* creation d une table provisoire */ INPUT Taille Poids Sexe $; CARDS; 174 65 M 169 56 F 166 48 F 181 80 M 168 53 F 176 76 M 190 77 M 159 70 F 162 60 F 164 51 F 160 73 F PROC PRINT; 3. Sauvegardez le fichier file > save as > progtp1.sas 4. Exécutez le programme run > submit ou la touche F3 On constate que le programme disparaît de la fenêtre SAS : Program Editor. Afin de le rappeler pour des modifications éventuelles, run > recall last submit ou la touche F4 1

2 Pour sauvegarder après avoir modifié : file > save 5. Pour vérifier le contenu de la table créée : tools > table editor file > open > work > TP1 > open On remarquera que ce menu peut servir non seulement à la visualisation des tables existantes mais aussi à la création de nouvelles tables. 6. Exécuter SAS/ASSIST qui permet de générer des exemples de programmes que l on peut enregistrer et utiliser en adaptant à nos besoins. solution > ASSIST... répondre aux questions graphics > pie chart table > work > TP1 chart column > Sexe run > submit Pour récupérer le programme crée, allez dans la fenêtre SAS : Editor et faîtes recall last submit. Remarques importantes 1) SAS ne différencie pas les majuscules et les minuscules. Par exemple, on peut très bien écrire PRINT DATA=tp1 pour visualiser les données contenues dans la table TP1. 2) Pour passer du mode insertion au mode surimpression (et vice versa) utiliser <Ctrl>-x. 3) Ne pas oublier les ; à la fin de chaque instruction. 4) Si après avoir exécuté le programme vous obtenez un résultat bizarre, vérifiez la fenêtre SAS : Log. 5) Le signe dollar dans la déclaration des variables indique que la variable précédant $ est qualitative. 6) Dans un programme SAS, tout ce qu on écrira entre /* et */ ne sera pas pris en compte pendant l exécution du programme. Ceci sert à commenter différentes parties du programme. 7) Sauvegardez toujours votre programme avant de le soumettre. 2. Personnalisation et raccourcis 1. Création d une librarie de travail. Par défaut, les données entrées dans SAS sont enregistrées dans la librairie WORK qui est effacée à chaque fois que l on quitte le logiciel. Pour conserver les données, il est recommandé de créer une librairie (un répertoire) qui sera conservée entre différentes sessions SAS. Pour cela il suffit de créer un répertoire dans l invite de commande de ibm1 (celle où vous avez tapé sas &). La commande est la suivante : mkdir TPSAS

Pour prendre en compte ce changement il faut alors modifier le programme progtp1.sas en le précédant de la ligne LIBNAME TPSAS?/TPSAS ; (? désigne le chemin qui mène au répertoire. Il est de la forme /home/... ) Cette étape n est réalisée qu une fois au début de la session. Pour indiquer à SAS que l on souhaite enregistrer les données dans cette librarie il faut précéder le nom des données par TPSAS. (à chaque création de données). Ainsi, la ligne DATA... du programme progtp1.sas deviendra DATA TPSAS.TP1; Si, au cours d une session, le préfixe TPSAS. est omis, les données seront enregistrées dans la librairie par défaut WORK. 2. Il est souvent difficile de lire le rapport d erreur qui apparait dans la fenêtre LOG lorsque les rapports s accumulent. Pour eviter ce problème on peut simplement faire Edit > Clear All dans la fenêtre Log ou bien personnaliser le bouton SUBMIT : Tools > Options > Edit Toolbox Choisir le bonhomme qui court (le bouton SUBMIT) et remplacer la ligne COMMAND par log;clear;output;clear;pgm;submit; Terminer par les boutons Save Ok et enfin Close 3. Enfin, vous aurez sans doute remarqué le nombre grandissant de fenêtres. Pour retrouver vos fenêtres Log, Editor et Output, les touches F. peuvent vous aider : F5= Editor, F6=Log et F7=Output. Sinon, on peut toujours choisir dans le menu View > {Editor, Log, Output} 3. Analyse Statistique Univariée 0. Pour calculer les caractéristiques statistiques les plus élémentaires (moyenne, écart type, variance, min, max,...) d une variable, on peut utiliser la procédure MEANS. On ne la testera pas car la procédure UNIVARIATE traité ci-après est plus générale. 1. La procédure SORT permet de trier les données ; elle range par défaut les données quantitatives en ordre croissant et les données qualitatives en ordre alphabétique. Afin d obtenir l ordre inverse, il faut intercaler l option DESCENDING apres BY. Pour tester cette procédure, on ajoute dans notre programme les lignes suivantes : PROC SORT DATA=TP1; BY Sexe; PROC PRINT; 3

4 2. La procédure RANK calcule les rangs de variables quantitatives. Sa syntaxe est PROC RANK <options> ; BY <descending> variable ; RANKS liste de nouvelles variables ; VAR liste de variables ; Les options les plus importantes de cette procédure sont - data=table sas indique le nom de la table, par défaut la dernière créée, - out=table sas spécifie le nom de la table créée qui contiendra les variables initiales et les rangs, - descending rangs par valeurs décroissantes. Les instructions les plus importantes de cette procédure sont BY suivi du nom d une variable qualitative indique que les statistiques sont calculées par groupe d observations, cette instruction ne peut être appliquée qu au données triées (cf. la procédure SORT). RANKS doit être spécifiée si l on veut que les variables initiales soient recopiées en sortie, VAR les rangs des variables de cette liste sont calculés ; par défaut toutes les variables quant. sont traitées. On appliquera cette procédure à la variable taille en ordre décroissant et groupé par sexe. PROC RANK DATA=TP1 OUT=RANGS; VAR Taille Poids; RANKS VAR1 VAR2; BY Sexe; Pour vérifier le résultat : PROC PRINT DATA=RANGS; 3. Lecture des fichiers extérieurs : Ouvrez un éditeur de text quelconque et entrez les données taille-poids-sexe. Enregistrez le fichier dans un répertoire x sous le nom TP1.dat. Ajouter à la fin une colonne contenant les données : 20 25 24 26 25 27 33 24 26 23 31. Enregistrez. Afin de lire ces données dans un programme SAS, on utilise la commande INFILE de la procédure DATA : DATA TP1; INFILE x/tp1.dat ; INPUT Taille Poids Sexe $ Age;

4. Pour illustrer la procédure UNIVARIATE, saisissez et exécutez le programme suivant : DATA TP1; INFILE x/tp1.dat ; INPUT Taille Poids Sexe $ Age; OPTIONS LINESIZE=132 PAGESIZE=66 NODATE; FOOTNOTE TP1 : Procedure UNIVARIATE ; PROC UNIVARIATE NORMAL PLOT; VAR TAILLE; BY SEXE; Afin d enregistrer certaines des statistiques calculées dans une table extérieure, on peut utiliser l instruction (en l insérant par exemple entre BY SEX et RUN), OUTPUT out=univar N MEAN USS KURTOSIS; Faîtes la même chose sans spécifier la commande BY. On remarque que les mots NORMAL et PLOT qui suivent la procédure UNIVARIATE sont des options. La première permet d obtenir des tests de normalité, alors que la seconde dessine des graphiques. On peut également spécifier une variable qui contient les pondérations des observations. Pour cela, il faut rajouter l instruction WEIGHT variable. 5 5. La procédure PLOT permet de dessiner des graphiques en basse résolution de nuages de points en deux dimensions. PROC PLOT DATA=TP1; BY SEXE; PLOT TAILLE*POIDS= * ; Dans le cas où on a plus de deux variables quantitatives, par exemple Taille Poids et Age, on peut demander dans une seule commande les graphiques des nuages de points Taille*Poids et Poids*Age. Cela se fait comme suit : PLOT TAILLE*POIDS= * POIDS*AGE= + ; et si l on veut les superposer PLOT TAILLE*POIDS= * POIDS*AGE= + / OVERLAY; 6. Pour obtenir des graphiques plus jolis, on utilise les graphiques haute résolution. Les procédures les plus souvent utilisées sont GPLOT et GCHART. Après avoir appelé une procédure de graphique haute résolution, il faut absolument la quitter en utilisant la commande QUIT ;. PROC GPLOT DATA=TP1;

6 SYMBOL1 v=square interpol=r c=black; SYMBOL2 v=plus interpol=rcclm c=black; PLOT TAILLE*POIDS=1; QUIT; Faîtes la même chose en remplaçant PLOT TAILLE*POIDS=1 ; par PLOT TAILLE*POIDS=2 ; ANNEXE : STATISTIQUES CALCULÉES PAR UNIVARIATE N le nombre d observations, Mean la moyenne empirique, Sum Observations la somme des observations, Std Deviation standard deviation (écart type) mais divisé par n 1, Variance la variance, Skewness le coefficient d asymétrie, Kurtosis le coefficient d aplatissement, Uncorrected SS la somme des carrés des observations, Corrected SS la somme des observations centrées par la moyenne empirique, Coeff Variation (s/ X) 100%, Std Error Mean s/ n, Range l étendue de l échantillon (max min), Interquartile Range l écart interquartile, Student s t la statistique t = X n/s (pour tester µ = 0), Sign M (N + N )/2, où N + est le nombre d observation > 0, N est le nombre d observation < 0. (pour tester Med = 0), Shapiro-Wilk ( a i X (i) ) 2 /ns 2, Kolmogorov-Smirnov max i/n F i, où F i = Φ((X (i) X)/s), Cramer-von Mises Kolmogorov mais somme au lieu de max, mieux si il y a des observations aberrantes. Anderson-Darling A 2 = N (2i 1)/N[ln(Φ(X (i) ) + ln(1 Φ(X (N+1 i) )], Pour tous les tests : si la p-value est petite (disons < 0.05), on rejette l hypothèse nulle et on accepte l alternative. Dans le cas contraire (p-value 0.05), on accepte l hypothèse nulle H 0.