TP 1. Introduction au logiciel SAS Analyse Statistique Univariée



Documents pareils
SAS de base : gestion des données et procédures élémentaires

INITIATION AU LOGICIEL SAS

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Création d un formulaire de contact Procédure

données en connaissance et en actions?

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Traitement des données avec Microsoft EXCEL 2010

Exemples d application

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Ouvrir le compte UQÀM

Gestion des documents avec ALFRESCO

Séance 0 : Linux + Octave : le compromis idéal

Réglages du module de sauvegarde de Biblionet (Monoposte)

Édu-groupe - Version 4.3

BIRT (Business Intelligence and Reporting Tools)

Guichet ONEGATE COLLECTE XBRL SOLVABILITE II (S2P) Manuel d utilisateur VERSION /04/2014 ORGANISATION ET INFORMATIQUE SDESS.

1. Introduction Création d'une requête...2

Logiciel XLSTAT version rue Damrémont PARIS

Manuel d utilisation de la messagerie.

TP1 - Prise en main de l environnement Unix.

Securexam Consignes pour l EFU Les 2, 3 et 4 juin 2015

1. Utilisation du logiciel Keepass

Microsoft Excel. Tableur

Styler un document sous OpenOffice 4.0

Netstorage et Netdrive pour accéder à ses données par Internet

Guide d utilisation pour W.access - Client

TP 1 Prise en main de l environnement Unix

Excel 2007 Niveau 3 Page 1

Guide de l usager - Libre-service de bordereaux de paie en ligne

PRÉSENTÉ PAR : NOVEMBRE 2007

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

EXCEL TUTORIEL 2012/2013

Créer son blog pas à pas

Europresse.com. Pour les bibliothèques publiques et de l enseignement. Votre meilleur outil de recherche en ligne. Guide version 1.

Business Talk IP Centrex. guide. web utilisateur. pour. les services standards

Utilisez Toucan portable pour vos sauvegardes

CAPTURE DES PROFESSIONNELS

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

Cartographie Informatique Eclairage Public

RECOPLUS LOGICIEL DE GESTION DES RECOMMANDES NOTICE D UTILISATION DE RECOPLUS RESEAU. N de série

TP 1. Prise en main du langage Python

Statistiques à une variable

Signature électronique sécurisée. Manuel d installation

Créer et modifier un fichier d'import des coordonnées approximatives avec Excel

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Manuel d utilisation

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

Une ergonomie intuitive

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

Plate-forme de tests des fichiers XML virements SEPA et prélèvements SEPA. Guide d'utilisation

GUIDE D UTILISATION 1

Guide utilisateur i-milo >> Décisionnel

Création du projet : 1 sur 13

Date : juin 2009 AIDE SUR LES CERTIFICATS. Comment sauvegarder et installer son certificat

Guide d utilisation 2012

Access 2010 Entraînement 1 Garage Renault Dossier 24 MCD

INTERCONNEXION ENT / BCDI / E - SIDOC

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10

HEITZ X Pro GESTION CLIENTÈLE

Écriture de journal. (Virement de dépense)

COMPTABILITE SAGE LIGNE 30

Table des matières L INTEGRATION DE SAS AVEC JMP. Les échanges de données entre SAS et JMP, en mode déconnecté. Dans JMP

Club informatique Mont-Bruno Séances du 05 octobre et du 24 octobre 2012 Présentateurs : Réjean Côté

Travaux pratiques avec RapidMiner

Débuter avec Excel. Excel

Création d une connexion VPN dans Windows XP pour accéder au réseau local de l UQO. Document préparé par le Service des technologies de l information

TD d économétrie appliquée : Introduction à STATA

Guide de l utilisateur Mikogo Version Windows

Manuel d utilisation du site web de l ONRN

FEN FICHE EMPLOIS NUISANCES

TP1 : Initiation à l algorithmique (1 séance)

LES ACCES ODBC AVEC LE SYSTEME SAS

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

ENVOI EN NOMBRE DE SMS

PROJET ISLAH TEMPUS IT-TEMPUS-SMHES. Projet financé par PLATEFORME ISLAH MANUEL D UTILISATION SECTION ENTREPRISES

MODULE DES ENCAISSEMENTS. Outil de comptabilisation et de transfert de revenus des établissements au Service des finances GUIDE TECHNIQUE

Calculateur de primes de l'ofsp Manuel

Utilisation de la Plateforme Office365 et d Oultlook Web App

Microsoft Excel Présentation du tableur Excel

COMMENT AJOUTER DES ENTREPRISES À VOTRE PORTEFEUILLE DE SURVEILLANCE. 05/01/2015 Creditsafe France

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

La Clé informatique. Formation Excel XP Aide-mémoire

Sommaire. 2. Utiliser la télécommande Télécommande Administrateur Télécommande Utilisateur Échanger une télécommande...

Comment utiliser RoundCube?

Découverte du tableur CellSheet

SPHINX Logiciel de dépouillement d enquêtes

CAP BOX Note utilisateurs

Aide Webmail. L environnement de RoundCube est très intuitif et fonctionne comme la plupart des logiciels de messagerie traditionnels.

Création d un site Internet

Solutions en ligne Guide de l utilisateur

ENVOI EN NOMBRE DE SMS

TUTORIEL Qualit Eval. Introduction :

Le langage C. Séance n 4

Call Center View Alarm Reporter

Rapports d activités et financiers par Internet. Manuel Utilisateur

MO-Call pour les Ordinateurs. Guide de l utilisateur

Access 2007 FF Access FR FR Base

Transcription:

IMIS : Master 1 Université Paris Est Marne la Vallée TP 1. Introduction au logiciel SAS Analyse Statistique Univariée 1. Premier contact avec SAS 1. Lancez le logiciel sas. Vous voyez apparaître les fenètres Editeur (Editor), Journal (Log), Sortie (Output), Résultats (Results) et Explorateur (Explore). 2. Dans la fenètre SAS : Program Editor entrez le programme suivant : DATA TP1; /* creation d une table provisoire */ INPUT Taille Poids Sexe $; CARDS; 174 65 M 169 56 F 166 48 F 181 80 M 168 53 F 176 76 M 190 77 M 159 70 F 162 60 F 164 51 F 160 73 F PROC PRINT; 3. Sauvegardez le fichier Fichier > Enregistrer sous... > progtp1.sas 4. Exècutez le programme Exécuter > Soumettre ou la touche F3 Remarque : On peut également sélection une partie du programme de la fenètre Editeur, et l exécuter en choisissant l option soumettre la sélection après un clique droite sur le texte sélectionné. Pour sauvegarder aprés avoir modifié : 1

2 Fichier > Enregistrer 5. Pour vérifier le contenu de la table créée : Outils > Editeur de tables SAS Fichier > Ouvrir Work > TP1 > Ouvrir On remarquera que ce menu peut servir non seulement à la visualisation des tables existantes, mais aussi à la création de nouvelles tables. Remarque : On peut également visualiser la table créée en accédant, dans la fenètre Explorateur, à la bibliothèque puis à Work et enfin en ouvrant le fichier TP1 6. Aller dans les onglets Outils/option/preferences et cocher html dans le menu de sortie des résultats pour un affichage plus joli des résultats. 7. Ajouter l option NOOBS à la procédure PRINT. Que fait elle? Remarques importantes 1) SAS ne différencie pas les majuscules et les minuscules. Par exemple, on peut très bien écrire PRINT DATA=tp1 pour visualiser les données contenues dans la table TP1. 2) Ne pas oublier les ; à la fin de chaque instruction. 3) Si après avoir exécuté le programme vous obtenez un résultat bizarre, vérifiez la fenêtre SAS : Log. 4) Le signe dollar dans la déclaration des variables indique que la variable précédant $ est qualitative. 5) Dans un programme SAS, tout ce qu on écrira entre /* et */ ne sera pas pris en compte pendant l exécution du programme. Ceci sert à commenter différentes parties du programme. 6) Sauvegardez toujours votre programme avant de le soumettre. 2. Personnalisation et raccourcis 1. Création d une librairie de travail. Par défaut ; les données entrées dans SAS sont enregistrées dans la librairie WORK qui est effacée à chaque fois que l on quitte le logiciel. Pour conserver le données, il est recommandé de créer une librairie (un répertoire) qui sera conservée entre différentes sessions SAS. Ainsi, pour créer la librairie TPSAS, il suffit de rajouter une option globale au programme en première ligne : LIBNAME TPSAS?/TPSAS ; (? designe le chemin qui mene au repertoire) Cette étape n est réalisée qu une fois au début de la session. Pour indiquer à SAS que l on souhaite enregistrer les données dans cette librairie, il faut précéder le nom des données par TPSAS. (à chaque création de données). Ainsi, la ligne DATA... du programme progtp1.sas deviendra DATA TPSAS.TP1 ; Si, au cours d une session, le préfixe TPSAS. est omis, les données seront enegistrées dans la librairie par défaut WORK.

2. Il est souvent difficile de lire le rapport d erreur qui apparait dans la fenêtre LOG lorsque les rapports s accumulent. Pour eviter ce problème on peut simplement faire Editeur > Effacer tout dans la fenêtre Log. 3. Enfin, vous aurez sans doute remarqué le nombre grandissant de fenêtres. Pour retrouver vos fenêtres Journal, Editeur et Sortie, les touches F. peuvent vous aider : F5= Editeur, F6=Journal et F7=Sortie. Sinon, on peut toujours choisir dans le menu Affichage > {Editeur, Journal, Sortie} 3 3. Analyse Statistique Univariée 0. Pour calculer les caractéristiques statistiques les plus élémentaires (moyenne, écart type, variance, min, max,...) d une variable, on peut utiliser la procédure MEANS. On ne la testera pas car la procédure UNIVARIATE traité ci-après est plus générale. 1.a. La procédure SORT permet de trier les données ; elle range par défaut les données quantitatives en ordre croissant et les données qualitatives en ordre alphabétique. Afin d obtenir l ordre inverse, il faut intercaler l option DESCENDING apres BY. Pour tester cette procédure, on ajoute dans notre programme les lignes suivantes : PROC SORT DATA=TP1; BY Sexe; PROC PRINT; 1.b. Pour ne pas écraser la table TP1, on peut créer une nouvelle table qui contiendra les données triées. Pour cela, il faut utiliser l option OUT=ma_lib.TP1_triee dans la procédure SORT. 2. La procédure RANK calcule les rangs de variables quantitatives. Sa syntaxe est PROC RANK <options> ; BY <descending> variable ; /* si on veut trier selon la variable */ RANKS liste de nouvelles variables ; /* contiendra les rangs */ VAR liste de variables ; /* les variables dont on calcule le rang */ Les options les plus importantes de cette procédure sont - data=table sas indique le nom de la table, par défaut la dernière créée, - out=table sas spécifie le nom de la table créée qui contiendra les variables initiales et les rangs, - descending rangs par valeurs décroissantes. Les instructions les plus importantes de cette procédure sont

4 BY suivi du nom d une variable qualitative indique que les statistiques sont calculées par groupe d observations, cette instruction ne peut être appliquée qu aux données triées (cf. la procédure SORT). RANKS doit être spécifiée si l on veut que les variables initiales soient recopiées en sortie, VAR les rangs des variables de cette liste sont calculés ; par défaut toutes les variables quant. sont traitées. On appliquera cette procédure à la variable taille en ordre décroissant et groupé par sexe. PROC RANK DATA=TP1 OUT=RANGS; VAR Taille Poids; RANKS VAR1 VAR2; BY Sexe; Pour vérifier le résultat : PROC PRINT DATA=RANGS; 3. Lecture des fichiers extérieurs : Ouvrez un éditeur de text quelconque ( Bloc-Notes marche bien) et entrez les données taille-poids-sexe. Enregistrez le fichier dans un répertoire x sous le nom TP1.dat. Ajouter à la fin une colonne contenant les données : 20 25 24 26 25 27 33 24 26 23 31. Enregistrez. Afin de lire ces données dans un programme SAS, on utilise la commande INFILE de la procédure DATA : DATA TP1; INFILE x/tp1.dat ; INPUT Taille Poids Sexe $ Age; 4. Pour illustrer la procédure UNIVARIATE, saisissez et exécutez le programme suivant : DATA TP1; INFILE x/tp1.dat ; INPUT Taille Poids Sexe $ Age; OPTIONS LINESIZE=132 PAGESIZE=66 NODATE; FOOTNOTE TP1 : Procedure UNIVARIATE ; PROC UNIVARIATE NORMAL PLOT; VAR TAILLE; BY SEXE;

Afin d enregistrer certaines des statistiques calculées dans une table extérieure, on peut utiliser l instruction (en l insérant par exemple entre BY SEX et RUN), OUTPUT out=univar N=nbObs MEAN=moyenne USS=CarresObs KURTOSIS=CoeffApllat; Faites la même chose sans spécifier la commande BY. On remarque que les mots NORMAL et PLOT qui suivent la procédure UNIVARIATE sont des options. La première permet d obtenir des tests de normalité, alors que la seconde dessine des graphiques. On peut également spécifier une variable qui contient les pondérations des observations. Pour cela, il faut rajouter l instruction WEIGHT variable. 5. La procédure PLOT permet de dessiner des graphiques en basse résolution de nuages de points en deux dimensions. PROC PLOT DATA=TP1; BY SEXE; PLOT TAILLE*POIDS= * ; Dans le cas où on a plus de deux variables quantitatives, par exemple Taille Poids et Age, on peut demander dans une seule commande les graphiques des nuages de points Taille*Poids et Poids*Age. Cela se fait comme suit : PLOT TAILLE*POIDS= * POIDS*AGE= + ; et si l on veut les superposer PLOT TAILLE*POIDS= * POIDS*AGE= + / OVERLAY; 6. Pour obtenir des graphiques plus jolis, on utilise les graphiques haute résolution. Les procédures les plus souvent utilisées sont GPLOT et GCHART. Après avoir appelé une procédure de graphique haute résolution, il faut absolument la quitter en utilisant la commande QUIT;. PROC GPLOT DATA=TP1; SYMBOL1 v=square interpol=r c=black; SYMBOL2 v=plus interpol=rcclm c=black; PLOT TAILLE*POIDS=1; QUIT; Faites la même chose en remplaçant PLOT TAILLE*POIDS=1; par PLOT TAILLE*POIDS=2; 5

6 ANNEXE : STATISTIQUES CALCULÉES PAR UNIVARIATE N le nombre d observations, Mean la moyenne empirique, Sum Observations la somme des observations, Std Deviation standard deviation (écart type) mais divisé par n 1, Variance la variance, Skewness le coefficient d asymétrie, Kurtosis le coefficient d aplatissement, Uncorrected SS la somme des carrés des observations, Corrected SS la somme des observations centrées par la moyenne empirique, Coeff Variation (s/ X) 100%, Std Error Mean s/ n, Range l étendue de l échantillon (max min), Interquartile Range l écart interquartile, Student s t la statistique t = X n/s (pour tester µ = 0), Sign M (N + N )/2, où N + est le nombre d observation > 0, N est le nombre d observation < 0. (pour tester Med = 0), Shapiro-Wilk ( a i X (i) ) 2 /ns 2, Kolmogorov-Smirnov max i/n F i, où F i = Φ((X (i) X)/s), Cramer-von Mises Kolmogorov mais somme au lieu de max, mieux si il y a des observations aberrantes. Anderson-Darling A 2 = N (2i 1)/N[ln(Φ(X (i) ) + ln(1 Φ(X (N+1 i) )], Pour tous les tests : si la p-value est petite (disons < 0.05), on rejette l hypothèse nulle et on accepte l alternative. Dans le cas contraire (p-value 0.05), on accepte l hypothèse nulle H 0.