Présentation du logiciel STATA



Documents pareils
Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Traitement des données avec Microsoft EXCEL 2010

TD d économétrie appliquée : Introduction à STATA

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

Créer le schéma relationnel d une base de données ACCESS

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Le langage C. Séance n 4

Le cas «BOURSE» annexe

GUIDE Excel (version débutante) Version 2013

EXCEL TUTORIEL 2012/2013

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Le cas «BOURSE» annexe

Comment créer et utiliser une fonction

NETWORK & SOFTWARE ENGINEERING MANUEL D UTILISATEUR. Logiciel TIJARA. NETWORK AND SOFTWARE ENGINEERING Manuel d'utilisateur "TIJARA" 1

1.1 L EXPLORATEUR WINDOWS

RECOPLUS LOGICIEL DE GESTION DES RECOMMANDES NOTICE D UTILISATION DE RECOPLUS RESEAU. N de série

Note de cours. Introduction à Excel 2007

Microsoft Excel Présentation du tableur Excel

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

Afin d accéder à votre messagerie personnelle, vous devez vous identifier par votre adresse mail et votre mot de passe :

Créer son questionnaire en ligne avec Google Documents

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes

TABLEAU CROISE DYNAMIQUE

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10

Édu-groupe - Version 4.3

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

Ouvrir le compte UQÀM

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

Introduction à la présentation graphique avec xmgrace

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

Utilisation de l outil lié à MBKSTR 9

Installation et utilisation du client FirstClass 11

ESPACE COLLABORATIF SHAREPOINT

STAGE IREM 0- Premiers pas en Python

SOMMAIRE. Travailler avec les requêtes... 3

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Utilisation du client de messagerie Thunderbird

Mon aide mémoire traitement de texte (Microsoft Word)

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

SOMMAIRE. 1. Connexion à la messagerie Zimbra Pré-requis Ecran de connexion à la messagerie 4

GUIDE DE DÉMARRAGE. SitagriPro Infinite FINANCEAGRI. Un service. c o r p o r a t e

Microsoft Excel. Tableur

Aide : publication de décisions VS

Rapports d activités et financiers par Internet. Manuel Utilisateur

Comment accéder à d Internet Explorer

Guide de démarrage rapide. (pour la version 5.0.)

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

MO-Call pour les Ordinateurs. Guide de l utilisateur

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Débuter avec Excel. Excel

PRÉSENTÉ PAR : NOVEMBRE 2007

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

FACTURATION. Menu. Fonctionnement. Allez dans le menu «Gestion» puis «Facturation» 1 Descriptif du dossier (onglet Facturation)

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Manuel d utilisation du web mail Zimbra 7.1

Numbers sur ipad. Atelier Formation Numbers sur ipad. [Notes extraitres de l'aide en ligne]

1) Installation de Dev-C++ Téléchargez le fichier devcpp4990setup.exe dans un répertoire de votre PC, puis double-cliquez dessus :

Club informatique Mont-Bruno Séances du 05 octobre et du 24 octobre 2012 Présentateurs : Réjean Côté

26 Centre de Sécurité et de

Service On Line : Gestion des Incidents

Guide d utilisation des fichiers bonus accompagnant le guide «L Argent est une science exacte»

COURS DE MS EXCEL 2010

Logiciel XLSTAT version rue Damrémont PARIS

FEN FICHE EMPLOIS NUISANCES

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

Placez vous au préalable à l endroit voulu dans l arborescence avant de cliquer sur l icône Nouveau Répertoire

8. Gestionnaire de budgets

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net

Numérisation. Copieur-imprimante WorkCentre C2424

Archivage des pièces comptables

Guide d installation et d utilisation

Initiation à Excel. Frédéric Gava (MCF)

YAPBA M. Logiciel libre de suivi de vos comptes

Infolettre #18 : Les graphiques avec Excel 2010

Utilisez Toucan portable pour vos sauvegardes

SOFI Gestion+ Version 5.4. Echanges de données informatiques Spicers Sofi gestion+ Groupements. SOFI Informatique. Actualisé le

Disque Dur Internet «Découverte» Guide d utilisation du service

Cahier n o 6. Mon ordinateur. Fichiers et dossiers Sauvegarde et classement

Support application ProgrÉ. Académie de Paris

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

SUGARCRM MODULE RAPPORTS

Styler un document sous OpenOffice 4.0

Formation. Module WEB 4.1. Support de cours

LibreOffice Calc : introduction aux tableaux croisés dynamiques

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

hager Logiciel PC pour configurateur Radio Tebis TX 100 Manuel d utilisation 6T7266

IN Cours 1. 1 Informatique, calculateurs. 2 Un premier programme en C

Si vous décidez d utiliser un autre chemin, c est ce nouveau chemin qu il faudra prendre en compte pour la sauvegarde. Cf. : Chapitre 9 Sauvegarde

La Clé informatique. Formation Excel XP Aide-mémoire

Solutions en ligne Guide de l utilisateur

EXCEL et base de données

1. Introduction Création d'une requête...2

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Utilisation avancée de SugarCRM Version Professional 6.5

Manuel d utilisation du logiciel RÉSULTATS. Édition destinée aux départements

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Transcription:

Présentation du logiciel STATA Initiation au traitement des données sous Stata... Ce que STATA peut faire... 2 La prise en main du logiciel... 2 Entrer et sortir de STATA... 2 Apparence à l écran... 3 Charger/sauvegarder un fichier... 3 Enregistrer les résultats d une séance de travail... 4 La syntaxe des commandes Stata... 4 Les fichiers de données... 5 Création et corrections de variables... 6 Les statistiques simples... 8 Les graphiques... 10 ANNEXES... 11 Annexe 1 : Récapitulatif... 11 Annexe 2 : Ouvrages sur Stata... 14-1 -

Ce que STATA peut faire 1. Des calculs directs : Avant, après ou pendant le traitement des données, Stata permet le calcul arithmétique et l accès à différentes fonctions statistiques. Les résultats des commandes de Stata peuvent être réutilisés pour faire des calculs particuliers. 2. Des analyses exploratoires graphiques et statistiques : Stata permet d obtenir rapidement une description des données. La commande graphique de Stata produit huit types de graphiques (histogramme, bâton, trait, boîte, point, matrice, étoile, camembert) qui peuvent être combinés. De même on peut associer des courbes de lissage aux graphiques afin de synthétiser les informations. 3. Des modèles de régression très diversifiés : Les modèles proposés par Stata vont de la simple régression statistique jusqu aux régressions les plus complexes pour traiter les données de panels. Stata est particulièrement adapté au traitement des données d enquêtes, qu elles soient de nature épidémiologique, économique, sociologique ou démographique. 4. De la manipulation de fichiers et de la programmation avancée : L instrument le plus puissant de Stata est certainement son langage de programmation. Plus que de simples macros, Stata vous permet d écrire des programmes spécifiques, accessibles de la même façon que n importe quelle autre commande du logiciel, avec arguments et options. Dans notre cas, nous nous arrêterons aux deux premiers points. La prise en main du logiciel Entrer et sortir de STATA Avant d entrer dans Stata, il est préférable de contrôler la place en mémoire vive qui sera allouée au fichier de données. En effet, par défaut, Stata n allouera que 1 Mo de mémoire vive (RAM). C est peu, et il serait dommage en plein travail de se trouver à court de mémoire et d être obligé de sortir de Stata pour allouer de la mémoire supplémentaire. La configuration optimale dépend des capacités de l ordinateur et de la place occupée par les autres logiciels. Le tableau qui suit donne la formule approximative pour connaître le nombre maximum de Mo de RAM à allouer à Stata selon le système d exploitation Windows : Windows 3.1 Windows 95, 98 et Millénium Total 4 (3/4 Total) - 3 Ainsi, avec 32 Mo de RAM sous Windows, un maximum de 21 Mo (=(32*3/4)-3) devra être alloué à Stata. Pour configurer la mémoire utilisée par Stata, on devra modifier les propriétés associées au programme exécutable de Stata. La procédure diffère d un système d exploitation à l autre (par exemple pour configurer à 9 Mo) : Pour DOS, il suffit de taper «c :>stata /k9000» - 2 -

Pour Windows, on accède à la fenêtre des propriétés de Stata dans le sous répertoire : c:\windows\menu démarrer\programmes\stata. Ensuite, modifier la cible (appelée ligne de commande dans windows 3.1) tel que «c:\stata\wstata.exe /k9000» (au lieu de /k1000 par défaut) Ensuite, le mode d entrée dans Stata dépend du système d exploitation. Le tableau qui suit indique quelles sont les commandes à exécuter pour entrer dans Stata. DOS Windows 3.1 Windows 95, 98 et Millenium c:>stata Stata (icône) Démarrer- Programmes- Stata Apparence à l écran Stata se présente sous la forme de plusieurs fenêtres à l écran dont voici la légende : 1 2 5 3 4 1. Menu classique et menu raccourci 2. Liste des commandes déjà appliquées 3. Liste des variables du fichier en cours 4. Zone de programmation pour les commandes 5. Fenêtre des résultats Charger/sauvegarder un fichier La version 7 de Stata facilite les modalités pour charger un fichier. Ainsi il suffit d utiliser le menu de type Windows (légende 1 ci-dessus). Il en est de même pour la sauvegarde, mais attention, si l on enregistre un fichier modifié il est préférable de garder une version non modifiée en cas d erreurs. - 3 -

Enregistrer les résultats d une séance de travail Sortir des résultats, c est bien, les conserver, c est encore mieux. Avant de commencer l analyse de vos données, il est préférable de penser à conserver les résultats qui apparaissent à l écran dans un fichier que vous pourrez consulter librement, en tapant, après avoir ouvert votre base de données : log using «nom de fichier» dans la fenêtre de commande. Il est aussi possible d utiliser le menu Windows. A la fin des analyses, il suffit de taper dans la fenêtre de commande : log close De même, il est possible d interrompre l enregistrement pendant les analyses, en tapant dans la ligne de commande : log off, puis de reprendre l enregistrement en tapant : log on. Si l on veut ajouter aux résultats de la veille, les résultats de la session du jour, ou remplacer un vieux fichier de résultats, on écrira respectivement en ligne de commande : Log using «nom de fichier», append Log using «nom de fichier», replace Il est possible, sous Windows, de visualiser la fenêtre du fichier de résultats pendant que l on travaille sur Stata, en passant par le menu Windows. La syntaxe des commandes Stata Stata comme tous les logiciels, utilise un langage qui n est ni de l anglais, ni du français, mais son propre langage. Hormis quelques exceptions, la syntaxe des commandes de Stata est : [by listevar :] commande [listvar] [=exp] [if exp] [in intervalle] [pondération] [, options] Le nom de la commande est évidemment obligatoire, et il peut éventuellement être précédé d un préfixe by, et le plus souvent il est suivi d un ou de plusieurs suffixe. Les suffixes sont entourés de crochets pour indiquer leur caractère optionnel : listevar correspond à une liste de variables, exp à une expression logique, intervalle à une série d observations dans le fichier de données, et pondération à une expression indiquant la variable et le mode de pondérations des données. Enfin, après une virgule, on peut ajouter une ou plusieurs options pour l exécution de la commande. La syntaxe complète pour chaque commande figure dans les manuels de référence de Stata, qui reste de ce point de vue irremplaçables. Mais puisque le préfixe by et les suffixes if, in et la pondération sont communs à la majorité des commandes, nous nous en tiendrons dans les paragraphes suivants à exposer la syntaxe de base qui prend la forme : Commande [listevar] [=exp] [, options] En prenant la commande list on obtient : [by listevar :] list [listvar] [if exp] [in intervalle] [, [no]display nolabel noobs] Le suffixe [listevar] Immédiatement après le nom de la commande, une liste de variables indique sur quelles variables doit s effectuer la commande. Dans les autres cas, la liste de variables par défaut est la totalité des variables du fichier. - 4 -

Le suffixe [by listevar] Ce préfixe permet d exécuter la commande pour chaque sous ensemble d observations défini pour chaque valeur de listevar. Avant la commande, le fichier doit d abord être trié (avec la commande sort listevar) selon la même variable utilisée par le préfixe by. Le suffixe [if exp] Le suffixe if restreint l exécution de la commande au sous ensemble des observations pour lesquelles l expression logique exp est vraie, c est à dire différente de la valeur 0. Exple : list listevar if var==1 Le suffixe [in intervalle] Ce suffixe est moins courant dans la pratique, car il suppose de bien connaître l ordre dans lequel sont classés les observations du fichier. Il permet d exécuter la commande pour certaines observations. Exple : list listevar in 10/12 qui nous donne la liste des variables demandées pour les observations 10, 11 et 12. Le format des données Afin de faciliter la lecture des gros fichiers, il est recommandé d adapter le format des variables au mieux. Pour ceci, la commande compress permet d adapter le bon format aux variables. Il faut le faire avant de sauvegarder un fichier. Les fichiers de données Les fichiers Stata sont toujours rectangulaires, c est à dire que chaque ligne a le même nombre de colonnes, et chaque colonne le même nombre de lignes. Cela signifie en particulier que l on ne peut avoir une case vide dans le fichier lorsqu une variable n est appliquée à aucune unité d observation, ou lorsqu une unité d observation ne dispose d aucune variable. Chaque fois que c est le cas, Stata attribuera à cette case un code spécial correspondant à une valeur manquante, qui apparaît sous forme d un point «.». Saisir des petits fichiers : le tableur de Stata edit Pour activer l éditeur de Stata, cliquez sur le bouton Editor. Vous verrez apparaître une nouvelle fenêtre Stata Editor fonctionnant comme un tableur classique. Pour donner des noms aux variables, il suffit de cliquer deux fois sur la colonne correspondant à la variable. Une nouvelle fenêtre apparaît qui permet de changer le nom («Name»), le libellé («Label») et même le format d affichage de la variable («Format»). Couper dans la fenêtre d un tableur et coller sur le tableur intégré de Stata Le fameux couper-coller des environnements Windows et MacIntosh est certainement la plus agréable façon de transférer les données vers l éditeur de Stata. L inverse est également possible. Sélectionnez les données à copier dans le tableau d une feuille de calcul. Quelle que soit la présentation du tableau dans le tableur ou le traitement de texte, l important est que dans la partie - 5 -

sélectionnée, chaque colonne définisse une variable (et une seule), à l exception de la première qui définit le nom des variables. Ensuite, copiez en mémoire la sélection de cellules, puis placez-vous dans la fenêtre de l éditeur de Stata, et cliquez sur la première cellule en haut à gauche. Tirez sur le menu Edit de la fenêtre principale de Stata et cliquez sur Paste. Création et corrections de variables Les commandes generate et replace La commande generate crée de nouvelles variables. Elle a la syntaxe de base suivante : [by listevar :] generate var = exp [if exp] [in intervalle] La commande replace utilise la même syntaxe, sauf qu elle s applique aux variables déjà existantes. Comme on le voit, cette syntaxe est simple, ce qui n est pas le cas de la forme que peut prendre exp. La première expression exp (après le signe =) spécifie le contenu de la variable, c est à dire le plus souvent une valeur numérique. La seconde expression exp (après if) doit être formulée comme une expression logique dont le résultat est soit vrai soit faux : la création (ou le remplacement) de la variable est restreint aux observations pour lesquelles le résultat de l expression est vrai. Les opérateurs arithmétiques Les opérateurs arithmétiques de Stata sont bien classiques : + (addition), - (soustraction), * (multiplication), / (division), ^ (puissance), tout comme les opérateurs relationnels > (supérieur), < (inférieur), >= (supérieur ou égal), <= (inférieur ou égal). C est peut être moins le cas des opérateurs relationnels == (égal) ou ~= (différent, que l on peut aussi écrire!=), et des opérateurs logique & (et), (ou bien), et ~ (non). En effet Stata distingue le signe = (affectation d une valeur) du signe == (égalité entre deux valeurs). Dans le cas d une affectation d une valeur à une variable, la variable apparaît à gauche du signe = tandis que la valeur affectée apparaît à droite. Au contraire, dans le cas d une égalité entre deux valeurs, l ordre peut être inversé sans que cela affecte l égalité logique. Les expressions logiques sont particulièrement utiles pour créer des variables dichotomiques, c est à dire qui ne prennent que deux valeurs, 0 et 1. En effet, une expression logique, c est à dire une expression où interviennent les opérateurs relationnels >, <, >=, <=, ==,!=, ou bien les opérateurs logiques &,, et ~, est codée 1 lorsque son résultat est vrai, et codée 0 lorsque son résultat est faux. Les fonctions mathématiques, statistiques, etc. De nombreuses fonctions sont disponibles dans Stata : elles apparaissent dans des expressions (notées exp), et elles ont chacune un nom et un ou plusieurs arguments ordonnés : Nomfonction (arg1 [,arg2 ]) - 6 -

Chaque argument peut lui-même être composé d une expression ou d une fonction. Ainsi, on peut combiner plusieurs fonctions (à conditions que cela ait un sens). Nous ne mentionnerons ici que quelques fonctions, les plus utiles et les plus communes pour la création de nouvelles variables : cond(), int(), et round(). Cond() exprime la condition : Cond(exp,a,b) Si l expression exp est vrai, la fonction reticent la valeur a et sinon la valeur b. Les valeurs a et b peuvent prendre la forme d expressions, y compris la valeur manquante. La fonction int(x) retient l entier de x obtenu par troncature. Ainsi, la valeur 2,123 est évaluée à 2 et la valeur 1,89 à 1. La valeur de x est obtenue à l aide d une expression ; l important est que le résultat de l expression soit un nombre. Le résultat est très différent avec la fonction round(x,y) qui arrondi la valeur 2,123 à 2 tout comme 1,89. La précision de l arrondi est définie par y, c est à dire que x est arrondi au plus proche multiple de y. Ainsi round(2,123,.1) est évalué à 2,1. Là aussi x et y peuvent être obtenus à l aide d expressions. Quelques précautions à prendre Tout d abord, il faut savoir que Stata attribue une valeur manquante à toute opération arithmétique impossible (par exemple une division par 0) ou pour toute opération sur une valeur manquante. C est parfaitement logique, mais c est quelque chose qu on oublie facilement. Une autre source très fréquente d erreur, plus insidieuse celle-là, est l utilisation des signes > ou >= dans le cas où la variable contient des valeurs manquantes. Dans Stata, les valeurs manquantes sont considérées comme supérieurs à n importe quelle autre valeur. A moins d être assuré qu aucune variable n est codée manquante pour aucune observation dans le fichier, il vaut mieux toujours effectuer les calculs pour les variables renseignées, c est à dire non manquantes. L option if est un excellent garde fou. Ceci nous amène à une autre source d erreur, la confusion entre l expression (logique ou non) qui spécifie le contenu de la variable, et l expression logique de l option if qui restreint le calcul à certaines observations. Par exemple, la commande : Generate newvar=var==x A une signification très différente de la commande : Generate newvar=1 if var==x Dans le premier cas, la variable newvar est égale à 1 pour les observations qui vérifient la condition logique var=x, et à 0 pour les autres observations. Dans le deuxième cas, la variable newvar est égale à 1 pour les observations qui vérifient la condition var==x, et elle sera codée manquante pour les autres observations. - 7 -

Les corrections par edit Une alternative à Replace sous Windows est l éditeur de Stata auquel on accède par le bouton Edit ou par la commande edit. Le bouton Edit est équivalent à la commande edit sans argument, c est à dire que l ensemble du fichier est accessible sans restriction sur les observations ou les variables. S il il s agit simplement de consulter le fichier, il est préférable d utiliser le bouton Browse ou bien la commande du même nom, comme alternative à la commande list. Lorsqu il s agit de modifier des données, il est préférable de restreindre l affichage de l éditeur aux seules variables et observations à modifier. Cela vous évitera des erreurs de manipulation que vous pourriez regretter. Pour cela, une fois dans l éditeur, utilisez le bouton Hide pour cacher certaines variables. Mais il est préférable d utiliser les options if et in de la commande edit pour restreindre l édition non seulement à certaines variables mais aussi à certaines observations. Par exemple : Edit var1 var2 if var3==x Le même principe vaut pour corriger une seule observation: Edit var1 var2 in x X est le numéro de l observation. A ce sujet, il faudra faire attention au tri effectuer sur le fichier avant la commande edit, à moins qu il y ait une variable identifiant. Pour effacer des données, les commandes sont drop et delete. A utiliser avec prudence. L avantage de l éditeur est la touche Restore qui permet de revenir au fichier non modifié en cas d erreur. L adressage par ligne Chaque fois que Stata ouvre un fichier de données, deux variables systèmes sont crées : _n qui contient le rang courant de chaque observation dans l ordre du fichier _N qui contient le rang de la dernière observation Elles sont appelées «variables systèmes» parce qu elles peuvent être utilisées mais ne peuvent pas être modifiées. Les statistiques simples Stata offre de nombreuses commandes pour l analyse des données, autant sous forme de tableaux que de graphiques. La forme des tableaux dépend du nombre de variables croisées. Lorsqu une seule variable est décrite, on parle de distribution univariée, ou de fréquence simple. Pour deux variables, on parle de distribution bivariée, et, au delà de deux variables, de distribution multivariée. Plus le nombre de variables est élevé, plus la lecture sera complexe : un tableau croisant plus de quatre variables est souvent incompréhensible pour une personne normalement constituée (y compris un statisticien). - 8 -

Résumé des variables et fréquences simples La première chose à faire avant de travailler sur un fichier est d examiner l ensemble des variables, pour détecter d éventuelles erreurs à la saisie ou lors du transfert des données, et surtout pour se familiariser avec les données. La commande codebook listevar donne une description adaptée aux variables alphanumériques et numériques. Parmi les variables numériques, elle distingue automatiquement les variables continues et discrètes. Pour être considérée comme discrète, une variable doit avoir au maximum 9 catégories distinctes. La commande summarize listevar permet aussi de résumer la distribution, en particulier pour les variables numériques continues. L option detail permet une description plus précise des variables continues, incluant les pourcentiles, les quatre plus grandes (Largest) et plus basses (Smallest) valeurs. A l inverse de la commande summarize, la commande tabulate est utile pour les variables discrètes. Tableaux croisés à deux variables La commande tabulate devient vraiment intéressante pour croiser les distributions de deux variables discrètes. La syntaxe de base de cette commande est : Tabulate varligne varcol Les modalités de la première variable citée figurent en ligne, tandis que les modalités de la deuxième apparaissent en colonne. Des options permettent d obtenir les pourcentages en ligne (row), en colonne (column) ou par cellule (cell) du tableau. Pour afficher les pourcentages sans les fréquences, on utilisera l option nofreq. La commande tabulate prévoit par défaut un maximum de 5 modalités en colonnes, ce qui explique que le tableau soit scindé en deux afin de tenir sur les 80 caractères que comporte une ligne sur l écran. Notez que la colonne Total fait référence au total général et non au total de chaque partie du tableau. Avec l option wrap, le tableau n est pas scindé en deux car aucune limite n est imposée au nombre de colonnes : tabulate varligne varcol, wrap Pour une représentation à l écran d un tableau croisé avec l option wrap, il y aura problème car le nombre de modalités ne permettra pas d avoir une vue générale du tableau. Mais si les résultats sont enregistrés dans un fichier «*.log», un tableau de plus de 5 colonnes pourra être imprimé sur une feuille en format paysage par exemple. Il peut arriver qu une variable ne soit pas renseignée pour certaines catégories d observations : dans ce cas, seules les observations pour lesquelles les variables croisées sont renseignées figureront dans le tableau. Pour que la totalité des observations (y compris celles dont les valeurs sont manquantes) figurent dans le tableau, on utilisera l option missing. Dans ce cas, une modalité intitulée «.» sera ajoutée aux colonnes ou aux lignes déjà présentes. - 9 -

Tableaux croisés à trois variables ou plus Le préfixe by listevar est utilisé pour produire des tableaux croisés à deux variables pour chaque combinaison des modalités énumérées dans listevar. Si une seule variable est énumérée dans listevar, on obtient un tableau croisé à trois variables, si deux variables sont énumérées, un tableau croisé à quatre variables, etc. Le préfixe by nécessite un tri préalable selon les variables énumérées : sort var by listevar: tabulate varligne varcol Les graphiques Tout comme les tableaux, les graphiques peuvent être univariés, bivariés ou multivariés. Mais ils ont l avantage sur les tableaux qu ils peuvent rendre compte plus facilement des variables continues, alors que les tableaux se limitent généralement aux variables discrètes (ou ordonnées) pour un nombre réduit de catégories. Pour ce qui concerne les options communes à tous les types de graphiques, la syntaxe de base de la commande graph est : Graph [listevar] [,options spécifiques au type de graphique by(nomvar) total x/y/r/tlabel x/y/r/ttick x/y/r/tline x/y/rscale y/x/rlog symbol(s..s) connect(c..c) saving(nomfichier, [replace])] Les options communes concernent essentiellement la mise en forme du graphique: libellés (label), graduations (tick), lignes (line), échelle des axes (scale, log), symbols (symbol), liaison des points (connect). La commande graph produit par défaut un histogramme lorsqu une seule variable figure dans la liste des variables. La commande hist est plus adaptée aux variables discrètes L option pie, avec graph, permet d obtenir des camemberts : graph listevar, pie by (var) - 10 -

ANNEXES Annexe 1 : Récapitulatif INITIATION STATA RECAPITULATIF DE QUELQUES COMMANDES DU LOGICIEL STATA Charger un fichier : Use «c:\adresse\nom de fichier» dans la ligne de commande, ou «Ouvrir» dans le menu. Sauvegarder un fichier Save «nom de fichier» Save «nom de fichier», replace (si le fichier est déjà existant) Ou «Save» dans le menu. Enregistrer les résultats d une séance de travail Log using «nom de fichier log» Log off (interruption de l enregistrement) Log on (reprise de l enregistrement) Log close (à la fin) Rajout d enregistrement d une séance de travail (de la veille par exemple) Log using «nom de fichier log», append Remplacement d enregistrement d une séance de travail Log using «nom de fichier log», replace Ajouter un commentaire dans le fichier.log On place une * avant le commentaire On place /* avant et */ après le commentaire si on insère celui-ci au milieu d une ligne de commandes La syntaxe des commandes de stata List : propose la liste complète des variables du fichier (on peut choisir les var) Sort «nom de var» : permet de trier le fichier en fonction d une variable By «nom de var» : list «noms des var choisis» : propose la liste des variables choisies, triées en fonction d une variable (nécessite de trier le fichier avant) «Commande» «nom de var» in «intervalle» :exécute une commande pour un certain nombre d observations (attention à l ordre de tri) If :permet d imposer une condition à la commande - 11 -

Noobs : se situe en fin de commande, précédé d une virgule. Permet de ne pas afficher les numéros des observations Nodisplay : Même fonctionnement que Noobs mais concerne la présentation, permet l affichage en lignes Nolabel : Même fonctionnement que Noobs, affiche la version dichotomique des donnés Les types de stockage Un bon stockage permet d optimiser l utilisation de la mémoire, et une bonne pré définition du stockage affine les analyses. Il existe 5 types de stockage, allant du plus petit au plus volumineux : byte- int- long- float- double Les types int et long ne peuvent stocker que des entiers Compress : commande demandant à stata d adapter au minimum les types de stockage Les variables numériques prennent autant de bytes que de caractères Les formats numériques de lecture et d affichage 3 types de formats : e (physique), f(sciences humaines) et g(mixte) format «nom var» %8.4f : commande à stata d afficher la variable désignée avec 8 caractères (signe + ou inclus) avant la décimale et 4 après. Les libellés du fichier, des variables et des valeurs Ces libellés apparaissent principalement lors de la commande describe Label data «blabla» : donne une description, en 31 caractères maximum, du fichier. Label var «nom var» «blabla» : donne une description plus concise de la variable Label define «nom catégorie» 1 «blabla» 2 «bla» etc. : permet de donner une signification aux différents codes attribués pour une variable. Lalel define «nom cat.», add : permet de rajouter une valeur avec signification Label list «nom catégorie» : donne la liste des significations attribuées aux codes Remarque : Si on utilise la commande label define sans préciser un nom de catégorie, cela s appliquera à toutes les variables proposant le codage correspondant Encode : cette commande fait le travail inverse, à partir d une variable alphanumérique elle crée une nouvelle variable numérique Fusion de fichiers Append : permet de fusionner des fichiers ayant des informations sur des observations différentes Merge : permet de fusionner des fichiers ayant des informations sur les mêmes variables Démarche pour append : use «nom de fichier 1» Append using «nom de fichier 2» Démarche pour merge : use «nom de fichier 1» sort «var commune» use «nom de fichier 2» - 12 -

sort «var commune» merge «nom de var commune» using «nom de fichier 1» Remarque 1 : Il faut choisir comme fichier maître le fichier dont les libellés sont les plus clairs, ou les plus récents, car ceux de l autre fichier ne seront pas pris en compte. Remarque 2 : La commande merge crée une variable _merge codée comme suit : 1. Si l observation ne figure que dans le fichier maître 2. Si l observation ne figure que dans le fichier appelé 3. Si l observation figure dans les deux fichiers Si on a 2 fichiers avec des variables communes, mais l un à des observations manquantes ou «périmées», on utilisera alors la commande : Merge «var commune» using «nom de fichier», update replace Remarque 3 : On aura alors deux codes supplémentaires pour _merge : 4. Si l observation contenait des valeurs manquantes dans le fichier maître, actualisées par celles du fichier appelé (commande update) 5. Si l observation contenait des valeurs non manquantes dans le fichier maîtres mais mises à jour par celles du fichier appelé (commande replace) Les commandes generate et replace Generate : permet de créer de nouvelles variables Replace : permet de remplacer des variables déjà existantes Remarque : l utilisation de ces commandes se fait comme suit : Generate «nom nlle var»= Replace «nom var»= Les opérateurs arithmétiques, relationnels et logiques Ceux sont les opérateurs arithmétiques classiques : +, -, *, /, ^, >, <, >=, <= Les opérateurs relationnels sont : = (affectation d une valeur), = = (égal), ~= (différent), & (et), (ou bien), ~ (non) Les opérateurs logiques permettent un recodage utile à l analyse, exemple : Generate ouest=cond(region= =4,1,0) Mais il y a des risques d erreurs d inversion entre 1 et 0, on utilisera plutôt la façon abrégée: Generate ouest=region= =4 Les fonctions mathématiques, statistiques, etc. (les plus communes) Cond() : impose une condition Int(x) : retient l entier de x obtenu, par défaut Round(x,y) : arrondi le résultat x au plus proche multiple de y Sum(nom var) : cumule les valeurs d une variable ATTENTION :lors d un calcul, les valeurs manquantes sont considérées dans Stata comme supérieures à n importe quelle valeur. Pour éviter ce genre d erreur, on utilise la fonction IF. Exemple : generate urbain=region!=3 & region!=4 if region!=. - 13 -

De plus, IF ne doit pas être pour créer une variable dichotomique. Elle est nécessaire pour restreindre un calcul et corriger les valeurs d une variable déjà existante. Les corrections sous Editor Edit : Commande qui permet d accéder à l editor (on peut aussi y accéder avec le menu Windows) de façon précise, à l aide de IF et des autres fonctions Drop ou delete :Commandes de suppression Les corrections à l aide d un fichier.do Ceux sont des fichiers programme. On les utilise de 2 façons : Pour la création et la modification de variables, présenté sous la forme suivante : 1.* nom et date du programme use c:\chemin du fichier original save «nom de fichier» commandes souhaitées save «nom de fichier», replace 2. * nom et date de création du programme log using «nom fichier résultats» use «nom de fichier» commandes souhaitées log close Remarque : L exécution d un programme.do s interrompe lorsqu il contient une erreur. L adressage par ligne Chaque fois que Stata ouvre un fichier de données, 2 variables systèmes sont crées : _n qui contient le rang courant de chaque observation dans l ordre du fichier _N qui contient le rang de la dernière observation, Elles sont utilisables mais pas modifiables. Annexe 2 : Ouvrages sur Stata - User s Guide de Stata, éditions Stata - L essentiel de Stata par Philippe Boquier aux éditions Global Design - 14 -