Introduction à SAS 9

Dimension: px
Commencer à balayer dès la page:

Download "Introduction à SAS 9"

Transcription

1 M2 IFMA et MPE, Université Paris 6 Bertrand MICHEL Introduction à SAS 9 Procédures statistiques élémentaires et analyse de données Table des matières 1 Description générale du logiciel SAS Documentation Les fenêtres de SAS Articulation d un programme SAS Options, titres, commentaires, etc Création de tables SAS Le vecteur de travail L étape data par saisie des données dans l éditeur Créer une table à partir d un fichier de données Affichage des données Bibliothèques SAS Manipulation de tables SAS Création et sélection de variables Numéroter les observations Sélection d individus Fusions verticales et horizontales Boucles et structures conditionnelles L instruction OUTPUT L instruction retain Variables simulées Procédures graphiques Nuages de points et courbes Diagrammes Diagrammes à moustaches La procédure sgscatter Procédures statistiques élémentaires La procédure univariate La procédure freq pour le croisement de deux variables catégorielles La procédure corr La procédure ttest Modèle linéaire : les procédures reg et anova La régression simple La régression multiple Diagnostic de l influence des observations La procédure anova pour un facteur

2 7 Analyse en composantes principales avec la procédure princomp 31 8 Analyse des correspondances avec la procédure corresp 32 9 Analyse discriminante Analyses discriminantes linéaire (ADL) et quadratique (ADQ) avec la procédure discrim Régression logistique binomiale avec la procédure logistic Exploration interactive de données Macros variables et macro-programmes Macro-variables Macro-programmes Compilation, stockage et exécution d un macro-programme Macro-programmes pour l analyse de données Affichage et édition des sorties, système ODS Affichage des sorties Sauvegarde directe de sorties depuis un listing Description du système ods (Output Delevry System) Description générale du logiciel SAS SAS - Statistical Analysis System - est un logiciel polyvalent qui traite de nombreux domaines de la Statistique. De conception américaine, il est développé par la société SAS-Institute et a acquis depuis la mise en route du projet au début des années 60 une situation dominante dans de nombreuses branches d activités économiques. SAS est un logiciel multi-facettes capable de gérer de gros volumes de données (tableaux de plusieurs gigaoctets) pour effectuer des analyses statistiques très complètes. Le fonctionnement du logiciel peut paraître peu intuitif pour le débutant ; prenez le temps nécessaire pour bien comprendre comment manipuler les données et utiliser les procédures SAS. 1.1 Documentation En complément de ce document, de nombreuses références peuvent être consultées. Voici quelques références utiles : Maîtriser SAS base et SAS macro, H. Kontchou Kouomegni et O. Decourt. Un ouvrage en français pour bien débuter avec SAS. Les procédures statistiques y sont peu décrites. L aide en ligne est la bible de l utilisateur de SAS. Pour trouver de la documentation sur une procédure truc, le plus simple est d ouvrir la page de l aide intitulée The truc Procedure : The truc procedure. Celle-ci permet d accéder aux différentes sections consacrées à la procédure : Overview, Getting started, Syntax, Details, Overview, Exemples et References. La liste des procédures de SAS/STAT est accessible depuis cette page en développant l onglet procédures dans le menu à gauche. De nombreux polycopiés sont disponibles sur internet ; nous encourageons le lecteur à consulter notamment : SAS sous Unix : Logiciel hermétique pour système ouvert disponible sur la page de son auteur P. Besse. Le polycopié très complet d Eric Preud Homme. Nous recommandons enfin au lecteur de consulter la page de G. Saint-Pierre où sont répertoriés une liste de liens internet consacrés à SAS. 2

3 1.2 Les fenêtres de SAS A l ouverture de SAS, de nombreuses fenêtres s ouvrent simultanément. Sous la version 9.3 de Windows, celles-ci sont organisées dans une même fenêtre SAS. Sous Linux (version 8) celles-ci se superposent à l écran de façon désordonnée, à vous d organiser vos fenêtres de façon à pouvoir passer facilement de l une à l autre au cours de votre session. Les trois fenêtres suivantes sont les plus importantes : SAS : Program editor : il s agit de l éditeur de SAS dans lequel on entre tous les programmes à exécuter. L éditeur de la version Windows est tout à fait convenable, en revanche celui proposé par la version Linux est à proscrire! Dans ce second cas il est préférable de rédiger les codes dans un éditeur de son choix, avant de les copier dans le program editor pour les soumettre à SAS (à l aide du bouton submit ou des menus du logiciel). SAS : Log : il s agit de la fenêtre de contrôle qui permet de s assurer du bon fonctionnement du programme. Le programme y est écrit en noir avec ses commentaires en vert. On peut y lire les messages d avertissement de SAS en vert pour un problème non fatal, et en rouge, précédé de warning lorsqu une erreur fatale est détectée. Prenez l habitude de toujours contrôler la bonne marche du programme dans cette fenêtre Log. SAS : Output : dans cette fenêtre s affichent les listings obtenus après soumission d une procédure. On peut choisir de produire des sorties sous la forme de listings ou sous la forme de sorties html. Pour la version 9.3, c est cette dernière solution qui est activée par défaut. De plus, la commande ods graphics on est active elle aussi par défaut : des graphiques seront donc produits automatiquement pour la plupart des procédures. Pour plus de détails sur le gestion du mode d affichage des sorties, reportez-vous à la section Deux autres fenêtres de navigation sont aussi disponibles : SAS : Results : cette fenêtre dresse l historique des procédures successives exécutées par SAS depuis le début de la session en cours. Les raccourcis affichés dans cet historique permettent de naviguer aisément dans les listings obtenus dans la fenêtre Output. SAS : Explorer : il s agit de l explorateur de SAS. Il permet d accéder aux bibliothèques SAS dont notamment la bibliothèque Work associée par défaut à la session courante. 1.3 Articulation d un programme SAS Un programme SAS est un enchaînement d étapes data permettant de créer des tables SAS, et de procédures proc qui appliquent à ces tables les analyses demandées par l utilisateur. Pensez à sauvegarder vos programmes régulièrement pour éviter de perdre le travail en cours en cas de bug, qui se produisent malheureusement assez souvent. Gestion des données : l étape data. Pour pouvoir appliquer des procédures à des données, cellesci doivent être préalablement enregistrées sous la forme d un objet SAS, c est-à-dire sous la forme d une table. Il existe trois principales façons de créer une table SAS à partir de données ; on peut : lire directement les données en les incluant dans le programme au moyen de l instruction datalines (ou cards) ; lire des données préalablement enregistrées dans un fichier (par exemple au format.txt) au moyen de l instruction infile, ou encore avec la procédure import ; utiliser le gestionnaire d importation. Les procédures SAS. Un programme SAS est un enchaînement de procédures, chacune réalisant un traitement sur les tables disponibles. Voici quelques exemples de procédures standards : print : afficher le contenu d une table dans la fenêtre Output ; sort : ordonner une table selon les valeurs d une variable ou plusieurs variables ; gchart : création de diagrammes ; gplot : création de graphiques pour des variables continues ; 3

4 boxplot création de boîtes à moustaches ; means, univariate : description de variables continues ; freq : description de variables catégorielles ; corr : étude des corrélations entre des variables continues ; reg : modèles de régression ; anova : modèles anova ; princomp et corresp : analyse des composantes principales et analyse factorielle des correspondances. Instructions. On appelle instructions les commandes successives dans une étape data ou dans une procédure, une instruction se termine par un point virgule ;. Les instructions peuvent comporter des commandes spécifiques : des attributs si elles sont nécessaires ou des options (parfois notées entre crochets < une option> dans ce document) dans le cas contraire. Notez que la casse n est pas prise en compte sous SAS : pas de différence entre majuscules et minuscules dans l écriture d une instruction (ou dans l écriture du nom d une table). 1.4 Options, titres, commentaires, etc. Options générales. Ces commandes peuvent être rajoutées au début d un programme SAS pour régler les options générales (elles continueront à s appliquer jusqu à la fin de la session SAS, ou jusqu à ce qu elles soient modifiées). On les indique avec la commande options : pagesize spécifie le nombre de lignes dans une page de sortie output, linesize spécifie le nombre de caractères par ligne (utile notamment lorsque l on souhaite éditer ou imprimer les sorties), nodate supprime l impression de la date dans les sorties, pageno=3 numérote les pages des sorties à partir de la valeur imposée (ici 3), libname permet de déclarer une bibliothèque (voir la section 2.5). Titre. La commande title; permet de placer un titre en haut de chaque page des sorties. title ceci est un titre ; Toutes les sorties qui suivront afficheront ensuite ce titre. La commande title; ne produit aucun titre, et annule donc l affichage systématique d un titre défini précédemment. Pied-de-page. La commande Footnote permet de placer un titre en bas de chaque page des sorties. footnote ceci appara^ıtra en bas de page ; Commentaires. Des commentaires peuvent être insérés n importe où dans un programme SAS, ils doivent être rédigés de la façon suivante pour une seule ligne : /* ceci est un commentaire */ et sur plusieurs lignes : /* ceci est un autre commentaire */ 4

5 Changer le répertoire de travail. SAS sous Windows : double clic sur l adresse du répertoire (en bas à droite de la fenêtre) ou Tools Options Change Directory. SAS sous Unix : Tools Options Change Directory. 2 Création de tables SAS Les nombreuses procédures de SAS ne peuvent prendre en entrée que des données sous la forme d une table SAS. L étape data a pour objet de créer ou modifier une telle table SAS. L utilisation du gestionnaire d importation est la méthode la plus simple pour importer des données. Cependant ceci n est possible que si les données ont été enregistrées dans un format lisible par le gestionnaire de SAS. De plus, le gestionnaire importe souvent les variables de la base de données initiale sous de mauvais formats. Il est donc important de maîtriser aussi l importation de données en ligne de code. 2.1 Le vecteur de travail Une table SAS est un tableau dans lequel les lignes représentent les individus alors que chaque colonne est une variable, comme c est souvent le cas en statistique. De façon générale, SAS est conçu pour travailler ligne par ligne. Au cours d une étape data, SAS lie, crée ou modifie les données en extrayant l une après l autre les lignes d une table (ou d un fichier de données) pour les placer dans le vecteur de travail. Les opérations sur les variables sont ensuite effectuées au niveau du vecteur de travail, ligne après ligne. On appelle ce principe la boucle implicite. Ce mode de fonctionnement permet une programmation très sobre, par exemple : Var3 = Var2 - Var1 pour créer une variable Var3 en fonction de variables existantes Var1 et Var2. En revanche, il est plus compliqué d effectuer des opérations entre lignes (voir plus loin l instruction retain). L extraction d une ligne correspond à une phase de lecture. En sortie du vecteur de travail, il s agit cette fois d une phase d écriture des informations (i.e. des variables), dans la table créée. Avoir à l esprit cette représentation schématique éclaire de nombreux aspects à première vue obscurs de l étape data de SAS. 2.2 L étape data par saisie des données dans l éditeur La première solution pour créer une table SAS est de saisir les données directement dans l éditeur. Voici un exemple pour une telle étape data : data Matable ; infile datalines ; input prenom $ sexe $ taille poids ; datalines; Paul H Gérard H Emilie F Agathe F ; Le nom de la table créée (ici Matable) est donné juste après l instruction data. La déclaration des variables est obligatoire, les variables doivent être énumérées après l instruction input dans le bon ordre. Les symboles $ dans l instruction input indiquent que les variables prenom et sexe sont de type alphanumérique c est-à-dire des chaînes de caractères. La commande datalines dans l instruction infile indique que les données sont données dans le code, à la suite de l instruction datalines. L usage des instructions infile et input est détaillé dans la section suivante. 5

6 2.3 Créer une table à partir d un fichier de données Les instructions infile et input permettent d importer les données d un fichier externe de type.txt en précisant à SAS quels sont les formats des variables et comment celles-ci sont organisées dans le fichier. Le schéma élémentaire de l étape data est ici le suivant : data Nouvelletable; infile chemin du fichier lu input Var1... Varp ; < options>; Notez que le chemin du fichier remplace la commande datalines utilisée lorsque les données sont saisies dans le code. Dans ce polycopié, pour faciliter la lecture de la syntaxe, on indique les options en les encadrant par les symboles < et >. Cependant, dans le vrai code SAS il ne faut pas encadrer ainsi les options. L instruction input et les informats. L instruction input déclare les données à importer et les décrit à l aide des informats que sont les formats à considérer pour la phase de lecture des données. Il est en effet nécessaire de préciser à SAS sous quels formats les données doivent être lues à la source. Voici les syntaxes principales : pour une variable numérique : NomVar :X. pour des variables entières et NomVar :X.Q pour des variables décimales. Dans ce dernier cas, X indique le nombre total de caractères à lire (point compris), et Q est le nombre total de décimales. pour une variable alphanumérique : NomVar :$X. où X indique le nombre de caractères (8 par défaut et donc au-delà il faut le préciser). pour une date : NomVar :YYMMDD10. ou NomVar :YYMMDD8. voir l aide de SAS pour les autres formats. Les deux points : sont là pour donner la priorité au délimiteur sur le format, ce qui signifie que le long d une ligne, SAS passera d une variable à la suivante sans nécessairement atteindre le nombre total de caractères déclarés. L instruction infile. L instruction infile indique le chemin d accès au fichier de données brutes. Voici quelques options utiles de cette instruction, : firstobs = indique le numéro de la première ligne lue. dlm =, déclare le caractère séparateur (ici la virgule). Le séparateur par défaut est l espace, le séparateur tabulation se déclare par dlm = 09 x. dsd indique que la présence de deux séparateurs consécutifs sera interprétée comme une donnée manquante. missover est aussi utile pour les données manquantes : si une ligne du fichier ne comporte pas assez de données par rapport aux variables déclarées dans l instruction input, cette option force SAS à compléter la ligne par des données manquantes dans la table. Sans cette option il y a passage à la ligne automatique dans le fichier tant que la ligne de la table n a pas été entièrement renseignée. Nous donnons maintenant les étapes data pour créer des tables dans 3 situations parmi les plus courantes. Une observation par ligne. des espaces) : Voici le contenu du fichier EX1.txt (les données sont séparées ici par Paul H Gérard H

7 Emilie F Agathe F L étape data suivante permet de créer une table SAS contenant les informations de ce fichier : data Matable1 ; infile EX1.txt ; input prenom $ sexe $ taille poids ; Une observation sur plusieurs lignes. Dans ce cas chaque individu est décrit par des variables disposées sur plusieurs lignes consécutives. Plusieurs déclarations input ou des caractères / permettent de préciser le découpage. Voici le contenu du fichier EX2.txt (séparateur ;) Paul;H 160;82 Gérard;H 185;75 Emilie;F 158;45 Agathe;F 171;60 et l étape data associée : data Matable2 ; infile EX2.txt dlm= ; ; input prenom $ sexe $ / taille poids ; Plusieurs observations par ligne. Le double a pour effet de maintenir un article dans le buffer de lecture jusqu à ce qu il soit complètement lu, ce qui permet de lire plusieurs observations positionnées sur une même ligne. Voici le contenu du fichier EX3.txt (séparateur ;) ; Paul;H;160;82;Gérard;H;185;75 Emilie;F;158;45 Agathe;F;171;60 et l étape data associée : data Matable3 ; infile EX3.txt dlm= ; ; input prenom $ sexe $ taille Lecture formatée. Dans certains fichiers, chaque variable est positionnée dans le fichier à un emplacement fixe (une colonne ou champ). Dans ce cas, les variables ne sont donc plus identifiées grâce aux séparateurs, mais par la position précise qu elles occupent dans le fichier. Il faut alors indiquer explicitement à SAS dans l instruction input la position que chacune des variables occupe. Voici le contenu du fichier EX4.txt 7

8 Paul H Gérard H Emilie F Agathe F et l étape data associée : data Matable4 ; infile EX4.txt ; input prenom $ 1-8 sexe $ 9 taille poids 17-18; 2.4 Affichage des données Une étape data n affiche pas la table créée dans la fenêtre des sorties comme c est le cas pour la plupart des procédures. Il est possible de la visualiser depuis sa bibliothèque dans la fenêtre d exploration (voir la section 2.5), il est également possible de l afficher grâce à la procédure print : proc print data = Matable; Une des subtilités de SAS est la différence entre les formats utilisés pour la lecture des données (dans un fichier par exemple) et les formats utilisés pour l affichage des données. En effet SAS n utilise pas toujours l informat comme format d affichage des données, c est par exemple le cas pour les variables de type dates et aussi pour le nombre de décimales conservées dans les variables numériques, qui est de 4 par défaut. Pour cela on peut indiquer directement les formats d écriture avec l instruction format. On peut aussi utiliser l instruction attrib qui permet en plus d affecter des labels aux variables et de contrôler la longueur des variables avec l option length. Voici le contenu d un fichier nommé fichex.txt Dupuis 56 12/01/53 Lefort 40 05/11/69 Mosnier 29 15/09/80 et le code sas permettant d importer les données avec l instruction attrib : data Tablefichex; infile fichex.txt ; /* délimiteur espace */ input Nom $ Age DN :DDMMYY8.; attrib DN Label = Date de Naissance format = DDMMYY8. nom Label = Nom de famille length = $15. age Label = age de l individu ; De façon générale, retenir qu il est préférable de récupérer toutes les informations disponibles dans la phase de lecture des données avec les informats, quitte à modifier ensuite les formats d affichage des variables avec la procédure attrib. La procédure contents permet d afficher toutes les propriétés d une table. Elle fournit en particulier le nombre d observations de la table, la liste des variables, les labels éventuels, les formats et informats des variables. La syntaxe est la suivante : 8

9 proc contents data = Tablefichex <varnum>; L option varnum permet d afficher les variables selon leur ordre dans la table. Sans cette option, les variables sont affichées dans l ordre alphabétique. Cette option est donc très utile pour désigner des séquences de variables (par ex. x1--x10) pour certaines procédures telles que les procédures reg ou princomp. 2.5 Bibliothèques SAS Les tables SAS sont rangées dans des bibliothèques (ou librairies). Une bibliothèque n est pas un emplacement physique sur le disque, mais plutôt un raccourci vers un répertoire physique du disque. Pour allouer une bibliothèque, c est-à-dire permettre à SAS d utiliser ou créer des tables dans un répertoire du disque, on peut au choix : utiliser le bouton nouvelle bibliothèque dans la barre d outil supérieure, après avoir activé la fenêtre de l explorateur ; utiliser l instruction libname : libname NOMLIB chemin du répertoire physique ; Notez que le nom d une bibliothèque ne doit pas comporter plus de 8 caractères (voir l aide de SAS pour plus de détails sur les caractères autorisés). L allocation d une bibliothèque est temporaire ; elle n a d effet que pour la durée d une session SAS. Pour la session en cours, les bibliothèque allouées ainsi que les tables qu elles contiennent sont accessibles depuis la fenêtre d exploration de SAS. Après avoir visualisé une table, pensez à refermer la fenêtre de visualisation car SAS ne peut utiliser la table tant que celle-ci est ouverte. La table TAB1 de la bibliothèque NOMLIB se désigne dans le langage de SAS par la syntaxe NOMLIB.TAB1. Il existe aussi des bibliothèques prédéfinies par SAS : la bibliothèque WORK : par défaut, les tables sont créées dans cette bibliothèque. Cependant, à la différence des autres bibliothèques le contenu de WORK est temporaire ; les tables qu elle contient sont effacées lorsqu une session est clôturée. Autre exception de cette bibliothèque, il n est pas nécessaire d utiliser la syntaxe WORK.TAB1 pour désigner la table TAB1 si celle-ci appartient à la bibliothèque WORK car TAB1 désigne par défaut une table de WORK. la bibliothèque SASHELP : contient de nombreux exemples de tables de données disponibles pour apprendre à utiliser les procédures de SAS. la bibliothèque SASUSER : c est la bibliothèque personnelle de l utilisateur. Par défaut, elle pointe généralement vers un sous-répertoire du dossier personnel de l utilisateur. 3 Manipulation de tables SAS 3.1 Création et sélection de variables Il est souvent nécessaire de créer de nouvelles variables à partir de variables définies dans une table. L instruction set permet de charger une table existante pour en utiliser les variables. Par exemple dans le code suivant, data Newtable; set Tablelue; NouvelleVar = Var1 + Var2; 9

10 la table Tablelue est chargée, la variable NouvelleVar est définie comme somme des variables Var1 et Var2 de la table Tablelue. Une nouvelle table Newtable est créée, elle contient la variable NouvelleVar en plus de toutes les variables de la table Tablelue. Si l on utilise le même nom pour la table créée et la table chargée, l ancienne table est écrasée par la nouvelle. Il est possible, au sein d une étape data, de supprimer certaines variables au moyen de l option drop = suivie de la liste des variables à supprimer. On peut aussi utiliser l option keep = qui permet de ne garder que certaines des variables de la table : data Newtable ; set Tablelue (keep = Var2); Notez que la suppression ou la sélection des variables est effectuée dans l instruction set, c est-à-dire dans la phase de lecture. 3.2 Numéroter les observations Pour ajouter une variable id numérotant les observations dans une table déjà créee, on peut utiliser la variable système _N_ : data NewTable; set Tablelue; id =_N_; 3.3 Sélection d individus Il est possible de supprimer certaines observations à l aide de l instruction where, comme l illustre l exemple suivant. On utilise la table Matable qui a été créée dans la section 2.2 : data Matable2; set Matable (where = (poids <= 80)); poids = poids + 10; Comme pour l exemple précédent, la sélection des individus est opérée dans la phase de lecture. En revanche, dans l exemple qui suit, on sélectionne les individus au moment de l écriture, c est-à-dire après avoir effectué les opérations, et la table obtenue n est donc pas la même que précédemment (Gérard est dans Matable2 mais pas dans Matable3) : data Matable3 (where = (poids <= 80)); set Matable; poids = poids + 10; Pour sélectionner un sous-échantillon défini par une condition, il est également possible d utiliser une instruction de la forme if CONDITION then output;. Par exemple dans le code suivant data Matable4; set Matable; if (poids <= 80) then output; 10

11 seuls les individus de poids supérieur à 80 sont présents dans la table Matable4. L instruction output permet ici d écrire les observations retenues dans la table (voir la section 3.5 pour plus de précision sur l utilisation de cette instruction). 3.4 Fusions verticales et horizontales La fusion verticale consiste à empiler les données de plusieurs tables SAS. Pour cela on utilise l instruction set afin de charger des tables SAS déjà existantes. SAS lit alors l une après l autre les lignes de la première table avant de passer à la seconde, etc. data newtable; set TableLue1 TableLue2...tableLuen; Si certaines variables ne sont pas présentes dans toutes les tables, la table créée comporte alors des données manquantes. La fusion horizontale de tables permet de rassembler dans une seule table des variables différentes décrivant un même groupe d individus. Avant d effectuer une fusion horizontale, les données doivent être préalablement triées selon des variables de recollement. La procédure sort permet de trier une table : proc sort data = tablelue < out = tablecréee > < nodupkey >; by Var1 < descending > Var2 < descending >... Varp < descending >; L instruction by indique à SAS selon quelle(s) variable(s) la table doit être triée. Par défaut il s agit d un tri croissant ; pour un tri décroissant on ajoute l option descending derrière la variable concernée. L option nodupkey supprime les doublons de la table, sachant que deux individus sont considérés comme identiques si les variables désignées par l instruction by coïncident pour ces deux individus. La fusion horizontale est ensuite effectuée à l aide de l instruction merge dans une étape data. On indique avec l instruction by quelles variables, communes aux deux tables, doivent être utilisées pour fusionner les données. data tablecréee; merge Tablelue1 Tablelue2; by Var1 Var2... Varp; Si certains individus ne sont pas représentés dans toutes les tables, la table finale comporte alors des données manquantes. 3.5 Boucles et structures conditionnelles Les boucles do end sont très utiles pour créer ou manipuler les variables, voici un exemple d une telle boucle : do a= 1 to 10; INSTRUCTIONS; end; SAS permet aussi d utiliser des boucles while : 11

12 do while ( CONDITION ); INSTRUCTIONS; end; ainsi que la structure conditionnelle : if CONDITION then do; INSTRUCTIONS; end; else do; AUTRES INSTRUCTIONS; end; De nombreux opérateurs sont supportés par les arguments des instructions where, while et if, en voici une liste non exhaustive : c, et s il s agit d une condition sur une variable alpha-numérique on utilise les guillemets : pas exemple V1 = "blabla" ; ^= (différent de) ; <, >, <=, >= ; IN (prend une valeur dans une liste) ; AND, OR L instruction OUTPUT Les boucles et les structures conditionnelles sont souvent utilisées conjointement avec l instruction output qui force SAS à écrire dans la table sur une ligne d observation toutes les variables disponibles dans le vecteur de travail au moment où cette instruction est rencontrée. Les quatre tables suivantes permettent d illustrer le fonctionnement de cette instruction. data Table1; do a = 1 to 3; end; data Table3; set Table2; do b = a to 3; c = a +b; end; data Table2; do a = 1 to 3; output; end; data Table4; set Table2; do b = a to 3; c = a +b; output; end; Les tables créées sont les suivantes : 12

13 Table1 Table2 Table3 Table4 obs a obs a obs a b c obs a b c L étape data définissant Table1 ne charge pas de table et ne contient pas d instruction output : SAS n enregistre dans la table qu à la fin de la boucle do ; la table ne contient donc qu une seule observation correspondant à la dernière valeur prise par a. L étape data définissant Table2 force SAS à enregistrer la valeur de a pour chaque tour dans la boucle ; la table contient donc trois observations. Pour l étape data définissant Table3, la première observation de Table2 est placée dans le vecteur de travail, SAS effectue la boucle et écrit dans la table les valeurs finales à la sortie de la boucle. On note que b prend la valeur 4 qui correspond à la dernière valeur autorisée dans la boucle plus un, alors que c = a + 3. SAS passe ensuite à la deuxième observation de Table2, effectue la boucle, etc. Dans Table4, chaque passage dans la boucle se traduit par une écriture dans la table, d où les 6 observations finales (3 pour la première observation de Table2, 2 pour la seconde et une seule pour la troisième). 3.7 L instruction retain Nous avons déjà indiqué plus haut que le principe de lecture des données par SAS rend délicates les manipulations entre lignes d une même table. L instruction retain permet toutefois de mémoriser des informations au fil des observations. Cette instruction empêche SAS de réinitialiser une variable avant de passer au traitement de l individu suivant dans la boucle implicite. Dans l exemple qui suit, la table TableRevenus contient une variable Revenus. Le code ci-dessous permet de définir une variable RevenusCum qui correspond aux revenus cumulés sur les premières observations. data TableRevCum ; retain numero RevenusCum ; /* la variable RevenusCum est initialisée à 0 */ set TableRevenus ; RevenusCum = RevenusCum + Revenus; 3.8 Variables simulées Comme la plupart des logiciels de statistiques, SAS dispose d un générateur de nombres pseudoaléatoires. L instruction rand permet de simuler toutes les lois classiques, elle prend en argument le type de loi et les paramètres éventuelles de celle-ci. Par exemple, l instruction rand( poisson,3); simule une variable aléatoire de loi de Poisson de paramètre 3. Pour contrôler plus précisément la façon avec laquelle les variables sont simulées, on peut utiliser une instruction spécifique à chaque type de loi : ranuni(s) pour une loi uniforme sur [0, 1], rannor(s) pour une loi normale centrée réduite, ranexp(s) pour une loi exponentielle, etc. La valeur s est appelée seed (c est-à-dire semence) et elle est utilisée pour calculer la première valeur simulée dans une série, chaque valeur étant ensuite calculée à partir de la précédente. Toute valeur négative entraîne l usage de l horloge de la machine comme semence. 4 Procédures graphiques Les deux principales procédures graphiques de SAS sont la procédure gchart (histogrammes en bâtons, diagrammes circulaires) et la procédure gplot (nuages de points). Les graphiques obtenus 13

14 apparaissent dans la fenêtre des résultats (sauf pour la procédure sgscatter, voir plus bas). Pour les effacer, on doit supprimer directement les fichiers dans le répertoire Gseg de la librairie Work. 4.1 Nuages de points et courbes La procédure gplot permet de tracer des nuages de points et des courbes. La syntaxe générale en est la suivante : proc gplot data= MaTable; by VarCat; /* optionnel */ title titre du graphe ; plot VAR1 * VAR2 / < options >; Toutes les variables VAR2, VAR1 (et éventuellement VarCat) doivent être disponibles dans une même table, ici MaTable, que l on mentionne au début de la procédure à la suite de data=. La variable VarCat étant supposée de type catégorielle, la commande optionnelle by VarCat construit autant de graphiques de VAR2 selon VAR1 que VarCat comporte de modalités, et ceci sans superposer les graphiques. Sur un même graphique de VAR2 selon VAR1, il est aussi possible de différencier les données provenant de la variable VarCat en utilisant la syntaxe VAR1 * VAR2 = Var3. L instruction plot permet de lister plusieurs graphiques dans une seule instruction : plot VAR1 * VAR2 VAR3 * VAR2 VAR4 * VAR2; Options de l instruction plot (n oubliez pas le symbole /) : L option overlay permet de superposer les nuages et les courbes mentionnés dans l instruction plot sur un même graphique : plot VAR1 * VAR2 VAR3 * VAR2 VAR4 * VAR2 / overlay; Les options href et vref permettent de tracer des lignes horizontales et verticales sur le graphique : plot VAR1 * VAR2 / href = 13.45; Les instructions symbol, symbol1, symbol2, etc. sont des options globales qui règlent les motifs utilisés dans les graphiques, elles sont données en dehors de la procédure. Ces instructions restent valables tant qu elles ne sont pas modifiées, ou annulées par l instruction goptions reset = symbol; (la commande goptions reset = all; réinitialise toutes les options graphiques globales). La syntaxe de l instruction symbol est la suivante : symbol1 color = blue value = "+" interpol = NONE; symbol2 color = red value = "STAR" interpol = JOIN; L instruction symbol s applique à tous les nuages ou courbes. Lorsque plusieurs nuages (ou courbes) sont définis dans l instruction plot, le motif du premier nuage est paramétré par symbol1, le motif du second nuage est paramétré par symbol2, etc. L option color = indique la couleur, l option interpol = précise si les points sont reliés ou non : NONE, JOIN, SPLINE (lissage). L option value = définit le symbole utilisé. Voir l aide de SAS pour plus de détails sur ces commandes. Le code qui suit utilise la table cars de la libraire sashelp, il produit le graphique de la figure 1. L option where =(type = Sedan OR type = SUV ) permet de ne sélectionner que les voitures de la table qui sont de type Sedan ou SUV. 14

15 symbol1 interpol = NONE color = red value = square; symbol2 interpol = NONE color = blue value = star; proc gplot data =sashelp.cars (where =(type = Sedan OR type = SUV )); plot weight * enginesize = type; Figure 1 Nuage de points produit par la procédure gplot : poids d une voiture Audi en fonction de la taille du moteur (table Cars de la bibliothèque sashelp). L instruction symbol peut aussi être utilisée pour affecter un label à chacun des points du nuage. Le code suivant produit le graphique de la figure 2. Notez que la variable Model est fournie par la table sashelp.cars. symbol1 pointlabel=("#model"); proc gplot data =sashelp.cars (where =(make = Audi )); plot weight * enginesize ; 4.2 Diagrammes La procédure gchart permet de tracer des diagrammes de différents types. Utilisée avec l instruction vbar, elle produit un diagramme en bâtons verticaux, avec l instruction hbar elle produit des diagrammes en bâtons horizontaux. Enfin, l instruction pie permet de tracer des diagrammes circulaires. Nous présentons ici l utilisation de l instruction vbar, nous renvoyons le lecteur à l aide de SAS pour un descriptif des deux autres instructions. 15

16 Figure 2 Poids d une voiture Audi en fonction de la taille du moteur. Les labels correspondent aux modèles de voiture (table Cars de la bibliothèque sashelp). proc gchart data = MaTable; vbar Var1 / levels =10; title diagramme de Var1 ; La variable dont on produit le diagramme est précisée après l instruction vbar, cette variable doit être contenue dans la table donnée en argument de la procédure gchart. Si cette variable est continue, SAS produit autant de barres que vbar comporte de modalités. Si la variable est numérique, SAS produit par défaut des barres (i.e. des classes) de même amplitude. Le nombre de classes peut être imposé par l option level=. Il est aussi possible de spécifier les centres des classes et dans ce cas SAS produit autant de classes que de centres sont donnés : vbar Var1 / midpoints = ; Pour une variable numérique dont on souhaite considérer toutes les modalités (par exemple pour une variable mentionnant une année), utiliser l option discret. Pour obtenir un diagramme en pourcentage, on utilise l option type = pcrt. Il est possible de comparer les diagrammes d une même variable sur des sous populations définies par les modalités d une seconde variable (catégorielle) grâce à l option group : vbar Var1 / group = Var2 g100; L option g100 permet ici que considérer les proportions dans chaque groupes. Sans cette option, les proportions sont calculées pour la famille totale. L option label permet d ajouter un label à la variable dont on dresse le diagramme : 16

17 proc gchart data = MaTable; label V1 = "label pour V1" ; Comme symbol pour la procédure gplot, l option globale pattern pour la procédure gchart permet de définir les propriétés des barres (ou des zones) du diagramme : pattern1 color = red; La commande goptions reset=pattern; permet de réinitialiser cette option globale. Voici pour finir un exemple de procédure gchart produisant la figure 3. pattern color = red; proc gchart data =sashelp.cars; label weight = "Poids de la voiture"; title diagramme du poids des voitures ; vbar weight / levels =10; Figure 3 Diagramme produit par la procédure gchart. 4.3 Diagrammes à moustaches La procédure boxplot permet de tracer des diagrammes à moustaches (boxplots). Un diagramme est tracé pour chaque modalité d une variable catégorielle déclarée dans la procédure par l instruction by. De nombreuses options sont disponibles et détaillées dans l aide de SAS. Notez que la table utilisée doit être préalablement triée selon la variable catégorielle utilisée dans la procédure. Le code qui suit permet de produire la figure 4. 17

18 proc sort data = sashelp.cars out = cars2; by type; proc boxplot data = cars2; plot weight*type; Figure 4 Boîtes à moustaches produites par la procédure boxplot. 4.4 La procédure sgscatter La La procédure sgscatter permet d effectuer des nuages de points pour des combinaisons multiples de variables. Les codes suivants tirés de l aide de SAS montrent quelques exemples d utilisation de cette procédure graphique évoluée. Le code qui suit permet d accoler dans une même fenêtre graphique deux nuages de points (voir la figure 5) : proc sgscatter data=sashelp.cars; plot mpg_highway*weight msrp*horsepower; Le code qui suit permet de plus de partager un axe pour chacun des graphique tracés (voir la figure 6). L option group=type permet de distinguer les différents types de voitures pour chacun des trois nuages : 18

19 Figure 5 Deux graphiques accolés produits par la procédure sgscatter. proc sgscatter data=sashelp.cars; compare y=mpg_highway x=(weight enginesize horsepower ) / group=type; Ce dernier code produit la matrice de graphiques de la figure 7. L option diagonal=(histogram kernel) permet d afficher les histogrammes de chacune des variables sur la diagonale. Un estimateur de la densité est de plus superposé à chacun des histogrammes (ici un estimateur à noyau :kernel) proc sgscatter data=sashelp.iris (where=(species eq "Virginica")); matrix petallength petalwidth sepallength / diagonal=(histogram kernel); 5 Procédures statistiques élémentaires 5.1 La procédure univariate Cette procédure fournit la description statistique d une variable continue. Sa syntaxe est la suivante : proc univariate data= Matable < options >; var V1; En dehors des sorties les plus évidentes, voici la signification des statistiques fournies par cette procédure pour chaque variable numérique x continue dont l analyse a été demandée : 19

20 Figure 6 Trois graphiques accolés (même variable y) produits par la procédure sgscatter. skewness : coefficient d asymétrie défini par µ 3 /σ 3 où µ 3 est le troisième moment centré. Un coefficient positif indique une queue de distribution étalée vers la droite, un coefficient négatif indique une queue de distribution étalée vers la gauche. Une distribution symétrique a un coefficient nul. kurtosis : coefficient d aplatissement défini par µ 4 /σ 4 où µ 4 est le quatrième moment centré. Un coefficient positif correspond à une distribution pointue et un coefficient négatif à une distribution aplatie. Un coefficient nul correspond à une distribution proche de la distribution normale, et ceci d autant mieux qu elle sera symétrique. Coeff Variation = 100s/ x Somme des carrés non corrigée USS = n i=1 x2 i Somme des carrés corrigée CSS = n i=1 (x i x) 2 Intervalle : étendue (max-min ) Q1, Q3 : quartiles inférieur et supérieur (quantiles 25% et 75%) Ecart interquartile : Q3-Q1 Il est possible de demander à SAS d effectuer l analyse sur des sous-groupes d individus. Ces sousgroupe sont définis par une variable catégorielle de la table, ici nommée VarCat : proc univariate data= Matable; by VarCat; var V1; De nombreuses sorties supplémentaires peuvent être demandées à SAS en option de la procédure : cibasic fournit des intervalles de confiance pour la moyenne et la variance ; mu0=12 demande un test sur la moyenne (ici comparaison à la valeur 12) ; normal permet d obtenir des statistiques de test pour l ajustement à une loi normale. proc univariate data= Matable plots normal ; var V1; 20

21 Figure 7 Matrice de graphiques produite par la procédure sgscatter. 21

22 La procédure univariate permet de tracer de nombreux graphiques : proc univariate data= Matable ; var V1; cdfplot V1 / normal; PPPLOT V1 / exp; QQPLOT V1 / lognormal; histogram V1 / normal ; Les instructions ci-dessus tracent la fonction de répartition et superpose une loi donnée (ici normale) ; un probability-probability plot (PP-plot) pour comparer la distribution empirique à une distribution donnée (ici une loi exponentielle) ; un probability-probability plot (QQ-plot) pour comparer la distribution empirique à une distribution donnée (ici une loi lognormal) ; un histogramme de la distribution empirique surlequel on superpose la courbe de densité d une distribution donnée (ici une loi normal) Il est possible de paramétrer finement l affichage de ces graphiques (couleurs, axes,etc..) ; reportez-vous pour cela à l aide de SAS. 5.2 La procédure freq pour le croisement de deux variables catégorielles La procédure freq est dédiée à l analyse des variables catégorielles. Elle permet notamment de croiser les valeurs des deux variables catégorielles et de produire un test d indépendance du χ 2 entre les deux variables. En voici une syntaxe minimaliste : proc freq data=matable; var VarA * VarB / chisq; En plus du résultat du test d indépendance du χ 2, la procédure fournit un tableau détaillant pour chaque croisement (a, b), où a est une modalité de VarA et b une modalité de VarB : le nombre de croisements (a, b) observés, la fréquence du croisement (a, b), la fréquence conditionnelle de la modalité a. la fréquence conditionnelle de la modalité b. 5.3 La procédure corr La procédure corr permet d étudier les corrélations linéaires entre différents groupes de variables. La syntaxe de la procédure est la suivante : proc corr data= Matable < options > ; var V1 V2 V3...Vp ; La procédure fournit des statistiques élémentaires pour chacune des variables, suivie d un tableau à double entrée détaillant les corrélations entre tous les couples de variables. Par défaut, SAS ne calcule que la corrélation (empirique) de Pearson dont nous rappelons la définition ρ(x, y) = n i=1 (x i x)(y i ȳ) (n 1)s x s y 22

23 , où s x and s y sont les écarts-types de x et y. Voici un extrait de la sortie pour deux variables nommées V1 et V2 : Coefficients de corrélation de Pearson, N = 60 Prob > r under H0: Rho=0 V1 V2 V V V V Le tableau donne aussi la pvavlue du test de ρ = 0 (ici ), il s agit en fait du test de nullité de la pente pour une régression simple dans un cadre gaussien (statistique de Student). D autres coefficients de corrélation linéaire peuvent être calculés par la procédure corr que l on demande alors en option : proc corr data=matable kendall spearman;. Attention à ne pas surinterpréter la signification des coefficients de corrélation. D une part un coefficient élevé (proche de 1 en valeur absolue) ne traduit pas nécessairement une relation de causalité. Et d autre part, le coefficient n évalue ici qu une relation de type linéaire ; la figure 8 illustre cette remarque sur des situations diverses. Figure 8 Coefficient de Pearson pour différents jeux de données (source : Wikipedia) 5.4 La procédure ttest Cette procédure permet de comparer les distributions empiriques de deux échantillons gaussiens de lois respectives N (µ 1, σ1 2) et N (µ 2, σ2 2 ). La procédure fournit, en plus des statistiques usuelles, un test pour l égalité des variances et un test pour l égalité des moyennes. proc ttest data=matable < options > ; class VarCat; var Var1; 23

24 Notez que la variable catégorielle Var1 doit ne comporter que deux modalités car la procédure ne peut comparer que deux groupes à la fois 1. La procédure fournit les statistiques pour la moyenne de chaque groupe, et des intervalles de confiance pour chacune de ces quantités. Puis elle donne les résultats pour le test d égalité des moyennes et le test d égalité des variances. Voici les sorties des tests obtenus pour l étude une variable SCORE sur deux groupes : Tests de Student Variable Méthode Variances DDL Valeur du test t Pr > t Score Pooled Equal <.0001 Score Satterthwaite Unequal <.0001 Égalité des variances Valeur Variable Méthode Deg. de lib. num. Den DF F Pr > F Score Folded F On doit commencer par considérer l égalité des variances ; ici on accepterait facilement σ 1 = σ 2 car la p-value est très élevée. En fonction du résultat, on choisit l une ou l autre des deux méthodes pour tester l égalité des moyennes (méthode Pooled si les variances sont égales et méthode Satterthwaite sinon). Sur cet exemple on accepte l égalité des variances (par ex. à 5%) et on rejette l égalité des moyennes (par ex. à 5%). 6 Modèle linéaire : les procédures reg et anova Dans cette section, nous étudions les procédures associées aux modèles linéaires les plus simples : la régression linéaire et l anova à un facteur. La procédure glm, qui est une procédure SAS permettant d étudier des modèles linéaires plus complexes, ne nous sera pas nécessaire dans le cadre de ce cours. 6.1 La régression simple Nous étudions ici la syntaxe et les sorties d une régression simple avec SAS sur un exemple de données réelles comportant n = 11 observations. La variable FT mesure le flux du trafic routier sur une autoroute, la variable TPA correspond à la teneur en plomb relevée sur les écorces d arbre à proximité de l autoroute. Voici les lignes de code élémentaires pour régresser la variable FT par la variable TPA avec la procédure reg : proc reg data=tabletrafic < options > ; model FT=TPA ; plot FT*TPA ; title Régression simple pour les données de trafic autoroutier ; L instruction model Y=X; permet de déclarer le modèle, qui est ici y i = β 0 + β 1 x 1,i + ε i. Les sorties de la procédure sont d une part un tableau de l analyse de la variance et le listing des statistiques estimées. 1. Au-delà de deux groupes, une procédure anova est plus appropriée. 24

25 The REG Procedure Model: MODEL1 Dependent Variable: FT Flux du trafic Analyse de la variance Somme des Carré Valeur Source DDL carrés moyen F Pr > F Model 1 [A1] [A2] [A3] [A4] <.0001 [A5] Error 9 [B1] [B2] [B3] Correc. Total 10 [C1] [C2] Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var La ligne Model correspond aux sommes de carrés expliquées par la régression, la ligne Error aux sommes de carrés résiduels et la ligne Corrected Total est la somme totale des carrés. On a donc [A2] = Ŷ Ȳ 2, [B2] = Y Ŷ 2 et [C2] = Y Ȳ 2. La statistique du R 2 (ou coefficient de détermination) est donnée à la suite du tableau de l analyse de la variance et vaut R-Square = [A2]/[C2]. Le tableau donne aussi le résultat du test de Fisher de H 0 : β 1 = 0 contre β 1 0. La valeur de la statistique de Fisher est donnée par [A4] := [A2]/[A1] [B2]/[B1] = [A3] [B3]. Sous H 0, cette statistique suit une loi de Fisher à (2 1, n 2) et la p-value correspondante aux observations est donnée par [A5]. La quantité [B3] = [B2]/[B1] est l erreur moyenne quadratique (MSE) ; il s agit de l estimateur sans biais de σ 2. La racine du MSE est donnée par le Root MSE. La quantité Dependent Mean vaut Ȳ, c està-dire la moyenne des observations Y i. Le coefficient de variation (Coeff Var) est une normalisation de MSE afin d obtenir une quantité sans unité : Coeff Var = 100 Root MSE/Dependent Mean. Options de l instruction model : model Y=X / noint; déclare un modèle sans terme constant (intercept) : y i = β 1 x 1,i + ε i ; model Y=X /p; demande l affichage des valeurs prédites (Ŷi) ; model Y=X /r p; demande une analyse des résidus et fournit notamment les valeurs prédites ainsi que les D de Cook ; model Y=X /clb alpha = 0.05; demande l affichage des intervalles de confiance des paramètres β i pour le niveau de confiance 1-alpha ; model Y=X /clm alpha = 0.05; demande l affichage des intervalles de confiance pour les espérances E(Y i ) pour le niveau de confiance 1-alpha ; model Y=X /cli alpha = 0.05; demande l affichage des intervalles de confiance pour les observations Y i pour le niveau de confiance 1-alpha ; model Y=X /r p influence; demande un diagnostic complet de l influence des observations (voir la section 6.3). 25

26 Instruction plot et abréviations : L instruction plot FT*TPA; trace le nuage de points des variables FT et TPA. L option / nomodel nostat, permet de n afficher ni le R 2 ni l équation de la droite de régression sur le graphique. Pour tracer d autres graphiques utiles à l analyse du modèle de régression, on utilise les abréviations réservées par SAS aux statistiques calculées : r. pour les résidus ; p. pour les valeurs prédites ; student. pour les résidus de Student internes (ou résidus standardisés) ; rstudent. pour les résidus de Student externes ; np. nombre de paramètres du modèle (ici 2) ; Toutes les statistiques affichées en sortie possèdent une abréviation et peuvent être récupérées dans une table (voir la section 12.3). Pour ce qui concerne l instruction plot, on utilise les abréviations de la façon suivante plot r.*tpa student.*tpa r.*p. rstudent.*nqq.; Le dernier graphique permet d afficher normal probability plot des résidus standardisés pour évaluer si l hypothèse de distribution gaussienne est valide. 6.2 La régression multiple Pour décrire l utilisation de la procédure reg en régression multiple, nous étudions un jeu de données sur les niveaux de pollution enregistrés à Rennes pendant l été 2001 (d après Statistiques avec R, P.A. Cornillon et autres, PUR 2008.). La variable à expliquer est le maximum journalier maxo3 de la concentration en Ozone. Les 10 variables explicatives sont : maxo3 : T9, T12, T15 : température à 9h, 12h, 15h ; Ne9, N12, N15 : nébulosité à 9h, 12h, 15h ; Vx9, Vx12, VX15 : vitesse du vent sur un axe Est-Ouest à 9h, 12h, 15h ; MaxO3v : concentration maximale d ozone mesurée la veille. Voici un code possible pour la régression multiple de ce jeu de données : proc reg data= Ozone; model maxo3= T9 -- maxo3v; L instruction model Y=X_1 -- Xp-1; déclare le modèle, c est-à-dire y i = β 0 +β 1 x 1,i +...+β p 1 x p 1,i + ε i. La syntaxe T9 -- maxo3v; signifie que toutes les variables entre T9 et maxo3v sont retenues comme variables explicatives, l ordre considéré correspond à l ordre de déclaration des variables (ici les variables ont été déclarées dans l ordre T9 T12 T15 Ne9 N12 N15 Vx9 Vx12 VX15 maxo3v). On peut aussi lister toutes les variables souhaitées dans l instruction model. Tableau de l analyse de la variance et le listing des statistiques estimées. Le tableau de l analyse de la variance pour la régression multiple se lit de la même façon que pour le cas de la régression simple (même définition des sommes de carrés). Cependant les degrés de liberté et les lois de statistiques associées ne sont pas les mêmes. L estimateur sans biais de σ 2, ou encore erreur moyenne quadratique (MSE) est comme précédemment égal à [B3] = [B2]/[B1]. Les statistiques Root MSE, R-Square, Coeff Var et Dependent Mean ont les mêmes définitions que pour la régression simple. 26

27 The REG Procedure Model: MODEL1 Dependent Variable: maxo3 Analyse de la variance Somme des Carré Valeur Source DDL carrés moyen F Pr > F Model 10 [A1] [A2] [A3] [A4] <.0001 [A5] Error 101 [B1] [B2] [B3] Corrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Le test de Fisher considéré ici est celui de H 0 : i, β i = 0 contre H 1 : i, β i 0 La valeur de la statistique de Fisher est donnée par [A4] := [A2]/[A1] [B2]/[B1] = [A3] [B3]. Sous H 0, cette statistique suit une loi de Fisher à (p 1, n 2) degrés de liberté (ici p = 10), et la p-value correspondant aux observations est donnée en [A5]. Il est naturel que cette p-value soit la plupart du temps très faible puisque le modèle sous H 0 est généralement beaucoup trop rudimentaire pour expliquer correctement la variable Y. Tableau de l estimation des paramètres β i. Paramètres estimés Résultat estimé Erreur Variable DDL des paramètres type Valeur du test t Pr > t Intercept T T T Ne Ne Ne Vx Vx Vx maxo3v <.0001 Ce tableau renseigne les valeurs prises par les estimateurs ˆβ i, les écarts-type estimés de ces derniers (Erreur type) ainsi que la statistique de Student et la p-value pour chacun des tests de Student de β i = 0 contre β i 0. Options de l instruction model. Les options que nous avons déjà vues pour la régression simple restent encore bien sûr valables pour la régression multiple. Voici quelques autres options plus spécifiques à la régression multiple : CP affiche la statistique du C p de Mallows ; 27

28 COVB affiche la matrice des variances-covariances du vecteur des paramètres θ = (β 0, β 1,..., β p ) ; DW affiche la statistique de test de Durbin-Watson (pour réparer une auto-corrélation éventuelle dans les résidus) ; VIF affiche le variation inflation factor ; Instruction plot et abréviations : Cf. la régression simple. Algorithmes de Sélection. de l instruction model : Le choix d une méthode de sélection de variables se renseigne en option model maxo3= T9 -- maxo3v / selection=... ; L option selection= f correspond à l algorithme forward. Il est possible de fixer le niveau du test d entrée d une variable dans l algorithme (ici à 0.05%) avec l option sle : model maxo3= T9 -- maxo3v /selection= f sle=.05 ; De même pour les algorithmes des sélections backward et stepwise : model y = T9 -- maxo3v / selection=b sls=.1; model y = T9 -- maxo3v / selection=stepwise sle=.15 sls=.15; où l option sle permet de régler le niveau du test de délétion (retrait) d une variable. À la différence des algorithmes précédents, les méthodes du type all subset method s appuient sur des calculs dans tous les modèles pour ne conserver qu un (ou quelques) meilleur(s) modèle(s) parmi tous les modèles de même taille (même nombre de variables). Par exemple, avec l instruction model maxo3 = T9 -- maxo3v / selection=rsquare start=1 stop=7 best=2 aic bic cp; le logiciel recherche parmi tous les modèles à p variables les deux modèles qui maximisent le R 2, pour p variant entre 1 à 7. La sortie obtenue renseigne aussi les valeurs des critères AIC, BIC ainsi que le C p de Mallows. R-Square Selection Method Nombre dans R le modèle carré C(p) AIC BIC Variables du modèle T T T12 maxo3v T15 maxo3v T12 Ne9 maxo3v T15 Ne9 maxo3v T12 Ne9 Vx9 maxo3v T12 Ne9 Vx12 maxo3v T12 Ne9 Vx9 Vx15 maxo3v T12 Ne9 Vx9 Vx12 maxo3v T12 T15 Ne9 Vx9 Vx15 maxo3v 28

29 T12 Ne9 Ne12 Vx9 Vx15 maxo3v T12 T15 Ne9 Ne12 Vx9 Vx15 maxo3v T9 T12 T15 Ne9 Vx9 Vx15 maxo3v 6.3 Diagnostic de l influence des observations En plus des résidus et des résidus standardisés, d autres statistiques peuvent être calculées par SAS pour déterminer l influence de chacune des observations sur la procédure de régression. On utilise pour cela la syntaxe model Y=X /r p influence; dans la procédure reg. On dit qu une observation i a un fort effet de levier si celle-ci est située loin du reste des observations dans le nuage des variables explicatives. On parle alors de x-outlier. Un tel point se caractérise par un coefficient h ii relativement élevé (proche de 1), h ii étant le i-ème coefficient de la diagonale de la matrice M(M M) 1 M où M est la matrice du modèle linéaire associé. SAS nomme Hat Diag H ce coefficient. On considère généralement qu il y a un effet levier si h ii > 2 p+1 n où p désigne le nombre de variables dans la régression. Si une observation i pour laquelle la variable à expliquer y i est située loin de sa valeur prédite ŷ i par la régression, ce point est appelé y-outlier. Dans ce cas, le résidu studentisé e i r i = S 1 h ii où e i désigne le résidu et S 2 l estimateur de la variance, sera plus élevé que les autres (en valeur absolue). SAS nomme Student Residual ce coefficient. Une observation qui a un fort effet levier et qui est aussi un y-outlier aura une forte influence sur l estimation des paramètres du modèle de régression. On doit donc prêter une attention particulière à ces points, et éventuellement les retirer de la base de données si l on estime qu ils correspondent à des données aberrantes. Pour identifier ces observations influentes, on utilise la statistique du D de Cook définie par D i = r2 i h ii. p h ii Usuellement on considère qu une observation est influente si son D de Cook dépasse 1, mais ceci n est pas une règle, et il est surtout important de comparer les D i entre eux. Pour étudier l influence des observations, on peut aussi s appuyer sur les statistiques des résidus studentisés externes (RStudent pour SAS). Cette statistique est définie par t i = e i S 2 (i) 1 hii où e i désigne le résidu et S(i) 2 l estimateur de la variance calculée sans l observation i. On pourra consulter la page Influence Diagnostics de SAS pour plus de détails sur ces statistiques. 6.4 La procédure anova pour un facteur Cette procédure est dédiée aux modèles linéaires de type anova pour lesquels une variable continue est expliquée par une ou plusieurs variables catégorielles. Nous considérons ici le cas le plus simple d une seule variable catégorielle à l modalités ; c est-à-dire le modèle Y ij = µ i + ε ij, i = 1... l, j = 1,... n i. Nous illustrons l étude de ce modèle sur l exemple d une variable nommée score dont nous disposons d un échantillon pour trois groupes 1,2 et 3 distincts (l = 3) de même effectif 20. Voici un code possible pour la procédure anova. 29

30 proc anova data=matable < options >; class groupe; model Score = groupe; means groupe / hovtest ; L instruction means permet ici d obtenir les statistiques sur les moyennes et leurs intervalles de confiance pour chacun des groupes. L option hovtest dans l instruction means fournit en plus un test d égalité des variances sur l ensemble des groupes. En plus de ces informations, nous obtenons en sortie de la procédure un tableau de l analyse de la variance : Somme des Somme des Valeur Source DDL carrés Carré moyen F Pr > F Model 2 [A1] [A2] [A3] [A4] [A5] Error 57 [B1] [B2] [B3] Corrected Total 59 [C1] [C2] R carré Coeff Var Racine MSE Score Moyenne Comme dans le cas de la régression linéaire, la ligne Model correspond aux sommes de carrés expliqués par la régression, la ligne Error aux sommes de carrés résiduels et la ligne Corrected Total est la somme totale des carrés. Ainsi, [A2] = l ni i=1 j=1 (Y i Y ) 2 désigne la somme des carrés expliqués, [B2] = l ni i=1 j=1 (Y ij Y i ) 2 celle des carrés résiduels et [C2] = l ni i=1 j=1 (Y ij Y ) 2 est la somme totale des carrés. Le coefficient du R 2 a donc encore pour valeur [A2]/[C2]. Le tableau donne aussi le résultat du test de Fisher de H 0 : µ 1 = 0. La valeur de la statistique de Fisher est définie par [A4] := [A2]/[A1] [B2]/[B1] = [A3] [B3]. Sous H 0, cette statistique suit une loi de Fisher à (l 1, n l) et la p-value correspondant aux observations est donnée par [A5]. Pour cet exemple on rejetterait donc l égalité des moyennes pour des niveaux standards de quelques pourcents. L option t cldiff dans l instruction means permet d analyser les différences entre les estimateurs pour chaque couple de groupes. Pour effectuer des regroupements entre les différents niveaux de la variable catégorielle (ici groupe), le test de Fisher fourni par le tableau de l analyse de la variance n est donc pas suffisant. Effectuer un test de comparaison des moyennes entre les différents niveaux signifie effectuer un test multiple sur les toutes les paires de niveaux possibles. Pour cela, on peut utiliser la procédure de Bonferrroni en ajoutant l option bon dans l instruction means. Pour régler le niveau du test, on peut ajouter l option alpha : means groupe / bon alpha=.05 ; La procédure de Tukey est une alternative à la procédure de Bonferroni. Elle contrôle l erreur de type I (i.e. rejeter à tort) sur l ensemble de tous les tests effectués ; cette procédure est donc moins conservative que celle de Bonferroni et trouvera plus de différences significatives. Sur cet exemple, on obtient pour Tukey le tableau suivant : 30

31 Tukey Groupement Moyenne N groupe A groupe 2 A A groupe 3 B groupe 1 La procédure aboutit à effectuer un regroupement : le nouveau groupe A contient les groupes 2 et 3, le nouveau groupe B ne contient que le groupe 1. Enfin, pour produire des boxplots des moyennes pour chaque niveau, on peut insérer la proc anova entre les commandes ods graphics on; et ods graphics off; comme expliqué à la section Analyse en composantes principales avec la procédure princomp La procédure princomp est la procédure SAS dédiée à l Analyse en composantes principales : proc princomp data=sashelp.cars out=acpprinccars outstat=acpcars N=6 < cov >; var MSRP--Length ; Cette procédure comporte des options parmi lesquelles : N= : indique le nombre de composantes principales calculées. outstat= : crée une table contenant les moyennes, les écarts-types, les corrélations ou covariances des variables initiales, ainsi que les valeurs propres et vecteurs propres de l ACP. out= : crée une table contenant les données initiales et les composantes principales. Par défaut SAS produit une ACP normée, c est-à-dire pour la matrice des corrélations. On peut demander une ACP sur la matrice de covariance grâce à l option cov (peu recommandé en général). Les sorties SAS comportent les statistiques élémentaires de chaque variable, la matrice de corrélation des variables, une description des valeurs propres : Valeurs propres de la matrice de corrélation Valeur propre Différence Proportion Cumulé Les valeurs propres de la matrice de corrélation permettent de mesurer la quantité de variance portée par chaque facteur principal. En désignant par λ k la k-ième valeur propre, la k-ième différence est λ k λ k+1, la k-ième proportion vaut λ k /Inertie = λ k / p k=1 λ k et le k-ième cumul est défini par k r=1 λ r/inertie = k r=1 λ r/ p k=1 λ k. 31

32 Les sorties décrivent aussi les composantes principales : Vecteurs propres Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 MSRP Invoice EngineSize Cylinders Horsepower MPG_City MPG_Highway Weight Wheelbase Length Chaque colonne permet de définir une composante principale comme combinaison linéaire des variables initiales. Par exemple pour la première composante : Ψ 1 = MSRP Invoice Length. Le k-ième vecteur u k de ces coefficients (i.e. la k-ième colonne) est un vecteur propre normé de la matrice de corrélation (ou de covariance) des données. Les sorties n affichent ni les contributions ni les qualités de représentation des individus et des variables. La procédure princomp n est donc pas suffisante pour analyser de façon précise l ACP d un tableau de données. Des macro-programmes SAS supplémentaires peuvent être utilisées pour préciser l ACP, voir la section Analyse des correspondances avec la procédure corresp La procédure corresp permet d effectuer des analyses des correspondances simples et multiples. Cette section en présente les principales commandes, consultez l aide pour plus de détails sur les fonctionnalités de cette procédure. L utilisateur peut fournir en entrée de cette procédure un tableau de contingence ou un tableau de données brutes. Déclaration par tableau de contingence. Un tableau de contingence croise les modalités de deux variables catégorielles et renseigne le nombre d occurrences rencontrées dans l échantillon étudié pour chaque couple de modalités des deux variables. On déclare dans ce cas les modalités de la variable en colonnes après l instruction var (ce sont des variables de la table). Si les modalités de l autre variable sont listées dans l une des variables de la table, on peut l indiquer avec l instruction id, comme c est le cas dans l exemple ci-dessous pour la variable yeux. Dans le cas d une analyse des correspondances multiples, on peut fournir à la procédure un tableau de Burt et on utilise alors l instruction var en déclarant les modalités des variables. Dans un tableau de Burt, on croise toutes les modalités dans les colonnes et les lignes, toutes les modalités sont donc déclarées à la suite de l instruction var et on n utilise alors pas l instruction id. Voici un exemple de code élémentaire pour une AFC simple tiré de l ouvrage Statistiques Exploratoire Multidimensionnelle, Lebart(2006) : data ChevYeux; infile datalines dlm=, ; input yeux $ chev_brun chev_chatain chev_roux chev_blond; datalines; marron,68,119,26,7 noisette,15,54,14,10 vert,5,29,14,16 32

33 bleu,20,84,17,94 ; proc corresp data=chevyeux; var chev_brun chev_chatain chev_roux chev_blond; id yeux; La procédure produit tout d abord une décomposition de l inertie et de la statistique de khi2 : Valeur Inertie Pourcent. singulière principale Khi-2 Pourcentage cumulé ************************* *** Total Degrés de liberté = 9 Les sorties détaillent ensuite les coordonnées, contributions et qualités de représentation des profils lignes et profils colonnes pour chacun des axes. Déclaration par une table de données brutes (raw data). Lorsque l on dispose d un jeu de données sous la forme individus en lignes et modalités en colonnes, on utilise alors l instruction tables comme dans l exemple suivant d AFC simple : data Neighbor; input Name $ 1-10 Age $ Sex $ Height $ Hair $ 33-38; datalines; Jones Old Male Short White Smith Young Female Tall Brown Kasavitz Old Male Medium Brown Delafave Old Male Tall Brown Singer Young Male Tall Brown... ; proc corresp observed data=neighbor; tables Height, Hair; Notez la virgule entre les deux variables dans l instruction tables qui permet de déclarer la variable en colonnes et la variable en lignes. L option observed affiche ici le tableau de contingence des deux variables étudiées. Voici un exemple pour une analyse des correspondances multiples : proc corresp observed mca data=neighbor; tables Sex Height Hair ; 33

34 Cette fois toutes les modalités de ces variables sont en colonnes, l option mca signale qu une analyse multiple est demandée. L option observed affiche ici le tableau de Burt de l ensemble des variables étudiées. L instruction Weight. L instruction Weight permet d affecter un poids à chacune des observations. Ceci est notamment utile lorsque l on dispose d une table de contingence enregistrée en lignes, comme dans l exemple suivant : data ChevYeux2; infile datalines dlm=, ; input yeux $ cheveux $ comptage; datalines; marrons,bruns,52 marrons,blonds,7 marrons,chatain,23 bleus,bruns,15 bleus,blonds,28 bleus,chatain,11 verts,bruns,17 verts,blonds,3 verts,chatain,15 ; La variable Comptage indique ici l effectif pour chaque couple de variables. Dans la procédure qui suit, SAS considère chaque ligne comme une observation et lui affecte le poids correspondant à la valeur de la variable renseignée dans l instruction de weight : proc corresp data=chevyeux2; tables yeux, cheveux ; weight comptage; Principales options de la procédure corresp. OUTC= : table de sortie contenant les coordonnées et les résultats de l analyse des correspondances. OUTF= : table de sortie contenant les fréquences et les tableaux croisés de l analyse. short : affiche uniquement un résumé des sorties. observed : affiche un tableau des fréquences (tableau de contingence, tableau disjonctif complet ou tableau de Burt). mca : effectue une analyse des correspondances multiples. DIM=n : limite le nombre d axes. Remarque : en encadrant la procédure corresp par les instructions ods graphics on; et ods graphics off; on peut produire automatiquement un graphique du premier plan factoriel (voir la section 12.3). 9 Analyse discriminante 9.1 Analyses discriminantes linéaire (ADL) et quadratique (ADQ) avec la procédure discrim La procédure discrim de SAS permet de mener des analyses discriminantes linéaires et quadratiques. L analyse ci-dessous porte sur les données Iris, dont la table est disponible dans la librairie 34

35 sashelp. Cette table détaille un échantillon de 150 iris de 3 espèces différentes. La table comporte quatre variables continues décrivant les propriétés des pétales et des sépales, ainsi que la variable espèce. Voici un exemple de code assez complet pour la procédure discrim : proc discrim data=sashelp.iris out =discr testdata=tableacalc testout= TablePoster pool = yes manova bcov wcov crossvalidate ; class Species; var SepalLength SepalWidth PetalLength PetalWidth; priors proportional; Nous donnons d abord le descriptif des options de l instruction proc discrim : out = nom d une table, crée par la procédure, dans laquelle sont stockées des statistiques fournies par l analyse ; testdata= nom d une table crée par l utilisateur qui contient des valeurs pour les variables explicatives pour lesquelles on souhaite obtenir un calcul des probabilités a posteriori ; testout= nom de la table dans laquelle la procédure renseigne les probabilités a posteriori pour les valeurs des variables explicatives de la table testdata ; pool = indique si les matrices de variance-covariance de chacun des groupes doivent être prises égales (pool = yes, par défaut), différentes (pool = no), ou si l égalité entre les matrices doit être testé (pool = test) ; manova fournit des statistiques multivariées, notamment les coefficients des fonctions discriminantes de l ADL ; bcov et wcov fournissent les matrices de variance-covariance inter-groupes et intra-groupes ; crossvalidate demande un calcul des erreurs par validation-croisée, en l occurrence du leaveone-out. Avec l option pool = yes, la procédure effectue donc une ADL alors que l option pool = no correspond à une ADQ. L instruction class renseigne la variable catégorielle à prédire et l instruction var indique les variables explicatives à prendre en compte dans le modèle. Enfin, l instruction priors précise comment les probabilités a priori doivent être calculées. Par défaut ces probabilités sont choisies égales. Pour choisir des probabilités a priori égales aux proportions observées dans l échantillon de la table, on indique priors proportional;. Les sorties produites par la procédure comprennent notamment : un résumé sur les variables explicatives et les classes considérées dans l analyse discriminante, le calcul des distance entre centres de gravité des nuages pour la distance de Mahalanobis, les coefficients des fonctions discriminantes de l ADL, un résumé des affectations obtenues et un calcul des erreurs par resubstitution et éventuellement par leave one out, Les graphiques ods demandés par l option plots. Sélection de variables pour l ADL et l ADQ. La procédure stepdisc de SAS permet de sélectionner les variables pertinentes pour effectuer l analyse discriminante. Cette procédure s appuie sur des stratégies de type backward, forward ou stepwise. On détaille ci-dessous la stratégie backward pour l exemple des données iris. Etape 1 : Partant du modèle comportant toutes les variables, on considère les quatre modèles linéaires dans lesquels l une des variables explicatives est expliquée par les trois autres et la variable Species. Ces quatre modèles sont donc des modèles de l analyse de la covariance, par 35

36 exemple : PetalLength = a 0 + b 1 1 Species=set + b 21 Species=virg + a 1 PetalWidth + a 2 SepalLength + a 3 SepalWidth + ε (Ω PetalLength ) Le sous-modèle de Ω PetalLength sans effet Species est le modèle : PetalLength = a 0 + a 1 PetalWidth + a 2 SepalLength + a 3 SepalWidth + ε (Ω PetalLength ) On effectue alors un F-test de (Ω PetalLength Ω PetalLength ) pour évaluer la significativité de la variable Species sur la variable PetalLength. On procède de même pour les quatre modèles d analyse de la covariance et on retire la variable sur laquelle la variable type a le moins d effet. Etape 2 : On procède comme à l étape 1 avec une variable en moins : on considère trois modèles de l analyse de la covariance et on cherche la variable sur laquelle la variable type a le moins d effet. Etc... La procédure s arrête lorsque toutes les p-values des F-tests sont inférieures à un seuil donné (0.05 par défaut). proc stepdisc data= sashelp.iris method=backward; class Species; var SepalLength SepalWidth PetalLength PetalWidth; ; Sur cet exemple, aucune des variables n est retirée car tous les F-tests sont significatifs. 9.2 Régression logistique binomiale avec la procédure logistic La procédure logistic de SAS permet d effectuer des régressions logistiques, on se concentre ici sur le cas binomial. On considère une population de limules femelles, décrite dans la table LimulePoly. Des biologistes ont observé que l on trouve parfois plusieurs mâles (appelés satellites) à proximité du nid d une femelle limule où un mâle est déjà installé. On dispose des variables suivantes : la variable satellite01 qui prend la valeur 1 si un satellite est observé près du nid et qui vaut 0 sinon, la variable dark qui indique si la carapace est foncée (dark=1) ou non (dark = 0), la variable poids de la carapace. On considère le modèle de régression logistique suivant : logit [P (Satellite01 = 1 dark, poids)] = β 0 + β 1 dark + β 2 poids. Voici un exemple de code assez complet pour la procédure logistic : proc logistic data = Limule plots(only) = (roc oddsratio effect); class dark; model satellite01(event = 1 ) = poids dark / expb ctable /* pprob= 0.5 */ ; oddsratio dark; oddsratio poids; On donne ci-dessous un rapide descriptif des instructions utilisées dans la procédure. 36

37 L instruction model permet de déclarer le modèle. La commande (event = 1 ) indique à SAS quel évènement est modélisé dans la régression logistique (au numérateur dans la côte). L option expb demande un calcul des odds ratios. Pour un seuil p donné, on considère la règle de classification Ŷi = 1ˆπ(Xi ) p, ce seuil peut être imposé dans pprob=. La règle de Bayes correspond au choix p = 1 2. L option ctable fournit un tableau des classifications pour tous les seuils correspondant aux observations de l échantillon. Le tableau renvoie notamment la sensitivité, la spécificité, le taux de mauvais classement, le taux de faux négatif et le taux de faux positifs. Si l option pprob= est utilisé, les sorties ne comporte que la ligne du seuil choisi. L instruction class indique que la variable dark est de type catégorielle. Les instructions oddsratio demandent un calcul des odds ratios pour les variables indiquées. L option plots permet de générer des graphiques, ici on obtient la courbe ROC, un diagramme des odds ratios demandées dans la procédure avec leurs intervalles de confiance ainsi que le diagramme des effets. Il est possible d obtenir une sélection des variables les plus pertinentes pour la classification grâce à l option selection = backward (ou stepwise et forward) dans l instruction model. Les algorithmes s appuient sur des enchaînements de tests de Wald. Les sorties produites par la procédure comprennent notamment : Un descriptif de la variable à prédire et des variables explicatives, Le statut de l algorithme d optimisation (a convergé ou pas), Des tests globaux pour déterminer si le vecteur β est nul, Les estimations des paramètres β j, avec intervalles de confiance et tests de nullité, Les estimations des odds ratios, Le tableau sur la classification des données, Les graphiques ods demandés par l option plots. 10 Exploration interactive de données Le module SAS/Insight est un outil dynamique pour l analyse exploratoire et graphique d un jeu de données. Il se présente sous la forme d une interface presse-boutons permettant notamment d examiner les distributions univariées, de visualiser les données et de construire des modèles utilisant la régression, l analyse de la variance et le modèle linéaire généralisé. Pour ce faire, l utilisateur dispose d un système de menus déroulants et de boutons pour effectuer l étude statistique sans avoir à écrire de code SAS dans la fenêtre Program Editor. L appel de SAS/Insight s effectue de la façon suivante : Solutions Analysis Interactive Data Analysis. 11 Macros variables et macro-programmes Le macro-langage SAS permet à l utilisateur de créer ses propres programmes, c est-à-dire ses propres procédures Macro-variables Une macro-variable est un objet SAS défini par un nom et une valeur. Pour créer une macrovariable, le plus simple est d utiliser l instruction %let : %let Montitre = Etude de la table Cars; On peut ensuite utiliser cette macro-variable dans un code SAS en utilisant le symbole &. Les macrovariables sont par exemple très utiles lorsque l on souhaite appliquer successivement une même séquence de procédures à plusieurs tables. Il suffit alors d écrire la suite des procédures en utilisant les macrovariables, puis de ne modifier que le contenu de ces dernières en début de code : 37

38 %let TableDeMonCode = Sashelp.cars; proc print data = &TableDeMonCode; proc univariate data = &TableDeMonCode; var Weight; proc reg data = &TableDeMonCode; model Weight = Horsepower; Si l on dispose d une seconde table Cars2 (comportant elle aussi des variables Weight et Horsepower), il suffit de modifier la première ligne %let TableDeMonCode = Cars2; pour appliquer la suite de procédure à Cars2. Lorsque l on souhaite donner comme contenu à une macro-variable une quantité récupérée dans une table, on utilise l instruction call symput, voir l aide de SAS pour plus de détails sur cette instruction Macro-programmes Un macro-programme est un programme défini par l utilisateur grâce au langage macro de SAS. Pour cela, on écrit tout d abord le code du macro-programme en respectant la syntaxe suivante : %MACRO MaMacro(param1,param2,...,paramp) < options >; source du macro-programme : suite d instructions de macro-langage %MEND MaMacro; Voici un exemple plus concret de macro-programme : %MACRO AnalyseTable(Matable,MaVar,OptStats); proc print data = &MaTable; proc univariate data = &MaTable &OptStats; Var &MaVar; %MEND AnalyseTable; Notez que les paramètres du macro-programme sont utilisés dans le corps de celui-ci avec le caractère &. Il faut ensuite compiler ce programme en soumettant à SAS ces lignes de code. L appel de ce programme se fait ensuite de la façon suivante : %AnalyseTable(Sashelp.cars,Weight,cibasic Mu0=4 alpha=0.05); Il est possible d assigner des valeurs par défaut à certains paramètres du macro-programme en utilisant des paramètres mots-clés. Par exemple, si l on remplace la première ligne du code précédent par %MACRO AnalyseTable(Matable, MaVar=,OptStats= cibasic Mu0=2); 38

39 le paramètre OptStats prendra par défaut la valeur cibasic Mu0=2. Nous avons aussi utilisé ici un paramètre mot clé pour le second paramètre, mais sans valeur par défaut. Pour pouvoir appeler un macro-programme écrit avec des paramètres mots-clés, il faut en connaître les noms : %AnalyseTable(Sashelp.cars,MaVar=weight,OptStats= normal); Toutes les boucles, structures conditionnelles, etc. que nous avons vues pour la manipulation des données, existent pour les macro-programmes mais sous une forme spécifique : il suffit en fait de rajouter un symbole % devant les instructions que l on souhaite utiliser. Par exemple pour les structures conditionnelles : %if condition %then %do; suite d instructions %end; %else %do; autre suite d instructions %end; 11.3 Compilation, stockage et exécution d un macro-programme La compilation d un macro-programme stocke par défaut celui-ci dans le catalogue Sasmacr de la librairie Work. Pour stocker un macro-programme dans le catalogue Sasmacr d une bibliothèque déclarée de notre choix, on commence par signaler pour la session courante que la bibliothèque en question (ici MaBibli) est utilisée pour stocker des macro-programmes : options SASMSTORE=MaBibli MSTORED; Il faut ensuite ajouter l option Store dans la première ligne du code du macro-programme : %MACRO MaMacro(param1,param2,...,paramp) / Store; Les macros disponibles dans une librairie sont visibles depuis la fenêtre d exploration de SAS. De plus, il est possible depuis l explorateur de copier une macro d un catalogue Sasmacr vers un autre catalogue d une bibliothèque déclarée. Lors d une session ultérieure, il n est pas nécessaire de compiler de nouveau le macro-programme si celui-ci a été stocké dans le catalogue d une librairie (ici MaBibli). Avant d exécuter le macroprogramme, on déclare la librairie et on signale qu elle peut contenir des macros avec la même option que précédemment : libname MaBibli "chemin du répertoire physique"; options SASMSTORE=MaBibli MSTORED; 11.4 Macro-programmes pour l analyse de données En complément des procédures classiques SAS pour l analyse de données, les macro-programmes présentés ci-dessous sont des outils supplémentaires très utiles. Les macro-programmes de P. Besse pour l ACP. disponibles sur la page Les macro-programmes de P. Besse sont 39

40 Leur usage est détaillé dans le polycopié SAS de l auteur. Ces macros peuvent être utilisées sous tous les systèmes d exploitation (et donc à l UTES) puisqu il suffit de télécharger leur code SAS de les compiler. En plus des sorties de la procédure princomp, ces macros fournissent les contributions et les qualités de représentation des individus, ainsi que les corrélations entre variables initiales et facteurs. Elles permettent de tracer facilement les plans factoriels pour les individus et les cercles de corrélations. En revanche elles ne permettent pas de représenter des individus ou des variables supplémentaires. Les macro-programmes de l INSEE. Des macros-programmes pour l analyse de données développés par l INSEE peuvent être téléchargés sur la page Une documentation détaillée disponible sur cette page permet de se familiariser facilement avec leur utilisation, des exemples illustratifs sont notamment détaillés dans le document. Les macros sont déjà compilées ; il suffit donc de les enregistrer dans un répertoire que l on déclarera comme librairie pour pouvoir les utiliser (voir la section 11.3). Notez que ces macros ne sont utilisables que sous le système d exploitation Windows. 12 Affichage et édition des sorties, système ODS 12.1 Affichage des sorties Il est possible de produire des sorties sous la forme de listings et/ou sous la forme de sorties html. Pour la version 9.3, cette dernière solution qui est activée par défaut. De plus, la commande ods graphics on (voir plus bas) est active elle aussi par défaut : des graphiques seront donc produits automatiquement pour la plupart des procédures. La fenêtre représentée dans la figure 9 est disponible depuis le menu Outils Options Preférences Sorties. Elle permet de choisir entre les deux formes de sorties, et d indiquer où les fichiers html sont enregistrés. On peut aussi activer dans cette fenêtre l option ods graphics. Figure 9 Fenêtre de paramétrage des sorties Sauvegarde directe de sorties depuis un listing Si les sorties sont générées sous la forme d un listing : 40

INITIATION AU LOGICIEL SAS

INITIATION AU LOGICIEL SAS INITIATION AU LOGICIEL SAS (version 9.1.3 sous Windows) Hélène HAMISULTANE Bibliographie : Initiation au logiciel SAS(9) pour Windows, Coqué N. (juin 2006). www.agroparistech.fr/img/pdf/polysas.pdf SAS

Plus en détail

SAS de base : gestion des données et procédures élémentaires

SAS de base : gestion des données et procédures élémentaires 1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS Depuis SAS 9.2 TS2M3, SAS propose un nouveau langage de programmation permettant de créer et gérer des tables SAS : le DS2 («Data Step 2»). Ces nouveautés

Plus en détail

2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des 2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des marques déposées de Minitab, Inc. aux Etats-Unis et

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Créer et partager des fichiers

Créer et partager des fichiers Créer et partager des fichiers Le rôle Services de fichiers... 246 Les autorisations de fichiers NTFS... 255 Recherche de comptes d utilisateurs et d ordinateurs dans Active Directory... 262 Délégation

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information TP Numéro 2 CRÉER ET MANIPULER DES TABLEAUX (Mise en forme, insertion, suppression, tri...) 1 CRÉER UN TABLEAU 1.1 Présentation Pour organiser et présenter des données sous forme d un tableau, Word propose

Plus en détail

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A.

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A. ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A. - 1 - PREAMBULE Les conditions générales d utilisation détaillant l ensemble des dispositions applicables

Plus en détail

TP 1. Prise en main du langage Python

TP 1. Prise en main du langage Python TP. Prise en main du langage Python Cette année nous travaillerons avec le langage Python version 3. ; nous utiliserons l environnement de développement IDLE. Étape 0. Dans votre espace personnel, créer

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

Infolettre #18 : Les graphiques avec Excel 2010

Infolettre #18 : Les graphiques avec Excel 2010 Infolettre #18 : Les graphiques avec Excel 2010 Table des matières Introduction... 1 Hourra! Le retour du double-clic... 1 Modifier le graphique... 4 Onglet Création... 4 L onglet Disposition... 7 Onglet

Plus en détail

Smart Pix SOFTWARE. Manuel d utilisation

Smart Pix SOFTWARE. Manuel d utilisation Smart Pix SOFTWARE Manuel d utilisation Manuel d utilisation du logiciel Accu-Chek Smart Pix Édition de juillet 2012 Roche Diagnostics GmbH 2012 Tous droits réservés ACCU-CHEK, ACCU-CHEK AVIVA, ACCU-CHEK

Plus en détail

RECOPLUS LOGICIEL DE GESTION DES RECOMMANDES NOTICE D UTILISATION DE RECOPLUS RESEAU. N de série

RECOPLUS LOGICIEL DE GESTION DES RECOMMANDES NOTICE D UTILISATION DE RECOPLUS RESEAU. N de série RECOPLUS LOGICIEL DE GESTION DES RECOMMANDES NOTICE D UTILISATION DE RECOPLUS RESEAU N de série Siège social 107, rue Henri Barbusse BP305-92111 CLICHY Cedex 1 Sommaire Description 1. Installation 2. Mise

Plus en détail

TP1 - Prise en main de l environnement Unix.

TP1 - Prise en main de l environnement Unix. Mise à niveau UNIX Licence Bio-informatique TP1 - Prise en main de l environnement Unix. Les sujets de TP sont disponibles à l adresse http://www.pps.jussieu.fr/~tasson/enseignement/bioinfo/ Les documents

Plus en détail

STAGE IREM 0- Premiers pas en Python

STAGE IREM 0- Premiers pas en Python Université de Bordeaux 16-18 Février 2014/2015 STAGE IREM 0- Premiers pas en Python IREM de Bordeaux Affectation et expressions Le langage python permet tout d abord de faire des calculs. On peut évaluer

Plus en détail

Séance 0 : Linux + Octave : le compromis idéal

Séance 0 : Linux + Octave : le compromis idéal Séance 0 : Linux + Octave : le compromis idéal Introduction Linux est un système d'exploitation multi-tâches et multi-utilisateurs, basé sur la gratuité et développé par une communauté de passionnés. C'est

Plus en détail

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05 EXCEL PERFECTIONNEMENT Version 1.0 30/11/05 SERVICE INFORMATIQUE TABLE DES MATIERES 1RAPPELS...3 1.1RACCOURCIS CLAVIER & SOURIS... 3 1.2NAVIGUER DANS UNE FEUILLE ET UN CLASSEUR... 3 1.3PERSONNALISER LA

Plus en détail

Solutions en ligne Guide de l utilisateur

Solutions en ligne Guide de l utilisateur Solutions en ligne Guide de l utilisateur Décembre 2009 Informations générales... 1 Configuration minimale requise... 1 Connexion... 1 Page d accueil des Solutions en ligne... 2 Utilisation de la table

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

MEGA ITSM Accelerator. Guide de Démarrage

MEGA ITSM Accelerator. Guide de Démarrage MEGA ITSM Accelerator Guide de Démarrage MEGA 2009 SP4 1ère édition (juin 2010) Les informations contenues dans ce document pourront faire l objet de modifications sans préavis et ne sauraient en aucune

Plus en détail

Gnuplot. Chapitre 3. 3.1 Lancer Gnuplot. 3.2 Options des graphes

Gnuplot. Chapitre 3. 3.1 Lancer Gnuplot. 3.2 Options des graphes Chapitre 3 Gnuplot Le langage C ne permet pas directement de dessiner des courbes et de tracer des plots. Il faut pour cela stocker résultats dans des fichier, et, dans un deuxième temps utiliser un autre

Plus en détail

L informatique en BCPST

L informatique en BCPST L informatique en BCPST Présentation générale Sylvain Pelletier Septembre 2014 Sylvain Pelletier L informatique en BCPST Septembre 2014 1 / 20 Informatique, algorithmique, programmation Utiliser la rapidité

Plus en détail

Initiation au logiciel SAS(9) pour Windows

Initiation au logiciel SAS(9) pour Windows AgroParisTech Initiation au logiciel SAS(9) pour Windows N. Coqué UFR de Mathématiques, Département MMIP Table des matières Introduction 3 1 Présentation 3 1.1 Les tables SAS.....................................

Plus en détail

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases SINE QUA NON Découverte et Prise en main du logiciel Utilisation de bases Sine qua non est un logiciel «traceur de courbes planes» mais il possède aussi bien d autres fonctionnalités que nous verrons tout

Plus en détail

«Manuel Pratique» Gestion budgétaire

«Manuel Pratique» Gestion budgétaire 11/06/01 B50/v2.31/F/MP005.01 «Manuel Pratique» Gestion budgétaire Finance A l usage des utilisateurs de Sage BOB 50 Solution Sage BOB 50 2 L éditeur veille à la fiabilité des informations publiées, lesquelles

Plus en détail

EXCEL TUTORIEL 2012/2013

EXCEL TUTORIEL 2012/2013 EXCEL TUTORIEL 2012/2013 Excel est un tableur, c est-à-dire un logiciel de gestion de tableaux. Il permet de réaliser des calculs avec des valeurs numériques, mais aussi avec des dates et des textes. Ainsi

Plus en détail

Classe de première L

Classe de première L Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous

Plus en détail

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume Studio HERITIER Emmanuelle PERSYN Elodie SCHMUTZ Amandine SCHWEITZER Guillaume Cours R Présentation projet 10/10/2013 Introduction RStudio est une interface créé par JJ Allaire Elle est sortie le 11 Février

Plus en détail

Note de cours. Introduction à Excel 2007

Note de cours. Introduction à Excel 2007 Note de cours Introduction à Excel 2007 par Armande Pinette Cégep du Vieux Montréal Excel 2007 Page: 2 de 47 Table des matières Comment aller chercher un document sur CVMVirtuel?... 8 Souris... 8 Clavier

Plus en détail

http://cermics.enpc.fr/scilab

http://cermics.enpc.fr/scilab scilab à l École des Ponts ParisTech http://cermics.enpc.fr/scilab Introduction à Scilab Graphiques, fonctions Scilab, programmation, saisie de données Jean-Philippe Chancelier & Michel De Lara cermics,

Plus en détail

SPHINX Logiciel de dépouillement d enquêtes

SPHINX Logiciel de dépouillement d enquêtes SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

LES TYPES DE DONNÉES DU LANGAGE PASCAL

LES TYPES DE DONNÉES DU LANGAGE PASCAL LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.

Plus en détail

Afin d accéder à votre messagerie personnelle, vous devez vous identifier par votre adresse mail et votre mot de passe :

Afin d accéder à votre messagerie personnelle, vous devez vous identifier par votre adresse mail et votre mot de passe : 1 CONNEXION A LA MESSAGERIE ZIMBRA PAR LE WEBMAIL Ecran de connexion à la messagerie Rendez vous dans un premier temps sur la page correspondant à votre espace webmail : http://webmailn.%votrenomdedomaine%

Plus en détail

Localisation des fonctions

Localisation des fonctions MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Initiation à LabView : Les exemples d applications :

Initiation à LabView : Les exemples d applications : Initiation à LabView : Les exemples d applications : c) Type de variables : Créer un programme : Exemple 1 : Calcul de c= 2(a+b)(a-3b) ou a, b et c seront des réels. «Exemple1» nom du programme : «Exemple

Plus en détail

Europresse.com. Pour les bibliothèques publiques et de l enseignement. Votre meilleur outil de recherche en ligne. Guide version 1.

Europresse.com. Pour les bibliothèques publiques et de l enseignement. Votre meilleur outil de recherche en ligne. Guide version 1. Europresse.com Pour les bibliothèques publiques et de l enseignement Votre meilleur outil de recherche en ligne Guide version 1.5 CEDROM-SNi Comprendre la page d accueil 1. Bandeau de navigation 2. Espace

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014 Identification du contenu des évaluations Septembre 2014 Tous droits réservés : Université de Montréal Direction des ressources humaines Table des matières Excel Base version 2010... 1 Excel intermédiaire

Plus en détail

TP 1 Prise en main de l environnement Unix

TP 1 Prise en main de l environnement Unix Introduction aux systèmes d exploitation (IS1) TP 1 Prise en main de l environnement Unix Le but de ce premier TP est de commencer à vous familiariser avec l environnement Unix. 1 Ouverture de session

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Guide utilisateur i-milo >> Décisionnel

Guide utilisateur i-milo >> Décisionnel Guide utilisateur i-milo >> Décisionnel Suivi des changements Version Date Chapitres impactés Opération effectuées sur le document 01 28/02/2014 Tous Initialisation du document pour les utilisateurs Contact

Plus en détail

Club informatique Mont-Bruno Séances du 05 octobre et du 24 octobre 2012 Présentateurs : Réjean Côté

Club informatique Mont-Bruno Séances du 05 octobre et du 24 octobre 2012 Présentateurs : Réjean Côté Contenu de la rencontre Club informatique Mont-Bruno Séances du 05 octobre et du 24 octobre 2012 Présentateurs : Réjean Côté Les fonctions de base de Windows Live Mail, Windows Mail et Outlook Express

Plus en détail

TUTORIEL Qualit Eval. Introduction :

TUTORIEL Qualit Eval. Introduction : TUTORIEL Qualit Eval Introduction : Qualit Eval est à la fois un logiciel et un référentiel d évaluation de la qualité des prestations en établissements pour Personnes Agées. Notre outil a été spécifiquement

Plus en détail

Installation de CPA STUDIO :

Installation de CPA STUDIO : Installation de CPA STUDIO : Système d exploitation requis : Windows 98 2ème édition Windows XP service pack 2 Résolution écran - Nombre de couleurs : CPA STUDIO nécessite une résolution minimum d affichage

Plus en détail

COMPTABILITE SAGE LIGNE 30

COMPTABILITE SAGE LIGNE 30 COMPTABILITE SAGE LIGNE 30 Date : 25/09/2006 Auteur : Pascal VIGUIER Réf. : SAGE092006 SOMMAIRE SOMMAIRE... 1 1. MENU FICHIER... 3 1.1 1.2 AUTORISATION D ACCES... 3 A PROPOS DE VOTRE SOCIETE... 4 1.2.1

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

SAS base Introduction à SAS SQL SAS IML

SAS base Introduction à SAS SQL SAS IML SAS base Introduction à SAS SQL SAS IML Introduction Le système SAS est un ensemble de modules logiciels pour la gestion et le traitement statistique des données. À travers différents types d interfaces

Plus en détail

Table des matières L INTEGRATION DE SAS AVEC JMP. Les échanges de données entre SAS et JMP, en mode déconnecté. Dans JMP

Table des matières L INTEGRATION DE SAS AVEC JMP. Les échanges de données entre SAS et JMP, en mode déconnecté. Dans JMP L INTEGRATION DE SAS AVEC JMP Quelles sont les techniques possibles pour intégrer SAS avec JMP? Comment échanger des données entre SAS et JMP? Comment connecter JMP à SAS? Quels sont les apports d une

Plus en détail

GUIDE Excel (version débutante) Version 2013

GUIDE Excel (version débutante) Version 2013 Table des matières GUIDE Excel (version débutante) Version 2013 1. Créer un nouveau document Excel... 3 2. Modifier un document Excel... 3 3. La fenêtre Excel... 4 4. Les rubans... 4 5. Saisir du texte

Plus en détail

Écriture de journal. (Virement de dépense)

Écriture de journal. (Virement de dépense) Écriture de journal (Virement de dépense) SERVICE DES FINANCES Équipe de formation PeopleSoft version 8.9 Août 2014 TABLES DES MATIERES AVERTISSEMENT... 3 INTRODUCTION... 4 RAISONS JUSTIFIANT LA CRÉATION

Plus en détail

26 Centre de Sécurité et de

26 Centre de Sécurité et de 26 Centre de Sécurité et de Maintenance La fenêtre du Centre de sécurité et de maintenance (CSM) rassemble tous les outils nécessaires au contrôle, à l analyse, à la maintenance, à la sauvegarde et au

Plus en détail

Découverte du tableur CellSheet

Découverte du tableur CellSheet Découverte du tableur CellSheet l application pour TI-83 Plus et TI-84 Plus. Réalisé par Guy Juge Professeur de mathématiques et formateur IUFM de l académie de Caen Pour l équipe des formateurs T 3 Teachers

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Algorithmique et programmation : les bases (VBA) Corrigé

Algorithmique et programmation : les bases (VBA) Corrigé PAD INPT ALGORITHMIQUE ET PROGRAMMATION 1 Cours VBA, Semaine 1 mai juin 2006 Corrigé Résumé Ce document décrit l écriture dans le langage VBA des éléments vus en algorithmique. Table des matières 1 Pourquoi

Plus en détail

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA OBJECTIFS : manipuler les fenêtres et l environnement Windows, gérer ses fichiers et dossiers, lancer les applications bureautiques présentes sur son poste. PUBLIC

Plus en détail

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches. S Vous n aimez pas la souris Les raccourcis clavier sont là pour vous faciliter la vie! INTRODUCTION : Vous avez du mal à vous habituer à la manipulation de la souris Des solutions existent : les raccourcis

Plus en détail

Access 2010 Entraînement 1 Garage Renault Dossier 24 MCD

Access 2010 Entraînement 1 Garage Renault Dossier 24 MCD Access 2010 Entraînement 1 Garage Renault Dossier 24 MCD Objectifs Concevoir une modèle conceptuel de données pour Access Durée 45 Support Papier Travail à faire : 1. Concevoir le dictionnaire des données.

Plus en détail

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10 modalisa Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10 8 Fonctionnalités de mise en ligne de questionnaires Vous trouverez dans cet opuscule les informations nécessaires

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

1) Installation de Dev-C++ Téléchargez le fichier devcpp4990setup.exe dans un répertoire de votre PC, puis double-cliquez dessus :

1) Installation de Dev-C++ Téléchargez le fichier devcpp4990setup.exe dans un répertoire de votre PC, puis double-cliquez dessus : 1) Installation de Dev-C++ Téléchargez le fichier devcpp4990setup.exe dans un répertoire de votre PC, puis double-cliquez dessus : La procédure d installation démarre. La fenêtre suivante vous indique

Plus en détail

Mon aide mémoire traitement de texte (Microsoft Word)

Mon aide mémoire traitement de texte (Microsoft Word) . Philippe Ratat Mon aide mémoire traitement de texte (Microsoft Word) Département Ressources, Technologies et Communication Décembre 2006. Sommaire PRÉSENTATION DU DOCUMENT 1 Objectif principal 1 Deux

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

Organiser le disque dur Dossiers Fichiers

Organiser le disque dur Dossiers Fichiers Ce document contient des éléments empruntés aux pages d aide de Microsoft Organiser le disque dur Dossiers Fichiers Généralités La connaissance de la logique d organisation des données sur le disque dur

Plus en détail

Présentation du langage et premières fonctions

Présentation du langage et premières fonctions 1 Présentation de l interface logicielle Si les langages de haut niveau sont nombreux, nous allons travaillé cette année avec le langage Python, un langage de programmation très en vue sur internet en

Plus en détail

Services bancaires par Internet aux entreprises. Guide pratique pour : Rapports de solde Version 8.05.22

Services bancaires par Internet aux entreprises. Guide pratique pour : Rapports de solde Version 8.05.22 Services bancaires par Internet aux entreprises Guide pratique pour : Rapports de solde Version 8.05.22 Table des matières Avez-vous besoin d aide?... 3 Exigences informatiques... 4 Navigateurs acceptés...

Plus en détail

A C T I V I T É S CE QUE JE CONNAIS CONTEXTE PROFESSIONNEL. Quel est l élément essentiel du poste informatique? ...

A C T I V I T É S CE QUE JE CONNAIS CONTEXTE PROFESSIONNEL. Quel est l élément essentiel du poste informatique? ... L informatique est devenue un outil indispensable dans les entreprises, et ce, quel que soit l emploi occupé. Aujourd hui, il est essentiel d en connaître les bases. A C T I V I T É S 1. DÉCOUVRIR SON

Plus en détail

Guide de l utilisateur Mikogo Version Windows

Guide de l utilisateur Mikogo Version Windows Guide de l utilisateur Mikogo Version Windows Table des matières Création d un compte utilisateur 3 Téléchargement et installation 4 Démarrer une session 4 Joindre une session 5 Fonctionnalités 6 Liste

Plus en détail

INITIATION A L INFORMATIQUE. MODULE : Initiation à l'environnement Windows XP. Table des matières :

INITIATION A L INFORMATIQUE. MODULE : Initiation à l'environnement Windows XP. Table des matières : INITIATION A L INFORMATIQUE MODULE : Initiation à l'environnement Windows XP Table des matières : INTRODUCTION Les outils de l Interface Graphique : CONFIGURER VOTRE POSTE DE TRAVAIL Paramétrer la barre

Plus en détail

GUIDE MEMBRE ESPACE COLLABORATIF. Février 2012

GUIDE MEMBRE ESPACE COLLABORATIF. Février 2012 GUIDE MEMBRE ESPACE COLLABORATIF Février 2012 Ce document est disponible sur le site WEB de l Agence de la santé et des services sociaux de la Montérégie, à l adresse suivante : http://extranet.santemonteregie.qc.ca/userfiles/file/espace-collabo/2012-02-04guide-membre-espace-collaboratif.pdf

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Manuel de System Monitor

Manuel de System Monitor Chris Schlaeger John Tapsell Chris Schlaeger Tobias Koenig Traduction française : Yves Dessertine Traduction française : Philippe Guilbert Traduction française : Robin Guitton Relecture de la documentation

Plus en détail

Excel 2007 Niveau 3 Page 1 www.admexcel.com

Excel 2007 Niveau 3 Page 1 www.admexcel.com Excel 2007 Niveau 3 Page 1 TABLE DES MATIERES UTILISATION DE LISTES DE DONNEES... 4 REMARQUES PREALABLES SUR LES LISTES DE DONNEES... 4 METTRE EN FORME LE TABLEAU... 6 METTRE LA LISTE A JOUR... 7 a/ Directement

Plus en détail

Manuel d utilisateur BilanKine Version 1.5

Manuel d utilisateur BilanKine Version 1.5 Manuel d utilisateur BilanKine Version 1.5 Manuel d utilisateur BilanKine 2 Table des matières 1 Introduction 3 2 Installation 3 2.1 Sous Windows................................... 3 2.2 Sous Macintosh..................................

Plus en détail

Europresse.com. Pour bibliothèque d enseignement Pour bibliothèque publique. Consulter facilement la presse. Guide version 1.

Europresse.com. Pour bibliothèque d enseignement Pour bibliothèque publique. Consulter facilement la presse. Guide version 1. Europresse.com Pour bibliothèque d enseignement Pour bibliothèque publique Consulter facilement la presse Guide version 1.4 CEDROM-SNi Utiliser la «Recherche simple» La «Recherche simple» 1. Saisissez

Plus en détail

Gestion des documents avec ALFRESCO

Gestion des documents avec ALFRESCO Gestion des documents avec ALFRESCO 1 INTRODUCTION : 2 1.1 A quoi sert ALFRESCO? 2 1.2 Comment s en servir? 2 2 Créer d un site collaboratif 3 2.1 Créer le site 3 2.2 Inviter des membres 4 3 Accéder à

Plus en détail

ESPACE COLLABORATIF SHAREPOINT

ESPACE COLLABORATIF SHAREPOINT Conseil de l Europe Service des Technologies de l Information ESPACE COLLABORATIF SHAREPOINT DOSSIER D UTILISATEUR 1/33 Sommaire 1. Présentation de SharePoint... 3 1.1. Connexion... 4 2. Les listes...

Plus en détail

Formation Comptabilité SAGE L 100 FORMATION SAARI SAGE LIGNE 100 COMPTABILITE

Formation Comptabilité SAGE L 100 FORMATION SAARI SAGE LIGNE 100 COMPTABILITE Formation Comptabilité SAGE L 100 FORMATION SAARI SAGE LIGNE 100 COMPTABILITE 1 Sommaire Introduction.... 2 I. Menu Fichier.....2 II. Menu Edition..5 III. Menu Structure...6 IV. Menu Traitement...23 V.

Plus en détail

LIMESURVEY. LimeSurvey est une application permettant de créer des questionnaires d enquête en ligne et d en suivre le dépouillement.

LIMESURVEY. LimeSurvey est une application permettant de créer des questionnaires d enquête en ligne et d en suivre le dépouillement. LIMESURVEY LimeSurvey est une application permettant de créer des questionnaires d enquête en ligne et d en suivre le dépouillement. CERPEG janvier 2014 - Fabienne Mauri - Académie de Bordeaux page 1 SOMMAIRE

Plus en détail

Guide d utilisation des services My Office

Guide d utilisation des services My Office Guide d utilisation des services My Office Note importante : La version de ce guide d utilisation ne s applique qu à l interface RIA (Web 2.0) de My Office. Une section supplémentaire concernant l interface

Plus en détail

Édu-groupe - Version 4.3

Édu-groupe - Version 4.3 Édu-groupe - Version 4.3 Guide de l utilisateur Gestion des fichiers Société GRICS, Équipe Évaluation Août 2012 2 CONSIDÉRATIONS GÉNÉRALES A. Importante mise en garde concernant les types de fureteur Les

Plus en détail

Initiation à la Programmation en Logique avec SISCtus Prolog

Initiation à la Programmation en Logique avec SISCtus Prolog Initiation à la Programmation en Logique avec SISCtus Prolog Identificateurs Ils sont représentés par une suite de caractères alphanumériques commençant par une lettre minuscule (les lettres accentuées

Plus en détail

Tutoriel. Votre site web en 30 minutes

Tutoriel. Votre site web en 30 minutes Tutoriel Votre site web en 30 minutes But du tutoriel Nous allons vous présenter comment réaliser rapidement votre site avec Web Creator Pro 6 en vous basant sur l utilisation des modèles fournis avec

Plus en détail

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau OpenOffice.org Calc 2 Avancé Guide de formation avec exercices et cas pratiques Philippe Moreau Tsoft et Groupe Eyrolles, 2007, ISBN : 2-212-12036-2, ISBN 13 : 978-2-212-12036-3 4 - Plages de données 4

Plus en détail

SOMMAIRE. 1. Connexion à la messagerie Zimbra 4 1.1.Pré-requis 4 1.2.Ecran de connexion à la messagerie 4

SOMMAIRE. 1. Connexion à la messagerie Zimbra 4 1.1.Pré-requis 4 1.2.Ecran de connexion à la messagerie 4 Messagerie Zimbra version 7 Prise en main Nadège HARDY-VIDAL 2 septembre 20 SOMMAIRE. Connexion à la messagerie Zimbra 4..Pré-requis 4.2.Ecran de connexion à la messagerie 4 2. Présentation générale de

Plus en détail