IDAMS. Logiciel développé internationalement pour la gestion et l analyse de données. Manuel de référence de WinIDAMS. (version 1.

Transcription

1 IDAMS Logiciel développé internationalement pour la gestion et l analyse de données Manuel de référence de WinIDAMS (version 1.3) avril 2008 Copyright c UNESCO

2 Publié par l UNESCO Organisation des Nations Unies pour l éducation, la science et la culture 7, Place de Fontenoy Paris 07 SP, France Titre de l ouvrage original : WinIDAMS Reference Manual (release 1.3) c UNESCO ninth edition 2008 Première publication en anglais par l UNESCO en 1988 Traduction française Nicole Visart ISBN (UNESCO - version en anglais)

3 Préface Objectifs d IDAMS L idée qui sous-tend IDAMS est de mettre gratuitement à la disposition des Etats membres de l UNESCO un logiciel suffisamment complet pour la gestion et l analyse statistique de données. Utilisé en combinaison avec CDS/ISIS (autre logiciel de l UNESCO destiné lui à la gestion de bases de données et à la recherche d informations), IDAMS constitue un outil intégré permettant de traiter de manière unifiée les données textuelles aussi bien que numériques recueillies tant à des fins scientifiques qu à des fins administratives par les universités, les institutions de recherche, les administrations nationales, etc. L objectif ultime est d aider les Etats membres à progresser dans la rationalisation du management de leurs divers secteurs d activité, un but crucial à la fois pour l établissement de plans de développement fiables et pour le suivi de leur exécution. Origine d IDAMS et aperçu historique A l origine, IDAMS provient en partie du logiciel statistique OSIRIS III.2 développé au début des années soixante-dix à l Institute for Social Research, University of Michigan, Etats-Unis. Depuis lors, IDAMS a été considérablement modifié, enrichi et continue d être mis à jour par le Secrétariat de l UNESCO avec la collaboration d experts de différents pays, notamment de spécialistes américains, anglais, belges, colombiens, français, hongrois, polonais, russes, slovaques et ukrainiens, - d où le nom «IDAMS»: «Internationally Developed Data Analysis and Management Software Package»; en français : «Logiciel développé internationalement pour la gestion et l analyse de données». Au début IDAMS tournait sur des gros ordinateurs de type IBM La première version (1.2) d IDAMS fut lancée en 1988; elle contenait déjà presque toutes les facilités destinées à la gestion de données et la plus part des programmes d analyse de données. Bien que des routines de base et certains programmes provinrent à l époque d OSIRIS III.2, ils furent par la suite modifiés de manière importante et de nouveaux programmes furent ajoutés permettant notamment d effectuer des calculs de scores fondés sur l ordre partiel d observations, des analyses factorielles, des classements d alternatives, des typologies et des classifications ascendantes. Furent également intégrées des facilités pour affecter des noms aux codes de catégories des variables ainsi que pour documenter l exécution des programmes. Un Manuel de l utilisateur, des Exemples des résultats et une Carte synoptique des commandes utilisées par les programmes accompagnaient le logiciel. La version 2.0 fut lancée en 1990; outre la fusion (1) des programmes de calcul des corrélations Pearson, (2) des programmes de classement d alternatives, elle contenait des améliorations techniques dans plusieurs programmes. La version 3.0 fut lancée en 1992; elle contenait des améliorations significatives, parmi lesquelles : harmonisation des paramètres, des mots clés et de la syntaxe des instructions de contrôle; possibilité de vérifier la syntaxe des instructions de contrôle sans passer à l exécution; possibilité d exécuter les programmes avec un nombre limité d observations; harmonisation des messages d erreurs; possibilité d agréger et de lister les variables recodées, d effectuer un recodage alphabétique et d utiliser six nouvelles fonctions arithmétiques dans Recode. Deux nouveaux programmes furent ajoutés : (1) pour la vérification de la pertinence logiques des données, (2) pour l analyse discriminante. Le Manuel de l utilisateur fut complété par une Annexe contenant les formules statistiques utilisées dans les programmes d analyses.

4 ii Note : en 1993, après la préparation de la version 3.02 pour les systèmes d exploitation OS et VM/CMS, il fut mis fin au développement d IDAMS pour gros ordinateurs. En parallèle, fut mise au point une version d IDAMS pour micro ordinateurs sous MS-DOS C est en 1988 que débuta le développement de la version d IDAMS pour micro ordinateurs. Jusqu à la version 3 il fut poursuivi en parallèle avec le développement d IDAMS pour gros ordinateurs. La première version (1.0) parut en 1989, avec les mêmes facilités et programmes que la version d IDAMS pour gros ordinateurs. La version 2.0 parut en 1990; elle était également entièrement compatible avec la version pour gros ordinateurs. L Interface utilisateur offrait en outre des facilités pour préparer le dictionnaire, saisir les données, préparer et exécuter les setups et imprimer les résultats. La version 3.0 parut en 1992 en même temps que la version pour gros ordinateurs. A ce stade l Interface utilisateur était devenu beaucoup plus convivial, offrant de nouveaux éditeurs pour la saisie du dictionnaire et des données, un accès direct à des prototypes de setups pour tous les programmes ainsi qu un module interactif pour l exploration graphique des données. Deux versions intermédiaires (3.02 et 3.04) furent mises en circulation, respectivement en 1993 et en 1994, offrant essentiellement des améliorations techniques et des mises au point dans certains programmes. La version 3.02 fut la dernière à être entièrement compatible avec la version d IDAMS pour gros ordinateurs. Micro IDAMS commença à se développer de manière indépendante en Le logiciel fut soumis à des tests complets et systématiques, en particulier en ce qui concerne le traitement des fautes commises par l utilisateur, et les erreurs connues furent corrigées dans tous les programmes. La version 4 (dernière version DOS), mise en circulation en 1996, offre un Interface utilisateur convivial amélioré, la possibilité de créer un environnement personnalisé, le Manuel de l utilisateur en ligne, un langage de contrôle simplifié, de nouvelles modalités de présentation graphique ainsi que la faculté de produire des versions en d autres langues. Elle inclut aussi deux nouveaux programmes d analyse : l un permettant de partitionner et regrouper des objets en classes, l autre de rechercher une structure éventuelle dans les données à partir de leur segmentation binaire. Le Manuel de l utilisateur restructuré qui accompagne cette version est plus concis et plus facile à consulter. Il est paru d abord en anglais. Depuis 1998, la version 4 a progressivement été développée en français, en espagnol, en arabe et en russe : première version d IDAMS pour Windows et développements ultérieurs La version 1.0 d IDAMS pour Windows 32 bits fut mise à l essai en 2000 et sa distribution débuta en Elle est équipée d un Interface utilisateur moderne avec quantité de nouveaux dispositifs qui en facilite l utilisation et de l accès en ligne au Manuel via l Aide standard de Windows. Elle contient de nouveaux outils interactifs pour la construction des tableaux multidimensionnels, l exploration graphique des données et l analyse de séries chronologiques, La version 1.1 parut en septembre 2002 contenant les améliorations suivantes : (1) externalisation des textes en vue de la production du logiciel en d autres langues que l anglais; (2) harmonisation des textes accompagnant les résultats. C était la première version pour Windows qui est apparu en anglais, français et espagnol. La version 1.2 parut en juillet 2004 en anglais, français et espagnol, avec des nouvelles fonctions dans trois programmes, dans l Interface utilisateur ainsi que dans les modules interactifs d exploration graphique des données et d analyse de séries chronologiques. Elle parut en portugais en avril La version 1.3 parut également en anglais, français, espagnol et portugais avec en autre : un nouveau programme pour l analyse de variance multivariée (MANOVA), le calcul du coefficient de variation dans quatre programmes, l amélioration du traitement des variables recodées avec décimales dans SCAT et TABLES, et une harmonisation complète de la longueur de l enregistrement de données.

5 iii Remerciements En premier lieu, ces remerciements s adressent au Prof. Frank-M. Andrews ( 1994) de l Institute for Social Research de l Université de Michigan aux Etats Unis, ainsi qu à cet Institut lequel a autorisé l UNESCO à se servir du code source d OSIRIS III.2 comme point de départ du logiciel IDAMS. Depuis lors des améliorations et des additions majeures ont été apportées. A cet égard une reconnaissance particulière s adresse aux scientifiques dont les noms suivent: Dr Jean-Paul Aimetti, Administrateur D.H.E. Conseil, Paris et Professeur au Conservatoire National des Arts et Métiers (CNAM), Paris (France); Prof. J.P. Benzécri et E.-R. Iagolnitzer, U.E.R. de mathématiques, Université de Paris V (France); Ingénieur Tibor Diamant et Dr Zoltán Vas, Université József Attila, Szeged (Hongrie); Prof. Anne-Marie Dussaix, Ecole Supérieure des Sciences Economiques et Commerciales (ESSEC), Cergy-Pontoise (France); Dr Igor S. Enyukov et Ingénieur Nicolaï Vylegjanin, StatPoint, Moscou (Fédération de Russie); Dr Péter Hunya, qui fut le Directeur du Laboratoire de Cybernétique de l Université József Attila à Szeged (Hongrie), et Responsable du Programme IDAMS à l UNESCO entre juillet 1993 et février 2001; Jean Massol, EOLE, Paris (France); Prof. Anne Morin, Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Rennes (France); Judith Rattenbury, ex-directeur, Data Processing Division, World Fertility Survey, Londres, et maintenant à la tête de SJ MUSIC, maison d édition musicale, Cambridge (Royaume-Uni); J.-M. Romeder et l Association pour le Développement et la Diffusion de l Analyse des Données (ADDAD), Paris (France); Prof. Peter J. Rousseeuw, Universitaire Instelling Antwerpen, (Belgique); Dr A.V. Skofenko, Académie de Sciences, Kiev (Ukraine); Eng. Neal Van Eck, Philadelphia College of Textiles and Science, Philadelphia (Etats Unis) ; Nicole Visart qui a lancé le Programme IDAMS et qui, outre sa contribution technique à toutes les étapes, a assuré la coordination et la direction de l ensemble du projet jusqu à son départ à la retraite en Il est impossible de faire dûment crédit ici aux très nombreuses personnes -outre celles déjà mentionnées plus haut- qui ont par leurs idées et par leurs efforts contribué au développement d IDAMS et d OSIRIS III.2 dont IDAMS dérive. IDAMS a été développé jusqu à présent principalement à l UNESCO. Ci-dessous figure la liste des principaux programmes, modules et facilités d IDAMS, avec en regard le nom de leurs auteurs et programmeurs ainsi que le nom des institutions où le travail a été effectué. Interface utilisateur et facilités de base Recodage de données Ellen Grun ISR Peter Solenberger ISR Tibor Diamant UNESCO Jean-Claude Dauphin UNESCO Interface utilisateur Jean-Claude Dauphin UNESCO Manuel de référence Pawel Hoser Polish Academy of Sciences en ligne Jean-Claude Dauphin UNESCO

6 iv Facilités de gestion de données AGGREG Tina Bixby ISR Jean-Claude Dauphin UNESCO BUILD Carl Bixby ISR Sylvia Barge ISR Tibor Diamant UNESCO CHECK Tina Bixby ISR Jean-Claude Dauphin UNESCO CONCHECK Neal Van Eck Van Eck Computing Consulting CORRECT Tibor Diamant UNESCO IMPEX Péter Hunya UNESCO LIST Marianne Stover ISR Sylvia Barge ISR Jean-Claude Dauphin UNESCO MERCHECK Karen Jensen ISR Sylvia Barge ISR Zoltán Vas JATE MERGE Tina Bixby ISR Nancy Barkman ISR Jean-Claude Dauphin UNESCO SORMER Carol Cassidy ISR Jean-Claude Dauphin UNESCO SUBSET Judy Mattson ISR Judith Rattenbury ISR Jean-Claude Dauphin UNESCO TRANS Jean-Claude Dauphin UNESCO

7 v Facilités d analyse de données CLUSFIND Leonard Kaufman Vrije Universiteit Brussel Peter J. Rousseeuw Vrije Universiteit Brussel Neal Van Eck Van Eck Computing Consulting Tibor Diamant UNESCO CONFIG Herbert Weisberg ISR DISCRAN J.-M. Romeder ADDAD and ADDAD Péter Hunya UNESCO Tibor Diamant UNESCO FACTOR J.P. Benzécri, Université de Paris V E.R. Iagolnitzer Université de Paris V Péter Hunya JATE MANOVA Charles E. Hall George Washington University Elliot M. Cramer George Washington University Neal Van Eck ISR Tibor Diamand UNESCO MCA Edwin Dean ISR John Sonquist ISR Tibor Diamant UNESCO MDSCAL Joseph Kruskal Bell Telephone Frank Carmone Bell Telephone Lutz Erbring ISR ONEWAY Spyros Magliveras ISR Tibor Diamant UNESCO PEARSON John Sonquist ISR Spyros Magliveras ISR Neal Van Eck ISR Ronald Nuttal Boston College Tibor Diamant UNESCO POSCOR Péter Hunya JATE QUANTILE Robert Messenger ISR Tibor Diamant UNESCO RANK Anne-Marie Dussaix ESSEC Albert David ESSEC Péter Hunya JATE A.V. Skofenko Ukrainian Academy of Sciences REGRESSN M.A. Efroymson ESSO Corporation Bob Hsieh ESSO Corporation Neal Van Eck ISR Peter Solenberger ISR SCAT Judith Goldberg ISR SEARCH John Sonquist ISR Elizabeth Lauch Baker ISR James N. Morgan ISR Neal Van Eck Van Eck Computing Consulting Tibor Diamant UNESCO TABLES Neal Van Eck ISR and Van Eck Computing Consulting Tibor Diamant UNESCO TYPOL Jean-Paul Aimetti CFRO Jean Massol CFRO Péter Hunya JATE Jean-Claude Dauphin UNESCO Tableaux multidimensionnels Jean-Claude Dauphin UNESCO GraphID Igor S. Enyukov StatPoint Nicolaï D. Vylegjanin StatPoint TimeSID Igor S. Enyukov StatPoint

8 vi Quant à la documentation, des remerciements s adressent à toutes les personnes qui ont apporté leur concours à son élaboration, - en particulier à : Judith Rattenbury qui a rédigé la première version originale anglaise du Manuel (1988) et en a revu les éditions suivantes jusqu en 1998; Jean-Paul Griset (UNESCO, Paris) qui a conçu avec Nicole Visart la typographie utilisée pour le Manuel jusqu en 1998; Teresa Krukowska (Groupe IDAMS, UNESCO, Paris) qui a compilé la partie consacrée aux formules statistiques, qui depuis 1999 maintient à jour la version originale anglaise, en a renouvellé la typographie en 1998, qui -depuis le début de leur parution- asssure la production électronique des version anglaises, espagnoles, françaises et portugaise, et a veillé à l harmonisation aussi complète que possible des textes en anglais, espagnol, français et portugais. Des remerciements sont également adressés aux auteurs de la documentation du logiciel OSIRIS pour ce qui suit : le Volume 1 du Manuel utilisateur d OSIRIS (mis en forme par Sylvia Barge et Gregory A.Marks) et le Volume 5 consacré aux formules statistiques (compilé par Laura Klem), Institute for Social Research, University of Michigan, Etats-Unis. Sont également remerciés ici pour leur coopération, les traducteurs de la documentation et du logiciel en espagnol, en français et en portugais : Professeur José Raimundo Carvalho, CAEN Pós-graduação em Economia, UFC, Fortaleza, Brasil, pour la traduction en portugais du Manuel et des textes faisant partie intégrante du logiciel. Professeur Bernardo Liévano, Escuela Colombiana de Ingeniería (ECI) Bogota, Colombie, pour la traduction en espagnol du Manuel et des textes faisant partie intégrante du logiciel. Professeur Anne Morin, Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Rennes, France, pour sa contribution à la traduction en français des textes faisant partie intégrante du logiciel. Nicole Visart, Grez-Doiceau, Belgique, pour la traduction du Manuel en français. Les institutions suivantes ont entrepris des traductions en arabe et en russe du logiciel et du Manuel : ALECSO - Department of Documentation and Information, Tunis, Tunisie, et Russian State Hydrometeorological University, Department of Telecommunications, St. Petersbourg, Fédération de Russie. Comment obtenir WinIDAMS et des informations complémentaires Pour plus d informations sur IDAMS en ce qui concerne son contenu, sa mise-à-jour, les services de formation et de distribution, prière de s adresser à : UNESCO Secteur de la communication et de l information Division de la société de l information CI/INF - IDAMS 1, rue Miollis PARIS CEDEX 15 France [email protected]

9 Table des matières 1 Introduction L Interface utilisateur de WinIDAMS Facilités de gestion des données Facilités d analyse des données Les données dans IDAMS Les commandes d IDAMS et le fichier Setup Caractéristiques standard d IDAMS Importation et exportation des données Échange de données entre CDS/ISIS et IDAMS Structure du Manuel I Notions fondamentales 9 2 Les données dans IDAMS Le dataset IDAMS Description générale Méthode de stockage et d accès Les fichiers Données Le tableau de données Caractéristiques du fichier Données Les fichiers hiérarchiques Les variables Les codes des données manquantes Valeurs non numériques et champs en blanc dans les variables numériques - mauvaises données Les règles de la mise-en-forme des variables produites en sortie par les programmes d IDAMS Le dictionnaire IDAMS Description générale Exemple d un dictionnaire Les matrices d IDAMS La matrice carrée d IDAMS La matrice rectangulaire d IDAMS Utilisation de données provenant d autres logiciels Données brutes Matrices Le fichier Setup d IDAMS Objet et contenu Les commandes d IDAMS Spécifications des fichiers Exemples d utilisation des commandes $ et de spécification de fichiers Instructions de contrôle des programmes Description générale Règles générales de codage Les filtres Les titres

10 viii TABLE DES MATIÈRES Les paramètres Instructions de recodage Facilité Recode Règles de codage Exemple d un jeu d instructions de Recode Traitement des données manquantes Comment fonctionne Recode Opérandes de base Opérateurs de base Expressions Fonctions arithmétiques Fonctions logiques Instructions d attribution Instructions spéciales d attribution Instructions de contrôle Instructions conditionnelles Instructions d initialisation/définition Exemples d utilisation d instructions de Recode Restrictions Notes La gestion et l analyse des données La validation des données avec IDAMS Vue d ensemble Vérification si les données sont complètes Détection des valeurs non numériques et invalides Contrôles de pertinence Gestion/transformation des données Analyse des données Exemple d une petite tâche à exécuter avec IDAMS II Travailler avec WinIDAMS 63 6 Installation Equipements système nécessaires Procédure d installation Test de l installation Liste des dossiers et fichiers créés durant l installation Dossiers WinIDAMS Fichiers installés Désinstallation Les premiers pas Vue d ensemble des étapes à parcourir avec WinIDAMS Créer l environnement d une application Préparation du dictionnaire Saisie des données Préparation du setup Exécution du setup Examen des résultats et modification du setup Impression des résultats Fichiers et dossiers Les fichiers dans WinIDAMS Les dossiers dans WinIDAMS L Interface utilisateur Concept général Menus communs à toutes les fenêtres de WinIDAMS

11 TABLE DES MATIÈRES ix 9.3 Personnalisation de l environnement d une application Créer/Mettre à jour/afficher les fichiers Dictionnaire Créer/Mettre à jour/afficher des fichiers Données Importation de fichiers de données Exportation de fichiers Données IDAMS Créer/Mettre à jour/afficher les fichiers Setup L exécution des setups d IDAMS Gestion des fichiers Résultats Créer/Mettre à jour des fichiers en format texte et RTF III Facilités pour la gestion de données Agrégation de données (AGGREG) Description générale Caractéristiques standard d IDAMS Résultats Dataset en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemple Construction d un dataset IDAMS (BUILD) Description générale Caractéristiques standard d IDAMS Résultats Dataset en sortie Dictionnaire en entrée Données en entrée Structure du setup Instructions de contrôle du programme Exemples Vérification des codes (CHECK) Description générale Caractéristiques standard d IDAMS Résultats Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Vérification de cohérence logique (CONCHECK) Description générale Caractéristiques standard d IDAMS Résultats Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Vérification de la fusion des enregistrements (MERCHECK) Description générale Caractéristiques standard d IDAMS Résultats Données en sortie

12 x TABLE DES MATIÈRES 14.5 Données en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Correction de données (CORRECT) Description générale Caractéristiques standard d IDAMS Résultats Dataset en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restriction Exemple Importation/exportation de données (IMPEX) Description générale Caractéristiques standard d IDAMS Résultats Fichiers en sortie Fichiers en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Listage de datasets (LIST) Description générale Caractéristiques standard d IDAMS Résultats Dataset en entrée Structure du setup Instructions de contrôle du programme Restriction Exemples Fusion de datasets (MERGE) Description générale Caractéristiques standard d IDAMS Résultats Dataset en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Tri et fusion de fichiers (SORMER) Description générale Caractéristiques standard d IDAMS Résultats Dictionnaire en sortie Données en sortie Dictionnaire en entrée Données en entrée Structure du setup Instructions de contrôle du programme Restrictions

13 TABLE DES MATIÈRES xi 19.11Exemples Subdivision de datasets (SUBSET) Description générale Caractéristiques standard d IDAMS Résultats Dataset en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Transformation de données (TRANS) Description générale Caractéristiques standard d IDAMS Résultats Dataset en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples IV Facilités pour l analyse de données Partition et regroupement en classes (CLUSFIND) Description générale Caractéristiques standard d IDAMS Résultats Dataset en entrée Matrice en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Analyse de configuration (CONFIG) Description générale Caractéristiques standard d IDAMS Résultats Matrice de configuration en sortie Matrice des distances en sortie Matrice de configuration en entrée Structure du setup Instructions de contrôle du programme Restriction Exemples Analyse discriminante (DISCRAN) Description générale Caractéristiques standard d IDAMS Résultats Dataset en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples

14 xii TABLE DES MATIÈRES 25 Fonctions de distribution et de Lorenz (QUANTILE) Description générale Caractéristiques standard d IDAMS Résultats Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemple Analyses factorielles (FACTOR) Description générale Caractéristiques standard d IDAMS Résultats Dataset(s) en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Régression linéaire (REGRESSN) Description générale Caractéristiques standard d IDAMS Résultats Matrice de corrélation en sortie Datasets des résidus en sortie Dataset en entrée Matrice de corrélation en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Analyse multidimensionnelle des proximités (MDSCAL) Description générale Caractéristiques standard d IDAMS Résultats Matrice de configuration en sortie Matrice de données en entrée Matrice de poids en entrée Matrice de configuration en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemple Analyse de classification multiple (MCA) Description générale Caractéristiques standard d IDAMS Résultats Dataset(s) des résidus en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Analyse de la variance multivariée (MANOVA) Description générale

15 TABLE DES MATIÈRES xiii 30.2 Caractéristiques standard d IDAMS Résultats Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Analyse de variance à un facteur (ONEWAY) Description générale Caractéristiques standard d IDAMS Résultats Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Scores fondés sur l ordre partiel des observations (POSCOR) Description générale Caractéristiques standard d IDAMS Résultats Dataset en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Corrélation de Pearson (PEARSON) Description générale Caractéristiques standard d IDAMS Résultats Matrices en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Classement d alternatives (RANK) Description générale Caractéristiques standard d IDAMS Résultats Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Diagrammes de dispersion (SCAT) Description générale Caractéristiques standard d IDAMS Résultats Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemple

16 xiv TABLE DES MATIÈRES 36 Recherche de structure (SEARCH) Description générale Caractéristiques standard d IDAMS Résultats Dataset des résidus en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples Tableaux univariés et bivariés (TABLES) Description générale Caractéristiques standard d IDAMS Résultats Tableaux univariés/bivariés en sortie Matrices des statistiques bivariées en sortie Dataset en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemple Typologie et classification ascendante (TYPOL) Description générale Caractéristiques standard d IDAMS Résultats Dataset en sortie Matrice de configuration en sortie Dataset en entrée Matrice de configuration en entrée Structure du setup Instructions de contrôle du programme Restrictions Exemples V Analyse interactive de données Tableaux multidimensionnels et leur présentation graphique Aperçu général Préparation d une analyse La fenêtre des tableaux multidimensionnels Présentation graphique des tableaux univariés/bivariés Comment construire un tableau multidimensionnel Comment modifier un tableau multidimensionnel Exploration graphique des données Aperçu général Préparation d une analyse La fenêtre principale de GraphID pour l analyse d un dataset Barre de menus et barre d outils Manipulation de la matrice des diagrammes de dispersion Histogrammes et densités Ligne de régression (lignes lissées) Graphiques de boîtes à moustaches Diagramme groupé Affichage et rotation de diagrammes de dispersion en trois dimensions Fenêtre de GraphID pour l analyse d une matrice Barre de menus et barre d outils

17 TABLE DES MATIÈRES xv Manipulation de la matrice affichée dans la fenêtre Analyse de séries chronologiques Aperçu général Préparation d une analyse La fenêtre principale de TimeSID Barre de menus et barre d outils La fenêtre de séries chronologiques Transformation de séries chronologiques Analyse de séries chronologiques VI Formules statistiques et références bibliographiques Partition et regroupement en classes Statistiques univariées Mesures normalisées Matrice de dissimilarité calculée à partir d un dataset IDAMS Matrice de dissimilarité calculée à partir d une matrice de similarité Matrice de dissimilarité calculée à partir d une matrice de corrélation Partitionnement autour des médoïdes (PAM) Classification de LARges Applications (CLARA) Classification floue (FANNY) Classification hiérarchique ascendante (AGNES) Classification hiérarchique descendante (DIANA) Analyse monothétique (MONA) Références Analyse de configuration Configuration centrée Configuration normée Solution avec les axes principaux Matrice des produits scalaires Matrice des distances entre points Configuration ayant fait l objet d une rotation Configuration ayant fait l objet d une translation Rotation Varimax Configuration triée Références Analyse discriminante Statistiques univariées Discrimination linéaire entre 2 groupes Discrimination linéaire entre plus de 2 groupes Références Fonctions de distribution et de Lorenz Formules pour les points de coupure Points de coupure pour la fonction de distribution Points de coupure pour la fonction de Lorenz Courbe de Lorenz Indice de Gini Statistique D de Kolmogorov-Smirnov Note sur les poids Analyses factorielles Statistiques univariées Données en entrée Matrices de base (matrices de relations) Trace Valeurs et vecteurs propres

18 xvi TABLE DES MATIÈRES 46.6 Tableau des valeurs propres Tableau des facteurs des variables actives Tableau des facteurs des variables passives Tableau des facteurs des observations actives Tableau des facteurs des observations passives Facteurs ayant subi une rotation Références Régression linéaire Statistiques univariées Matrice des sommes totales des carrés et des produits croisés Matrice des sommes résiduelles des carrés et des produits croisés Matrice de corrélation totale Matrice de corrélation partielle Matrice inverse Statistiques générales d analyse Statistiques relatives aux prédicteurs Résidus Note sur la régression pas à pas ascendante Note sur la régression pas à pas descendante Note sur la régression avec interception de zéros Analyse multidimensionnelle des proximités Ordre des calculs Configuration initiale Centrage et normalisation de la configuration Historique du calcul Contrainte pour la configuration finale Configuration finale Configuration finale triée Résumé Notes sur les liens dans les données d entrée Note sur les poids Références Analyse de classification multiple Statistiques de la variable dépendante Statistiques des prédicteurs dans l analyse de classification multiple Statistiques récapitulatives de l analyse de classification multiple Statistiques générales des résidus Statistiques des catégories de prédicteurs dans une analyse de variance à un facteur Statistiques récapitulatives de l analyse de variance à un facteur Références Analyse de la variance multivariée Statistiques générales Calculs pour un test en analyse multivariée Analyse univariée Analyse de la covariance Analyse de variance à un facteur Statistiques pour chaque catégorie de la variable de contrôle Statistiques de l analyse de variance Scores fondés sur l ordre partiel des observations Terminologie spéciale et définitions Calcul des scores Références Corrélation de Pearson Statistiques par paires

19 TABLE DES MATIÈRES xvii 53.2 Moyennes et écarts-types non appariés Coefficients de régression pour les données brutes Matrice de corrélation Matrice des produits croisés Matrice de covariance Classement d alternatives Gestion des données d entrée Méthode de classement fondée sur la logique classique Méthodes de classement fondées sur la logique floue : la relation d entrée Méthode floue 1 : couches non dominées Méthode floue 2 : rangs Références Diagrammes de dispersion Statistiques univariées Statistiques univariées pour les paires de variables Statistiques bivariées Recherche de structure Analyse des moyennes Analyse de régression Analyse du Chi-deux Références Tableaux univariés et bivariés Statistiques univariées Statistiques bivariées Note sur les poids Typologie et classification ascendante Types de variables utilisées Profil de l observation Profil d un groupe Distances utilisées Construction de la typologie initiale Caractéristiques des distances par groupe Statistiques récapitulatives Description de la typologie résultante Récapitulation du montant de la variance expliquée par la typologie Classification hiérarchique ascendante Références Annexe : Messages d erreurs des programmes d IDAMS 441 Index 443

20

21 Chapitre 1 Introduction IDAMS est un logiciel destiné à la validation, la manipulation et l analyse statistique des données. Il consiste en une collection de programmes et facilités utilisant le même environnement, de sorte qu un seul et même langage permet d accéder aux différentes fonctions et ce pour tous les programmes. À titre d exemples des types de données pouvant être traitées avec IDAMS, on citera : les réponses fournies par des répondants aux questions d une enquête, des informations sur les livres d une bibliothèque, les caractéristiques personnelles et les résultats obtenus par les étudiants d un collège, les mesures provenant d expériences scientifiques. Les traits communs à de telles données sont que celles-ci consistent en des valeurs prises par des variables pour chacun des objets/observations faisant partie d un ensemble (par ex. dans une enquête, les questions correspondent aux variables et les répondants aux observations). Il existe de nombreux logiciels et programmes pour aider à l analyse statistique de telles données. Une caractéristique spéciale d IDAMS est qu il offre aussi des facilités permettant de procéder à une validation extensive des données (par ex. vérification de codes et des erreurs de logique) avant d entreprendre leur analyse. Quant à l analyse des données, IDAMS offre les techniques classiques telles que : construction de tableaux, analyse de régression, analyse de variance à un facteur, analyse discriminante, partition et regroupement en classes, et aussi des techniques plus avancées telles que : analyse en composantes principales, analyse des correspondances, calcul de scores selon l ordonnancement partiel des observations, rangement d alternatives, segmentation et typologie itérative. En plus, la version d IDAMS pour Windows (WinIDAMS) offre des modules interactifs permettant de construire des tableaux multidimensionnels, d explorer les données au moyen de leur visualisation graphique et d analyser les séries chronologiques. 1.1 L Interface utilisateur de WinIDAMS Il s agit d un interface à documents multiples (MDI) qui permet de travailler simultanément avec différents types de documents ouverts dans des fenêtres séparées. L Interface offre les facilités suivantes : la définition des dossiers Données, Travail et Temporaire pour une application donnée; une fenêtre Dictionnaire servant à préparer/mettre à jour/afficher les fichiers Dictionnaire ; une fenêtre Données servant à préparer/mettre à jour/afficher les fichiers Données; une fenêtre Setup servant à préparer/afficher les fichiers Setup ; une fenêtre Résultats servant à afficher, copier et imprimer les parties sélectionnées de résultats; un éditeur général de textes ; une option permettant d exécuter les setups à partir d un fichier ou bien à partir de la fenêtre Setup active; la possibilité d une importation/exportation interactive de données;

22 2 Introduction un accès aux modules interactifs d analyse de données (Tableaux multidimensionnels, GraphID, Time- SID) ; un accès au Manuel de référence en ligne. 1.2 Facilités de gestion des données Agrégation de données (AGGREG). Permet de regrouper en un seul enregistrement les enregistrements provenant de plusieurs observations et de produire en sortie un nouveau dataset avec seulement un enregistrement pour chaque groupe, par exemple, les enregistrement représentants les membres d un ménage sont regroupés en un enregistrement représentant un ménage. Les nouveaux enregistrements sont constitués de statistiques résumant au niveau du groupe les valeurs des variables provenant des enregistrements individuels, par ex. somme, moyenne, valeur maximum/minimum. Construction d un dataset IDAMS (BUILD). Le programme utilise en entrée un fichier de données brutes (qui peut contenir des enregistrements multiples par observation), accompagné d un dictionnaire décrivant les variables à insérer dans le dataset. BUILD vérifie s il y a des valeurs non numériques dans des champs numériques; les champs vides peuvent être recodés avec des valeurs numériques spécifiées par l utilisateur; le programme signale la présence éventuelle d autres valeurs non numériques et les remplace par des 9. En sortie, le programme produit un dataset IDAMS composé d un fichier Données avec un enregistrement par observation et d un dictionnaire décrivant chaque champ dans l enregistrement de données. Vérification des codes (CHECK). Le programme signale les observations comportant des valeurs de codes invalides. Pour chaque variable, les codes valides peuvent être spécifiés par l utilisateur et/ou sont extrait du dictionnaire. Vérification de cohérence logique (CONCHECK). Le programme signale les observations pour lesquelles il y a des erreurs de logique entre les valeurs de deux ou plusieurs variables. On utilise les instructions Recode d IDAMS pour spécifier les relations logiques à vérifier. Vérification de fusion des enregistrements (MERCHECK). Vérifie qu un fichier contenant des enregistrements multiples par observation comporte un jeu correct d enregistrements pour chaque observation. Il produit en sortie un fichier contenant pour chaque observation un nombre égal d enregistrements. Les enregistrements invalides ou en double peuvent être supprimés tandis que les enregistrements manquants peuvent être ajoutés et remplis avec des valeurs spécifiées par l utilisateur. Corrections de données (CORRECT). Permet de mettre à jour un fichier Données en insérant, pour les observations et les variables spécifiées, les corrections des valeurs erronées. Le fichier Résultats contient une trace écrite des corrections ce qui permet de les archiver. Importation/exportation de données (IMPEX). L importation a pour but de construire des datasets ou matrices d IDAMS à partir de fichiers provenant d autres logiciels. L exportation vise à rendre possible l utilisation par d autres logiciels de fichiers Données et Matrices créés ou stockés par IDAMS. Les fichiers de textes en format libre et DIF peuvent être importés/exportés. Listages de datasets (LIST). Permet d obtenir, sous forme de colonnes, des listages avec les valeurs des variables (originales ou recodées) et des observations sélectionnées. Fusion de datasets (MERGE). Le programme permet de fusionner deux datasets en appariant leurs observations à partir d un jeu commun de variables, appelées variables d appariement. Il y a 4 options pour sélectionner les observations que l on veut voir figurer dans le dataset en sortie : (1) seulement les observations présentes dans les deux fichiers en entrée (intersection); (2) les observations présentes dans l un ou dans l autre fichier (union); (3) toutes les observations présentes dans le premier fichier; (4) toutes les observations présentes dans le deuxième fichier. C est à l utilisateur de spécifier quelles variables de chacun des deux fichiers en entrée il veut avoir en sortie. Le programme contient une option permettant d apparier une observation du premier fichier avec plus d une observation du second fichier; par ex. on peut vouloir ajouter à chaque enregistrement individuel du deuxième fichier des données concernant le ménage en provenance du premier fichier.

23 1.3 Facilités d analyse des données 3 Tri et fusion de fichiers (SORMER). Utilitaire à vocation générale pour trier des données dans un ordre ascendant ou descendant en utilisant pour ce faire jusqu à 12 champs. Il est possible de fusionner jusqu à 16 fichiers. Subdivision de datasets (SUBSET). Le programme produit en sortie un nouveau dataset (fichiers Données et Dictionnaire) contenant les observations et/ou les variables sélectionnées dans le dataset utilisé en entrée. Il contient une option permettant de détecter les observations en double. Transformation de données (TRANS). Ce programme permet de sauvegarder dans un dataset permanent les variables créées avec la facilité Recode d IDAMS. 1.3 Facilités d analyse des données Partition et regroupement en classes (CLUSFIND). Partition d un ensemble d objets (observations ou variables) en une série de groupes, selon l un des 6 algorithmes proposés par le programme; deux d entre eux sont fondés sur le partitionnement autour de «médoïdes», un sur la classification floue et les trois autres sur une procédure de regroupement hiérarchique. Analyse de configuration (CONFIG). Le programme utilise une seule configuration en entrée, créée par ex. par MDSCAL. Il offre les options suivantes : centrage, normalisation, rotation, translation des dimensions, calcul des distances entre points et produits scalaires. Une projection de la configuration peut être obtenue après chaque transformation. Analyse discriminante (DISCRAN). Le programme recherche la meilleure ou les meilleures fonction(s) linéaire(s) discriminante(s) d un ensemble de variables en reproduisant, autant que faire se peut, un groupement a priori des observations considérées. Il utilise une procédure pas à pas, càd qu à chaque pas la variable à plus fort pouvoir entre dans la fonction discriminante. Trois échantillons d observations sont considérés : un échantillon de base qui sert à calculer la fonction discriminante, un échantillon test qui permet de vérifier le pouvoir de la fonction discriminante et un échantillon anonyme qui sert uniquement à classer les observations. L affectation des groupes et les valeurs des deux premiers facteurs discriminants (pour une analyse de plus de 2 groupes) peuvent être sauvegardées dans un dataset. Fonctions de distribution et de Lorenz (QUANTILE). Fonctions de distribution avec des sousintervalles allant de 2 à 100, fonctions de Lorenz, courbes de Lorenz, indices de Gini, test de Kolmogorov- Smirnov. Analyse factorielle (FACTOR). Le programme comprend une série d analyses factorielles en composantes principales (produits scalaires, covariances, corrélations) ainsi que l analyse factorielle des correspondances. Pour chaque analyse, il construit une matrice des relations entre les variables et calcule ses valeurs propres et ses vecteurs propres. Il calcule ensuite les facteurs (observations et/ou variables) en donnant pour chaque observation/variable son ordonnée, sa qualité de représentation et sa contribution à chaque facteur. Il est possible de sauvegarder les facteurs dans un dataset et d obtenir la représentation graphique des observations et/ou des variables dans l espace factoriel. Le programme permet de distinguer des variables actives et passives, et de même pour les observations. Régression linéaire (REGRESSN). Analyse de régression linéaire multiple : standard et pas à pas. On peut utiliser en entrée soit un dataset soit une matrice de corrélations. On peut imprimer les valeurs résiduelles accompagnées de la statistique de Durbin-Watson servant à vérifier l existence d auto-corrélations de premier ordre; les valeurs résiduelles peuvent être sauvegardées dans un fichier pour analyses ultérieures. Analyse multidimensionnelle des proximités (MDSCAL). Il s agit d une procédure d analyse multidimensionnelle et non métrique des proximités. Le programme part d une matrice de mesures de similarité ou de dissimilarité et recherche la meilleure représentation géométrique des données dans un espace à n dimension. L utilisateur contrôle la dimensionalité de la configuration, la metrique de distance utilisée et la manière de traiter les liens (valeurs identiques) existant dans les données d entrée. Analyse de classification multiple (MCA). Examen des relations entre plusieurs prédicteurs (variables de contrôle) et une seule variable dépendante; le programme détermine l effet de chaque prédicteur avant et après ajustement pour ses inter-corrélations avec les autres prédicteurs; il fournit également des informations sur les relations bivariées et multivariées entre les prédicteurs et la variable dépendante. Les valeurs résiduelles peuvent être imprimées et/ou sauvegardées dans un dataset.

24 4 Introduction Analyse de variance multivariée (MANOVA) Le programme exécute une analyse de variance univariée et multivariée, ainsi q une analyse de covariance, en appliquant un modèle linéaire général. On peut utiliser jusqu à huit facteurs (variables indépendantes). Quand il y a plus d une variable dépendante, les deux analyses sont exécutées : univariée et multivariée. Le programme applique une solution exacte avec un nombre égal ou inégal d observations dans les cellules. Analyse de variance à un facteur (ONEWAY). Statistiques descriptives de la variable dépendante pour chaque catégorie de la variable de contrôle (facteur) et statistiques propres à l analyse de variance telles que : somme totale des carrés, somme des carrés entre les moyennes de chaque groupe, somme des carrés à l intérieur des groupes, eta et eta carré (non ajusté et ajusté) et ratio F. Construction de scores fondés sur l ordre partiel des observations (POSCOR). A partir de données mesurées sur une échelle continue ou ordinale, le programme calcule, et affecte à chaque observation, un ou plusieurs scores de type ordinal. Ces scores mesurent la position relative de chaque observation par rapport aux autres observations faisant partie du même ensemble. Ils sont envoyés en sortie sous forme d un dataset IDAMS avec, éventuellement, d autres variables spécifiées par l utilisateur. Corrélation de Pearson (PEARSON). Coefficients de corrélation r de Pearson, covariances, coefficients de régression. Une option permet de supprimer les données manquantes, soit par «paires» soit par «observations». On peut sauvegarder dans un fichier les matrices de corrélation et de covariances obtenues en sortie. Classement d alternatives (RANK). Sur la base de données représentant des préférences, le programme détermine un classement raisonnable d alternatives à l aide de trois procédures, fondées l une sur la logique classique et les deux autres sur la logique floue. Les préférences représentent soit une sélection, soit un rangement d alternatives. L utilisateur peut spécifier deux types de préférences : faible et stricte. Avec l option «logique floue», les résultats sont déterminés uniquement à partir des données, tandis qu avec l option «logique classique», l utilisateur a la possibilité de contrôler la manière dont les calculs sont effectués. Diagrammes de dispersion (SCAT). Nuage de points, statistiques univariées (moyenne, écart-type et N) et statistiques bivariées (coefficient r de Pearson, statistiques de la régression : coefficient B et constante A). Recherche de structure (SEARCH). Procédure de segmentation binaire en vue de la construction de modèles prédictifs. L algorithme utilisé repose, pour l essentiel, sur la question suivante incorporée dans une routine itérative : «Quelle coupure dichotomique sur quel prédicteur produira l amélioration maximum dans la prédiction des valeurs de la variable dépendante?». Tableaux univariés et bivariés (TABLES). Le programme comprend les options suivantes : (1) distributions de fréquences et pourcentages simples et cumulatifs d une variable; (2) statistiques univariées : moyenne, mode, médiane, variance, écart-type, coefficient d asymétrie, coefficient d aplatissement, minimum, maximum; (3) tableaux de fréquences bivariées avec les pourcentages en lignes et en colonnes et les pourcentages totaux ; (4) tableaux des valeurs moyennes d une variable supplémentaire; (5) statistiques bivariées : test T de Student des moyennes entre paires de lignes du tableau, test Chi-2, coefficient de contingence, V de Cramer, Taus de Kendall, gamma, lambdas, rho de Spearman, statistiques utilisées dans la médicine factuelle (Evidence-based medicine) et 3 tests non paramétriques : Wilcoxon, Mann-Whitney et Fisher. Typologie inérative et classification ascendante (TYPOL). Le programme crée une variable globale qui résume un grand nombre de variables tant quantitatives que qualitatives. L utilisateur choisit le nombre initial et le nombre final de groupes, le type de distance ainsi que la manière de démarrer la typologie initiale. Les groupes de cette typologie initiale sont stabilisés à l aide d un procédure itérative. Le nombre de groupes peut ultérieurement être réduit à l aide de l algorithme de classification ascendante inclus dans TYPOL. Le programme distingue entre les variables actives qui servent à construire la typologie et les variables passives pour lesquelles il fournit les statistiques de base à l intérieur de chaque groupe. Tableaux multidimensionnels interactifs. Ce module permet de produire et personnaliser des tableaux multidimensionnels avec la possibilité d afficher une série de statistiques : fréquences, pourcentages en lignes et en colonnes, pourcentages globaux, statistiques univariées pour des variables supplémentaires (somme, effectif, moyenne, maximum, minimum, variance, écart-type) et statistiques bivariées. On peut emboîter jusqu à sept variables par lignes et par colonnes. La construction d un tableau peut être répétée pour chaque valeur des variables «de page», jusqu à trois variables de page au maximum. Il est possible d imprimer les tableaux, de les exporter en format libre (délimitation avec la virgule ou avec Tab) ou en format HTML. Exploration graphique interactive des données. WinIDAMS contient un module séparé, GraphID, permettant d explorer les données au moyen de leur visualisation graphique. La présentation de base consiste

25 1.4 Les données dans IDAMS 5 en diagrammes de dispersion multiples pour différentes paires de variables. Il est possible d afficher sur chaque diagramme des informations supplémentaires telles que lignes de régression et histogrammes. Les diagrammes peuvent être manipulés de diverses manières. On peut, par ex., marquer des observations sélectionnées dans un diagramme donné et les mettre en surbrillance dans tous les autres diagrammes. L option «zoom» permet d agrandir des parties de diagrammes. Les matrices d IDAMS sont visualisées en trois dimensions, deux d entre elles représentant respectivement les lignes et les colonnes, tandis que la troisième indique la taille de la statistique pour chaque cellule. Analyse interactive de séries chronologique. Un autre module séparé, TimeSID, permet d analyser les tendances de séries chronologiques, de calculer les auto-corrélations et les corrélations croisées, d effectuer l analyse statistique et graphique des valeurs des séries, des tests de successions et de tendances, des prévisions à court terme, périodogrammes et estimation spectrale. Les séries peuvent être transformées par calcul des moyennes, par des opérations arithmétiques, par calcul des différences séquentielles et des taux d échange, elles peuvent être lissées avec des moyennes mobiles et décomposées en utilisant des filtres de fréquence. 1.4 Les données dans IDAMS Dataset d IDAMS - le fichier Données. IDAMS accepte tout fichier de données constitué de caractères (ASCII) et en format fixe, càd un fichier dans lequel les valeurs d une variable quelconque se trouvent pour chaque observation dans les mêmes positions (champ) dans l enregistrement. Ce fichier a les caractéristiques suivantes : 1-50 enregistrements par observation; chaque observation peut contenir 4096 caractères au maximum; nombre d observations limité par la capacité de disque et par la représentation interne de chiffres; variables numériques (jusqu à 9 caractères) ou alphabétiques (jusqu à 255 caractères). Dataset d IDAMS - le fichier Dictionnaire. Le dictionnaire sert à décrire les variables : il peut contenir 1000 variables au maximum identifiées par un numéro unique compris entre 1 et 9999; pour chaque variable il contient au minimum le numéro de la variable, son type (numérique ou alphabétique) et son placement dans l enregistrement de données; il peut contenir également pour chaque variable son nom, deux codes de données manquantes, le nombre de décimales et un numéro de référence; pour les variables qualitatives, il peut contenir en plus le nom et le code des catégories. On appelle dataset d IDAMS la paire de fichiers constituée du fichier Données et du fichier Dictionnaire décrivant celles-ci. Matrices d IDAMS. Certains programmes utilisent comme entrée une matrice de statistiques carrée ou rectangulaire plutôt que les données brutes. La matrice carrée sert aux tableaux symétriques de statistiques bivariées avec une constante dans la diagonale. Il n y a que le triangle supérieur droit de la matrice qui est stocké, sans la diagonale. La matrice rectangulaire sert aux tableaux non symétriques. La signification des lignes et des colonnes varie selon le programme d IDAMS qui utilise cette matrice. 1.5 Les commandes d IDAMS et le fichier Setup À l exception des modules interactifs de WinIDAMS, l exécution d un programme d IDAMS démarre avec le lancement d un setup. Le setup contient des informations telles que spécification des fichiers, instructions de

26 6 Introduction contrôle du programme, instructions de recodage des variables, etc. séparées par des commandes d IDAMS (lesquelles commencent par le caractères $) servant à indiquer de quel type d informations il s agit. La première commande IDAMS dans le fichier Setup sert toujours à identifier le premier programme à exécuter, par ex. $RUN TABLES $FILES DICTIN = nom du fichier Dictionnaire DATAIN = nom du fichier Données $SETUP instructions de contr^ole pour le programme TABLES $RECODE instructions de recodage de variables 1.6 Caractéristiques standard d IDAMS Sélection des observations. Par défaut, toutes les observations d un fichier Données sont traitées lors de l exécution d un programme. Si l on veut n utiliser qu une sélection de celles-ci, on inclut une instruction de filtrage dans le setup, par ex. INCLUDE V3=1 (inclure uniquement les observations pour lesquelles la valeur de la variable 3 est égale à un). Sélection des variables. On fait référence aux variables par leur numéro tel qu attribué dans le dictionnaire. On fournit une liste de variables à la suite de mots-clés tels que VARS, CONVARS, OUTVARS. Ces listes peuvent également inclure des variables R construites avec la facilité Recode d IDAMS (voir ci-dessous), par ex. VARS=(V3-V6, V129,R100,R101). Transformation/recodage des données. Une facilité très efficace de recodage permet de recoder les variables et d en construire de nouvelles. L utilisateur se sert à cet effet du langage de recodage d IDAMS. Celui-ci offre la possibilité d effectuer des opérations arithmétiques et d autres opérations telles que le regroupement de valeurs, la création de variables fictives («dummy variables»), etc. On peut utiliser des instructions conditionnelles. Voici des exemples d instructions de recodage relatives à la construction de 3 nouvelles variables R100, R101 et R102 : R100=V4+V5 R101=BRAC(V10,0-15=1,16-60=2,61-98=3,99=9) IF (MDATA(V3,V4) OR V4 EQ 0) THEN V102=99 ELSE R102=V3*100/V4 Ces variables R, construites pour chacune des observations du fichier Données, peuvent être utilisées temporairement par le programme en cours d exécution ou être stockées dans un dataset à l aide du programme TRANS. Pondération des données. Elle peut s avérer nécessaire pour l analyse lorsque la collecte des données a été effectuée en utilisant des procédures complexes d échantillonnage. Les poids sont habituellement stockés dans le fichier Données sous la forme d une variable. On insère le paramètre WEIGHT dans les instructions de contrôle du programme pour faire appel à la pondération, par ex. WEIGHT=V5. Traitement des données manquantes et des «mauvaises» données. Pour chaque variable numérique, on peut déterminer - et stocker dans le dictionnaire - des valeurs qui seront traitées comme données manquantes. Durant le traitement des données, les données manquantes sont gérées à l aide de deux paramètres : MDVALUES (indique au programme quels codes utiliser pour vérifier la présence de données manquantes dans les données pour les variables numériques); MDHANDLING (indique au programme comment traiter les données manquantes). On suppose normalement que les données ont été vérifiées et corrigées avant de démarrer les analyses. Si ce n était pas le cas, l utilisateur dispose du paramètre BADDATA pour indiquer au programme d ignorer les observations contenant des valeurs non numériques (y compris les champs non remplis) dans les champs numériques, ou pour lui indiquer de considérer de telles valeurs comme des données manquantes.

27 1.7 Importation et exportation des données Importation et exportation des données IDAMS n utilise pas de formats internes spéciaux de fichiers pour stocker les données. Tout fichier de caractères ASCII en format fixe peut être décrit par un dictionnaire IDAMS et servir ensuite d entrée à IDAMS. Par contre, les données en format libre avec Tab, virgule ou point-virgule comme séparateur peuvent être importées à l aide de l Interface utilisateur de WinIDAMS. Par ailleurs, IMPEX permet de mettre en format fixe IDAMS un fichier texte en n importe quel format libre ou en format DIF. Les fichiers Données créés par IDAMS sont toujours des fichiers de caractères en format fixe. Ces fichiers peuvent être utilisés directement par d autres logiciels pour autant qu ils soient accompagnés d une description des données adaptée à ceux-ci. Les données en format libre avec Tab, virgule ou point-virgule comme séparateur peuvent être obtenus à l aide de l Interface utilisateur de WinIDAMS. Par ailleurs, IMPEX permet d exporter un fichier IDAMS de format fixe vers un fichier texte en format libre ou en format DIF. Les matrices d IDAMS sont stockées dans un format propre à IDAMS (décrit dans le chapitre «Les données dans IDAMS»). Le programme IMPEX peut servir à importer/exporter des matrices en format libre. 1.8 Échange de données entre CDS/ISIS et IDAMS Il y a un programme séparé, WinIDIS, qui effectue la description des données et leur transfert entre IDAMS et CDS/ISIS (logiciel de l UNESCO pour la gestion et exploitation de base de données). Le transfert est contrôlé par les fichiers de description des données d IDAMS et ISIS (le dictionnaire IDAMS et la table de définition des champs de CDS/ISIS). En passant d ISIS à IDAMS, le programme crée de nouveaux fichiers IDAMS, pour le dictionnaire et les données, lesquels peuvent être fusionnés avec d autres données en utilisant les facilités de gestion des données d IDAMS. En allant d IDAMS vers ISIS, on dispose de trois possibilités : (1) construire une base de données entièrement nouvelle ; (2) ajouter les enregistrements transférés à une base de données existante; (3) mettre à jour les enregistrements d une base de données existante à l aide des enregistrements transférés. 1.9 Structure du Manuel Les caractéristiques générales d IDAMS, y compris la facilité Recode, sont toutes décrites dans la Partie 1 du Manuel. La Partie 2 traite des instructions d installation et comprend une description des documents et dossiers utilisés dans WinIDAMS, une section «Les premiers pas» qui guide l utilisateur à travers les étapes d exécution d un travail simple et une desription de l Interface utilisateur de WinIDAMS. Les Parties 3 et 4 sont consacréex au descriptif détaillé de chacun des programmes d IDAMS. Ces descriptifs sont agencés en sections de la manière suivante : Description générale. Un commentaire sur les objectifs essentiels du programme. Caractéristiques standard d IDAMS. Description des possibilités de sélection d observations et de variables, de transformation des données, de pondération des observations et de traitement des données manquantes. Résultats. Description des résultats destinés à l impression (ou à l affichage à l écran). Description des fichiers en sortie et en entrée. Une section pour chaque dataset IDAMS, chaque matrice et tout autre fichier présent en entrée ou en sortie, avec la description de leur contenu. Structure du setup. Désignation des fichiers, définition des commandes d IDAMS et instructions nécessaires pour exécuter le programme. Instructions de contrôle du programme. Les paramètres et/ou formats d instructions pour l exécution du programme avec un exemple à chaque fois. Restrictions. Un résumé des limitations inhérentes au programme. Exemples. Exemples de jeux complets d instructions pour l exécution d un programme.

28 8 Introduction La Partie 5 fournit une description des modules interactifs de WinIDAMS pour la construction de tableaux multidimensionnels, pour l exploration graphique de données et pour l analyse de séries chronologiques. La Partie 6 fournit des informations sur les techniques statistiques, les formules et les références bibliographiques pour tous les programmes d analyse de données. L Annexe donne des explications sur les messages d errors produits par les programmes d IDAMS.

29 Première partie Notions fondamentales

30

31 Chapitre 2 Les données dans IDAMS 2.1 Le dataset IDAMS Description générale Le dataset consiste en deux fichiers distincts et associés : un fichier Données et un fichier Dictionnaire, ce dernier servant à décrire certains champs (variables) ou la totalité de ceux-ci dans chaque enregistrement de données. Tous les fichiers Dictionnaire/Données générés par les programmes d IDAMS sont des datasets IDAMS Méthode de stockage et d accès Tant les fichiers Dictionnaires que les fichiers Données sont lus de manière séquentielle. Ils peuvent donc être stockés sur n importe quel support. Il n y a pas dans IDAMS, comme c est le cas dans d autres logiciels, de fichier interne spécial «système». Les fichiers sont en format caractères/texte (ASCII), et ils peuvent à tout moment être traités avec des utilitaires généraux ou avec des éditeurs de textes, ou être lus directement par d autres logiciels statistiques. 2.2 Les fichiers Données Le tableau de données Indépendamment de leur format réel dans le fichier, les données peuvent être visualisées sous la forme d un tableau rectangulaire contenant les valeurs des variables, où l élément x ij est la valeur de la variable représentée par la j-ème colonne pour l observation représentée par la i-ème ligne. Par exemple, les données d une enquête peuvent être représentées de la manière suivante : Observations Variables identification éducation sexe ^age... observation observation Dans cet exemple, chaque ligne représente une personne ayant répondu à l enquête, et chaque colonne représente un item du questionnaire.

32 12 Les données dans IDAMS Caractéristiques du fichier Données Ce fichier contient normalement, mais pas nécessairement, des enregistrements de longueur fixe, étant donné que la fin de l enregistrement est identifiée par le caractère de contrôle du chariot. La longueur de l enregistrement le plus long doit cependant être indiquée lors de la spécification des fichiers (voir la commande $FILES). Le nombre d enregistrements dans un fichier Données est quasi illimité. Un enregistrement peut avoir une longueur maximum de 4096 caractères. Chaque «observation» peut contenir d un à 50 enregistrements maximum. Si, lors d une exécution particulière d un programme, l accès aux variables doit se faire à partir de plus d un type d enregistrement, il faut alors qu il y ait exactement le même nombre d enregistrements pour chaque observation. Le programme MERCHECK peut être utilisé pour créer des fichiers se conformant à cette condition. On notera que les fichiers Données en sortie des programmes d IDAMS sont toujours restructurés de façon à ne contenir qu un enregistrement par observation. Dans le cas où un fichier de données brutes contiendrait des enregistrements de différents types (ces types étant codés) et où il n y aurait pas exactement le même nombre d enregistrements par observation, on peut quand même utiliser les programmes d IDAMS à la condition de ne prendre que des variables d un seul type d enregistrement à la fois, celui-ci étant sélectionné au début à l aide d un filtre Les fichiers hiérarchiques IDAMS traite uniquement des fichiers «rectangulaires» tels que décrits ci-dessus. On peut traiter des fichiers hiérarchiques en stockant les enregistrements de niveaux différents dans des fichiers différents, et en produisant ensuite, à l aide des programmes AGGREG et MERGE, des enregistrements mixtes contenant des variables provenant de niveaux différents. Alternativement, le fichier hiérarchique complet peut être traité niveau par niveau en «filtrant» les enregistrements du niveau concerné (pourvu que les types d enregistrements aient été codés) Les variables La référence aux variables. Dans un fichier Données, les variables sont identifiées par un nombre unique compris entre 1 et Ce numéro, précédé d un V (par ex. V3), est utilisé pour faire référence à une variable particulière dans les instructions d exécution des programmes. Le numéro de variable est utilisé pour indexer un enregistrement descripteur de variable dans le dictionnaire, lequel fournit toutes les autres informations nécessaires concernant la variable, telles que son nom et sa position dans l enregistrement contenant les données. Les types de variables. Les variables peuvent être de type numérique ou alphabétique, l un et l autre étant stockés en mode caractères. Les variables numériques. Elles peuvent prendre des valeurs positives ou négatives ayant les caractéristiques suivantes : Une valeur peut être composée des caractères numériques 0-9, d un point décimal et d un signe (+, -). Les blancs de tête sont permis. Les valeurs doivent être justifiées à droite dans le champ (càd pas de blancs de remplissage à la fin) sauf si un point décimal explicite apparaît. La longueur maximum du champ est de 9 caractères dont 7 seulement sont retenus pour les calculs (nombre entiers et décimales). Les valeurs prises par les variables peuvent être des nombres entiers (par ex. une variable âge ou une variable nominale comme le sexe) ou bien des nombres décimaux (par ex. une variable représentant des pourcentages). Le nombre de décimales (NDEC) est stocké dans l enregistrement descripteur de la variable dans le dictionnaire. Normalement, le point décimal est implicite et n apparaît pas dans les données. Dans ce cas, NDEC fournit le nombre de chiffres qui doivent être traités comme valeurs décimales. Si un point «explicite» est codée dans les données, NDEC sert à déterminer le nombre de

33 2.2 Les fichiers Données 13 chiffres qu il faut retenir à la droite du point, en arrondissant la valeur vers le haut si nécessaire; par ex. des valeurs codées 4.54 et 4.55 avec NDEC=1 seront utilisées comme 4.5 et 4.6 respectivement. S il y a un signe, il doit être le premier caractère, par ex. «-0123». Les champs laissés en blanc sont considérés comme étant non numériques et traités comme «mauvaises» données. Voir ci-dessous comment traiter les blancs utilisés pour indiquer que les données contiennent des valeurs manquantes ou erronées. Tous les programmes d IDAMS, à l exception de BUILD, acceptent la notation exponentielle; par ex. le programme utilisera 21.5 pour une valeur codée.215e02. Les variables alphabétiques. Elles peuvent être stockées dans des fichiers Données et comporter jusqu à 255 caractères. Elles peuvent être utilisées avec les programmes de gestion de données. Les variables alphabétiques de 1-4 caractères peuvent être utilisées aussi dans les filtres. Pour être utilisées dans les analyses, elles doivent être recodées sous forme de valeurs numériques à l aide de la fonction BRAC de Recode Les codes des données manquantes La valeur d une variable pour une observation particulière peut ne pas être connue pour une série de raisons; par exemple une question peut ne pas s appliquer à certains répondants, ou un répondant peut refuser de répondre à une question. Des codes spéciaux de données manquantes peuvent être établis pour chaque variable numérique, et être insérés dans les données quand nécessaire. Deux codes de données manquantes sont autorisés : MD1 et MD2. S ils sont utilisés, toute valeur égale à MD1 est considérée comme une valeur manquante; toute valeur plus grande ou égale à MD2 (si MD2 est un nombre positif ou zéro) ou bien inférieure ou égale à MD2 (si MD2 est un nombre négatif) est également considérée comme une valeur manquante. Ces codes de données manquantes sont stockés dans l enregistrement de la variable concernée dans le dictionnaire. Tout comme pour les valeurs prises par les données, les données manquantes peuvent être des valeurs entières ou décimales, avec un point décimal implicite ou explicite. Si l utilisateur spécifie MD1 ou MD2 avec un point décimal implicite, NDEC donne le nombre de chiffres à traiter comme décimales. Si MD1 ou MD2 sont codés avec un point décimal explicite, NDEC détermine le nombre de chiffres à retenir à droite du point décimal, en arrondissant la valeur vers le haut si nécessaire. Si dans le dictionnaire les codes MD1 et MD2 d une variable sont laissés en blanc, cela signifie qu il n y a pas de code numérique spécial pour les valeurs manquantes. Lors d une exécution d un programme d IDAMS, le système affecte aux codes MD1 et MD2 laissés en blanc les valeurs par défaut de et respectivement. Les codes de données manquantes étant limités à 7 chiffres maximum (ou à 6 chiffres précédés du signe négatif), cela peut poser un problème pour les variables de 8 et 9 chiffres. Dans ce cas cependant, l utilisateur a toujours la possibilité d utiliser une valeur négative pour le premier code de données manquantes Valeurs non numériques et champs en blanc dans les variables numériques - mauvaises données Dans les programmes de gestion de données d IDAMS, les valeurs prises par les données sont simplement copiées d une place à l autre sans qu aucune conversion en mode de calcul (binaire) ne soit effectuée; dans ce cas le programme ne vérifie pas si les variables numériques contiennent des valeurs numériques. Toutefois, lorsque des variables sont utilisées pour une analyse ou pour des opérations avec Recode, leurs valeurs sont alors converties en mode binaire et celles qui contiennent des caractères non numériques poseront des problèmes. Normalement, les données devraient avoir été débarrassées de tels caractères avant de procéder à des analyses. De plus, les champs en blanc dans des variables numériques ne sont pas traités automatiquement comme valeurs manquantes; ils sont considérés également comme valeurs non numériques ou «mauvaises» données. On peut analyser des données incomplètement nettoyées et traiter des champs constitués de blancs non recodés à l aide du paramètre BADDATA, celui-ci permettant de traiter comme données manquantes les blancs et les valeurs non numériques, et donc de les éliminer de l analyse. En spécifiant BADDATA=MD1

34 14 Les données dans IDAMS ou BADDATA=MD2, les «mauvaises» valeurs seront remplacées par les codes MD1 et MD2 affectés à la variable. Si les codes MD1 et MD2 sont laissés en blanc, les valeurs erronées seront remplacées par les codes de données manquantes par défaut (voir ci-dessus) et seront donc traitées comme valeurs manquantes (voir aussi ci-dessous la description du paramètre BADDATA dans le chapitre «Le fichier Setup d IDAMS») Les règles de la mise-en-forme des variables produites en sortie par les programmes d IDAMS Les programmes d IDAMS construisent toujours un fichier Données et le dictionnaire correspondant, càd un dataset IDAMS. Le fichier Données contient un enregistrement pour chaque observation. La longueur de l enregistrement est égale à la somme des longueurs de champs de toutes les variables en sortie et est fixée par le programme. Les valeurs des variables numériques sont éditées sous une forme standard décrite ci-dessous. Si le champ entier ne contient que les caractères numériques 0-9, ceux-ci sont envoyés en sortie exactement tels qu ils existent dans les données en entrée. Si le champ contient un nombre saisi avec des blancs de tête (par ex. 5 ), ceux-ci sont convertis en zéros avant que les données ne soient envoyées en sortie. Les champs avec des blancs de queue, càd à la droite du champ, (par ex 04 dans un champ numérique à trois chiffres), des blancs intercalés (par ex. 0 4 ) ou contenant uniquement des blancs sont traités selon la spécification du paramètre BADDATA. Si le champ contient une valeur positive ou une valeur négative explicitement saisie avec les caractères + ou -, le signe positif est supprimé et le signe négatif est positionné avant le premier chiffre numérique significatif. Si le champ contient un nombre avec un point décimal explicite, celui-ci est enlevé et la valeur en sortie a la même longueur de champ que celui en entrée et autant de chiffres décimaux n qu indiqué dans le champ NDEC de la description de la variable. Les blancs en tête du champ sont convertis en zéros. S il y a plus de n chiffres après le point dans un champ en entrée, la valeur est arrondie et envoyée en sortie avec n décimales (par ex. si n=2, la valeur en entrée est envoyée en sortie comme 215; si n=0, une valeur de 1.5 en entrée sera envoyée en sortie comme 002). Les blancs de queue ne provoquent pas d erreur conditionnelle. S il y a moins de n chiffres, les zéros sont insérés à droite à la place des chiffres décimaux manquants. Les valeurs dépassant la longueur du champ prévu sont traités selon la spécification du paramètre BADDATA. Les valeurs des variables alphabétiques ne sont pas éditées et sont les mêmes en entrée et en sortie. 2.3 Le dictionnaire IDAMS Description générale Le dictionnaire sert à décrire les variables dans les données. Pour chaque variable, le dictionnaire doit contenir au minimum son numéro d identification, son type et sa position dans l enregistrement. Il peut contenir en outre le nom de la variable, deux codes de données manquantes, le nombre de chiffres décimaux, ainsi qu un numéro ou un nom servant de référence. Ces informations sont stockées, variable par variable, dans un enregistrement descripteur de variable, connu aussi sous le nom d enregistrement T. À titre facultatif, des enregistrements C peuvent être utilisés pour affecter un nom aux codes de catégories des variables. Le premier enregistrement dans le dictionnaire, l enregistrement descripteur du dictionnaire, identifie le type de dictionnaire, donne le numéro de la première et de la dernière variable dans le dictionnaire et indique le nombre d enregistrements constituant une «observation». Le dictionnaire original est préparé par l utilisateur pour décrire les données brutes. Ceux des programmes d IDAMS produisant des datasets en sortie construisent toujours des nouveaux dictionnaires reflétant le nouveau format des données.

35 2.3 Le dictionnaire IDAMS 15 Les enregistrements relatifs au dictionnaire ont le format fixe et la longueur de 80 caractères. Une description détaillée de chaque type d enregistrement propre au dictionnaire est donnée ci-dessous. Enregistrement descripteur du dictionnaire. C est toujours le premier enregistrement dans le dictionnaire. Colonnes Contenu 4 3 (indique le type de dictionnaire). 5-8 Le numéro de la première variable (justifié à droite) Le numéro de la dernière variable (justifié à droite) Le nombre d enregistrements par observation (justifié à droite). 20 La forme sous laquelle la position de chaque variable est spécifiée sur les enregistrements descripteurs de variables (colonnes 32-39). blanc Numéro de l enregistrement, avec les numéros de colonnes début/fin. Pour utiliser ce format, l enregistrement doit avoir une longueur de 80 caractères si le nombre d enregistrements par observation > 1. 1 Début et longueur du champ. Enregistrements descripteurs de variables (enregistrements T). Le dictionnaire contient un tel enregistrement pour chaque variable. Ils sont rangés en ordre ascendant selon le numéro de la variable. Il n est pas indispensable que les numéros de variables soient contigus. Il peut y avoir au maximum 1000 variables. Colonnes Contenu 1 T 2-5 Numéro de la variable Nom de la variable Position; d après la colonne 20 de l enregistrement descripteur du dictionnaire. Soit Numéro séquentiel de l enregistrement contenant la colonne initiale de la variable Numéro de la colonne initiale Numéro séquentiel de l enregistrement contenant la dernière colonne de la variable Numéro de la dernière colonne. Ou Position de début de la variable à l intérieur de l observation Longueur du champ (1-9 : variables numériques et : variables alphabétiques). 40 Nombre de décimales après le point (variables numériques uniquement). Un blanc signifie qu il n y pas de décimales. 41 Type de variable. blanc Variable numérique. 1 Variable alphabétique Premier code de données manquantes pour les variables numériques (ou des blancs s il n y a pas de premier code de données manquantes). Justifié à droite Second code de données manquantes pour les variables numériques (ou des blancs s il n y a pas de second code de données manquantes). Justifié à droite Numéro de référence (facultatif - peut servir à conserver une référence alphanumérique à la variable, qui soit non modifiable, par ex. le numéro original de la variable ou une référence à un item du questionnaire) Identificateur (ID) de l étude (facultatif - peut servir à identifier l étude à laquelle appartient le dictionnaire). Note 1 : lorsqu on utilise les numéros d enregistrements et de colonnes pour indiquer la position de la variable, la liste imprimée des enregistrements relatifs au dictionnaire ne donnent pas les numéros d enregistrements et de colonnes tels qu ils apparaissent dans l enregistrement du dictionnaire. Plus précisément, la position de la variable est transférée et imprimée dans le format initial utilisé pour spécifier le début et la longueur du champ. Par exemple, dans le cas d un fichier de données contenant des enregistrements multiples (de 80 caractères) par observation, où une variable occupe les colonnes du troisième enregistrement, la position initiale du champ sera 182 (2 * ) et sa longueur 3.

36 16 Les données dans IDAMS Note 2 : s il y a plus d un enregistrement par observation et que la longueur de l enregistrement n est pas de 80 caractères, il est indispensable d indiquer sur les enregistrements T la position de début du champ ainsi que sa longueur. On compte la position initiale à partir du début du premier enregistrement. Par exemple, la position de début d un champ à la colonne 11 du 2e enregistrement d une observation sera 132 pour des enregistrements d une longueur de 121 caractères. Les enregistrements des codes et noms de catégories (enregistrements C). Le dictionnaire peut éventuellement contenir de tels enregistrements pour n importe quelle variable. Ils suivent immédiatement l enregistrement T de la variable à laquelle ils s appliquent, et ils fournissent les codes et leur nom pour les différentes valeurs possibles de la variable. Ces enregistrements sont utilisés par certains programmes, par ex. TABLES, pour affecter aux colonnes et aux lignes un nom allant de pair avec les codes de catégories. Ils peuvent aussi servir, lors de la saisie des données avec l Interface utilisateur de WinIDAMS ou de leur vérification avec CHECK, à spécifier les codes valides d une variable. Colonnes Contenu 1 C 2-5 Numéro de la variable. 6-9 Numéro de référence (facultatif - peut servir à conserver une référence à la variable, qui soit non modifiable, par ex. le numéro original de la variable ou la référence à un item du questionnaire) Valeur du code, justifié à gauche Nom attribué à ce code. (Note : les programmes d analyse qui impriment les noms de codes utilisent seulement les 8 premiers caractères du nom, mais ceux-ci apparaissent en entier dans le dictionnaire imprimé) Identificateur (ID) de l étude (facultatif) Exemple d un dictionnaire Colonnes : T 1 Identification 1 5 T 2 ^Age T 3 Sexe 8 1 C 3 1 Féminin C 3 2 Masculin T 11 Région 16 1 C 11 1 Nord C 11 2 Sud C 11 3 Est C 11 4 Ouest T 12 Degré moyen T 20 Nom Ceci est un dictionnaire décrivant 6 champs de données dans un enregistrement tel que schématiquement représenté ci-dessous V1 V2 V3 V11 V12 V20 ID Âge Sexe Région Degré Nom Les positions des variables sont exprimées en termes de position de début du champ et de sa longueur (1 en colonne 20 de l enregistrement descripteur du dictionnaire) et il y a un enregistrement par observation (1 en colonne 16). Il y a un chiffre décimal implicite dans la variable degré moyen (V12). La variable âge a un code 99 pour les données manquantes. Pour la variable 12, des zéros signifient des données manquantes de même que tous les codes plus grands que ou égaux à Le nom de chaque répondant (V20) est enregistré comme une variable alphabétique (type 1) de 30 caractères. On notera que les numéros des variables ne doivent pas être contigus et qu il n est pas nécessaire de décrire tous les champs dans les données.

37 2.4 Les matrices d IDAMS Les matrices d IDAMS Il y a deux types de matrices IDAMS : carrée et rectangulaire. Les deux types sont auto-définis, du fait qu à la différence du dataset IDAMS, le «dictionnaire» est stocké dans le même fichier que le tableau des valeurs. En général, ces matrices sont créées par un programme d IDAMS pour être utilisées comme entrée d un autre programme, et l utilisateur n a pas besoin d être familiarisé avec leur format. Toutefois, s il est nécessaire de préparer une matrice de similarité, une matrice de configuration, etc. à la main, il faut alors s en tenir aux formats décrits ci-dessous. Quel que soit le type de matrice, tous les enregistrements ont une longueur fixe de 80 caractères La matrice carrée d IDAMS La matrice carrée peut être utilisée uniquement pour un tableau de valeurs carré et symétrique. Sont effectivement stockées dans la matrice carrée uniquement les valeurs du triangle supérieur droit, sans la diagonale. Un tableau de coefficients de corrélation Pearson peut être stocké de cette manière. Programmes qui acceptent en entrée et produisent en sortie des matrices carrées. PEARSON produit des matrices carrées de corrélations et de covariances; REGRESSN produit des matrices carrées de corrélations; TABLES produit des matrices carrées de mesures bivariées d association. Ces matrices conviennent pour servir d entrée à d autres programmes; par ex. la matrice de corrélation générée par PEARSON peut servir d entrée à REGRESSN et CLUSFIND. De plus, CLUSFIND et MDSCAL utilisent en entrée une matrice de similarités ou dissimilarités. Exemple. Colonnes : Descripteur de la matrice 2 4 Instructions de format #F (12F6.3) #F (6E12.5) Identification des #T 1 ^AGE variables #T 3 EDUCATION #T 9 RELIGION #T 10 SEXE Tableau des valeurs Moyennes et écarts-types E E E E E E E E 01 Format. La matrice carrée contient les informations suivantes : 1. Un enregistrement descripteur de la matrice. Cet enregistrement, qui est le premier, indique le type de matrice et les dimensions du tableau de valeurs. Colonnes Contenu 4 2 (indique qu il s agit d une matrice carrée). 5-8 Le nombre de variables (justifié à droite). 2. Une instruction de format Fortran, décrivant chaque ligne du tableau de valeurs. L instruction de format décrit le nombre de valeurs pour chaque enregistrement de 80 caractères, ainsi que le format de chacun d eux. Par exemple, un format de (12F6.3) indique que chaque ligne du tableau est enregistrée avec 12 valeurs ou moins par enregistrement, chaque valeur occupant 6 colonnes, dont 3 réservées aux décimales. Si une ligne contient plus de 12 valeurs, un nouvel enregistrement contiendra la 13e valeur, etc. Chaque nouvelle ligne du tableau débute toujours avec un nouvel enregistrement. Colonnes Contenu 1-2 #F 3-80 L instruction de format entre parenthèses.

38 18 Les données dans IDAMS 3. Une instruction de format Fortran, décrivant le vecteur des moyennes ainsi que le vecteur des écartstypes des variables. L instruction de format décrit le nombre de valeurs pour chaque enregistrement de 80 caractères ainsi que le format de chacun d eux. Colonnes Contenu 1-2 #F 3-80 L instruction de format entre parenthèses. 4. Enregistrements d identification des variables. Il y a n enregistrements, où n est le nombre des variables spécifié sur l enregistrement descripteur de la matrice. L ordre de ces enregistrements correspond à l ordre des variables qui indexent les lignes (et colonnes) du tableau des valeurs. Quand une matrice est créée avec un programme d IDAMS, les variables portent les mêmes numéros et noms que ceux du dataset IDAMS à partir duquel les statistiques bivariées ont été obtenues. Colonnes Contenu 1-2 #T ou #R (indique l identification de la variable pour une ligne de la matrice). 3-6 Le numéro de la variable (justifié à droite) Le nom de la variable. Les quatre sections ci-dessus concernent le «dictionnaire» de la matrice. À la suite du dictionnaire de la matrice, on a le tableau des valeurs. 5. Le tableau des valeurs. Etant donné que le tableau est symétrique et que les cellules de la diagonale contiennent une constante (par ex. une corrélation de 1.0 pour une variable corrélée avec elle-même), le programme stocke seulement le triangle supérieur droit sans la diagonale. On notera que pour une matrice de covariance les éléments de la diagonale peuvent être calculés en se servant des écarts-types inclus dans le fichier de la matrice (voir point 7 ci-dessous). Dans l exemple ci-dessus d une matrice de 4 variables, le tableau des valeurs entier (avant d être mis en format de matrice carrée) se présenterait comme suit : vars La portion du tableau qui est stockée est : vars Chaque ligne de ce tableau réduit correspond à un nouvel enregistrement écrit selon le format spécifié dans le dictionnaire de la matrice (voir ci-dessus). 6. Un vecteur des moyennes des variables. Les valeurs n sont stockées conformément à l instruction de format dans le dictionnaire de la matrice. 7. Un vecteur des écarts-types des variables. Les valeurs n sont stockées conformément à l instruction de format dans le dictionnaire de la matrice La matrice rectangulaire d IDAMS La matrice rectangulaire diffère de la matrice carrée en ceci que le tableau des valeurs peut être carré (et non symétrique) ou bien rectangulaire. En outre, étant donné que les lignes de certains tableaux ne sont pas indexées par des variables, par ex. un tableau de fréquences, la matrice rectangulaire peut ou non contenir des enregistrements d identification de variables; la matrice rectangulaire ne contient pas de moyennes ni d écarts-types de variables.

39 2.4 Les matrices d IDAMS 19 Programmes qui acceptent en entrée et produisent en sortie des matrices rectangulaires. Ces matrices sont créées par les programmes CONFIG, MDSCAL, TABLES et TYPOL. Elles sont acceptées en entrée par CONFIG, MDSCAL, TYPOL. Exemple. Colonnes : Descripteur de la matrice Instruction de format #F (l6f5.0) Identification des #T 2 IQ variables #T 5 EDUCATION #T 8 MOBILITY #T 12 SIBLING RIVALRY Tableau des valeurs Format. La matrice rectangulaire contient les informations suivantes : 1. Un enregistrement descripteur de la matrice. Colonnes Contenu 4 3 (indique qu il s agit d une matrice rectangulaire). 5-8 Le nombre de lignes (justifié à droite) Le nombre de colonnes (justifié à droite). 16 Le nombre d enregistrements contenant les instructions de format (#F). (Un blanc signifie 1). 20 Présence d étiquettes pour les lignes et colonnes. blanc/0 Il y a seulement des étiquettes pour les lignes (enregistrements #R ou #T). 1 Il y a seulement des étiquettes pour les colonnes (enregistrements #C). 2 Il y a des étiquettes pour les lignes et les colonnes (enregistrements #R ou #T, et #C). 3 Il n y a pas d étiquettes pour les lignes ni pour les colonnes Nom de la variable en ligne (facultatif) Nom de la variable en colonne (facultatif) Description du contenu de la matrice (facultatif) : Weighted frequencies (fréquences pondérées) Unweighted freqs (fréquences non pondérées) Row percentages (pourcentages en lignes) Column percentages (pourcentages en colonnes) Total percentages (pourcentages totaux) Nom de la variable pour laquelle les valeurs moyennes sont incluses dans la matrice. 2. Une instruction de format Fortran qui décrit chaque ligne du tableau de valeurs. Le format décrit un enregistrement de 80 caractères. Par exemple, un format de (16F5.0) indique que chaque ligne du tableau est stockée avec au plus 16 valeurs par enregistrement, chaque valeur occupant 5 colonnes, dont aucune ne correspond à un chiffre décimal. Colonnes Contenu 1-2 #F 3-80 L instruction de format entre parenthèses. 3. Enregistrements d identification des variables. L ordre de ces enregistrements correspond à l ordre des variables/codes qui indexent les lignes et les colonnes de la matrice. Quand une matrice rectangulaire est créée par un programme d IDAMS, les variables/codes portent les mêmes numéros et noms que ceux du dataset lu en entrée ou que ceux de la matrice à partir de laquelle le tableau de valeurs est généré.

40 20 Les données dans IDAMS Colonnes Contenu 1-2 #T ou #R pour les étiquettes de ligne, #C pour les étiquettes de colonnes. 3-6 Le numéro de la variable ou la valeur du code (justifié à droite). Les valeurs de code dépassant 4 caractères sont remplacées par **** Le nom de la variable ou du code. Les trois sections ci-dessus se rapportent au «dictionnaire» de la matrice. À la suite du dictionnaire de la matrice vient le tableau des valeurs. 4. Le tableau des valeurs. Le tableau entier est stocké. Chaque ligne du tableau correspond à un nouvel enregistrement et est écrit selon le format spécifié dans le dictionnaire de la matrice. 2.5 Utilisation de données provenant d autres logiciels Données brutes Toutes les données sous forme d enregistrements de format fixe avec des champs en mode caractère (ASCII) peuvent être utilisées directement par les programmes d IDAMS. Presque tous les logiciels de base de données ainsi que les logiciels statistiques sont pourvus de fonctions d «exportation» ou de «conversion» permettant de produire des fichiers dont les enregistrements sont en format fixe et en mode caractère. Il faut toujours préparer un dictionnaire IDAMS pour décrire, à partir des données, les champs que l on veut utiliser. Les données en format libre avec Tab, virgule ou point-virgule comme séparateur peuvent être importées directement à l aide de l Interface utilisateur de WinIDAMS. Voir le chapitre «L Interface utilisateur» pour les détails. On peut importer, à l aide d IMPEX, des fichiers de textes en format libre (avec n importe quel caractère de séparation, y compris blanc) ou en format DIF. Les données stockées dans une base de données CDS/ISIS peuvent être importées vers IDAMS à l aide du programme WinIDIS Matrices On peut utiliser le programme IMPEX pour importer des matrices en format libre. En outre, IDAMS accepte des matrices produites extérieurement, provenant par exemple d une publication, pourvu qu elles soient entrées selon les formats décrits ci-dessus.

41 Chapitre 3 Le fichier Setup d IDAMS 3.1 Objet et contenu L exécution des programmes d IDAMS requiert de l utilisateur qu il prépare un fichier spécial appelé le fichier «Setup» lequel sert à contrôler leur exécution. Ce fichier contient les commandes d IDAMS et les instructions nécessaires à l exécution, tels que la référence au programme à exécuter, le nom des fichiers, les options choisies pour le programme et les instructions de transformation des variables; par ex. $RUN nom du programme $FILES spécification de fichiers $SETUP instructions de contr^ole du programme $RECODE instructions Recode 3.2 Les commandes d IDAMS Ces commandes, qui débutent par le caractère «$», servent à séparer les différents types d informations à fournir pour l exécution d un programme d IDAMS. Voici la liste des commandes disponibles : $RUN programme $FILES [RESET] $RECODE $SETUP $DICT $DATA $MATRIX $PRINT $COMMENT [texte] $CHECK [n] (nom du programme à exécuter) (indique le début des spécifications de fichiers) (indique le début des instructions Recode) (indique le début des instructions de contrôle du programme) (indique le début du dictionnaire) (indique le début des données) (indique le début d une matrice) (ouvre et ferme le commutateur d impression) (commentaires) (vérifie que l étape précédente est correctement terminée). Dans le fichier Setup, la première ligne doit toujours être une commande $RUN servant à identifier le programme IDAMS à exécuter. Les autres commandes relatives à l exécution de ce programme (suivies par les instructions de contrôle ou par les données s y rapportant) peuvent être placées dans n importe quel ordre. À la suite de ces commandes, il faut entrer la commande $RUN pour le nouveau programme à exécuter (s il y en a), et ainsi de suite. Les commandes individuelles d IDAMS sont décrites ci-dessous par ordre alphabétique.

42 22 Le fichier Setup d IDAMS $CHECK [n]. Si cette commande est utilisée, le programme ne sera pas exécuté au cas où le programme qui précède immédiatement s est terminé par un code plus grand que n. Si la commande est présente mais qu aucune valeur n est fournie pour elle, la valeur de n est 1 par défaut. L exécution de tous les programmes d IDAMS se termine avec un «code condition» 16 s il y a des erreurs dans le setup. Par exemple, si TABLES doit être exécuté immédiatement après TRANS, mais que l utilisateur ne souhaite pas exécuter TABLES s il y a une erreur dans le setup de TRANS, le fait d insérer une commande $CHECK après la commande $RUN TABLES évitera que TABLES ne soit exécuté. La commande $CHECK peut être insérée n importe où dans le setup du programme, mais habituellement elle est placée immédiatement après la commande $RUN. $COMMENT [texte]. Le texte suivant la commande est imprimé avec le setup. Cette commande n a pas d effet sur l exécution du programme. $DATA. La commande $DATA indique que les données vont suivre. Cette commande ne peut pas être utilisée si le programme produit en sortie un fichier Données et que le fichier DATAOUT n a pas été spécifié, càd les données en sortie sont envoyées dans un fichier temporaire par défaut. Cette commande ne peut être utilisée en même temps que la commande $MATRIX. Les données dans le setup ne peuvent excéder 80 caractères. Si l on entre des enregistrements ou des lignes plus longues, le programme n utilisera que les 80 premiers caractères. Le commutateur d impression est fermé par la commande $DATA. Par conséquent, les données ne seront pas imprimées sauf si une commande $PRINT suit immédiatement la commande $DATA. $DICT. La commande $DICT indique qu un dictionnaire IDAMS suit. Cette commande ne peut pas être utilisée si le programme produit un dictionnaire en sortie et que le fichier DICTOUT n a pas été spécifié, càd dans le cas où le dictionnaire en sortie est envoyé dans un fichier temporaire par défaut. Le commutateur d impression est fermé par la commande $DICT. Par conséquent, le dictionnaire ne sera pas imprimé sauf si une commande $PRINT suit immédiatement la commande $DICT. $FILES [RESET]. Cette commande indique le début de spécification de fichiers. Au démarrage de chaque setup, IDAMS attribue aux fichiers un nom par défaut stocké dans un fichier spécial «idams.def». Les noms par défaut peuvent être modifiés en introduisant des instructions de spécification de fichiers après la commande $FILES (voir ci-dessous «Spécifications des fichiers»). On utilise la command «FILES RESET» pour revenir aux noms par défaut dans le cas des fichiers Fortran FT (FT06 et FT50 exceptés). $MATRIX. Cette commande indique qu une matrice ou une série de matrices va suivre. Cette commande ne peut être utilisée en même temps que $DATA. Le commutateur d impression est fermé par la commande $MATRIX. Par conséquent, la matrice en entrée ne sera pas imprimée sauf si une commande $PRINT suit immédiatement la commande $MATRIX. $PRINT. Le commutateur d impression est inversé; s il était ouvert, $PRINT le fermerait; s il était fermé, $PRINT l ouvrirait. Quand le commutateur d impression est ouvert, les lignes du fichier Setup font partie des résultats. Quand le programme rencontre une commande $RUN il ouvre le commutateur d impression. Les commandes $DICT, $DATA et $MATRIX coupent automatiquement le commutateur.

43 3.3 Spécifications des fichiers 23 $RECODE. Cette commande indique que la facilité Recode d IDAMS va être utilisée. Le langage de Recode est décrit en détail dans le chapitre «Facilité Recode». Les instructions Recode suivent normalement la commande $RECODE. Si une nouvelle commande d IDAMS suit immédiatement une commande $RECODE, ce sont les instructions Recode du setup pour le programme précédent qui seront utilisées. $RUN programme. $RUN indique le programme à exécuter et c est toujours la première instruction dans le setup. «programme» est le nom de 1-8 caractères du programme à exécuter. Toutes les commandes et instructions à la suite d une commande $RUN et jusqu à la prochaine commande $RUN se réfèrent au programme appelé par la première commande. Le commutateur d impression est ouvert quand le système rencontre une commande $RUN. Voir la description de la commande $PRINT. $SETUP. Cette commande indique le début des instructions de contrôle du programme, càd le titre de la tâche à exécuter, les paramètres, le filtre, etc, (voir ci-dessous). La commande $SETUP est nécessaire même si les instructions de contrôle du programme suivent immédiatement la commande $RUN. 3.3 Spécifications des fichiers Les noms des fichiers à utiliser par le programme suivent la commande $FILES et ont le format suivant: ddname=nom de fichier [RECL=longueur maximum de l enregistrement] où : ddname est le nom de référence interne du fichier utilisé par les programmes, par ex. DICTIN. Les fichiers requis pour exécuter le programme et leurs ddnames sont fournis dans les descriptifs de chaque programme sous la section «Structure du setup». nom de fichier est le nom du fichier physique. S il contient des blancs, il faut le placer entre primes. Voir la section «Les dossiers dans WinIDAMS» pour les explications complémentaires. Il faut utiliser RECL si le premier enregistrement dans un fichier Données n est pas le plus long. Si RECL n est pas spécifié, c est la longueur du premier enregistrement qui sera prise en compte. Si un enregistrement ultérieur est plus long, il en résultera une erreur d entrée. Exemples : DATAIN = A:ECON.DAT RECL=92 PRINT = RSLTS.LST FT02 = ECON.MAT DICTIN = \\nec0102\commondata\econ.dic Pour une explication complémentaire, voir la section «Personnalisation de l environnement d une application» dans le chapitre «L Interface utilisateur». 3.4 Exemples d utilisation des commandes $ et de spécification de fichiers Exemple A. Effectuer des exécutions multiples d un programme d analyse, par ex. ONEWAY, en utilisant les mêmes données mais avec, par exemple, des filtres différents.

44 24 Le fichier Setup d IDAMS $RUN ONEWAY $FILES DICTIN = CHEESE.DIC DATAIN = CHEESE.DAT $SETUP Filtre 1 Autres instructions de contrôle pour ONEWAY $RUN ONEWAY $SETUP Filtre 2 Autres instructions de contrôle pour ONEWAY Exemple B. Exécuter TABLES et ONEWAY, en utilisant les mêmes fichiers Dictionnaire et Données ainsi que les mêmes instructions Recode ; ne pas imprimer les instructions Recode. $RUN TABLES $FILES DICTIN = ABC.DIC DATAIN = ABC.DAT RECL=232 $SETUP Instructions de contrôle pour TABLES $RECODE $PRINT Instructions Recode $RUN ONEWAY $SETUP Instructions de contrôle pour ONEWAY $RECODE $COMMENT LES INSTRUCTIONS RECODE POUR TABLES SERONT REUTILISÉES POUR ONEWAY Exemple C. Exécuter TABLES avec la facilité Recode d IDAMS, le dictionnaire étant dans le setup et les données dans un fichier sur disque. Imprimer le dictionnaire d entrée. $RUN TABLES $FILES DATAIN = A:MY.DAT $RECODE Instructions Recode $SETUP Instructions de contrôle pour TABLES $DICT $PRINT Dictionnaire Exemple D. Utiliser la sortie d un programme de gestion de données comme entrée pour des programmes d analyse sans garder le fichier en sortie, par ex. exécuter TRANS suivi de TABLES en utilisant les données en sortie de TRANS à l aide du paramètre INFILE=OUT. TABLES ne sera pas exécuté s il y a des erreurs dans les instructions de contrôle de TRANS. $RUN TRANS $FILES DICTIN = MY4.DIC DATAIN = MY4.DAT $SETUP Instructions de contrôle pour TRANS $RECODE Instructions Recode $RUN TABLES $CHECK $SETUP Instructions de contrôle pour TRANS, y compris le paramètre INFILE=OUT

45 3.5 Instructions de contrôle des programmes Instructions de contrôle des programmes Description générale Les instructions contrôlant l exécution des programmes (elles suivent la commande $SETUP) servent à spécifier les paramètres du programme à exécuter. Trois d entre elles sont communes à tous les programmes : 1. l instruction facultative de filtrage qui sert à sélectionner les observations du fichier en cours d utilisation, 2. l instruction obligatoire de titre attribué à l exécution d un programme, 3. une instruction obligatoire réservée aux paramètres permettant de choisir les options du programme; certains paramètres sont communs à tous les programmes, d autres sont spécifiques à un programme donné. Les instructions supplémentaires requises pour l exécution de certains programme sont exposées dans le descriptif du programme concerné Règles générales de codage Les instructions de contrôle sont saisies en lignes pouvant avoir jusqu à 255 caractères. La continuation d une ligne s effectue en mettant un tiret à la fin de celle-ci et en continuant sur la suivante. La longueur maximum des informations contenues dans une instruction de contrôle est de 1024 caractères, à l exclusion des caractères de continuation. Les lettres minuscules sont converties en majuscules, excepté pour les chaînes de lettres minuscules à l intérieur de primes. Si des chaînes de caractères à l intérieur de primes sont incluses dans une instruction de contrôle, elles doivent être placées sur une seule ligne Les filtres Objectif. Une instruction de filtrage sert à sélectionner un sous-ensemble d observations. Elle est exprimée en spécifiant les variables et les valeurs prises par celles-ci. Par exemple, si dans une enquête la variable V5 signifie «sexe du répondant», et le code 1 représente le sexe féminin, l instruction «INCLUDE V5=1» est un filtre servant à sélectionner les répondants de sexe féminin comme sous-ensemble souhaité d observations. Le filtre principal sélectionne les observations à partir d un fichier Données en entrée et il s applique tout au long de l exécution du programme. Ces filtres sont disponibles avec tous les programmes d IDAMS qui acceptent un dictionnaire en entrée (à l exception de BUILD et SORMER). Avec certains programmes, on peut opérer des sélections supplémentaires. De tels filtres «locaux» agissent seulement sur une action spécifique du programme, par ex. un tableau de fréquences. Exemples. 1. INCLUDE V2=1-5 AND V7=23,27,35 AND V8=1,2,3,6 2. EXCLUDE V10=2-3,6,8-9 AND V30=<5 OR - V91=25 3. INCLUDE V50= FRAN, UK, MORO, INDI Emplacement. Si on utilise un filtre principal, il faut toujours placer celui-ci comme première instruction de contrôle. Le descriptif de chaque programme indique si des filtres «locaux» peuvent être utilisés.

46 26 Le fichier Setup d IDAMS Règles de codage. L instruction de filtrage débute par les mots INCLUDE ou EXCLUDE. Selon le mot qui est utilisé, le filtre définit le sous-ensemble d observations à utiliser (INCLUDE) ou à ignorer (EXCLUDE) par le programme. Une instruction peut contenir un maximum de 15 expressions. Une expression est composée d un numéro de variable, d un signe égal et d une liste des valeurs possibles. La liste des valeurs peut contenir des valeurs individuelles et/ou des suites de valeurs séparées par des virgules, par ex. V2=1,5-9. Des suites ouvertes sont indiquées par < ou >, par ex. INCLUDE V1=0,3-5,>10; toutefois, la variable doit toujours être suivie par un signe = pour commencer, par ex. V1>0 doit être exprimé V1=>0, et V1<0 doit être exprimé V1=<0. Expressions reliées par les conjonctions AND et OR. AND indique qu il faut qu il y ait une valeur de chacune des séries d expressions reliées par AND. OR indique qu il faut qu il y ait une valeur d au moins une des séries d expressions reliées par OR. Les expressions concaténées par AND sont évaluées avant celles concaténées par OR. Par exemple, «expression-1 OR expression-2 AND expression-3» s interprète comme «expression-1 OR (expression- 2 AND expression-3)». En conséquence, pour qu une observation se trouve à l intérieur d un sousensemble défini par ces expressions, on doit rencontrer une valeur de l expression-1, ou des valeurs de l expression-2 et de l expression-3, ou encore une valeur de chacune des trois expressions. Dans un filtre, les parenthèses ne peuvent être utilisées pour indiquer la préséance dans l évaluation d expressions. Les variables peuvent être utilisées dans n importe quel ordre et dans plus d une expression. On notera cependant que «V1=1 OR V1=2» est équivalent à l expression simple «V1=1,2». On notera également que «V1=1 AND V1=2» est une condition impossible étant donné qu aucune observation ne peut avoir simultanément la valeur 1 et la valeur 2 pour la variable V1. On a le choix de terminer, ou non, une instruction de filtrage par un astérisque. Les variables dans un filtre. On peut utiliser des variables numériques et alphabétiques. Les variables R ne sont pas autorisées dans les filtres principaux. Elles sont autorisées dans des filtres spécifiques d analyse ou des filtres locaux. On notera que l instruction REJECT dans Recode peut être utilisée pour filtrer des observations à l aide de variables R. Les valeurs pour les variables numériques dans un filtre. Les valeurs numériques peuvent être des chiffres entiers ou décimaux, positifs ou négatifs, par ex. 1, 2.4, -10. Les valeurs sont exprimées sous forme individuelle ou sous forme d intervalles, et elles sont séparées par des virgules, par ex. 1-5, 8, Pour les filtres utilisant des variables numériques, les valeurs des variables dans le fichier Données sont d abord converties en mode binaire réel en utilisant le nombre correct de décimales figurant dans le dictionnaire, et la comparaison avec la valeur du filtre est ensuite effectuée numériquement. On notera que pour une variable avec décimales, il faut indiquer la valeur du filtre avec un point décimal à la place correcte, par ex. V2= Sont toujours exclues de l exécution les observations pour lesquelles une variable utilisée contient une valeur non numérique. Les valeurs pour les variables alphabétiques dans un filtre. Les valeurs de 1-4 caractères sont exprimées comme des chaînes de caractères placées entre primes, par ex. F. Il n est pas nécessaire d entrer les blancs se trouvant à droite car ils seront ajoutés par le programme. Si le champ d une variable dépasse 4 caractères, seuls les 4 premiers caractères sont utilisés pour effectuer la comparaison avec la variable filtre.

47 3.5 Instructions de contrôle des programmes 27 Sont seulement autorisées les valeurs simples, séparées par des virgules; les intervalles de chaînes de caractères ne peuvent pas être utilisés. Note. La première instruction qui suit une commande $SETUP est reconnue comme un filtre principal si elle commence avec INCLUDE ou EXCLUDE. Si les premiers caractères non blancs sont n importe quoi d autre, l instruction est considérée comme étant un titre Les titres Objectif. Pour donner un titre aux résultats d un programme, on utilise une instruction titre. Certains programmes d IDAMS impriment ce titre une seule fois au début des résultats, tandis que d autres l impriment sur chaque page. Exemples. 1. TABLEAU POUR L ELECTION JUILLET, IMPRESSION DE DONNÉES CORRIGÉES Emplacement. Tous les programmes d IDAMS exigent soit d avoir un titre soit de le remplacer par une ligne de blancs. Ce titre est la première instruction, ou (si un filtre est utilisé) la seconde instruction. Règles de codage. L instruction peut contenir une chaîne de n importe quels caractères, dont les 80 premiers sont utilisés, càd que si on entre un titre dépassant 80 caractères, il est tronqué après les 80 premiers caractères. Si le titre n est pas placé entre primes, les lettres minuscules sont converties en majuscules et les blancs sont réduits à un seul blanc. Le titre ne peut pas commencer avec les mots «INCLUDE» ou «EXCLUDE» Les paramètres Conception. Tous les programmes d IDAMS ont été conçus d une manière assez générale, permettant à l utilisateur de choisir entre différentes options. Ces options et valeurs sont gérées par des paramètres et font partie des instructions contrôlant l exécution du programme, telles que «paramètres», «spécifications de régression», «spécifications de tableaux», etc. Les paramètres sont spécifiés à l aide de mots-clés anglais de format standard, dont le libellé sert à identifier l option. Exemples. 1. WRITE=CORR WEIGHT=V3, PRINT=(DICT, PAIR) (PEARSON - paramètres) 2. DEPV=V5 METHOD=STEP VARS=(R3-R9,V30) WRITE=RESID (REGRESSN - paramètres de régression) 3. ROWV=(V3,V9,V10) COLV=(V4,V11,V19) CELLS=(FREQ,ROWPCT) STATS=(CHI,TAUA) (TABLES - description d un tableau) Emplacement. Toute exécution d un programme d IDAMS exige le placement, après l instruction de titre, de l instruction principale des paramètres. Si l on choisit toutes les options par défaut, il faut néanmoins entrer une ligne contenant un astérisque. Chaque descriptif de programme indique le type et le contenu des autres listes de paramètres ainsi que leur position par rapport aux autres instructions d exécution. Présentation des paramètres mots-clés dans le descriptif des programmes. Tous les descriptifs utilisent une notation standard pour décrire les paramètres disponibles. La notation de base est la suivante : Une barre oblique indique qu on peut choisir seulement un des items mutuellement exclusifs, par ex. SAMPLE/POPULATION ou PRINT=CDICT/DICT.

48 28 Le fichier Setup d IDAMS Une virgule indique qu on peut choisir tous les items ou seulement certains d entre eux, ou encore n en choisir aucun, par ex. STATS=(TAUA, TAUB, GAMMA). Quand on combine virgules et barres obliques, on peut choisir soit un soit aucun des items de chaque groupe séparé par deux virgules ou lié par des barres obliques, par ex. PRINT=(CDICT/DICT, LONG/SHORT). Les options par défaut, s il y en a, sont en gras, par ex. METHOD=STANDARD/STEP/DESCEND. C est un paramètre exécuté par le programme si une sélection explicite n a pas été faite par l utilisateur. Quand l utilisation d un paramètre est obligatoire et qu il n y a pas d option par défaut, l expression «Pas de défaut» est indiquée. Les mots en lettres majuscules sont des mots-clés. Les mots ou les phrases en lettres minuscules indiquent que l utilisateur doit remplacer le mot ou la phrase avec une valeur appropriée, par ex. MAXCASES=n, VARS=(liste de variables). Types de mots-clés. Il y a 5 types de mots-clés utilisés pour spécifier les paramètres. 1. Un mot-clé suivi d une chaîne de caractères. Ce type de mot-clé identifie un paramètre composé d une chaîne de caractères, par ex. INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. Un utilisateur peut spécifier : INFILE=IN2 (dans ce cas, les ddnames seront DICTIN2 et DATAIN2) 2. Un mot-clé suivi d un ou plusieurs numéros de variables, par ex. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. VARS=(liste de variables) Indique que le programme utilisera seulement des variables de la liste ; les numéros peuvent être fournis dans n importe quel ordre, avec ou sans la notation V, par ex. VARS=(V1-V3) ou VARS=(1-3). On notera que le descriptif des programmes indique toujours si l on peut utiliser les variables de types V et R, ou seulement des variables de type V. Un utilisateur peut spécifier : WEIGHT=V39 (la variable de pondération est V39) VARS=(32,1,10) (uniquement les variables spécifiées seront utilisées) 3. Un mot-clé suivi par une ou plusieurs valeurs numériques, par ex. MAXCASES=n Uniquement les n premières observations seront traitées. IDLOC=(s1,e1,s2,e2,...) Colonnes de début et de fin de 1-5 champs d identification d une observation. Un utilisateur peut spécifier : MAXCASES=100 (seules les 100 premières observations seront utilisées) IDLOC=(1,3,7,9) (l ID de l observation est placé dans les colonnes 1-3 et 7-9) 4. Un mot-clé suivi d une ou plusieurs valeurs de mots-clés. Les valeurs de mots-clés peuvent être une combinaison d options mutuellement exclusives (séparées par des barres obliques) et des options indépendantes (séparées par des virgules). Par exemple :

49 3.5 Instructions de contrôle des programmes 29 PRINT=(OUTDICT/OUTCDICT/NOOUTDICT,DATA) OUTD Imprimer le dictionnaire de sortie sans les enregistrements C. OUTC Imprimer le dictionnaire de sortie avec les enregistrements C s il y en a. NOOU Ne pas imprimer le dictionnaire de sortie. DATA Imprimer les valeurs des variables en sortie. Un utilisateur peut spécifier : PRINT=(OUTC,DATA) (le dictionnaire de sortie est imprimé en entier ainsi que les données) PRINT=NOOUTDICT (pas d impression du dictionnaire de sortie ni des données) 5. Un jeu de mots-clés mutuellement exclusifs. On peut choisir seulement un jeu d options, par ex. SAMPLE/POPULATION SAMP Calculer la variance et/ou l écart-type en utilisant l équation de l échantillon. POPU Utiliser l équation de la population. Tous les mots-clés, à l exception du dernier type, sont suivis du signe égal (=). Les caractères, les valeurs numériques, et les valeurs de mots-clés qui suivent le signe égal sont appelés «valeurs associées». Règles de codage. Règles pour spécifier les mots-clés Seules les quatre premières lettres d un mot-clé ou d un mot-clé associé sont nécessaires, mais on peut aussi mettre le mot-clé en entier. Ainsi, «TRAN» est une forme abrégée correcte du mot-clé «TRANSVARS». Il n y a pas d abréviations pour les mots-clés de 4 lettres ou moins. Règles pour spécifier les valeurs associées La valeur associée est une liste d items. Les items dans la liste sont séparés par des virgules. S il y a 2 ou davantage d items, la liste doit être mise entre parenthèses. Les intervalles de chiffres entiers ou de variables sont indiqués par un tiret. Les intervalles ne peuvent être utilisés avec les chiffres décimaux. Par exemple : R=(V2,3,5) PRIN=(DICT,DATA,STAT) MAXC=5 TRAN=(V5,V10-V25,V32) IDLOC=(1,3,7,8) La valeur associée est une chaîne de caractères. La chaîne de caractères doit être mise entre primes si elle contient des caractères non alphanumériques, par ex. FNAME= EDUCATION : PARTIE 1. On notera que le blanc, le point et la virgule sont des caractères non alphanumériques. Quand il y a doute, utiliser les primes. Deux primes consécutives (à ne pas confondre avec les guillemets) doivent être utilisées pour représenter une prime, par ex. ANAME= L ÉCOLE (la prime supplémentaire est supprimée une fois que la chaîne de caractères est lue). Une chaîne de caractères doit être placée sur une seule ligne.

50 30 Le fichier Setup d IDAMS Règles pour spécifier les listes de mots-clés Les mots-clés (avec ou sans valeurs associées) sont séparés l un de l autre par une virgule ou bien par un ou plusieurs blancs, càd FNAME= FRED, TRAN=3 KAISER On peut continuer une liste de mots-clés sur autant de lignes que nécessaire. Un tiret à la fin d une ligne indique que le texte continue sur la ligne suivante. FNAME= FRED - TRAN=3 - KAISER Les mots-clés peuvent être dans n importe quel ordre. Si un même mot-clé apparaît plus d une fois dans la liste, le programme utilise la dernière valeur qu il rencontre. Un mot-clé ne peut pas être coupé sur deux lignes. Chaque liste de mots-clés peut être terminée facultativement par un astérisque. Même si l on choisit toutes les options par défaut, il faut inclure une ligne avec un seul astérisque. Détails concernant les paramètres communs à plusieurs programmes (non repris dans les descriptifs de ceux-ci). 1. BADDATA. Traitement des valeurs non numériques. BADDATA=STOP/SKIP/MD1/MD2 Quand des caractères non numériques (y inclus des espaces en blanc ainsi que des champs entièrement blancs) sont trouvés dans des variables numériques, le programme doit : STOP Terminer l exécution. SKIP Sauter l observation. MD1 Remplacer les valeurs non numériques par le premier code de données manquantes (ou MD si le premier code de données manquantes n est pas spécifié). Remplacer les valeurs non numériques par le second code de données manquantes (ou si le second code de données manquantes n est pas spécifié). Pour SKIP, MD1 et MD2, le programme imprime un message sur le nombre d observations traitées de cette façon. 2. MAXCASES. Le nombre maximum d observations à traiter. MAXCASES=n La valeur donnée indique le nombre maximum d observations qui seront traitées. Si n=0, aucune observation n est lue ; cette option peut être utilisée pour tester les setups sans devoir lire les données. Si aucune valeur n est fournie pour ce paramètre, toutes les observations du fichier d entrée seront traitées. 3. MDVALUES. Spécifier quel(s), s il y en a, code(s) de données manquantes sera(seront) utilisé(s) pour vérifier les données manquantes dans les valeurs des variables. On notera que certains programmes disposent en outre du paramètre MDHANDLING servant à spécifier comment les données manquantes doivent être traitées. MDVALUES=BOTH/MD1/MD2/NONE BOTH Vérifier les valeurs des variables avec les codes MD1 et avec les intervalles définis par les codes MD2. MD1 Vérifier les valeurs des variables uniquement à l aide des codes MD1. MD2 Vérifier les valeurs des variables uniquement à l aide des intervalles définis par les codes MD2. NONE Ne pas utiliser les codes MD. Toutes les valeurs dans les données seront considérées comme correctes. Par défaut, les deux codes MD sont toujours utilisés.

51 3.5 Instructions de contrôle des programmes INFILE, OUTFILE. Ces paramètres spécifient les ddnames servant à définir les fichiers Dictionnaires et Données en entrée et en sortie. INFILE=IN/xxxx OUTFILE=OUT/yyyy Les fichiers Dictionnaires et Données en entrée et en sortie des programmes d IDAMS sont définis avec les ddnames DICTxxxx, DATAxxxx, DICTyyyy et DATAyyyy. Ces ddnames sont par défaut DICTIN, DATAIN, DICTOUT, DATAOUT. Il peut s avérer nécessaire de modifier ces défauts lorsque plusieurs programmes d IDAMS sont exécutés dans un setup, par exemple dans le cas de programmes utilisant différents datasets en entrée, ou bien lorsqu un fichier en sortie d un programme sert directement de fichier d entrée à un autre (enchaînement). 5. WEIGHT (poids). Ce paramètre spécifie la variable dont les valeurs seront utilisées pour affecter un poids aux observations. WEIGHT=numéro de variable La variable spécifiée peut être de type V ou de type R, avec comme valeurs des chiffres entiers ou décimaux. Le programme omet systématiquement les observations pour lesquelles la valeur de pondération est manquante, est un zéro, ou bien est une valeur négative ou non numérique, et il imprime un message donnant le nombre d observations traitées de cette façon. Si le paramètre WEIGHT n est pas spécifié, aucune pondération n est effectuée. 6. VARS. Ce paramètre, et d autres similaires tels que ROWVARS, OUTVARS, CONVARS, etc. servent à spécifier une liste de variables. VARS=(liste de variables) Si plus d une variable est spécifiée, il faut mettre leur liste entre parenthèses. Règles pour la spécification des listes de variables Les variables sont spécifiées par un «numéro» de variable précédé par un V ou par un R. Un V dénote qu il s agit d une variable provenant d un dataset ou d une matrice IDAMS. Un R dénote qu il s agit d une variable résultat provenant d une opération de recodage. On notera qu à l intérieur des programmes ainsi que dans les résultats, les variables de type V et R sont distinguées par le signe du numéro de la variable; des nombres positifs signifient qu il s agit de variables de type V, et des nombres négatifs qu il s agit de variables de type R. Pour spécifier une série de variables numérotées consécutivement, telles que V3, V4, V5, V6, on peut connecter avec un tiret deux numéros de variables, chacun précédé d un V (par ex. V3-V6 est correct; V3-6 est incorrect). Il convient d utiliser les intervalles avec précaution si le dataset contient des variables avec des sauts dans la numérotation, étant donné que toutes les variables à l intérieur de l intervalle doivent exister dans le dataset ou dans la matrice, par ex. V6-V8 implique V6,V7,V8. Si la variable V7 n est pas dans le dictionnaire, un message d erreur se produira. Les variables de type V et de type R ne peuvent pas être mélangées dans un même intervalle, par ex. V2-R5 est incorrect. Les numéros de variables spécifiés séparément, aussi bien que les intervalles de variables, doivent être séparés par des virgules. De manière générale, pour les programmes de gestion de données, on peut insérer plus d une fois les mêmes variables sur la liste, tandis que c est inapproprié dans le cas des programmes d analyse et provoquera la fin de l exécution du programme. Voir le descriptif de chaque programme pour les détails. Des blancs peuvent être insérés n importe où dans la liste. De manière générale, les variables peuvent être spécifiées dans n importe quel ordre. Cependant, dans certains programmes, l ordre des variables peut avoir une signification spéciale; vérifier le descriptif du programme pour les détails. Exemples : VARS=(V1-V6, V9, V16, V20-V102, V18, V11, V209) OUTVARS=(R104, V7, V10-V12, R100-R103, V16, V1) CONVARS=V10

52 32 Le fichier Setup d IDAMS 3.6 Instructions de recodage La facilité Recode d IDAMS permet de recoder temporairement les données durant l exécution de programmes d IDAMS. En utilisant TRANS, les résultats de telles opérations de recodage peuvent aussi être sauvegardés (avec les variables transférées du fichier d entrée) dans des fichiers permanents. Recode est appelé avec la commande $RECODE. Cette commande, ainsi que les instructions de recodage qui lui sont associées, sont placées dans le setup du programme avec lequel elles seront utilisées. Par exemple : $RUN programme $FILES Definitions de fichiers $RECODE Instructions Recode $SETUP Instructions de contr^ole de programme $RUN ONEWAY $FILES DICTIN=MYDIC DATAIN=MYDAT $RECODE R10 = BRAC(V3,0-10=1,11-20=2) R11 = SUM(V7,V8) NAME R10 EDUC, R11 REVENU $SETUP REVENU MOYEN PAR EDUCATION, SEXE BADDATA=SKIP CONVARS=(R10,V2) DEPVAR=R11 Une description complète de la facilité Recode se trouve dans le chapitre «Facilité Recode».

53 Chapitre 4 Facilité Recode 4.1 Règles de codage Les instructions de Recode prennent la forme : éti instruction où éti est une étiquette facultative de 1-4 caractères débutant dans la position 1 de la ligne et suivie d au moins un blanc. Les instructions sans étiquette doivent commencer en position 2 ou au-delà. L étiquette permet aux instructions de contrôle, telle que GO TO, de renvoyer l exécution sur des instructions spécifiques, par ex. GO TO ST1. Les instructions d initialisation (CARRY, MDCODES, NAME) ne peuvent avoir d étiquettes. Pour continuer une instruction sur une autre ligne, il faut placer un tiret à la fin de la ligne et continuer sur la ligne suivante à partir de n importe quelle position. La longueur maximun d une ligne est de 255 caractères et le nombre total maximum de caractères pour une instruction est de 1024, les tirets de continuation et blancs qui les suivent exclus. 4.2 Exemple d un jeu d instructions de Recode La manière dont les éléments du langage de Recode sont agencés entre eux est présentée dans l exemple ci-dessous. $RECODE IF V5 LT 8 THEN REJECT (exclure les observations où V5 < 8) IF NOT MDATA(V6) THEN R51=TRUNC(V6/4) - ELSE R51=0 R52=BRAC(V10,0-24=1,25-49=2, - (regroupement des valeurs de V10) 50-74=3,74-99=4,TAB=1) R53=BRAC(V11,TAB=1) (idem pour V11) IF V26 INLIST(1-10) THEN R54=1 AND - R55=1 ELSE R54=2 IF R54 EQ 1 THEN GO TO L1 R55=99 R56=V15 + V35 GO TO L2 L1 R56=99 L2 R57=COUNT(1,V20-V27,V29) (nombre de variables qui ont la valeur 1) NAME R52 ^AGE REGROUPÉ, - R53 ^AGE REGROUPÉ AU MARIAGE MDCODES R55(99),R56 (99)

54 34 Facilité Recode 4.3 Traitement des données manquantes A l exception des fonctions spéciales MAX, MEAN, MIN, STD, SUM, VAR, Recode ne vérifie pas automatiquement s il y a des valeurs définies comme données manquantes. Il appartient donc à l utilisateur d effectuer un contrôle spécifique des données manquantes avant de procéder à des calculs avec les valeurs des variables. À cet effet, on dispose de la fonction MDATA; par ex. IF MDATA(V5,V6) THEN R1=999 ELSE R1=V5+V6 Il y a deux fonctions supplémentaires, MD1 et MD2, qui restituent la valeur du premier ou du second code de données manquantes pour une variable; par ex. R2=MD1(V6) affecte à R2 la valeur du premier code de données manquantes de V6. Finalement, on peut affecter les codes de données manquantes aux variables R ou V avec l instruction de définition MDCODES ; par ex. MDCODES R3(8,9) affecte à R3 les valeurs 8 et 9 comme premier et second codes de données manquantes. Il peut arriver qu un jeu d instructions Recode n affecte pas de valeur à une variable R dans un enregistrement particulier. Cette variable R prendra alors une valeur MD1 par défaut , valeur avec laquelle elle est initialisée. Pour changer ce chiffre en une valeur de données manquantes plus acceptable, il faut vérifier si la valeur est grande et, si c est le cas, lui affecter une valeur de données manquantes appropriée, par ex. IF R100 GT THEN R100=99 MDCODES R100(99) 4.4 Comment fonctionne Recode Vérification de syntaxe et interprétation. Les instructions de Recode sont lues et leur contenu est vérifié avant que ne soient interprétées les autres instructions d exécution d un programme d IDAMS et avant l exécution de celui-ci. S il y a des erreurs, des messages donnant le diagnostic de celles-ci sont imprimés et l exécution du programme est arrêtée. Résultats. Recode imprime les instructions de recodage entrées par l utilisateur accompagnées des erreurs de syntaxe détectées s il y en a. Ceci se passe avant que le programme ne soit exécuté, càd avant que l interprétation des instructions d exécution ne soit imprimée. Initialisation avant le démarrage du traitement du fichier Données. S il n y a pas d erreurs de syntaxe, les tableaux, codes de données manquantes, noms, etc. sont initialisés (selon les instructions d initialisation/définition fournies par l utilisateur) avant que ne débute la lecture des données. Les variables R dans les instructions de CARRY sont initialisées à zéro. Initialisation avant le traitement de chaque observation. Au début du traitement de chaque observation et avant l exécution des instructions de Recode pour celle-ci, toutes les variables R, à l exception de celles figurant dans les instructions de CARRY, sont initialisées à la valeur interne par défaut d IDAMS pour données manquantes ( ). Exécution des instructions de Recode. Le recodage a effectivement lieu au fur et à mesure de la lecture des données de chaque observation, après qu ait été appliqué le filtre principal. Les observations qui ne passent pas le filtre ne sont pas passées aux routines de recodage. Par conséquent, les variables créées avec Recode ne peuvent pas être utilisées dans les filtres principaux. L exécution des instructions de Recode est effectuée séquentiellement (càd la première instruction est exécutée en premier, ensuite la deuxième, la troisième, etc.) sauf lorsque cette séquence est modifiée par les instructions GO TO, BRANCH, RETURN, REJECT, ENDFILE, ERROR (instructions de contrôle). Quand toutes les instructions ont été utilisées, l observation est passée au programme d IDAMS en cours d exécution.

55 4.5 Opérandes de base 35 Quand le programme d IDAMS a fini d utiliser l observation, il traite l observation suivante ayant passé le filtre principal; les variables R (excepté celles de type CARRY) sont ré-initialisées avec les codes de données manquantes, les instructions de Recode sont exécutées pour cette observation, et ainsi de suite jusqu à la fin du fichier de données. Vérification des instructions Recode. On peut faire des erreurs de logique qui ne soient pas détectables par la facilité Recode. Pour vérifier si les résultats produits par Recode correspondent aux résultats escomptés, il faut tester les instructions Recode sur quelques observations à l aide du programme LIST en donnant au paramètre MAXCASES la valeur 10 par exemple. Il est possible ensuite d inspecter les valeurs des données pour les variables en entrée et pour les variables résultat correspondantes. Fichiers utilisés par Recode. Quand IDAMS rencontre une commande $RECODE dans le fichier Setup, il copie les lignes qui suivent celle-ci dans un fichier de travail sur l unité FT46. Le programme RECODE lit alors les instructions de recodage que ce fichier contient et les analyse pour détection d erreurs éventuelles, et ceci avant l interprétation des autres instructions et l exécution du programme. S il trouve des erreurs, RECODE imprime un message donnant leur diagnostic et il est mis fin à l exécution du programme d IDAMS en cours. Les instructions interprétées sont écrites sous forme de tableaux dans un fichier de travail sur l unité FT49 à partir duquel elles sont lues par le programme d IDAMS en train d être exécuté. Les messages concernant les instructions Recode sont écrits dans un fichier de travail sur l unité FT06 avec les résultats du programme qui est exécuté. 4.5 Opérandes de base Variables. Dans Recode les variables se réfèrent soit à des variables en entrée (variables V), soit à des variables résultat (variables R). Elles sont définies comme suit : Variables en entrée (Vn). V suivi d un numéro. Ces variables sont définies par le dictionnaire en entrée. Leurs valeurs peuvent être modifiées à l aide de Recode (par ex. V10=V10+V11). Normalement les variables doivent être numériques, mais des variables alphabétiques n excédant pas 4 caractères peuvent aussi être utilisées et, en particulier, elles peuvent être recodées sous forme de valeurs numériques. Les variables résultat (Rn). R suivi d un numéro (1 à 9999). Ce sont des variables créées par l utilisateur. Avant le traitement de chaque observation, les variables R sont initialisées par le système avec la valeur de données manquantes par défaut (sauf les variables R figurant dans les instructions de CARRY - voir ci-dessous). Pour utiliser une variable R dans un programme, on spécifie un R (au lieu d un V) dans la liste des variables attachée à un paramètre (par ex. WEIGHT=R5 ou VARS=(R10-R20)). Lors de l impression, le numéro d une variable résultat est parfois identifié par un signe négatif. Ainsi, la variable 10 est V10 et la variable -10 est R10. Il est moins déroutant d utiliser pour les variables résultat des numéros qui soient différents de ceux utilisés pour les variables en entrée. Les variables R sont toujours numériques. Constantes en mode numérique. Ces constantes peuvent être des nombres entiers ou décimaux, positifs ou négatifs, par ex. (3, 5.5, -50, -0.5). Constantes en mode caractères. Celles-ci sont placées entre accents primes simples (par ex. ABCXYZ, M ). Un accent prime à l intérieur d une constante en mode caractères doit êre représenté par deux accents primes adjacents (par ex. L AIDE s écrirait L AIDE ). Les constantes en mode caractères sont utilisées dans l instruction NAME pour attribuer des noms aux nouvelles variables. Elles peuvent aussi être utilisées dans les expressions logiques pour tester les valeurs des variables alphabétiques (par ex. IF V10 EQ M ); seuls les 4 premiers caractères sont utilisés dans de telles comparaisons et les constantes/variables d une longueur inférieure à 4 caractères sont remplis avec des espaces blancs à droite. Les constantes en mode caractères ne peuvent être utilisées dans les fonctions arithmétiques (à l exception de BRAC).

56 36 Facilité Recode 4.6 Opérateurs de base Opérateurs arithmétiques. Les opérateurs arithmétiques sont utilisés entre opérandes arithmétiques. Voici la liste des opérateurs disponibles, par ordre de préséance : - (négation) EXP x (exponentiation à la puissance x, où -181 < x < 175) * (multiplication) / (division) + (addition) - (soustraction) Opérateurs relationnels. Les opérateurs relationnels sont utilisés pour déterminer si oui ou non deux valeurs arithmétiques ont entre elles une relation particulière. Les opérateurs relationnels sont : LT LE GT GE EQ NE (moins que) (moins que ou égal) (plus grand que) (plus grand que ou égal) (égal) (non égal) Opérateurs logiques. Les opérateurs logiques sont utilisés entre opérandes logiques. Les opérandes logiques prennent seulement les valeurs «vrai» ou «faux». Les opérateurs logiques sont : NOT AND OR (l un et l autre) (l un ou l autre) 4.7 Expressions Une expression est une représentation d une valeur. Une simple constante, une variable, une fonction sont des expressions. Des combinaisons de constantes, variables, fonctions et autres expressions avec opérateurs sont aussi des expressions. Recode peut évaluer des expressions arithmétiques et logiques. On notera que des parenthèses peuvent être utilisées n importe où dans une expression en vue de clarifier l ordre de son évaluation. Expressions arithmétiques. Les expresions arithmétiques sont créés en utilisant les opérateurs arithmétiques et variables, constantes et fonctions arithmétiques. Elles produisent une valeur numérique. En voici des exemples : V732 (la valeur de V732) 44 (la constante 44) R67/V (25 plus la valeur de R67 divisé par la valeur de V807) LOG(R10) (le logarithme de la valeur de R10) Expressions logiques. Les expressions logiques sont évaluées par rapport à une valeur «vrai» ou «faux». Il n existe pas de variables logiques dans le langage Recode, de sorte que le résultat d expressions logiques ne peut être affecté à une variable. Voici des exemples d expressions logiques (à noter qu elles ne peuvent être utilisées que dans les instructions IF) : R5 EQ V333 Vrai si la valeur de R5 est égale à la valeur de V333, et faux autrement. (V62 GT 10) OR (R5 EQ V333) Vrai si l une ou l autre des expressions logiques produit une valeur vraie, et faux si les deux expressions produisent une valeur fausse.

57 4.8 Fonctions arithmétiques 37 MDATA(V10,R20) AND V9 GT 2 Vrai si la valeur de V10 ou la valeur de R20 est un code de données manquantes et si la valeur de V9 est plus grande que 2, faux autrement. 4.8 Fonctions arithmétiques Toutes les fonctions arithmétiques restituent une seule valeur numérique. Les listes d arguments peuvent être de simples listes placées entre parenthèses ou bien des listes hautement structurées impliquant des mots-clés et des éléments ayant une position spécifique dans la liste. Voici la liste des fonctions disponibles : Fonction Exemple Objet ABS ABS(R3) Valeur absolue BRAC BRAC(V5,TAB=1,ELSE=9, - Groupement univarié 1-10=1,11-20=2) BRAC(V10, F =1, M =2) Recodage alphabétique COMBINE COMBINE V1(2), V42(3) Combinaison de 2 variables COUNT COUNT(1,V20-V25) Comptage des occurrences d une valeur dans une série de variables LOG LOG(V2) Logarithme de base 10 MAX MAX(V10-V20) Valeur maximum MD1,MD2 MD1(V3) Valeur du code de données manquantes MEAN MEAN(V5-V8,MIN=2) Valeur moyenne MIN MIN(V10-V20) Valeur minimum NMISS NMISS(V3-V6) Nombre de valeurs de données manquantes NVALID NVALID(V3-V6) Nombre de valeurs non manquantes RAND RAND(0) Nombre aléatoire RECODE RECODE V7,V8,(1/1)(1/2)=1, - Recodage multivarié (2-3/3)=2, ELSE=0 SELECT SELECT (BY=V10,FROM=R1-R5,9) À l aide d une variable index, sélection d une valeur au sein d une liste de variables SQRT SQRT(V2) Racine carrée STD STD(V20-V25,MIN=4) Écart-type SUM SUM(V6,V8,V9-V12,MIN=3) Somme des valeurs TABLE TABLE(V5,V3,TAB=2,ELSE=9) Recodage bivarié TRUNC TRUNC(V26/3) Partie entière de la valeur d un argument VAR VAR(V6,R5-R10,MIN=7) Variance La syntaxe exacte de chaque fonction est fournie ci-dessous. ABS. La fonction ABS restitue une valeur qui est la valeur absolue de l argument passé à la fonction. Prototype : ABS(arg) Où arg est toute expression arithmétique pour laquelle la valeur absolue sera prise. Exemple : R5=ABS(V5-V6) BRAC. La fonction BRAC restitue une valeur découlant d opérations spécifiées (règles) sur une seule variable. Prototype : BRAC(var [,TAB=i] [,ELSE=valeur] [,règle 1,...,règle n] ) Où : var est toute variable de type V ou R dont les valeurs vont être testées. TAB=i ou bien numérote le jeu de règles et le ELSE (facultatif) définis dans cette utilisation de BRAC, ou bien donne les références définies lors d une utilisation antérieure de BRAC. Note : la clause ELSE est considérée comme faisant partie du jeu de règles.

58 38 Facilité Recode ELSE=valeur s utilise quand la valeur de var ne peut être trouvée dans les règles fournies. Si ELSE=valeur est omis, ELSE=99 est assumé, càd que BRAC recode toujours. règle1, règle2,...,règle n sont l ensemble des règles qui définissent les valeurs à restituer selon la valeur de var. Les règles sont exprimées sous la forme : x=c, où x définit un ou plusieurs codes et c la valeur à restituer quand la valeur de var est égale au(x) code(s) défini(s) par x. Voici les règles possibles (où m est n importe quelle constante en mode numérique ou en mode caractères) : >m=c (si la valeur de var est plus grande que m, restitue la valeur c). <m=c (si la valeur de var est plus petite que m, restitue la valeur c). m=c (si la valeur de var est égale à m, restitue la valeur c). m1-m2=c (si la valeur de var est dans l intervalle de m1 à m2, càd m1<=var<=m2, restitue la valeur c). On peut définir autant de règles que nécessaire. Elles sont évaluées de la gauche vers la droite, et la première règle satisfaite est utilisée. On notera que ce sont les symboles > et < qui sont utilisés, et non pas les opérateurs logiques GT et LT. ELSE, TAB et les règles peuvent être spécifiés dans n importe quel ordre. Les intervalles de valeurs alphabétiques, par ex. A - C, ne sont pas autorisés. Exemples : R1=BRAC(V10,TAB=1,ELSE=9,1-10=1,11-20=2,<0=0) La valeur de R1 sera 1 si la variable 10 est dans l intervalle de 1 à 10; elle sera 2 si V10 est dans l intervalle de 11 à 20, et 0 si V10 a une valeur plus petite que 0. Si V10 a n importe quelle autre valeur, par ex. -3, 10,5, 25, 0, on appliquerait alors la clause ELSE, et R1 prendrait la valeur 9. Ces règles de groupement reçoivent le nom de tableau 1 aux fins de pouvoir être réutilisées, par ex. R2=V1 + BRAC(V2, TAB=1) * 3 Dans cet exemple, les valeurs prises par V2 seraient groupées à l aide des mêmes règles que celles utilisées pour V10 dans l exemple précédent. La valeur affectée à R2 serait la valeur de V1 + (résultat du regroupement multiplié par 3). R100=BRAC(V10, F =1, M =2,ELSE=9) Ceci est un exemple de recodage d une variable alphabétique, dont les valeurs F ou M se voient affecter les valeurs numériques de 1 et 2. COMBINE. La fonction COMBINE restitue une valeur unique pour chaque combinaison de valeurs des variables utilisées comme arguments. Cette fonction est normalement utilisée avec des variables catégoricales. Prototype : COMBINE var1(n1), var2(n2),...,varm(nm) Où : var1 à varm sont les variables V ou R à combiner. n1 à nm sont les codes maximum + 1 des variables respectives. La liste des arguments de la fonction COMBINE n est pas placée entre parenthèses. Chaque variable doit avoir uniquement des valeurs non négatives et entières. Les valeurs restituées sont calculées par la formule ci-dessous : V1 + (n1 * V2) + (n1 * n2 * V3) + (n1 * n2 * n3 * V4) etc. Normalement cependant, l utilisateur détermine le résultat de la fonction en énumérant les combinaisons des valeurs dans un tableau, comme dans le premier exemple ci-dessous.

59 4.8 Fonctions arithmétiques 39 Exemples : R1=COMBINE V6(2), R330(3) Supposons que V6 a deux codes (0,1) correspondant respectivement aux hommes et aux femmes, et que R330 a trois codes (0,1,2) correspondant aux répondants jeunes, d âge moyen et âgés, l instruction combinera les codes de V6 et R330 pour produire une variable unique, comme suit : V6 V330 R Hommes jeunes Femmes jeunes Hommes d âge moyen Femmes d âge moyen Hommes âgés Femmes âgées Etant donné que V6 a deux codes et que R330 en a trois, R1 en aura six. Dans l exemple ci-dessus, si V6 avait les codes 1 et 2 au lieu de 0 et 1, la valeur maximum devrait être spécifiée comme étant 3. Ceci pour tenir compte des valeurs 0,1 et 2, alors même que le code 0 n apparaîtrait jamais. Pour éviter ces «extra» codes, l utilisateur doit d abord recoder de telles variables pour leur donner une série de codes contigus débutant par zéro, par ex. BRAC(V6,1=0,2=1). Restrictions : Il peut y avoir 13 variables au maximum. La fonction COMBINE ne peut être utilisée avec d autres fonctions dans la même instruction d attribution. Quand on utilise la fonction COMBINE, il faut prendre soin de spécifier avec précision les codes maximum. Sinon, des valeurs non uniques seront générées. Par exemple, avec «COMBINE V1(2), V2(4)», la fonction restituera une valeur 7 pour la paire de valeurs V1=1 et V2=3, et elle restituera 7 également pour la paire de valeurs V1=3 et V2=2. S il peut exister des valeurs 3 pour V1, alors n1 doit être spécifié comme 4 (1+code maximum). COUNT. La fonction COUNT restitue une valeur qui est égale au nombre de fois qu elle rencontre la valeur d une variable ou d une constante comme valeur d une des variables dans la liste «varlist». Prototype : COUNT(val,varlist) Où : Normalement val est une constante, mais peut aussi être une variable V ou R. varlist spécifie les variables V et/ou R dont les valeurs doivent être vérifiées par rapport à val. Exemples : R3=COUNT(1,V20-V25) R3 se verra affecter une valeur égale au nombre de fois que la valeur 1 est rencontrée dans les 6 variables V20-V25. Ceci peut être utilisé, par exemple, pour compter le nombre des réponses «OUI» données par un répondant à une série de questions. R5=COUNT(V1,V8-V10) R5 se verra affecter une valeur égale au nombre de fois que la valeur de V1 se rencontre aussi comme valeur des variables V8-V10.

60 40 Facilité Recode LOG. La fonction LOG restitue une valeur en virgule flottante, qui est le logarithme de base 10 de l argument passé à la fonction. Prototype : LOG(arg) Où arg est toute expression arithmétique pour laquelle on va calculer le logarithme de base 10. Exemples : R10=LOG(V30) Note : le logarithme de n importe quel nombre X dans toute autre base B peut aisément être calculé à l aide de la simple transformation suivante : R1=LOG(X)/LOG(B) Pour le logarithme naturel (base e), cela devient simplement R1= * LOG(X). En conséquence, R1= * LOG(V30) affectera à R1 le logarithme naturel de la variable 30. MAX. La fonction MAX restitue la valeur maximum d un ensemble de variables. Les valeurs de données manquantes sont exclues. On peut utiliser l argument MIN pour spécifier le nombre minimum de valeurs valides à partir desquelles la valeur maximum sera calculée. Sinon, le système renverra la valeur de données manquantes par défaut Prototype : MAX(varlist [,MIN=n] ) Où : varlist est une liste de variables de type V et/ou R, et de constantes. n est le nombre minimum de valeurs valides pour le calcul de la valeur maximum. Par défaut, n est 1. Exemple : R12=MAX(V20-V25) MD1, MD2. La fonction MD1 (ou MD2) restitue une valeur qui est le premier (ou le second) code de données manquantes pour la variable fournie comme argument. Prototype : MD1(var) ou MD2(var) Où var est n importe quelle variable en entrée (variable V) ou une variable résultat définie antérieurement (variable R). Exemple : R12=MD2(V20) Pour chaque observation traitée, R12 se verra affecter le second code de données manquantes de la variable en entrée V20. MEAN. La fonction MEAN restitue la valeur moyenne d un ensemble de variables. Les données manquantes sont exclues. On peut utiliser l argument MIN pour spécifier le nombre minimum de valeurs valides pour le calcul de la moyenne. Sinon, le sytème renvoie la valeur de données manquantes par défaut Prototype : MEAN(varlist [,MIN=n] ) Où : varlist est une liste de variables de type V et/ou R, et de constantes. n est le nombre minimum de valeurs valides pour le calcul de la valeur moyenne. Par défaut, n est 1. Exemple : R15=MEAN(R2-R4,V22,V5,MIN=2)

61 4.8 Fonctions arithmétiques 41 Si au moins deux des variables ont des valeurs manquantes, le résultat sera la moyenne des variables spécifiées. Sinon, le résultat sera MIN. La fonction MIN restitue la valeur minimum d un ensemble de variables. Les données manquantes sont exclues. On peut utiliser l argument MIN pour spécifier le nombre minimum de valeurs valides à partir desquelles la valeur minimum sera calculée. Sinon, le sytème renvoie la valeur de données manquantes par défaut Prototype : MIN(varlist [,MIN=n] ) Où : varlist est une liste de variables de type V et/ou R, et de constantes. n est le nombre minimum de valeurs valides pour le calcul de la valeur minimum. Par défaut, n est 1. Exemple : R10=MIN(V5,V7,V9,R2) NMISS. La fonction NMISS restitue le nombre de données manquantes dans un ensemble de variables. Prototype : NMISS(varlist) Où varlist est une liste de variables de type V et/ou R. Exemple : R22=NMISS(R6-R10) La valeur restituée dépend du nombre de variables R6 - R10 ayant des valeurs de données manquantes. La valeur maximum sera 5 pour une observation dont les 5 variables ont toutes des valeurs de données manquantes. NVALID. La fonction NVALID restitue le nombre de valeurs valides (non manquantes) dans un jeu de variables. Prototype : NVALID(varlist) Où varlist est une liste de variables de type V et/ou R. Exemple : R2=NVALID(V20,V22,V24) La valeur restituée dépend du nombre de variables qui ont des valeurs valides. La valeur maximum 3 sera obtenue si les trois variables ont toutes des valeurs valides. 0 est restitué si les trois ont toutes des valeurs de données manquantes. RAND. La fonction RAND restitue une valeur qui est un nombre aléatoire uniformément distribué, basé sur les arguments «début» et «limite» tels que décrits ci-dessous. Prototype : RAND(début [,limite] ) Où : début est une constante représentée par un nombre entier, utilisée pour marquer le début de la séquence aléatoire. Si début est 0, c est le temps de l horloge qui est utilisé. limite est un argument facultatif. C est une constante représentée par un nombre entier utilisée pour spécifier l intervalle (par ex. 3 signifie un intervalle de 1 à 3). La valeur par défaut est 10, càd que l intervalle par défaut va de 1 à 10. Exemples : R1=RAND(0) IF RAND(0) NE 1 THEN REJECT

62 42 Facilité Recode Pour chaque observation traitée, R1 se verra assigner un nombre aléatoire, uniformément distribué de 1 à 10. La première fois que RAND est exécuté, la séquence débute avec le temps de l horloge. On notera que RAND peut être utilisé avec l instruction REJECT en vue de sélectionner un échantillon aléatoire d observations. Dans le second exemple, le résultat sera un échantillon aléatoire d 1/10 d observations. RECODE. La fonction RECODE est utilisée pour restituer une valeur basée sur les valeurs concurrentes de m variables. Prototype : RECODE var1,var2,...,varm [,TAB=i] [,ELSE=valeur] [,règle1,règle2,...,règle n] Où : var1,var2,...,varm est une liste de 1 à 12 variables V et/ou R à tester. TAB=i ou bien numérote le jeu de règles de recodage défini dans cette utilisation de RECODE (facultatif), ou bien fait référence à un jeu de règles définies lors d une utilisation antérieure de RECODE. Note : la clause ELSE n est pas considérée comme faisant partie du jeu de règles de recodage. ELSE=valeur (facultatif) indique la valeur à restituer si aucune des listes de codes ne coïncide avec les valeurs des variables. Bien qu habituellement cette valeur soit une constante, elle peut aussi être une expression arithmétique. Si ELSE est omis et qu aucune des listes de codes ne coïncide avec les valeurs des variables, la fonction ne restitue pas de valeur, càd que la valeur de la variable résultat demeure inchangée. S il s agit de la première instruction d attribution pour une variable, sa valeur sera dans le cas d une variable de type V celle des données en entrée, ou celle des données manquantes dans le cas d une variable de type R. règle1, règle2,...,règle n sont l ensemble des règles définissant les valeurs à restituer selon les valeurs de var1,var2,...,varm. Chaque règle a la forme «(liste de codes 1)(liste de codes 2)...(liste de codes p)=c». Chaque liste de codes a la forme «(a1/a2/.../am)» où a1 est le code à comparer avec var1, a2 le code à comparer avec var2, etc. Ici c représente la valeur à restituer quand var1, var2,...,varm coïncident avec les codes définis dans n importe laquelle des listes de codes. Le prototype pour une règle est : (a1/a2/.../am)(b1/b2/.../bm)...(x1/x2/.../xm)=c Chaque liste de codes contient une liste et/ou un intervalle de valeurs pour chaque variable, par ex. (avec deux variables), (3/2)(6-9/4)(0/1,3,5)=1. Dans toute liste de codes, ceux-ci peuvent être séparés par une barre oblique (signifiant «ET») ou par une barre verticale (signifiant «OU»), mais uniquement par l un ou par l autre de ces signes. Par exemple : (a1/a2/a3)=c (la fonction renverra c si var1=a1 et var2=a2 et var3=a3) (a1 a2 a3)=c (la fonction renverra c si var1=a1 ou var2=a2 ou var3=a3) Les règles sont examinées de gauche à droite. La première liste de codes qui coïncide avec la liste des valeurs de la variable détermine la valeur à restituer. La liste d arguments pour la fonction RECODE n est pas placée entre parenthèses. TAB, ELSE et les règles peuvent être dans n importe quel ordre. Exemples : R7=RECODE V1,V2,(3/5)(7/8)=1,(6-9/1-6)=2 R7 se verra assigner une valeur basée sur les valeurs de V1 et V2. Dans cet exemple, R7 sera 1 si V1=3 et V2=5, ou si V7=7 et V2=8. R7 sera 2 si V1=6-9 et V2=1-6. Dans tous les autres cas, R7 restera inchangé (voir plus haut). R7=RECODE V1,V2,TAB=1,ELSE=MD1(R7),(3/5)(7/8)=1,(6-9/1-6)=2

63 4.8 Fonctions arithmétiques 43 R7 se verra assigner la même valeur que dans l exemple précédent, excepté que R7 prendra sa valeur MD1 quand les règles ne sont pas observées. TAB=1 permet d utiliser ces règles dans un autre appel à la fonction RECODE. Restriction : quand on utilise la fonction RECODE, ce doit être l unique opérande à la droite du signe égal. SELECT. La fonction SELECT restitue la valeur de la variable ou de la constante dans la liste FROM occupant la même position que la valeur de la variable BY. (Attention : si la valeur de la variable BY est plus petite que 1 ou plus grande que le nombre de variables dans la liste FROM, il en résulte une erreur fatale). Il peut y avoir jusqu à 50 items dans la liste FROM. Par conséquent, la valeur maximum de la variable BY est 50. Une fonction SELECT peut être combinée avec d autres fonctions, opérations et variables pour former une expression complexe. Note : la fonction SELECT sélectionne la valeur d une seule variable d un ensemble de variables; l instruction SELECT sélectionne la variable à utiliser pour le résultat. (Voir la section «Instructions spéciales d attribution» pour la description de l instruction SELECT). Prototype : SELECT (FROM=liste de variables et/ou de constantes, BY=variable) Exemple : R10=SELECT (FROM=R1-R3,9,BY=V2) R10 se verra assigner la valeur de R1,R2,R3 ou 9 pour les valeurs 1,2,3, ou 4 respectivement de V2. SQRT. La fonction SQRT restitue une valeur qui est la racine carrée de l argument passé à la fonction. Prototype : SQRT(arg) Où arg est n importe quelle expression arithmétique. Exemple : R5=SQRT(V5) STD. La fonction STD restitue l écart-type des valeurs d un ensemble de variables. Les valeurs manquantes sont exclues. On peut utiliser l argument MIN pour spécifier le nombre minimum de valeurs valides pour un écart-type à calculer. Sinon le système renvoie la valeur de données manquantes par défaut Prototype : STD(varlist [,MIN=n] ) Où : varlist est une liste de variables de type V et/ou R, et de constantes. n est le nombre minimum de valeurs valides pour le calcul de l écart-type. Par défaut, n est 1. Exemple : R5=STD(V20-V24,R56-R58,MIN=3) SUM. La fonction SUM restitue la somme des valeurs d un ensemble de variables. Les valeurs manquantes sont exclues. On peut utiliser l argument MIN pour spécifier le nombre minimum de valeurs valides pour le calcul de la somme pour une observation. Sinon le système renvoie la valeur de données manquantes par défaut Prototype : SUM(varlist [,MIN=n] ) Où : varlist est une liste de variables de type V et/ou R, et de constantes. n est le nombre minimum de valeurs valides pour le calcul de la somme. Par défaut, n est 1. Exemple : R8=SUM(V20,V22,V24,V26,MIN=3) Si trois variables ou plus ont des valeurs valides, leur somme est restituée par la fonction, sinon celle-ci renvoie la valeur de

64 44 Facilité Recode TABLE. La fonction TABLE restitue une valeur basée sur les valeurs concurrentes de deux variables. Prototype : TABLE (r, c, [TAB=i,] [ELSE=valeur,] [PAD=valeur,] COLS c1,c2,...,cm, ROWS r1(valeurs pour la ligne 1),r2(valeurs pour la ligne 2),..., rn(valeurs pour la ligne n)) Où : r est une variable ou une constante qu on utilisera comme «index ligne» d un tableau. c est une variable ou une constante qu on utilisera comme «index colonne» d un tableau. TAB=i sert soit à assigner un numéro au tableau défini dans cette utilisation de TABLE (facultatif), soit à faire référence à un tableau défini dans une utilisation antérieur de TABLE. ELSE=valeur donne une valeur à utiliser pour les paires de valeurs non définies dans le tableau. Cette valeur peut être une expression arithmétique. La valeur par défaut 99 est utilisée si l on ne spécifie pas de valeur pour ELSE, càd que TABLE restitue toujours une valeur. PAD=valeur est une valeur à insérer dans toute cellule du tableau qui est définie par des spécifications COLS, mais non par des spécifications ROWS. TAB, ELSE et PAD peuvent être dans n importe quel ordre. c1,c2,...,cm sont les colonnes du tableau. On peut utiliser des intervalles. r1,r2,...,rn sont les lignes du tableau. La taille globale du tableau équivaut à m * n, où m correspond au nombre de colonnes et n au nombre de lignes. (valeurs pour la ligne 1), (valeurs pour la ligne 2),..., (valeurs pour la ligne n) correspondent aux valeurs restituées par le programme selon les valeurs prises par r et par c. Les valeurs sont données dans l ordre spécifié pour les colonnes; la première valeur correspond à c1, la deuxième à c2, etc. L utilisation d intervalles pour définir les lignes est permise. Exemples : supposons le tableau suivant : Colonne : Ligne : R1=TABLE (V6, V4, TAB=1, ELSE=0, PAD=9, COLS 1-6, ROWS 2(1,1,2,2,3,4), - 3(1,2,2,2,3,4),5(1,2,2,2,3,4),6(3,3,3,3,3,4),8(9)) Si V6 égale 5 et V4 égale 3, R1 se verra assigner la valeur 2 (l intersection de la ligne 5 et de la colonne 3). Si V6 égale 2 et V4 égale 6, R1 se verra assigner la valeur 4 (l intersection de la ligne 2 et de la colonne 6). Si V6 égale 4 et V4 égale 2, R1 se verra assigner la valeur 0 (la ligne 4 n est pas définie ; la valeur d ELSE est donc utilisée). R5=TABLE (3, V8, TAB=7, ELSE=TABLE(V1,V8,TAB=1) ) Cet exemple utilise le tableau appelé 7 avec 3 comme index de ligne et la valeur de V8 comme index de colonne. Les valeurs de V8 qui ne sont pas dans le tableau 7 feront appel à un autre tableau appelé 1 qui sera utilisé avec l index de ligne V1 et l index de colonne V6. TRUNC. La fonction TRUNC restitue la partie entière de la valeur d un argument. Prototype : TRUNC(arg) Où arg est toute expression arithmétique dont la partie entière sera prise.

65 4.9 Fonctions logiques 45 Exemple : R5=TRUNC(V5) R5 se verra assigner la partie entière de la valeur de la variable en entrée V5. VAR. La fonction VAR restitue la variance des valeurs d un ensemble de variables, en excluant les valeurs manquantes. On peut utiliser l argument MIN pour spécifier le nombre minimum de valeurs valides pour le calcul de la variance. Sinon le système renvoie la valeur de données manquantes par défaut Prototype : VAR(varlist [,MIN=n] ) Où : varlist est une liste de variables de type V et/ou R, et de constantes. n est le nombre minimum de valeurs valides pour le calcul de la variance. Par défaut, n est 1. Exemple : R9=VAR(V5-V10) 4.9 Fonctions logiques Quand elles sont évaluées, les fonctions logiques restituent une valeur «vrai» ou «faux». Elles ne peuvent pas être utilisées comme opérandes arithmétiques. Les fonctions logiques sont utilisées dans les expressions logiques et les expressions logiques contiennent la portion test des instructions conditionnelles «IF test THEN». Voici la liste des fonctions disponibles : Fonction Exemple Objet EOF IF EOF THEN GO TO NEXT Vérifie que la fin du fichier de données est attainte INLIST IF V5 INLIST(2,4,6) THEN - Recherche une liste de valeurs R100=1 ELSE R100=0 MDATA IF MDATA(V5,V6) THEN R101=99 Contrôle les données manquantes EOF. Cette fonction est utilisée pour agréger des valeurs au travers d observations. Voir l exemple 10 dans la section «Exemples d utilisation d instructions de Recode». La présence de la fonction EOF a pour effet que les instructions Recode, après avoir rencontré une fin de fichier, sont exécutées une fois de plus. La valeur de la fonction EOF est vraie durant le dernier passage des instructions Recode, et fausse autrement. Lors de ce dernier pasage, les variables V prennent la valeur qu elles avaient après le traitement de la dernière observation. Les variables R (à l exception de celles citées dans les instructions CARRY) seront ré-initialisées à Les variables R de CARRY restent telles quelles. L utilisateur doit veiller à ce qu après avoir atteint une fin de fichier, les instructions de Recode prennent un chemin correct. Prototype : EOF Exemple : IF R1 NE V1 OR EOF THEN GO TO L1 INLIST. La fonction INLIST (IN en abrégé) restitue une valeur «vrai» si le résultat d une expression arithmétique correspond à une valeur d un ensemble spécifié de valeurs. Si l expression correspond à une valeur différente, la fonction restitue une valeur «faux». Prototype : expr INLIST(valeur) ou expr IN(valeur) Où : expr est n importe quelle expression arithmétique ou une variable. valeur est une liste de valeurs. Celles-ci peuvent être discrètes et/ou un intervalle de valeurs.

66 46 Facilité Recode Exemples : IF R12 INLIST(1-5,9,10) THEN V5=0 Si R12 a la valeur 1,2,3,4,5,9 ou 10, la fonction INLIST restitue la valeur «vrai» et la valeur 0 est assignée à la variable en entrée V5. Sinon, INLIST restitue la valeur «faux» et la variable V5 conserve sa valeur originale. IF (V3 + V7) IN(2,4,5,6) THEN R1=1 ELSE R1=9 Si la somme des variables en entrée V3 et V7 donne comme résultat la valeur 2,4,5 ou 6, INLIST restitue une valeur «vrai» et R1 se verra assigner la valeur 1. Sinon, INLIST restitue une valeur «faux» et R1 se verra assigner la valeur 9. MDATA. La fonction MDATA restitue une valeur logique «vrai» si l une quelconque des variables passées à la fonction contient des valeurs manquantes; sinon, la fonction restitue la valeur «faux». Cette fonction s utilise assez souvent, étant donné que les données manquantes ne sont pas vérifiées automatiquement dans l évaluation d expressions, à l exception des fonctions MAX, MEAN, MIN, STD, SUM et VAR. Prototype : MDATA(varlist) Où varlist est une liste de variables de type V et/ou R. Il peut y avoir un maximum de 50 variables dans cette liste. Exemple : IF MDATA(V1,V5-V6) THEN R1=MD1(R1) ELSE R1=V1+V5+V6 Si une quelconque variable dans la liste V1, V5, V6 a une valeur égale à son code MD1 ou à une des valeurs dans l intervalle défini par MD2, la fonction MDATA restituera une valeur «vrai» et la variable résultat R1 se verra assigner son premier code de données manquantes. Sinon, MDATA restituera la valeur «faux» et la somme de V1, V5 et V6 sera assignée à R Instructions d attribution Ce sont les unités structurelles principales du langage Recode. Elles sont utilisées pour attribuer une valeur à un résultat. Tout chiffre entre 1 et 9999 peut être utilisé pour numéroter une variable R ; on évitera cependant la confusion en affectant à ces variables des numéros distincts de ceux utilisés pour la numérotation des variables dans le dictionnaire en entrée; s il y a 22 variables dans le dictionnaire d entrée on numérotera les variables R à partir de R30 par exemple. Les instructions d attribution peuvent également être utilisées pour attribuer une nouvelle valeur à une variable en entrée. Dans ce cas, la valeur originale de cette variable est perdue pour la durée du programme d IDAMS en cours d exécution. Prototype : variable=expression Où : variable est une variable en entrée (Vn) ou une variable résultat (Rn). expression est toute expression arithmétique qui éventuellement utilise des fonctions arithmétiques de Recode. On notera que la vérification des données manquantes pour les variables utilisées dans l expression n est pas effectuée automatiquement, à l exception des fonctions spéciales MAX, MEAN, MIN, STD, SUM, VAR. Dans tous les autres cas, il faut introduire là où c est approprié des instructions spécifiques pour vérifier la présence de données manquantes. Voir des exemples d instructions plus loin, sous «Instructions conditionnelles». Exemples : R10=5 On attribue comme valeur à R10 la constante 5.

67 4.11 Instructions spéciales d attribution 47 R5=2*V10 + (V11 + V12)/2 On peut utiliser n importe quelle expression arithmétique, et les parenthèses sont utilisées pour modifier la préséance normale des opérateurs arithmétiques. V20=SQRT(V20) La valeur de V20 est remplacée par la valeur de sa racine carrée à l aide de la fonction SQRT. R20=BRAC(V6,0-15=1,16-25=2,26-35=3,36-90=4,ELSE=9) On attribue à R20 la valeur 1,2, 3, 4, ou 9 selon le groupe dans lequel tombe la valeur de V6. R10=MD1(V10) On attribue à R10 une valeur égale au premier code de données manquantes de V Instructions spéciales d attribution DUMMY. L instruction DUMMY produit, à partir d une seule variable, une série de variables fictives («dummy»), codées 1 ou 0. Prototype : DUMMY var1,...,varn USING var(val1)(val2)...(valn) [ELSE expression] Où : var1, var2,...,varn est une liste de variables fictives dont les valeurs sont définies par cette instruction. Ce peuvent être des variables de type V ou R ; elles peuvent être fournies individuellement ou en intervalles, et doivent être séparées par des virgules (par ex. R1-R3, R10, R7-R9, V20). Leur ordre est préservé. Les références doubles sont valides (R1, R3, R1). var est toute variable de type V ou R. La valeur de cette variable est testée par rapport aux listes de valeurs (val1)(val2) etc. afin d attribuer la valeur appropriée aux variables fictives. (val1)(val2)...(valn) sont des listes de valeurs utilisées pour attribuer une valeur aux variables fictives. Il doit y avoir le même nombre de listes que de variables fictives (var1,var2,...,varn). Les listes de valeurs peuvent contenir des constantes individuelles ou des intervalles, ou les deux. expression est toute valeur arithmétique utilisée comme valeur pour toutes les variables fictives quand la valeur de la variable var ne se trouve pas dans l une des listes de valeurs. Par défaut, la valeur de l expression est la constante 0. La valeur de la variable var est testée par rapport aux listes de valeurs (le nombre de listes de valeurs doit être égal au nombre de variables fictives); si var a une valeur qui se trouve dans la première liste de valeurs, la première variable fictive prend la valeur 1 et les autres la valeur 0; si la valeur de var se rencontre dans la deuxième liste de valeurs, la deuxième variable fictive prend la valeur 1 et les autres la valeur 0, etc. Si la valeur de var ne se trouve dans aucune des listes de valeurs, toutes les variables fictives prennent la valeur spécifiée après la clause ELSE (0 par défaut). Exemple : DUMMY R1-R3 USING V8(1-4)(5,7,9)(0,8) ELSE 99 Le tableau suivant montre les valeurs de R1, R2 et R3 basées sur les valeurs différentes prises par V8 : V8 : AUTRES R1 : R2 : R3 :

68 48 Facilité Recode SELECT. L instruction SELECT fait que la variable dans la liste FROM, qui a la même position que la valeur de la variable BY, prend la valeur de l expression à la droite du signe égal, càd l instruction sélectionne la variable à laquelle attribuer une valeur. Si la valeur de la variable BY est moindre que 1 ou plus grande que le nombre de variables dans la liste FROM, il en résultera une erreur fatale. Le nombre maximum d items dans la liste FROM est de 50. Prototype : SELECT (FROM=liste de variables, BY=variable)=expression Exemples : SELECT (FROM=R1,V3-V10, BY=R99)=1 SELECT (BY=V1, FROM=V8,R2,R5)=R7*5 Dans le premier exemple, R1 prendra la valeur 1 si R99 est égal à 1 ; V3 prendra la valeur 1 si R99 est égal à 2 ;... ; et V10 prendra la valeur 1 si R99 est égal à 9. Si R99 est plus grand que 9 ou plus petit que 1, il en résultera une erreur fatale. Les huit variables auxquelles il n est pas fait référence dans une occurrence particulière de SELECT ne sont pas modifiées. On peut utiliser SELECT en boucle, comme suit : R99=1 L1 SELECT (BY=R99, FROM=R1,V3-V10)=0 IF R99 LT 9 THEN R99=R99+1 AND GO TO L1 Les neuf variables R1, V3-V10 se verront attribuer l une après l autre la valeur zéro, étant donné que R1 est incrémenté de 1 à 9. La boucle est terminée quand R99 est égal à 9 et que toutes les variables ont été initialisées Instructions de contrôle Recode exécute les instructions observation par observation, normalement en procédant de la première à la dernière. L ordre peut être modifié à l aide d une des instructions de contrôle : Instruction Exemple Objet BRANCH BRANCH (V16,L1,L2) Effectue un branchement selon la valeur de la variable CONTINUE CONTINUE Continue avec l instruction suivante ENDFILE ENDFILE Ne traite plus d observations après celle-ci ERROR ERROR Termine complètement l exécution GO TO GO TO TOWN Effectue un branchement inconditionnel REJECT REJECT Rejette l observation en cours de traitement RELEASE RELEASE Retourne au programme l observation en cours et exécute à nouveau les instructions de recodage sans passer à l observation suivante RETURN RETURN Utilise l observation courante pour analyse sans recodage supplémentaire BRANCH. L instruction BRANCH modifie la séquence selon laquelle les instructions sont exécutées, en fonction de la valeur d une variable. Prototype : BRANCH(var,étiquettes) Où : var est une variable de type V ou R. étiquettes est la liste d une ou plusieurs étiquettes d instructions de 1 à 4 caractères. Exemple : BRANCH(R99,LAB1,LAB2,LAB3) Exécution d un transfert à LAB1, LAB2 ou LAB3, selon que R99 a une valeur 1,2 ou 3.

69 4.12 Instructions de contrôle 49 CONTINUE. L instruction CONTINUE n effectue pas d opérations. Elle fournit un moyen pratique d opérer un transfert. Prototype : CONTINUE Exemple : IF V17 EQ 10 THEN GO TO AT R10=V11 GO TO THAT AT R20=V11*100 THAT CONTINUE ENDFILE. L instruction ENDFILE a pour effet de fermer le dataset en entrée exactement comme si le programme avait atteint une fin de fichier. Si l on a spécifié la fonction EOF, celle-ci prendra la valeur «vrai» pour un passage final des instructions Recode depuis leur début, après que ENDFILE ait été exécuté. Prototype : ENDFILE Exemple : IF V1 EQ 100 THEN ENDFILE Cette instruction peut être utilisée pour tester un ensemble d instructions Recode ou bien un setup IDAMS sur les n premières observations d un dataset. ERROR. L instruction ERROR ordonne à la facilité Recode de terminer l exécution avec un message d erreur indiquant le numéro d identification de l observation et le numéro de l instruction Recode où l erreur est survenue. Prototype : ERROR Exemple : B IF R6 EQ 2 THEN GO TO B ERROR CONTINUE GO TO. L instruction GO TO est utilisée pour modifier la séquence selon laquelle les instructions sont exécutées. En l absence d un GO TO ou d une instruction BRANCH, chaque instruction est exécutée séquentiellement. Prototype : GO TO étiquette Où étiquette est une étiquette d instruction de 1 à 4 caractères. L instruction identifiée par l étiquette peut se trouver physiquement avant ou après l instruction GO TO. (Avertissement : il faut faire attention en référant à une instruction placée avant le GO TO, pour éviter que les instructions ne tournent en boucles indéfiniment). Exemple : GO TO TOWN R10=R5 GO TO 1 TOWN R10=R5+V11 1 R11=... REJECT. L instruction REJECT ordonne à la facilité Recode de rejeter l observation en cours de traitement et d accéder à une autre observation. Celle-ci est alors traitée à partir du début des instructions Recode. Par conséquent, on peut utiliser REJECT comme filtre avec les variables de type R. Prototype : REJECT Exemple : IF MDATA (V8,V12-V13) THEN REJECT

70 50 Facilité Recode RELEASE. L instruction RELEASE ordonne à la facilité Recode de libérer l observation courante pour son traitement par le programme et de reprendre le contrôle ensuite sans lire une autre observation. Après reprise du contrôle, Recode reprend les instructions Recode à leur début. RELEASE peut être utilisé pour diviser un enregistrement en plusieurs observations pour l analyse. Note : en utilisant l instruction RELEASE il faut faire attention à ne pas créer un bouclage continuant indéfiniment. Prototype : RELEASE Exemple : CARRY (R1) R1=R1+1 IF R1 LT V1 THEN RELEASE ELSE R1=0 RETURN. L instruction RETURN ordonne à la facilité Recode de rendre le contrôle au programme d IDAMS. Il n y a pas d autres instructions exécutées pour l observation courante. Prototype : RETURN Exemple : IF V8 LT 12 THEN GO TO A RETURN A R10=V Instructions conditionnelles L instruction IF permet d opérer une attribution conditionnelle et/ou un contrôle conditionnel. C est une instruction composée de plusieurs instructions individuelles reliées par les mots-clés THEN, AND et ELSE. Prototype : IF test THEN instr1 [AND instr2 AND...instr n] [ELSE einstr1] [AND einstr2 AND...einstr n] Où : test peut être toute combinaison d expressions logiques (y compris des fonctions logiques) reliées par AND ou OR et, à titre optionnel, précédées par NOT. Le test peut, mais ne doit pas, être placé entre parenthèses. instr1,...,instr n,einstr1,...,einstr n peuvent être n importe quelle instruction d attribution ou de contrôle (à l exception de CONTINUE). L (les) instruction(s) entre les clauses THEN et ELSE est(sont) exécutée(s) si le résultat du test donne une valeur «vrai». L (les) instruction(s) après la clause ELSE est(sont) exécutée(s) si le résultat du test donne une valeur «faux». En l absence d une clause ELSE, c est l instruction suivante qui est exécutée. Les mots-clés THEN et ELSE peuvent chacun être suivis par n importe quel nombre d instructions, chacune reliée par le mot-clé AND. Exemples : IF V5 EQ V6 THEN R1=1 ELSE R1=2 R1 prend la valeur 1 si la valeur de V5 est égale à la valeur de V6 ; sinon, R1 prend la valeur 2. IF MDATA(V7,V10-V12) THEN R6=MD1(V7) AND R10=99 - ELSE R6=V7+V10+V11 AND R10=V12*V7 R6 prend la valeur du premier code de données manquantes de V7 et R10 prend la valeur 99 si une quelconque des variables V7, V10, V11, V12 a une valeur égale aux codes de données manquantes. Sinon R6 prend une valeur égale à la somme de V7, V10 et V11, et R10 prend une valeur égale au produit de V12 et V7. IF (V5 NE 7 AND R8 EQ 9) THEN V3=1 ELSE V3=0

71 4.14 Instructions d initialisation/définition 51 La valeur 1 est attribuée à V3 si à la fois V5 n est pas égal à 7 et R8 est égal à 9. (Note : les parenthèses ne sont pas indispensables). IF MDATA(V6) OR V10 LT 0 THEN GO TO X Si la valeur de V6 est manquante ou bien si V10 est inférieure à 0, aller à l instruction appelée X; sinon poursuivre avec l instruction suivante Instructions d initialisation/définition Ces instructions sont exécutées une seule fois, avant que ne débute le traitement des données, en vue d initialiser des valeurs qui seront utilisées durant l exécution des instructions Recode. Ces instructions ne peuvent être utilisées au sein d expressions et elles ne peuvent pas avoir d étiquettes. CARRY. L instruction CARRY a pour effet de transférer d observation en observation les valeurs d une liste de variables. Les variables de CARRY sont initialisées à zéro, une seule fois, au début de l exécution du programme. Les variables de CARRY peuvent être utilisées comme compteurs ou comme accumulateurs en vue d une agrégation. Prototype : CARRY(varlist) Où varlist est une liste de variables R. Exemple : CARRY(R1,R5-R10,R12) MDCODES. L instruction MDCODES modifie les codes de données manquantes du dictionnaire pour les variables en entrée ou attribue des codes de données manquantes aux variables résultat. Pour les variables V et R sans spécification de données manquantes dans le dictionnaire ni spécification MDCODES, Recode utilise par défaut les valeurs MD1= et MD2= Prototype : MDCODES (varlist1)(md1,md2),(varlist2)(md1,md2),..., (varlistn)(md1,md2) Où : varlist1, varlist2,..., varlistn sont des listes contenant des variables ou des intervalles de variables. md1 et md2 sont respectivement le premier et le second codes de données manquantes pour chaque variable de la liste. Les codes de données manquantes avec valeur décimale doivent être écrits avec un point explicite. Attention : le programme ne retient que 2 décimales pour les variables R et arrondit au besoin les valeurs qui dépassent, par ex. si md1 est spécifié comme ayant la valeur 9.999, celle-ci apparaîtra comme On peut omettre md1 ou md2. Si md1 est omis, une virgule doit précéder la valeur md2. Exemples : MDCODES V5(8,9) Le premier code de données manquantes pour V5 sera 8; le second sera 9. MDCODES (R9-R11)(,99), V7(8,9), V6(9) Pour R9, R10 et R11, le premier code de données manquantes sera et le second sera 99. Pour V7, le premier code de données manquantes sera 8 et le second sera 9. Pour V6, le premier code de données manquantes sera 9 et le second sera NAME. L instruction NAME attribue un nom aux variables R ou renomme les variables V. Prototype : NAME var1 nom1,var2 nom2,..., varn nom n Où : var1,var2,...,varn sont des variables V ou R.

72 52 Facilité Recode nom1, nom2,...,nom n sont des noms attribués à ces variables. Le nombre maximum de caractères pour un nom est 24; un nom plus long sera tronqué à 24 caractères. Le nom par défaut pour une variable de type R est RECODED VARIABLE Rn. Pour inclure une apostrophe dans un nom (par ex. L ECONOMIE), il faut utiliser deux primes (par ex. L ECONOMIE). Exemple : NAME R1 V5 + V6, V1 PERSON S STATUS 4.15 Exemples d utilisation d instructions de Recode Supposons qu il existe un fichier Données avec les variables suivantes : V1 ID du village V2 Sexe 1=homme, 2=femme V4 Age 21-98, 99=non spécifié V5 Niveau d éducation 1=primaire, 2=secondaire, 3=universitaire, 9=non spécifié V8 Revenu du 1er emploi V9 Revenu du 2ème emploi V10 Revenu du compagon/de la compagne V21 Poids en Kg (une décimale) V22 Taille en mètre (deux décimales) V31 Possède une voiture? 1=oui, 2=non, 9=non spécifié V32 Possède une TV? V33 Possède une stéréo? V34 Possède un frigo? V35 Possède un micro ordinateur? V41 Nombre d enfants V42 Age du 1er enfant V43 Age du 2ème V44 Age du 3ème V45 Age du 4ème Diverses manières de construire des variables pour l analyse des données sont exposées ci-dessous. 1. Revenu global. S il manque le revenu du 1er et du 2ème emploi, alors on considérera le revenu global comme manquant. Si seulement l un des deux revenus manque, on utilisera le second comme revenu global. IF NVALID(V8,V9) EQ 0 THEN R101=-1 AND GO TO END IF NVALID(V8,V9) EQ 2 THEN R101=V8+V9 AND GO TO END IF MDATA(V8) THEN R101=V9 ELSE R101=V8 END CONTINUE MDCODES R101(-1) ou R101=SUM(V8,V9,MIN=1) IF R101 EQ 1.5 * 10 EXP 9 THEN R101=-1 MDCODES R101(-1) 2. Ne pas utiliser l observation si le revenu global est zéro ou s il est manquant. IF MDATA(R101) OR R101 EQ 0 THEN REJECT 3. Revenu mixte, constitué des 3/4 du revenu du répondant et d 1/4 de celui du compagnon. Si ce dernier est manquant, il est remplacé par zéro.

73 4.15 Exemples d utilisation d instructions de Recode 53 IF MDATA(V10) THEN V10=0 IF MDATA(R101) THEN R102=MD1(R102) - ELSE R102=R101 *.75 + V10 *.25 NAME R102 Revenu mixte MDCODES R102(99999) 4. Poids du répondant, regroupé en léger (30-50), moyen (51-70) et lourd (70+). R103=BRAC(V21,30-50=1,50-70=2,70-200=3,ELSE=9) On notera que les valeurs de V21 ont été saisies avec une décimale. Pour s assurer que des valeurs telles que 50.2 soient affectées à une catégorie, il faut que les intervalles dans l instruction BRAC se chevauchent. Recode fonctionne de gauche à droite et affecte le code correspondant au premier intervalle dans lequel tombe l observation. Par conséquent, une valeur de 50.0 tombera dans la catégorie 1 tandis que la valeur 50.1 tombera dans la catégorie 2. Pour placer les valeurs de 50 dans la 2ème catégorie, on utilise l instruction suivante : R103=BRAC(V21, <50=1, <70=2, <200=3, ELSE=9) Une valeur de 49 tomberait dans chacun des trois intervalles, mais Recode utilisera le premier intervalle valide qu il trouve pour y placer cette valeur (code 1). Une valeur de 50 ne coïncidera pas avec le premier intervalle et se verra assigner le code Index d abondance avec des valeurs de 0 à 5, selon le nombre d équipements différents possédés. R104=COUNT(1,V31-V35) Si tous les items sont codés 1 (oui), l index, R104, prendra la valeur 5. S ils sont tous codés 2 (non) ou si les données sont manquantes, l index prendra la valeur zéro. 6. Créer 3 variables fictives (codées 0/1) à partir de la variable niveau d éducation. DUMMY R105-R107 USING V5(1)(2)(3) Les 3 variables résultat prendront les valeurs suivantes : V5=1 R105=1, R106=0, R107=0 V5=2 R105=0, R106=1, R107=0 V5=3 R105=0, R106=0, R107=1 V5 n est pas 1,2 ni 3 R105=0, R106=0, R107=0 (valeur par défaut en l absence de ELSE) 7. Âge du plus jeune enfant. L âge des quatre derniers enfants est stocké dans les variables 42 à 45, l âge du plus âgé étant dans V42. Si quelqu un a 3 enfants, c est la valeur de V44 qui correspondra à l âge du plus jeune enfant; si quelqu un a 4 enfants ou plus, ce sera la valeur de V45. Dans ce cas, V41 (nombre d enfants) peut être utilisé comme index pour sélectionner la variable correcte à l aide de la fonction SELECT. IF V41 GT 4 THEN V41=4 IF V41 EQ 0 OR MDATA(V41) THEN R109=99 ELSE - R109=SELECT (FROM=V42-V45, BY=V41) NAME R109 L àge du plus jeune enf MDCODES R109(99) 8. Rapport Poids/Taille sous forme de nombre décimal et arrondi au nombre entier le plus proche. IF MDATA (V21,V22) OR V22 EQ 0 THEN R111=99 AND R112=99 ELSE - R111=V21/V22 AND R112=TRUNC ((V21/V22) +.5) NAME R111 Rapport Poids/Taille en déc, R112 P/T arrondi MDCODES R111(99),R112(99)

74 54 Facilité Recode 9. Création d une variable combinant le sexe et le niveau d éducation et comprenant 4 catégories, comme suit : Femmes, uniquement éducation primaire Femmes, éducation secondaire+ Hommes, uniquement éducation primaire Hommes, éducation secondaire+ Méthode a. Tout d abord, réduire sous forme de codes contigus démarrant à 0 les codes des variables sexe et niveau d éducation, en stockant temporairement les résultats dans les variables R901, R902. R901=BRAC (V5,1=0,2=1,ELSE=9) R902=BRAC (V6,1=0,2=1,3=1,ELSE=9) Ensuite, utiliser la fonction COMBINE, en ayant pris soin au préalable de classer dans une catégorie de données manquantes les observations avec codes erratiques. IF R901 GT 1 OR R902 GT 1 THEN R110=9 ELSE - R110=COMBINE R901(2),R902(2) Méthode b. Utiliser des instructions IF, en plaçant 9 au début comme valeur par défaut. R110=9 IF V5 EQ 1 AND V6 EQ 1 THEN R110=1 IF V5 EQ 1 AND V6 INLIST (2,3) THEN R110=2 IF V5 EQ 2 AND V6 EQ 1 THEN R110=3 IF V5 EQ 2 AND V6 INLIST (2,3) THEN R110=4 Méthode c. Utiliser la fonction RECODE. R110=RECODE V5,V6(1/1)=1,(1/2-3)=2,(2/1)=4,(2/2-3)=5,ELSE=9 10. Agrégation d observations avec Recode. Supposons que nous voulions analyser les données (consistant en enregistrements au niveau individuel) au niveau du village, pour produire par exemple un tableau montrant la distribution des villages en fonction du revenu (V8,V9) et du pourcentage de gens dans le village qui possèdent une voiture (V31). Nous pourrions effectuer ceci à l aide de AGGREG pour agréger les données au niveau du village, et ensuite exécuter le programme TABLES. Alternativement, nous pourrions nous servir des instructions CARRY, EOF et REJECT, et utiliser TABLES directement. 1 CARRY (R901,R902,R903,R904) 2 IF (R901 EQ 0) THEN R901=V1 3 IF (R901 NE V1) THEN GO TO VIL 4 IF EOF THEN GO TO VIL 5 R902=R R903=R903+V8+V9 7 IF (V31 EQ 1) THEN R904=R REJECT 9 VIL R101=(R904*100)/R R101=BRAC(R101,<25=1,<50=2,<75=3,<101=4) 11 R102=R903/R R102=BRAC(R102,<1000=1,<2000=2,<5000=3,ELSE=4) 13 R901=V1 14 R902=1 15 R903=V8+V9 16 IF (V31 EQ 1) THEN R904=1 ELSE R904=0 17 NAME R102 Revenu moyen, R101 % gens possédant voiture R901 est une variable de travail qui sert à conserver l identificateur ID du village; à la lecture de la première observation (R901=0), le programme affecte à R901 la valeur de la variable ID du village (V1); R902 à R904 sont des variables de travail correspondant respectivement au nombre de gens dans

75 4.16 Restrictions 55 le village, au revenu global des gens dans le village et au nombre de gens dans le village qui possèdent une voiture. Alors que l identificateur ID du village reste inchangé, les données s accumulent dans les variables R902 à R904 (dont les valeurs sont transférées au fur et à mesure que de nouvelles observations sont lues). L observation est ensuite rejetée (càd qu elle ne passe pas à l analyse) et le programme lit l observation suivante. Quand Recode rencontre un autre ID de village, il exécute les instructions placées à côté de l étiquette VIL : le contenu momentané de R902, R903 et R904 est utilisé pour calculer les valeurs des variables demandées (revenu moyen et pourcentage de gens possédant une voiture par village) et ces variables sont ensuite passées à l analyse après avoir rendu aux variables de travail les valeurs de la dernière observation lue (la première observation pour le nouveau village). Quand Recode atteint la fin du fichier, nous devons nous assurer que les données du dernier village sont utilisées. La quatrième instruction s en charge Restrictions 1. Le nombre maximum de variables de type R est Le nombre maximum de tableaux numérotés (BRAC, RECODE, TABLE) est Dans une instruction Recode, le nombre maximum de caractères est 1024 à l exclusion des tirets de continuation. 4. Le nombre maximum d étiquettes d instructions est approximativement Le nombre maximum de constantes, y compris celles contenues dans tous les tableaux, est approximativement Le nombre maximum de noms qui peuvent être définis dans les instructions NAME est Le nombre maximum de valeurs de données manquantes qui peuvent être définies dans les instructions MDCODES est 100 et seulement 2 décimales sont retenues pour les variables R. 8. Le nombre maximum de sous-parenthèses à l intérieur d une instruction (càd de parenthèses à l intérieur de parenthèses) est Le nombre maximum d opérateurs arithmétiques est approximativement Le nombre maximum de variables avec l instruction SELECT est Le nombre maximum d instructions IF est approximativement Le nombre maximum de références à des fonctions utilisées comme arguments de fonctions est Le nombre maximum d instructions est approximativement Le nombre maximum d étiquettes dans une instruction BRANCH est Le nombre maximum de variables dans CARRY est Le «nombre maximum de variables» indiqué dans la section «Restrictions» de chaque descriptif des programmes d analyse inclut les variables de type R et V utilisées dans l analyse ainsi que les variables V utilisées dans Recode mais non dans l analyse. En conséquence, si un programme peut utiliser 40 variables au maximum et que 40 variables d entrée sont utilisées dans l analyse, on ne peut utiliser aucune autre variable dans les instructions Recode. Dans le calcul du «nombre maximum de variables», on ne tient pas compte des variables R définies dans des instructions Recode mais non utilisées dans l analyse. 17. Le filtrage a lieu avant le recodage, de sorte qu on ne peut faire référence aux variables résultat dans les filtres principaux.

76 56 Facilité Recode 4.17 Notes On peut obtenir un recodage univarié/bivarié avec la méthode TABLE, IF ou RECODE. Voici une comparaison de ces méthodes en tenant compte des deux aspects d exécution. Exhaustivité TABLE... effectue un recodage complet. Une valeur résultat est produite même lorsque la valeur en entrée se trouve en dehors du tableau (étant donné que par défaut ELSE suppose 99). RECODE permet un recodage partiel. S il n y a pas de test donnant la valeur «vrai» et s il n y a pas de valeur ELSE spécifiée, le recodage n a pas lieu. Taille du tableau Des recodages bivariés et univariés complets et importants sont effectués plus efficacement par TABLE et IF... Pour un recodage univarié important de variables une par une et utilisant une ligne d un tableau rectangulaire, TABLE est mieux que IF...

77 Chapitre 5 La gestion et l analyse des données 5.1 La validation des données avec IDAMS Vue d ensemble Quel que soit le logiciel qu on utilise, les données ont normalement besoin d être validées avant de commencer à les analyser. Cette validation comprend typiquement trois étapes : 1. Vérifier si les données sont complètes, càd s assurer que toutes les observations qu on attend se trouvent bien dans le fichier de données et que les enregistrements corrects existent pour chaque observation quand il y a plusieurs enregistrements par observation. 2. Vérifier que pour les variables numériques il n y ait bien que des valeurs numériques et que celles-ci sont valides. 3. Vérifier la pertinence logique entre les variables. Comme beaucoup d autres logiciels, IDAMS exige qu il y ait la même quantité de données pour chaque observation. Si pour une observation, les données s étendent sur plusieurs enregistrements, il faut alors que chaque observation comprenne exactement le même jeu d enregistrements. Si certains variables ne s appliquent pas à certaines observations, il faut néanmoins leur attribuer des valeurs dites «manquantes». En matière de la fusion des enregistrements, IDAMS permet de vérifier qu à chacune des observations correspond le jeu correct d enregistrements. Ceci est réalisé grâce au programme MERCHECK qui produit en sortie un fichier «rectangulaire», duquel les enregistrements en trop et/ou en double ont été supprimés, tandis que les observations contenant des enregistrements manquants ont été soit laissées de côté, soit remplies avec des enregistrements fictifs. La détection des valeurs non numériques dans des variables numériques, ainsi que la conversion facultative de champs en blanc en des valeurs numériques spécifiées par l utilisateur, sont effectuées par le programme BUILD. La vérification des autres codes invalides est faite par le programme CHECK, à l aide duquel les codes valides sont définis dans des instructions spéciales ou bien sont tirés des enregistrements C dans le dictionnaire décrivant les données. Si les données sont saisies à l aide de l Interface utilisateur de WinIDAMS, les caractères non numériques ne seront pas admis (à l exception des champs laissés vides). En outre, pendant la saisie des données il est possible de vérifier les codes et aussi de détecter dans la totalité du fichier la présence de codes invalides. À cet effet, l Interface utilise les enregistrements C présents dans le dictionnaire. Les vérifications de pertinence peuvent être formulées au moyen du langage de recodage d IDAMS et être utilisées avec le programme CONCHECK pour obtenir la liste des observations contenant des erreurs de logique. Les erreurs détectées à n importe laquelle de ces étapes peuvent être corrigées soit avec l Interface utilisateur, soit en utilisant le programme CORRECT. Une séquence type d étapes de détection et de correction d erreurs avec IDAMS est décrite plus en détail ci-dessous.

78 58 La gestion et l analyse des données Vérification si les données sont complètes Opération 1 Production de tableaux croisés résumant la distribution des observations entre les unités d échantillonnage, les zones géographiques, etc. pour vérification avec les totaux de contrôle. Ceci est particulièrement utile dans le cas d enquêtes par échantillonnage. Supposons, par ex. une enquête sur les ménages. On prend un échantillon en sélectionnant d abord les unités primaires d échantillonnage (UPE), ensuite jusqu à 5 zones géographiques à l intérieur de chaque UPE aux fins d interviewer les ménages dans ces zones. À partir des données, on peut produire la distribution des ménages par UPE et par zone en préparant un petit dictionnaire contenant juste 2 variables : UPE et zones géographiques. Le tableau se présentera à peu près comme ceci : V2 ZONE V1 UPE On peut comparer ce tableau avec le registre tenu par les interviewers pour vérifier si toutes les données recueillies se trouvent bien dans le fichier. Les opérations 2, 3 et 4 sont nécessaire seulement quand il y a plusieurs enregistrements par observation. Opération 2 Tri, à l aide de SORMER, des enregistrements contenant les données brutes, par ordre numérique des identificateurs d observations/d enregistrements. Opération 3 Vérification des données triées avec MERCHECK pour voir si chaque observation a bien le jeu correct d enregistrements. Le fichier en sortie contient seulement les «bonnes» observations, càd celles avec les enregistrements corrects. Les enregistrements en trop et en double sont éliminés. Les observations avec des enregistrements manquants sont soit éliminées, soit complétées avec des enregistrements fictifs. Toutes les observations contenant des erreurs de fusion sont imprimées. Opération 4 Correction des erreurs détectées par MERCHECK. Ceci peut s effectuer de diverses façons : Re-saisir les «mauvaises» observations, et les fusionner avec le fichier de sortie de MERCHECK à l aide de SORMER. Corriger les données originales brutes avec un éditeur sytème et répéter les opérations 2 et 3. Re-saisir les «mauvaises» observations, répéter les opérations 2 et 3, fusionner le fichier en sortie de la présente opération 3 avec la sortie de l opération 3 originale. Quelle que soit la méthode adoptée, il faut exécuter à nouveau MERCHECK avec le fichier corrigé de façon à s assurer qu il n y ait plus d erreurs Détection des valeurs non numériques et invalides Opération 5 Opération 6 Préparation d un dictionnaire pour toutes les variables avec les instructions appropriées pour le traitement des champs laissés vides. Exécuter BUILD. En sortie, on obtient un dataset IDAMS (fichier Données et fichier Dictionnaire). Toutes les valeurs non numériques non prévues sont remplacées par des 9 et imprimées. Impression des distributions de fréquence de toutes les variables catégoricales, ainsi que les valeurs maximum et minimum et la moyenne des variables quantitatives avec TABLES. Ceci fournit une première idée du contenu des données et montre quelles variables ont des codes invalides (variables catégoricales) ou des valeurs trop élevées/petites (variables quantitatives). Ultérieurement, ces chiffres peuvent aussi être comparés avec les distributions et valeurs obtenues après corrections des données pour voir dans quelle mesure la validation a affecté les données.

79 5.2 Gestion/transformation des données 59 Opération 7 Opération 8 Préparation des instructions spécifiant les codes valides ou les intervalles de valeurs pour chaque variable. On peut préparer ces instructions en avance pour toutes les variables ou bien, après l opération 6, seulement pour les variables avec codes invalides. Se servir du dataset obtenu en sortie de l opération 5 comme entrée du programme CHECK, lequel produit une liste des observations avec valeurs invalides. Il convient de noter que la spécification des codes valides pour les variables peut aussi être tirée des enregistrements C dans le dictionnaire pour autant qu ils aient été introduits au cours de l opération 5. Préparation des corrections pour les erreurs détectées au cours de l opération 5 et de l opération 7. Utiliser le programme CORRECT pour mettre à jour le dataset IDAMS créé lors de l opération 5. Il est à noter que les corrections peuvent également être effectuées avec l Interface utilisateur de WinIDAMS si le nombre d observations n est pas trop élevé. Cependant, l utilisation de CORRECT est une méthode plus sûre. Répéter les opérations 7 et 8 jusqu à ce qu il n y ait plus d erreurs détectées Contrôles de pertinence Opération 9 Préparer les instructions logiques pour l exécution des contrôles de pertinence, par ex. ENCEINTE (V32) = ne s applique pas si et seulement si SEXE (V6) = masculin. Attribuer un nombre «résultat» à chaque contrôle de pertinence et traduire la logique sous forme d instructions en langage Recode, où le résultat est fixé à 1 pour une erreur de pertinence, par ex. IF V6 EQ 1 AND V32 NE 9 THEN R1001=1 IF V6 NE 1 AND V32 EQ 9 THEN R1001=1 Utiliser l ensemble des instructions Recode avec CONCHECK pour imprimer les observations comportant des erreurs. Opération 10 Corriger les observations contenant des erreurs comme pour l opération 8. Répéter les opérations 9 et 10 jusqu à ce qu il n y ait plus d erreurs détectées. Les données en sortie de l exécution finale de CORRECT sont prêtes pour l analyse. 5.2 Gestion/transformation des données IDAMS contient une gamme étendue de facilités pour générer des indices, des mesures dérivées, des agrégations et autres transformations de données, y compris le recodage alphabétique. Les plus fréquemment utilisées se trouvent dans Recode qui peut effectuer des opérations temporaires lors de l exécution de tous les programmes d analyse utilisant en entrée un dataset IDAMS. Les résultats du recodage peuvent être gardés sous forme de variables permanentes à l aide du programme TRANS. Les facilités en question opèrent sur les variables à l intérieur d une observation; elles permettent de recoder les valeurs d une ou plusieurs variables, de générer des variables par combinaisons de variables, de contrôler la séquence de ces opérations à l aide de tests d expressions logiques et d une série d instructions et de fonctions spécialisées. Le programme génère automatiquement les nouvelles informations du dictionnaire nécessaires pour décrire les résultats des operations réalisées. Pour agréger des observations, on dispose du programme AGGREG. AGGREG fournit les sommes arithmétiques et mesures associées, les intervalles et le décompte des données valides au sein de groupes d observations. Avec AGGREG il est courant d utiliser au préalable le programme SORMER afin d ordonner le fichier Données selon les groupes souhaités. Dans certaines circonstances, il est nécessaire de combiner les enregistrements de deux fichiers différents, par exemple, les données recueillies à différents moments. Au fur et à mesure que les nouvelles vagues de données arrivent, l objectif est de les ajouter à l enregistrement contenant toutes les données recueillies précédemment pour le même répondant ou pour la même observation. Cette tâche est effectuée à l aide du programme MERGE, en prenant soin d insérer des valeurs de données manquantes pour les répondants qui ne se retrouvent pas dans la nouvelle vague. Des cas similaires se présentent lorsqu on obtient en sortie d un

80 60 La gestion et l analyse des données programme d analyse des mesures résiduelles ou des scores pour chaque observation et qu il est nécessaire de les ajouter dans le fichier contenant les données d origine. La manière de procéder est quelque peu différente quand il s agit de fusionner des données provenant de différents niveaux d analyse. Par exemple, si l on veut ajouter les données recueillies au niveau du ménage à chacun des enregistrements correspondant aux individus. Une fois le dataset organisé de façon à ce que tous les répondants d un même ménage soient ensemble, MERGE va dupliquer les enregistrements au niveau ménage et les ajouter à chaque enregistrement individuel. Le même genre de situation se produit quant on a obtenu avec AGGREG des résultats au niveau du groupe et qu on veut les ajouter dans leur groupe respectif à l enregistrement de chacune des observations. Une autre manière de combiner les données, souvent aussi appelée fusion, se rencontre lorsqu on veut ajouter dans un dataset des observations supplémentaires. Les nouveaux enregistrements doivent être décrits par le même dictionnaire que celui utilisé pour les données d origine. Ce type de fusion peut être effectué avec le programme SORMER. La plupart des programmes d IDAMS offrent des fonctions de découpage des données en sous-ensembles (avec un «filtre»), permettant de sélectionner à titre temporaire les observations que l on veut traiter. Il est loisible également de créer des fichiers permanents contenant des sous-ensembles de datasets IDAMS (un sous-ensemble de variables ou un sous-ensemble d observations, ou les deux). Les programmes SUBSET et TRANS sont les plus appropriés à cet effet, encore que plusieurs autres programmes produisant des datasets en sortie, tel que MERGE, peuvent aussi être utilisés. On peut vouloir sélectionner des observations parce que seulement certaines d entre elles présentent un intérêt d un point de vue logique (par ex. seulement les répondants de sexe féminin), ou les sélectionner au hasard en utilisant la fonction RAND de Recode avec le programme TRANS. La visualisation des valeurs effectivement stockées dans un dataset IDAMS est souvent d une aide substantielle pour l utilisateur aux fins de vérifier les résultats provenant des opérations de modification des données, et de n importe quelle autre étape en fait. On dispose à cet effet du programme LIST, lequel offre une possibilité d obtenir la liste complète des observations et variables sélectionnées. La sélection ou le filtrage des observations s effectue au moyen d expressions logiques dans lesquelles entrent plusieurs variables; par exemple, on pourrait vouloir sélectionner parmi les observations uniquement les femmes non mariées entre 21 et 25 ans. Les listes produites par LIST peuvent contenir des variables numériques et des variables alphabétiques provenant d un dataset ainsi que des variables construites avec Recode. L Interface utilisateur offre une option d impression de données en format de tableau. 5.3 Analyse des données Lors du choix de programmes d analyse, la question fondamentale pour l utilisateur est de savoir s ils contiennent les fonctions statistiques appropriées. Des conseils en cette matière dépassent de loin la portée de ce manuel. On trouvera dans l Introduction un résumé des fonctions de chaque programme d analyse d IDAMS. Davantage de détails sont fournis dans les sections consacrées à chaque programme. Dans la Partie «Formules statistiques et références bibliographiques» on trouvera les formules utilisées pour calculer les statistiques de chaque programme avec leurs références. 5.4 Exemple d une petite tâche à exécuter avec IDAMS Supposons qu un dataset IDAMS contienne les réponses à un questionnaire d enquête et inclue les variables suivantes; V11 représente le sexe du répondant suivant la codification : 1. Homme 2. Femme 9. Non défini V12 représente le revenu du répondant en dollars (99999 = non défini). V13 à V16 représentent des mesures d attitude face à différentes situations. Les variables sont codées chacune de manière à refléter les sentiments du répondant comme suit :

81 5.4 Exemple d une petite tâche à exécuter avec IDAMS Très positif 2. Positif 3. Neutre 4. Négatif 5. Très négatif 8. Ne sait pas 9. Non défini 0. La question ne s applique pas à ce répondant Supposons qu il soit nécessaire de regrouper ou recodifier uniquement les niveaux de revenus comme suit : Nouveau code Signification 1 Revenus allant de 0$ à 9999$ 2 Revenus allant de 10,000$ à 29,999$ 3 Revenus de 30,000$ et plus 9 Refus de répondre, non précisé, ne sait pas On veut obtenir des tabulations croisées entre la version recodée de la variable de revenu, V12, et chacune des variables d attitude, V13 à V16. Pour cette analyse, seuls les répondants de sexe féminin sont sélectionnés. On présente ci-dessous un «setup» IDAMS contenant les instructions de contrôle nécessaires pour ce travail. Les chiffres entre parenthèses à gauche identifient chaque instruction et la relie aux explications qui suivent. (1) $RUN TABLES (2) $FILES (3) DICTIN = ECON.DIC (4) DATAIN = ECON.DAT (5) $RECODE (6) R101=BRAC(V12,0-9999=1, =2, =3, - (7) ELSE=9) (8) NAME R101 revenue groupé (9) $SETUP (10) INCLUDE V11=2 (11) EXEMPLE DU PROGRAMME TABLES AVEC DES DONNÉES ECONOMIQUES (12) * (13) TABLES (14) ROWVARS=(R101,V13-V16) (15) ROWVAR=R101 COLVARS=(V13-V16) CELLS=(FREQS,ROWPCT) STATS=CHI En bref, voici ce que fait chaque instruction : (1) «$RUN TABLES» est une commande d IDAMS spécifiant qu il faut exécuter le programme TABLES. (2) Cette instruction signale le début de la spécification des fichiers pour l exécution. (3)&(4) Le dataset IDAMS est stocké dans deux fichiers séparés. L un d eux contient le dictionnaire et l autre les données. (5) Cette instruction signale qu on va demander des transformations de données. Les instructions qui suivent sont spécifiques à la facilité Recode. (6)(7) Ces deux lignes (une originale et une continuation) constituent une instruction à la facilité Recode qui indique le regroupement désiré pour la variable de revenu V12, suivi du schéma de regroupement indiqué plus haut. Le résultat de la fonction BRAC est stocké comme variable résultat R101. (8) Cette instruction donne un nom à la variable R101. (9) «$SETUP» est une commande indiquant la fin des instructions de Recode et que les instructions de contrôle du programme TABLES vont suivre. (10) Ceci est un «filtre» indiquant que l on va utiliser seulement les données des observations pour lesquelles la variable V11 a la valeur de code 2, càd les femmes. (11) Ceci est un titre qui contient le texte à utiliser pour donner un titre aux résultats. (12) Cette ligne spécifie les paramètres principaux. Etant donné que l on a mis seulement l astérisque, ce sont les options par défaut qui ont été choisies pour tous les paramètres dans l exécution en cours. (13) Le mot TABLES est placé ici pour séparer l information globale précédente (se rapportant à l entièreté de l exécution) des spécifications qui suivent pour les tableaux individuels. (14) Instruction demandant des distributions de fréquences univariées pour 5 variables. (15) Instruction demandant des tableaux bivariés. Les cellules vont contenir le décompte des obser-

82 62 La gestion et l analyse des données vations (fréquences) et les pourcentages en lignes; la statistique Chi-deux sera imprimée pour chaque tableau. Les deux listes de variables qui suivent les mots clés ROWVAR et COLVARS servent à spécifier les variables à utiliser respectivement pour les lignes et pour les colonnes des tableaux. 4 tableaux seront produits : pour la variable R101 (revenu groupé) avec V13, V14, V15 et V16.

83 Deuxième partie Travailler avec WinIDAMS

84

85 Chapitre 6 Installation 6.1 Equipements système nécessaires WinIDAMS existe pour les sytèmes d exploitation de MS Windows versions 32 bits (Windows 95, 98, NT 4.0, 2000 et XP). Un processeur Pentium II ou plus rapide ainsi que 64 mégaoctets de mémoire à accès sélectif (RAM) sont recommandés. Il faut s assurer de disposer d un espace disque de 11 mégaoctets avant de procéder à l installation de chaque version linguistique de WinIDAMS. 6.2 Procédure d installation La version 1.3 de WinIDAMS est stockée sur le CD de distribution dans un fichier auto-extractable WinIDAMS\English\Install\WIDAMSR13E.EXE : la version anglaise WinIDAMS\French\Install\WIDAMSR13F.EXE : la version française WinIDAMS\Portuguese\Install\WIDAMSR13P.EXE : la version portugaise WinIDAMS\Spanish\Install\WIDAMSR13S.EXE : la version espagnol ou dans un fichier téléchargé équivalant. Pour installer la version française : 1. Avec l Explorateur de Windows sélectionner WIDAMSR13F.EXE. 2. Cliquer deux fois sur ce fichier et suivre les instructions. 3. Une boîte de dialogue apparaît à la fin de la procédure d installation demandant: «Do you wish to install HTML Help 1.3 update now?» (souhaitez-vous installer maintenant la mise à jour de l Aide HTML 1.3?) Il est recommandé de répondre YES (OUI). La procédure d installation crée deux items dans le Gestionnaire de programmes du Menu démarrer, l un sert à exécuter WinIDAMS, l autre à le désinstaller. Elle crée également une icône sur le Bureau qui est un lien à WinIDAMS. 6.3 Test de l installation Un fichie Setup contenant des instructions pour exécuter 4 programmes de gestion de données (CHECK, CONCHECK, TRANS et AGGREG) et 6 programmes d analyse (TABLES, REGRESSN, MCA, SEARCH, TYPOL et RANK) est copié dans le répertoire Travail durant l installation. Pour obtenir son exécution : Lancer WinIDAMS en double-cliquant sur son icon.

86 66 Installation La fenêtre principal de WinIDAMS apparaîtra avac une application par défaut affichée dans le panneau de gauche. Ouvrir le dossier Setup. Il y a là le fichier demo.set avec des instructions pour exécuter les 10 programmss. Avec un double-clic ce fichier s ouvre dans la fenêtre Setup. Exécuter le à partir de cette fenêtre. Les résultats sont envoyés ver le fichier idams.lst qui s ouvre automatiquement dans la fenêtre Résultats. Le fichier demo.lst contenant la version distribuée des résultats se trouve dans le dossier Results. Comparer les deux versions des résultats. 6.4 Liste des dossiers et fichiers créés durant l installation Dossiers WinIDAMS Le nom complet du dossier Système de WinIDAMS est spécifié durant l installation (à l invite «Dossier de destination»). Les dossiers suivants seront créés (pour plus de détails voir le chapitre «Fichiers et dossiers») pendant l installation : de la version anglaise <WinIDAMS13-EN>\appl <WinIDAMS13-EN>\data <WinIDAMS13-EN>\temp <WinIDAMS13-EN>\trans <WinIDAMS13-EN>\work de la version portugaise <WinIDAMS13-PT>\appl <WinIDAMS13-PT>\data <WinIDAMS13-PT>\temp <WinIDAMS13-PT>\trans <WinIDAMS13-PT>\work de la version française <WinIDAMS13-FR>\appl <WinIDAMS13-FR>\data <WinIDAMS13-FR>\temp <WinIDAMS13-FR>\trans <WinIDAMS13-FR>\work de la version espagnol <WinIDAMS13-SP>\appl <WinIDAMS13-SP>\data <WinIDAMS13-SP>\temp <WinIDAMS13-SP>\trans <WinIDAMS13-SP>\work Fichiers installés Fichiers du système dans le dossier Système (\WinIDAMS13-EN, \WinIDAMS13-FR, \WinIDAMS13-PT, \WinIDAMS13-SP) WinIDAMS.exe principal fichier exécutable de l Interface utilisateur WinIDAMS Ter32.dll Hts32.dll Dlls used by WinIDAMS User Interface unesys.exe fichier exécutable utilisé pour l exécution d un setup Idame.mst fichier ma^ıtre de la base de données de textes pour le programmes IDAMS Idame.xrf fichier de références croisées de la base de données de textes idams.def définition de la mise en correspondance des ddnames avec les noms de fichiers Graph32.exe fichier exécutable GraphID graphid.ini fichier.ini utilisé par GraphID pour stocker les couleurs, les polices et les coordonnées Idtml32.exe fichier exécutable TimeSID idaddto32.dll Dll utilisée par GraphID et par TimeSID IDAMSC_DLL.dll Dll utilisée par TimeSID Idams.chm fichier de l Aide (Manuel de référence de l utilisateur) de WinIDAMS <pgmname>.pro prototypes des setups pour les programmes d IDAMS

87 6.5 Désinstallation 67 Fichiers avec les dictionnaires et les données utilisés comme exemples, stockés dans le dossier Données (\WinIDAMS13-EN\data, \WinIDAMS13-FR\data, \WinIDAMS13-PT\data, \WinIDAMS13-SP\data) educ.dic educ.dat rucm.dic rucm.dat watertim.dic watertim.dat data.csv tab.mat Fichiers avec les setups de démonstration et les résultats, stockés dans le dossier Travail (\WinIDAMS13-EN\work, \WinIDAMS13-FR\work, \WinIDAMS13-PT\work, \WinIDAMS13-SP\work) demo.set demo.lst 6.5 Désinstallation Un programme de désinstallation est créé pendant la procédure d installation. L utilisateur peut l exécuter de deux façons: - soit en cliquant sur WinIDAMS/Uninstall WinIDAMS13-FR dans le Menu Démarrer du Gestionnaire de programmes; - soit en supprimant l entrée «WinIDAMS version 1.3 en français, juillet 2004» dans l applet Ajout/Suppression de programmes dans le Panneau de Configuration. Le désintallateur supprime le contenu du dossier WinIDAMS utilisé pour l installation. Il ne supprime pas les dossiers s ils ne sont pas vides.

88

89 Chapitre 7 Les premiers pas 7.1 Vue d ensemble des étapes à parcourir avec WinIDAMS L exemple ci-dessous illustre la préparation d un dictionnaire IDAMS pour décrire les données recueillies à l aide d un questionnaire ainsi que la saisie d informations concernant quelques répondants. Il montre ensuite comment préparer un jeu d instructions (un «setup») et comment l utiliser pour produire des distributions de fréquence des variables Âge, Sexe et Nombre d années d éducation (regroupées en 4 groupes). On procède comme suit : 1. Créer l environnement d une application. 2. Préparer et sauvegarder un dictionnaire décrivant les variables dans les données. 3. Saisir les données (étape ignorée si les données sont préparées en dehors de WinIDAMS). 4. Préparer et sauvegarder un «setup» avec les instructions spécifiant ce qu il faut faire avec les données. 5. Exécuter le programme d IDAMS mentionné dans le setup. 6. Examiner les résultats, modifier le setup si nécessaire et repartir à partir de la 4ème étape. 7. Imprimer les résultats. Pour commencer, il faut d abord lancer WinIDAMS. La fenêtre principale de WinIDAMS apparaîtra.

90 70 Les premiers pas 7.2 Créer l environnement d une application Cette étape permet de prédéfinir le chemin complet de trois dossiers. Tous les fichiers d entrée/sortie seront par défaut ouverts/créés dans l un de ces dossiers. Cela évite d avoir à entrer le chemin complet du dossier. Les fichiers Données et Dictionnaires : dans le dossier Données. Les fichiers Setup et Résultats : dans le dossier Travail. Les fichiers temporaires : dans le dossier Temporaire. Cliquer sur Application dans la barre de menus et ensuite sur Nouveau. Le dialogue suivant apparaît : On va créer une nouvelle application, l appeler «MyAppl», avec les dossiers s y rapportant : C:\MyAppl\data, C:\MyAppl\work et C:\MyAppl\temp en entrant leur nom dans la boîte appropriée.

91 7.3 Préparation du dictionnaire 71 Si le dossier n existe pas encore, le dialogue suivant apparaît : Il faut cliquer Yes (Oui) à la question posée pour chacun des nouveaux dossiers, suivi d OK. La fenêtre principal de WinIDAMS s affiche à nouveau. 7.3 Préparation du dictionnaire Dans cet exemple, on va créer un dictionnaire pour décrire les enregistrements des données contenant les variables suivantes : N Nom Longueur Codes de données manquantes(md) 1 Identification 3 2 Âge 2 3 Sexe Homme 2 Femme 9 MD 4 Education 2 Appuyer Ctrl/N ou cliquer sur Fichier/Nouveau, ce qui a pour effet d ouvrir le dialogue du Nouveau document : Le dialogue affiche la liste des types de documents utilisés dans WinIDAMS. Choisir le premier item dans la liste, «IDAMS Dictionary file», déjà sélectionné par défaut. Cliquer sur le champ Nom fichier et entrer «demog» comme nom. Cliquer ensuite OK. L extension.dic s ajoute automatiquement au nom du fichier.

92 72 Les premiers pas Apparaîssent maintenant : la fenêtre Application; une fenêtre à deux panneaux permettant de saisir la description des variables et, facultativement, celle des codes et noms de catégories associés aux variables. Le nom complet du fichier Dictionnaire «demog.dic» est affiché dans l onglet. Dans le panneau réservé à la description des variables, cliquer sur la première cellule de la ligne et entrer le numéro de la première variable. Sitôt que l on commence à saisir les informations dans cette ligne, un crayon apparaît en tête de celle-ci tandis qu une nouvelle ligne s ouvre marquée avec un astérisque. Pour passer aux champs suivant de la ligne en cours appuyer Entrée ou Tab. Entrer le nom de variable et sa longueur. Ignorer les champs suivants. Accepter la description de la variable en appuyant dans le dernier champ sur Entrée ou sur Tab. Une fois la ligne acceptée, WinIDAMS fournit par défaut l emplacement de la variable. Quand on a appuyé Entrée ou Tab dans le dernier champ, le crayon disparaît : cela signifie que la ligne a été acceptée après vérification rudimentaire des champs. Le champ en cours est maintenant le premier champ de la ligne suivante (marquée d un astérisque) et on peut commencer la saisie de la description de la 2ème variable, Âge. On procède de même pour la 3ème variable, Sexe en lui assignant 9 comme code de données manquantes MD1 (le code de non réponse). Une fois acceptée la description de la variable 3, le premier champs (numéro de la variable) de la ligne marquée d un astérisque devient le champ en cours. Cliquer sur n importe quel champ de cette ligne pour en faire la ligne en cours de saisie. Passer au panneau réservé aux codes et noms de catégories en cliquant sur le champ du code dans la première ligne. Ce panneau est synchronisé avec la variable correspondante dans le panneau servant à décrire les variables. Entrer 1 dans le champ du code. Sitôt que l on commence à saisir le nom du code, apparaît juste en dessous une nouvelle ligne marquée d un astérisque tandis que la ligne en cours est marquée d un crayon. Presser Entrée pour passer au champ suivant, réservé au nom, et taper Homme. Presser Entrée. À présent, le champ actif est celui du code sur la nouvelle ligne : taper 2 et taper Femme dans le champ réservé au nom. Procéder de même pour le code 9.

93 7.4 Saisie des données 73 Retourner au panneau destiné à la description des variables en cliquant sur le champ réservé au numéro de la variable dans la ligne marquée d un astérisque. Saisir les informations pour la variable 4. Pour supprimer une ou des lignes, cliquer sur le côté de celle(s)-ci et choisir Couper dans le menu Edition. Sauvegarder le dictionnaire en cliquant sur Fichier/Enregistrer sous, et accepter comme nom de fichier «demog.dic». 7.4 Saisie des données Presser Ctrl/N ou cliquer sur Fichier/Nouveau. L écran affiche un dialogue similaire au dialogue cidessus pour préparer le dictionnaire. Dans la liste des types de fichiers proposés, choisir «IDAMS Data file» et taper son nom. Il est préférable d utiliser pour le fichier Données le même nom que pour le fichier Dictionnaire qui les décrit. L extension, elle, diffère :.dic pour le fichier Dictionnaire et.dat pour le fichier Données. Le dictionnaire et les données constituent un dataset IDAMS. Donner «demog» comme nom de fichier et cliquer sur OK.

94 74 Les premiers pas Le dialogue suivant affiche les dictionnaires existant pour l application active et demande de sélectionner celui qui décrit les données. Choisir «demog.dic» et cliquer sur Ouvrir. Une fenêtre à trois panneaux s ouvre alors. La saisie des données s effectue uniquement dans le panneau du bas. Les deux autres panneaux sont synchronisés et servent, l un à fournir les informations figurant dans le dictionnaire sur la variable en cours, l autre sur les catégories de celle-ci s il y en a. Le nom complet du fichier Données «demog.dat» est affiché dans l onglet. Note : dans les illustrations qui suivent la fenêtre Application est occultée. Cliquer sur le premier champ de la ligne marquée d un astérisque et saisir la première ligne de données telle que fournie ci-dessous, en cliquant sur Entrée après la saisie de chaque valeur. Sitôt que l on commence à saisir les données, apparaît la ligne suivante qui est marquée d un astérisque, tandis qu un crayon s affiche au début de la ligne en train d être remplie. Après avoir entré la valeur pour la dernière variable V4 et cliqué sur Entrée, le premier champ de la ligne suivante devient disponible. Saisir les données pour les 5 observations fournies ci-dessous.

95 7.5 Préparation du setup 75 Cliquer sur Fichier/Enregistrer pour sauvegarder les données dans le fichier «demog.dat». 7.5 Préparation du setup Presser Ctrl/N ou cliquer sur Fichier/Nouveau. Dans la liste proposée, choisir «IDAMS Setup file» et taper un nom, par ex. «demog1» pour le fichier Setup. Cliquer sur OK. On notera que s ajoute automatiquement l extension.set au nom du fichier; le nom entier du fichier «demog1.set» s affiche dans l onglet. Une fenêtre vide s ouvre destinée à la saisie du setup. Entrer ce qui suit :

96 76 Les premiers pas $RUN identifie le programme d IDAMS que l on souhaite exécuter. À la suite viennent : la commande $FILE servant à spécifier les fichiers Données et Dictionnaire, la commande $RECODE suivie des instructions de recodage (ici le nombre d années d éducation a été distribué en 4 groupes), la commande $SETUP suivie des paramètres spécifiant la tâche à exécuter (ici il s agit de fréquences univariées, les paramètres étant définis selon les règles du programme TABLES). Cliquer sur Fichier/Enregistrer et sauvegarder le setup dans le fichier «demog1.set». 7.6 Exécution du setup À l intérieur de la fenêtre Setup, cliquer sur Exécuter/Setup actif. Celui-ci est sauvegardé dans un fichier temporaire et exécuté. Durant l exécution apparaît un dialogue qui disparaît si l exécution est réussie. Par défaut, les résultats sont enregistrés dans un fichier appelé «idams.lst». On peut modifier le défaut en ajoutant, sous la commande $FILES, une ligne PRINT avec le nom désiré du fichier Résultats, par ex. «print=a:demog1.lst» pour sauvegarder les résultats dans un fichier sur disquette. 7.7 Examen des résultats et modification du setup Une fois l exécution terminée, les résultats sont chargés automatiquement.

97 7.7 Examen des résultats et modification du setup 77 La table des matières des résultats est affichée dans le panneau de gauche, ce qui permet d en localiser rapidement les différentes parties. Pour accéder au contenu, cliquer sur «idams.lst», appuyer sur * dans le pavé numérique, puis cliquer sur l élément que l on souhaite voir. Si à la vue des résultats on souhaite modifier le setup, cliquer sur l onglet «demog1.set» et effectuer les modifications. Pour l exécution presser Ctrl/E.

98 78 Les premiers pas 7.8 Impression des résultats Sélectionner Fichier/Imprimer. Sélectionner les pages que l on souhaite imprimer et cliquer sur OK.

99 Chapitre 8 Fichiers et dossiers 8.1 Les fichiers dans WinIDAMS Fichiers de l utilisateur Ces fichiers sont créés soit par l utilisateur à l aide des outils fournis par l Interface utilisateur de WinIDAMS, soit par IDAMS comme résultat final ou comme sortie de programme en vue d un traitement ultérieur. Ils sont tous en format texte ASCII standard. Les caractères de tabulation sont autorisés et sont automatiquement convertis au nombre correct de blancs. Les extensions unifiés des noms de fichier sont utilisées par l Interface pour reconnaître le type de fichier. Fichier Données (*.dat). IDAMS accepte n importe quel fichier de données pourvu que chaque observation soit contenue dans un nombre égal d enregistrements de format fixe. Cependant, il ne peut y avoir qu un enregistrement par observation si le fichier Données est utilisé par l Interface utilisateur. Les enregistrements peuvent être de longueur variable avec un maximum de 4096 caractères par observation. Si le premier enregistrement du fichier n est pas le plus long, la longueur maximum d enregistrement (RECL) doit figurée dans les instructions correspondantes de spécification de fichier. Les fichiers Données produits par les programmes d IDAMS ont une longueur d enregistrement fixe sans caractère de tabulation. En général, il n y a pas de limites au nombre d observations que l on peut entrer dans un programme d IDAMS. Fichier Dictionnaire (*.dic). Il sert à décrire les variables dans les données. Soit au minimum uniquement les variables utilisées dans une tâche donnée, soit toutes les variables dans chaque enregistrement. La longueur de l enregistrement est variable mais ne peut dépasser 80 caractères au maximum. Dans le cas où un dictionnaire est produit en sortie d un programme d IDAMS, la longueur de l enregistrement est fixe (80 caractères) sans caractère de tabulation. Grâce à la fenêtre Dictionnaire de l Interface utilisateur, on peut préparer le dictionnaire sans en connaître le format interne. On peut aussi le préparer en utilisant l Editeur général et en suivant le format mentionné dans le chapitre «Les données dans IDAMS». Fichier Matrice (*.mat). Les matrices d IDAMS (servant au stockage de diverses statistiques) ont des enregistrements de longueur fixe (80 caractères) sans caractère de tabulation. Fichier Setup (*.set). Ce fichier sert à stocker les commandes IDAMS, les spécifications de fichier, les instructions de contrôle du programme et les instructions Recode s il y en a. On peut le préparer à l aide de la fenêtre Setup de l Interface utilisateur. La longueur de l enregistrement est variable mais ne peut dépasser 255 caractères au maximum. Fichier Résultats (*.lst). Normalement, IDAMS écrit les résultats dans un fichier. On peut examiner son contenu avant de l imprimer. Note: l utilisation d un nom commun pour les fichiers Dictionnaire et Données, et aussi d un nom commun pour les fichiers Setup et Résultats facilite le travail avec WinIDAMS.

100 80 Fichiers et dossiers Les fichiers de l utilisateur sont spécifiés à la suite de la commande $FILES dans le fichier Setup (voir le chapitre «Le fichier Setup d IDAMS»). Fichiers du système Normalement, l utilisateur n a pas accès directement aux fichiers du système. Ceux-ci sont créés pendant l installation d IDAMS (fichiers permanents du système), pendant la personnalisation de l environnement d une application (fichiers Application) ou pendant l exécution des procédures de WinIDAMS (fichiers temporaires de travail). Fichiers permanents du système. Ils comprennent les fichiers exécutables, les fichiers dll, les fichiers avec les paramètres du système, le fichier du Manuel en ligne (en format HTML Help), et les fichiers contenant les prototypes de setup. Fichiers de contrôle du système. Idams.def : définition par défaut des fichiers permettant d opérer la liaison entre le nom logique et le nom physique des fichiers de l utilisateur et aussi des fichiers de travail temporaires. <application nom>.app : un fichier par application contenant les chemins d accès des dossiers Données, Travail et Temporaire. lastapp.ini : fichier contenant le nom de l application utilisée en dernier. graphid.ini : les paramètres de configuration pour le module GraphID. tml.ini : les paramètres de configuration pour le module TimeSID. Fichiers de travail temporaires. L utilisateur n a pas à s en préoccuper car ils sont définis et supprimés automatiquement. Ils ont comme extension.tmp et.tra. 8.2 Les dossiers dans WinIDAMS Les fichiers utilisés par WinIDAMS sont stockés dans les dossiers suivants : dans le dossier Système, les fichiers permanents du système, dans le dossier Application, les fichiers Application, dans le dossier Données, les fichiers Données, Dictionnaire et Matrice, dans le dossier Travail, les fichiers Setup et les fichiers Résultats, dans le dossier Temporaire et dans le dossier Transposé, les fichiers temporaires de travail. Les cinq dossiers obligatoires pour l application par défaut doivent toujours être présents sous le dossier <system dir>. Ils sont créés et définis pour la première fois durant la procédure d installation. Par la suite, au démarrage de WinIDAMS si l un des dossiers manque, il est automatiquement recréé. dossier Application dossier Données dossier Temporaire dossier Transposé dossier Travail <system dir>\appl <system dir>\data <system dir>\temp <system dir>\trans <system dir>\work où <system dir> est le nom du dossier Système fourni lors de l installation. Voir la section «Personnalisation de l environnement d une application» dans le chapitre «L Interface utilisateur» pour plus de détails sur la façon dont les programmes d IDAMS utilisent les chemins d accès des dossiers définis dans l application.

101 Chapitre 9 L Interface utilisateur 9.1 Concept général Il s agit d un interface à documents multiples permettant d afficher -et de travailler simultanément avec différents types de documents tels que : Dictionnaire, Données, Setup, Résultats et tout autre document Texte. Il donne en outre accès -à partir de n importe quelle fenêtre de document- à l exécution des setups d IDAMS et aux modules d analyse interactive des données, à savoir : les tableaux multidimensionnels, l exploration graphique des données et l analyse des séries chronologiques. La fenêtre principale de WinIDAMS se présente comme suit : la barre de menus déroulants, lesquels donnent accès aux commandes et options de WinIDAMS, la barre d outils permettant de choisir rapidement une commande, la barre d état qui affiche la situation du document actif ou celle de la commande/option choisie, la fenêtre Application, située à gauche, affectée à l affichage du nom de celle-ci et des dossiers et documents s y rapportant, les fenêtres de document pour afficher les différents documents de WinIDAMS.

102 82 L Interface utilisateur La barre de menus et la barre d outils ont des contenus fixes dépendant du type de document. Les menus communs aux différents types de documents sont décrits ci-dessous, tandis que les menus spécifiques à un type de document sont décrits dans la section concernant celui-ci. 9.2 Menus communs à toutes les fenêtres de WinIDAMS La barre principale de menus contient toujours les sept menus suivants : Fichier, Edition, Vues, Exécuter, Interactif, Fenêtre, Aide. Fichier Nouveau Ouvrir Fermer Enregistrer Enregistrer sous Appelle la boîte de dialogue permettant de sélectionner le type de document à créer et d indiquer son nom et son emplacement. Une fois choisi le type de document, appelle la boîte de dialogue pour sélectionner le document à ouvrir. Ferme la fenêtre active. Sauvegarde le document visualisé dans la fenêtre active. Appelle la boîte de dialogue pour sauvegarder le document visualisé dans la fenêtre active. Configuration de l impression Appelle la boîte de dialogue pour modifier les options d impression et celles de l imprimante. Aperçu avant impression Imprimer Quitter Visualise le document actif tel qu il apparaîtra une fois imprimé. Appelle la boîte de dialogue pour imprimer le contenu du document affiché dans la fenêtre active ou dans le panneau actif. Les parties occultées du document ne sont pas imprimées. Termine la session de WinIDAMS. Le menu peut également comporter la liste des documents ouverts récemment, càd dans des sessions de travail précédentes avec WinIDAMS (à concurrence de sept documents au maximum). Edition Le nom de certaines commandes ainsi que leur disponibilité peut varier d une fenêtre à l autre. Annuler Répéter Couper Copier Coller Rechercher Remplacer Rechercher à nouveau Annule la dernière action. Réexécute la dernière action annulée. Coupe la sélection et l envoie au Presse-papiers. Copie la sélection dans le Presse-papiers. Copie le contenu du Presse-papiers à l endroit où est positionné le curseur. Actionne le moteur de recherche de Windows. Actionne la fonction de remplacement de Windows. Recherche la prochaine occurrence de la chaîne de caractères figurant dans la boîte de dialogue Rechercher. On notera que dans les fenêtres Résultats et Texte, les actions rechercher/remplacer sont activées par les commandes Rechercher, Rechercher vers l avant, Rechercher vers l arrière et Remplacer. Vues Barre d outils Barre d état Application Affiche/occulte la barre d outils. Affiche/occulte la barre d état. Affiche/occulte la fenêtre Application.

103 9.3 Personnalisation de l environnement d une application 83 Plein écran Affiche la fenêtre active sur tout l écran. Pour revenir à l écran précédent, cliquer sur l icône «Close Full Screen» dans le coin gauche en haut de l écran ou appuyer sur Esc. Exécuter À l exception de la fenêtre Setup, ce menu n a qu une seule commande, Selection du setup, servant à sélectionner le fichier contenant le setup à exécuter. Interactif Ce menu permet d accéder aux trois modules d analyse interactive des données, à savoir : Tableaux multidimensionnels Exploration graphique des données Analyse de séries chronologiques Leur description détaillée se trouve dans les chapitres les concernant. Fenêtre Ce menu contient la liste des fenêtres ouvertes et les commandes types de Windows permettant de les organiser. Aide Manuel WinIDAMS À propos de WinIDAMS Donne accès au Manuel de référence de WinIDAMS. Affiche des informations concernant la version et le copyright de WinIDAMS et la manière d accéder à la page Web d IDAMS sur le site du siège de l UNESCO. 9.3 Personnalisation de l environnement d une application L utilisateur peut définir et sauvegarder les noms de dossiers Données, Travail et Temporaire dans des fichiers Application qui ont pour nom celui de l application. Le nom de la dernière application est stocké par le système qui en charge les paramètres au démarrage de la session suivante. Ces paramètres peuvent à tout moment être modifiés durant une session de travail en sélectionnant ou en créant une autre application et en l activant. Comme au moins un fichier Application est nécessaire pour travailler avec WinIDAMS, une application type appelée «Default» est fournie avec le logiciel et activée quand l on démarre WinIDAMS pour la première fois après son installation. Voici la liste des paramètres par défaut : Dossier Données Dossier Travail Dossier Temporaire <system dir>\data <system dir>\work <system dir>\temp où <system dir> est le nom du dossier Système fixé durant l installation. Cette application (stockée dans le fichier Default.app) ne doit jamais être supprimée ou modifiée par l utilisateur. L utilisateur peut créer, modifier ou supprimer des fichiers Application (à l exeception du fichier Default.app) en appelant le menu Application dans la fenêtre principale de WinIDAMS. Ce menu contient les commandes suivantes :

104 84 L Interface utilisateur Nouvelle Ouvrir Afficher Appelle la boîte de dialogue pour créer une nouvelle application. Appelle la boîte de dialogue pour sélectionner le fichier contenant les informations sur l application à ouvrir. Appelle la boîte de dialogue pour sélectionner le fichier Application et en afficher les paramètres. Fermer Ferme l application active et ouvre l application «Default». Actualiser Restaure l arborescence de l application active. Créer une nouvelle application. La commande Nouvelle du menu Application ouvre une boîte de dialogue pour saisir le nom d une nouvelle application ainsi que les noms des dossiers Données, Travail et Temporaire. À l exception du champ réservé au nom de l application, laissé vide, tous les autres champs contiennent les valeurs tirées de l application par défaut, que l on peut modifier. Le nom du chemin d accès peut être saisi ou sélectionné en balayant l arborescence des dossiers. Appuyer sur OK pour sauvegarder l application. Presser Annuler annule la création d une nouvelle application et renvoie à la fenêtre principale de WinIDAMS avec les paramètres affichés précédemment. Ouvrir une application. La commande Ouvrir du menu Application ouvre une boîte de dialogue qui affiche la liste des applications présentes dans le dossier Application et permet de sélectionner celle que l on veut ouvrir. En cliquant sur le nom du fichier on active les paramètres de l application. Modifier une application. Il faut tout d abord l ouvrir et ensuite modifier les paramètres de son environnement de la même manière que lorsqu on crée une nouvelle application. Afficher les paramètres d une application. La commande Afficher du menu Application ouvre une boîte de dialogue : cliquer sur le nom du fichier de l application. Pour afficher les paramètres d une application active, double-cliquer sur son nom dans la fenêtre Application. Supprimer une application. Il faut pour cela supprimer le fichier correspondant à celle-ci. Pour ce faire, ouvrir la liste des fichiers Application avec la commande Ouvrir du menu Application, sélectionner le fichier à supprimer et utiliser le bouton droit pour acceder à la commande Supprimer de Windows. Ne jamais supprimer le fichier Default.app. Restaurer les paramètres par défaut de WinIDAMS. Peut se faire de deux manières : soit par la commande Fermer du menu Application, soit en sélectionnant et ouvrant le fichier Default.app. Fermer une application active. Utiliser la commande Fermer du menu Application. L application par défaut devient active. Les programmes d IDAMS utilisent les chemins d accès des dossiers définis dans l application pour les ajouter à tout nom de fichier ne commençant pas par «<lecteur>:\...» ou par «\...».

105 9.4 Créer/Mettre à jour/afficher les fichiers Dictionnaire 85 Le chemin d accès du dossier Données : dans les instructions comportant les «ddnames» DICT..., DATA... ou FTnn (ce dernier étant réservé aux matrices). Le chemin d accès du dossier Travail : dans les instructions comportant les «ddnames» PRINT ou FT06. Le chemin d accès du dossier Temporaire : au nom des fichiers temporaires. Exemple : Dossier Données : c:\mystudy\students\data Spécification dans le setup : dictin=students2004.dic Le nom complet du fichier Dictionnaire : c:\mystudy\students\data\students2004.dic 9.4 Créer/Mettre à jour/afficher les fichiers Dictionnaire La fenêtre Dictionnaire -qui sert à créer, mettre à jour ou à afficher un dictionnaire IDAMS- est ouverte quand : on crée un nouveau fichier Dictionnaire (la commande Nouveau/IDAMS Dictionaty file du menu Fichier ou le bouton Nouveau de la barre d outils), on ouvre un fichier Dictionnaire (avec l extension.dic) se trouvant dans la fenêtre Application (doublecliquer sur le nom voulu dans la liste «Datasets»), on ouvre un fichier Dictionnaire (avec n importe quelle extension) ne figurant pas dans la fenêtre Application (la commande Ouvrir/Dictionnaire du menu Fichier ou le bouton Ouvrir de la barre d outils). Cette fenêtre contient deux panneaux : l un pour la définition des variables (panneau Variables), l autre pour définir les codes de la variable active et le nom de ces codes (panneau Codes). Une ligne bleue dans le haut du panneau indique lequel est actif.

106 86 L Interface utilisateur Dans le panneau Variables, les colonnes portent les titres suivants : Numéro Nom Pos, Long Dec Type Md1 Md2 Refe StId numéro de la variable. nom de la variable. position de début et la longueur du champ de la variable dans le fichier Données. nombre de décimales; un blanc indique qu il n y en a pas. type de variable (N = numérique, A = alphabétique). premier code de données manquantes pour les variables numériques. second code de données manquantes pour les variables numériques. numéro de référence. identificateur de l étude. Pour plus de détails, voir la section «Le dictionnaire IDAMS» dans le chapitre «Les données dans IDAMS». Noter qu avec la fenêtre Dictionnaire on ne peut créer, mettre à jour ou afficher que les dictionnaires décrivant des données comportant un seul enregistrement par observation. Modifier l aspect du panneau. L aspect de chaque panneau peut être modifié séparément, les modifications ne s appliquant qu au panneau actif. Voici les possibilités de modifications propres aux deux panneaux : Augmenter la taille des polices : avec le bouton Zoom avant de la barre d outils. Diminuer la taille des polices : avec le bouton Zoom arrière de la barre d outils. Restaurer leur taille par défaut : avec le bouton 100% de la barre d outils. Augmenter/Diminuer la largeur d une colonne : dans l en-tête de colonne, placer le curseur sur le trait séparant deux colonnes jusqu à ce que le curseur prenne la forme d une barre verticale avec deux flèches, puis le déplacer vers la droite ou la gauche en appuyant sur le bouton gauche de la souris. Dans le panneau Variables on peut en outre : augmenter/diminuer la hauteur des lignes ; pour ce faire, placer le curseur avant le début de la ligne sur le trait séparant deux lignes jusqu à ce que le curseur prenne la forme d une barre horizontale avec deux flèches, puis le déplacer vers le bas ou le haut en appuyant sur le bouton gauche de la souris. Définir une variable. Placer le curseur dans le panneau Variables, saisir le numéro de la variable (au moins celui de la première, les variables suivantes étant incrémentées automatiquement d une valeur de 1), son nom (facultatif), sa position (si pas fournie, le programme assignera l comme position de la première variable et calculera la position des variables suivantes en ajoutant à chaque fois la largeur du champ de la variable qui précède), la largeur du champ occupé par la variable (obligatoire). Les autres champs ont des valeurs par défaut (que l on peut accepter ou modifier) ou bien ils sont facultatifs et peuvent être laissés en blanc. Appuyer sur Entrée ou Tab pour accepter la valeur d un champ et passer au champ suivant, ou appuyer sur Maj/Tab pour revenir au champ précédent. Tant qu un petit crayon apparaît dans l en-tête de la ligne, celle-ci n est pas enregistrée. Appuyer sur Entrée pour accepter la définition complète de la variable. Un astérisque dans la ligne indique qu il s agit de la ligne suivante et que l on peut saisir la description d une nouvelle variable. Définir les codes et leur nom pour une variable. Passer au panneau Codes et remplir les champs destinés à chaque code et à leur nom comme suit : saisir la valeur du code, appuyer sur Entrée ou Tab, saisir le nom du code et appuyer sur Entrée ou Tab pour accepter la ligne et passer à la ligne suivante. Après avoir saisi tous les codes et leur nom, revenir au panneau Variables pour la description d une nouvelle variable. Modifier un champ dans l un ou l autre des deux panneaux. Cliquer sur le champ et saisir la nouvelle valeur (à la saisie du premier caractère le champ est vidé de l ancienne valeur). En faisant un double-clic sur un champ on peut en modifier partiellement la valeur. On peut récupérer la valeur précédente en appuyant sur Echap.

107 9.5 Créer/Mettre à jour/afficher des fichiers Données 87 Les opérations d édition peuvent s effectuer sur une ligne ou sur un bloc de lignes. Pour marquer une ligne, cliquer sur n importe quel champ de celle-ci. Un triangle apparaît dans l en-tête de la ligne et celle-ci prend une couleur bleue foncée. Pour marquer un bloc de lignes, placer le curseur sur l en-tête de la ligne où l on veut commencer le marquage et cliquer avec le bouton gauche de la souris. La ligne prend une couleur jaune, indiquant par là qu elle est active. Déplacer ensuite le curseur vers le haut ou le bas jusqu à la ligne où l on veut terminer le marquage et appuyer sur le bouton gauche de la souris tout en appuyant sur la touche Maj. Les lignes marquées deviennent bleu foncé, le jaune indiquant la ligne active. On peut Couper, Copier, Coller la/les ligne(s) sélectionnée(s) avec les commandes du menu Edit, avec les boutons équivalents de la barre d outils, ou bien encore avec les touches de raccourci Ctrl/X, Ctrl/C et Ctrl/V. Avec le bouton droit de la souris, on peut Insérer avant, Insérer après, Supprimer ou Effacer la ligne active (et ceci même quand un bloc de lignes est sélectionné). Détecter des erreurs dans un dictionnaire. Utiliser la commande Vérifier/Validité. Les erreurs sont signalées une par une et peuvent être corrigées une fois qu elles ont toutes été affichées. L Interface tente en outre d empêcher la sauvegarde de dictionnaires contenant des erreurs. Par ailleurs, si on ouvre un dictionnaire avec des erreurs, l Interface signale leur présence avant même d ouvrir le dictionnaire. 9.5 Créer/Mettre à jour/afficher des fichiers Données La fenêtre Données sert à créer, à mettre à jour ou à afficher un fichier Données d IDAMS. Il faut noter toutefois 1) que le dictionnaire correspondant doit auparavant avoir été créé; 2) qu avec cette fenêtre on ne peut créer, mettre à jour ou afficher que les fichiers Données ayant un seul enregistrement par observation. Cette fenêtre est appelée quand : on crée un nouveau fichier Données (la commande Nouveau/IDAMS Data file dans le menu Fichier ou le bouton Nouveau de la barre d outils), on ouvre un fichier Données (avec l extension.dat) qui figure dans la fenêtre Application (double-cliquer sur le nom voulu dans la liste «Datasets»), on ouvre un fichier Données (avec n importe quelle extension) ne figurant pas dans la fenêtre Application (la commande Ouvrir/Données dans le menu Fichier ou le bouton Ouvrir de la barre d outils).

108 88 L Interface utilisateur La fenêtre est divisée en trois panneaux : le premier affiche les codes et leurs noms pour la variable active (panneau Codes), le second affiche les définitions de variables (panneau Variables), le troisième sert à la saisie ou à la modification des données (panneau Données). Seul ce dernier peut être édité, les deux autres servant uniquement à afficher les informations pertinentes. Une ligne bleue dans le haut d un panneau indique qu il est actif. Les trois panneaux sont synchronisés : la sélection d un champ de variable dans le panneau Données met en surbrillance la description de la variable correspondante; la sélection d un champ dans le panneau Variables affiche la valeur correspondante pour l observation mise en surbrillance. Les codes et leur nom sont toujours affichés s ils se trouvent dans le dictionnaire pour la variable sélectionnée. Modifier l aspect d un panneau. L opération s effectue séparement pour chaque panneau et les modifications s appliquent uniquement au panneau actif. Les modifications suivantes sont communes aux trois panneaux : Augmenter la taille des polices : utiliser la commande Zoom avant du menu Vues ou le bouton Zoom avant de la barre d outils. Diminuer la taille des polices : utiliser la commande Zoom arrière du menu Vues ou le bouton Zoom arrière de la barre d outils. Restaurer leur taille par défaut : utiliser la commande 100% du menu View ou le bouton 100% de la barre d outils. Augmenter/Diminuer la largeur d une colonne : dans l en-tête de la colonne, placer le curseur sur le trait séparant deux colonnes jusqu à ce que le curseur prenne la forme d une barre verticale avec deux flèches, puis le déplacer vers la droite ou la gauche en appuyant sur le bouton gauche de la souris. Le panneau Données peut également être modifié comme suit : Augmenter/Diminuer la hauteur des lignes : placer le curseur avant le début de la ligne sur le trait séparant deux lignes jusqu à ce que le curseur prenne la forme d une barre horizontale avec deux flèches, puis le déplacer vers le bas ou le haut en appuyant sur le bouton gauche de la souris. Placer une/des colonne(s) au début : mettre la/les colonne(s) en surbrillance et utiliser la commande Geler le colonnes du menu Vues (utiliser la commande Vues/Dégeler les colonnes pour les remettre à leur place). Afficher les données dans un panneau multiple : utiliser la commande Fractionner du menu Fenêtre. À l aide de la croix déterminer la taille des quatre panneaux; celle-ci peut être modifiée ultérieurement en appliquant la technique type de Windows. Les données sont affichées quatre fois. On peut supprimer la scission horizontale avec un double-clic sur l axe horizontal, la scission verticale avec un double-clic sur l axe vertical, et les deux scissions avec un double-clic au centre des axes. Pour saisir une nouvelle observation, cliquer sur le premier champ d une ligne vide et commencer à entrer les données. Appuyer sur Entrée ou sur Tab pour accepter la valeur de la variable et passer à la variable suivante; appuyer sur Maj/Tab pour revenir à la variable précédente. Tant que l en-tête de la ligne contient un petit crayon l observation n est pas enregistrée. On l enregistre en appuyant Entrée sur la dernière variable, et le curseur se déplace au début de la ligne suivante. Avec un clic sur le bouton droit de la souris on peut insérer une nouvelle ligne avant ou après la ligne actuellement sélectionnée, ou bien en ajouter une à la fin du fichier (ligne ayant un astérisque dans son en-tête). La saisie des données peut être facilitée en utilisant les deux options du menu Options : Vérifier les codes vérifie que les valeurs en cours de saisie correspondent aux codes définis dans le dictionnaire, les seuls considérés comme valides par WinIDAMS. Sauter automatiquement déplace automatiquement le curseur au champ suivant une fois qu il y suffisamment de chiffres saisis pour remplir le champ en cours. Sinon pour passer au champ suivant il faut presser Tab ou Entrée. Pour modifier la valeur d une variable, cliquer sur le champ de la variable et entrer la nouvelle valeur (le contenu précédent est effacé dès la saisie du premier caractère). Un double-clic sur le champ de la variable

109 9.5 Créer/Mettre à jour/afficher des fichiers Données 89 permet de modifier une partie de la valeur qui s y trouve. Avec la touche Echap on peut récupérer la valeur précédente. Pour copier la valeur d une variable dans un autre champ, cliquer sur celle-ci et la copier dans le Presse-papiers (commande Copier du menu Edition, touches Ctrl/C ou le bouton Copier de la barre d outils). Puis cliquer sur l autre champ et y coller la valeur (commande Coller du menu Edition, touches Ctrl/V ou le bouton Coller de la barre d outils). La commande Annuler l observation du menu Edition permet de récupérer la valeur précédente. Les opérations d édition sur une ligne ou sur un bloc de lignes s effectuent de la même manière que dans la fenêtre Dictionnaire. Pour marquer une ligne cliquer sur n importe quel champ de celle-ci. Un triangle apparaît dans l en-tête de la ligne et celle-ci prend une couleur bleue foncée. Pour marquer un bloc de lignes, placer le curseur sur l en-tête de la ligne où l on veut commencer le marquage et cliquer avec le bouton gauche de la souris. La ligne prend une couleur jaune, indiquant par là qu elle est active. Déplacer ensuite le curseur vers le haut ou le bas jusqu à la ligne où l on veut terminer le marquage et appuyer sur le bouton gauche de la souris tout en appuyant sur la touche Maj. Les lignes marquées deviennent bleu foncé, le jaune indiquant la ligne active. On peut Couper, Copier, Coller la/les ligne(s) sélectionnée(s) avec les commandes du menu Edition, avec les boutons équivalents de la barre d outils, ou bien encore avec les touches de raccourci Ctrl/X, Ctrl/C et Ctrl/V. Avec le bouton droit de la souris, on peut Insérer avant, Insérer après, Supprimer ou Vider la ligne active (et ceci même quand un bloc de lignes est sélectionné). Deux commandes de gestion des données dans le menu Gestion permettent de vérifier les données après leur saisie ou venant de l extérieur, et de les trier : Vérification des codes vérifie, pour toutes les observations, que les valeurs des variables dans le fichier Données correspondent à celles définies dans le dictionnaire, les seules considérées comme valides. Une fois la vérification terminée, le programme affiche un message indiquant le nombre d erreurs trouvées; il incombe à l utilisateur de les corriger une par une en se servant de la boite de dialogue pour la correction des données. Cette boite donne le numéro séquentiel des observations, le numéro de la variable incriminée et son nom, la valeur invalide trouvée et une liste déroulante des codes valides tels que définis dans le dictionnaire. Tri appelle la boite de dialogue pour les tris, permettant à l utilisateur de spécifier jusqu à trois variables de tri avec leur ordre de tri respectif. En cliquant sur OK, on obtient le fichier trié dans le panneau Données. On peut également trier les données sur une seule variable (une colonne) en effectuant un double-clic sur le numéro de la variable dans l en-tête du panneau Données, ce qui donnera un tri dans l ordre ascendant. En répétant le double-clic on obtient un tri dans l ordre descendant. Le menu Graphiques propose deux types de diagramme pour une variable. Diagramme à barres est fondé soit sur les fréquences, soit sur les pourcentages des catégories des variables qualitatives. Pour les variables quantitatives, l utilisateur définit le nombre de barres (NB) à afficher des deux côtés de la moyenne (M) ainsi qu un coefficient (C) pour le calcul de la largeur de la barre (classe). Cette largeur (BW) est égale à la valeur de l écart-type (STD) multiplié par le coefficient (BW=C*STD). Les barres sont construites en utilisant les valeurs M-NB*BW,...,M-2BW, M-BW, M, M+BW, M+2BW,...,M+NB*BW. La hauteur d un rectangle = (fréquence relative de la classe)/(largeur de la classe). Pour les variables quantitatives on peut en outre projeter la courbe de distribution normale fondée sur la moyenne et l écart-type. Histogramme est destiné aux variables quantitatives et fondé soit sur les fréquences soit sur les pourcentages avec le nombre de barres spécifié par l utilisateur. Pour les variables quantitatives, on peut également afficher des statistiques univariées telles que: moyenne, écart-type, variance, coefficient d asymétrie et coefficient d aplatissement. Les variables avec décimales étant multipliées par un facteur d échelle pour obtenir des nombres entiers. Dans ce cas, il faut ajuster la valeur de la moyenne, d écart-type et de la variance en conséquence.

110 90 L Interface utilisateur 9.6 Importation de fichiers de données Cette opération peut s effectuer directement avec l Interface utilisateur de WinIDAMS. On y accède soit par la fenêtre principale de WinIDAMS, soit par la fenêtre Données, ou encore par la fenêtre Tableaux multidimensionnels. Trois types de fichiers en format libre peuvent être importés : les fichiers avec extension.txt dans lesquels les valeurs sont séparées par Tab, les fichiers avec extension.csv dans lesquels les valeurs sont séparées par des virgules, les fichiers avec extension.csv dans lesquels les valeurs sont séparées par des point-virgules. L information donnée dans la première ligne correspond aux titres des colonnes et ceux-ci sont utilisés comme noms de variables pendant la construction du dictionnaire. Il est donc obligatoire d avoir les titres de colonnes dans la première ligne des fichiers importés. Aussi, le caractère séparateur de champs est détecté à partir de la première ligne tandis que le caractère utilisé pour la notation décimale est détecté à partir de la deuxième ligne du fichier. Il est donc obligatoire d avoir les décimaux dans la deuxième ligne des fichiers importés si une variable peut les contenir. Au cours du processus d importation, on peut remplacer le contenu des variables alphabétiques par des codes numériques tout en conservant les valeurs alphabétiques comme noms de codes dans le dictionnaire qui est créé. Les virgules utilisées pour la notation décimale sont remplacées par des points. L opération d importation des données est activée avec la commande Importer du menu Fichier, suivie par la sélection du fichier pertinent via la boite de dialogue d ouverture de fichiers. Le caractère séparateur de champs et le caractère utilisé pour la notation décimale sont affichés avec les valeurs de tous les champs pour les trois premières observations. La lecture des données peut donc être vérifiée avant de procéder à l importation. Ensuite, deux fenêtres appelées Données externes et Définition des variables apparaissent sous forme de tableurs. La fenêtre Données externes est réservée uniquement à l affichage du contenu du fichier à importer. Aucune opération d édition n est autorisée, à l exception de la copie d une sélection du fichier dans le Pressepapiers. La fenêtre Définition des variables sert à la préparation de la description des variables IDAMS. Son contenu initial est fourni par défaut sur la base des données importées; il peut être modifié et/ou complété si besoin est. Les colonnes contiennent les informations suivantes : Description Type LongMax NDec Md1 Md2 Codification Nom de variable. Type de variable (numérique par défaut). Il s agit du type de la variable en entrée. Au cas où une variable en entrée est alphabétique et doit être numérique en sortie, faire un recodage (voir ci-dessous). Largeur maximale du champ de la variable. Nombre de décimales; un blanc implique qu il n y en a pas. Premier code de données manquantes pour les variables numériques. Second code de données manquantes pour les variables numériques. Demande le recodage d une variable alphabétique en variable numérique. Pour modifier la définition de variables, placer le curseur à l intérieur de la fenêtre, utiliser ensuite les touches de défilement ou la souris pour atteindre le champ voulu et changer ensuite son contenu. Pour créer les fichiers Dictionnaire et Données d IDAMS, utiliser la commande Dataset IDAMS du menu Construire. Ils seront tous les deux placés dans le dossier Données de l application active.

111 9.7 Exportation de fichiers Données IDAMS Exportation de fichiers Données IDAMS L Interface utilisateur de WinIDAMS offre également une facilité pour exporter directement des fichiers Données IDAMS. On y accède à partir de la fenêtre Données avec la commande Exporter du menu Fichier. Le fichier Données IDAMS affiché dans la fenêtre active peut être sauvegardé dans l un des trois types de fichiers de données en format libre : les fichiers avec extension.txt dans lesquels les valeurs sont séparées par Tab, les fichiers avec extension.csv dans lesquels les valeurs sont séparées par des virgules, les fichiers avec extension.csv dans lesquels les valeurs sont séparées par des point-virgules. Les noms de variables du dictionnaire correspondant figurent comme titre de colonnes dans la première ligne des données exportées. S il y a des noms de codes pour une variable, les codes numériques peuvent être remplacés par leur nom de codes dans le fichier de données en sortie. De plus, on peut utiliser une virgule pour la notation décimale dans les variables numériques en sortie. 9.8 Créer/Mettre à jour/afficher les fichiers Setup La fenêtre Setup -qui sert à préparer ou à afficher un fichier Setup d IDAMS- est appelée quand : on crée un nouveau fichier Setup (la commande Nouveau/IDAMS Setup file du menu Fichier ou le bouton Nouveau de la barre d outils), on ouvre un fichier Setup (avec l extension.set) qui figure dans la fenêtre Application (double-cliquer sur le nom du fichier dans la liste «Setups»), on ouvre un fichier Setup (avec n importe quelle extension) ne figurant pas dans la fenêtre Application (la commande Ouvrir/Setup du menu Fichier ou le bouton Ouvrir de la barre d outils). Cette fenêtre contient deux panneaux : celui du dessus sert à préparer le fichier Setup lui-même (panneau Setup), celui du dessous affiche les messages d erreurs décelées lors de la vérification des instructions relatives

112 92 L Interface utilisateur au filtrage et au recodage des données (panneau Messages). On ne peut éditer que le panneau Setup. On notera que les commandes d IDAMS sont affichées en caractères gras et les noms de programmes en rose s ils sont orthographiés correctement. Le texte inséré après une commande $comment est affiché en vert. Pour préparer un nouveau setup, on peut soit entrer toutes les instructions, soit utiliser le prototype de setup du programme en le modifiant comme nécessaire. Il y a un prototype pour chaque programme d IDAMS. On y accède en sélectionnant le nom du programme dans la liste qui figure sous le bouton Prototype de la barre d outils. Pour copier un prototype dans le panneau Setup, cliquer sur le nom du programme. Pour une information détaillée sur la préparation des setups, voir le chapitre «Le fichier Setup d IDAMS» ainsi que les instructions de contrôle propres à chaque programme. Les opérations d édition peuvent être effectuées comme avec n importe quel éditeur de fichier ASCII, càd qu on peut Couper, Copier, Coller un texte sélectionné avec les commandes du menu Edition, avec les boutons équivalents de la barre d outils, ou bien encore avec les touches de raccourci Ctrl/X, Ctrl/C et Ctrl/V. Deux commandes de vérification sont fournies dans le menu Vérifier pour vérifier avant l exécution la syntaxe des instructions relatives au recodage et au filtrage des données : Syntaxe du Recode active la vérification de la syntaxe des instructions de recodage figurant dans le setup. Toutes les erreurs sont mentionnées dans le panneau Messages, avec pour chacune d elles le numéro de l instruction, la ligne erronée et le(s) caractère(s) ayant causé le problème de syntaxe. Un double-clic sur la ligne erronée ou sur le message d erreur a pour effet de désigner cette ligne avec une flèche jaune dans le texte du setup lui-même. Avant de passer à l exécution des instructions, on peut effectuer les corrections et répéter la vérification de la syntaxe du recodage. Syntaxe de filtre active la vérification des erreurs de syntaxe dans les instructions de filtrage figurant dans le setup. Toutes les erreurs sont mentionnées dans le panneau Messages, avec pour chacune d elles le numéro du filtre, la ligne erronée et le(s) caractère(s) ayant causé le problème de syntaxe. Un doubleclic sur la ligne erronée ou sur le message d erreur a pour effet de désigner cette ligne avec une flèche jaune dans le texte du setup lui-même. On notera que même si la plupart des erreurs de syntaxe du Recode et de filtre peuvent être détectées et corrigées à ce stade, IDAMS effectue systématiquement une autre vérification de syntaxe lors de l exécution du setup. Des erreurs d exécution non décelables auparavant sont signalées avec les résultats. 9.9 L exécution des setups d IDAMS Pour exécuter un ou des programme(s) d IDAMS (dont les instructions ont été préparées et sauvegardées dans un fichier Setup), utiliser la commande Sélection du setup du menu Exécuter à partir de n importe quelle fenêtre de document de WinIDAMS. La boite de dialogue type de Windows demande de sélectionner le fichier contenant les instructions à exécuter. Si les instructions sont préparées dans la fenêtre Setup, elles peuvent être exécutées à partir du setup actif en utilisant la commande Setup actif du menu Exécuter. Le(s) programme(s) est/sont alors exécutés et les résultats écrits dans un fichier spécifié pour PRINT sous $FILES (le nom par défaut de ce fichier est IDAMS.LST dans le dossier Travail actif). À la fin de l exécution, le programme ouvre le fichier avec les résultats dans la fenêtre Résultats Gestion des fichiers Résultats La fenêtre Résultats permettant d accéder à, d afficher et d imprimer des parties sélectionnées des fichiers Résultats est appelée quand : on ouvre un fichier Résultats (avec l extension.lst) figurant dans la fenêtre Application (double-cliquer sur le le nom du fichier dans la liste «Results»),

113 9.10 Gestion des fichiers Résultats 93 on ouvre un fichier Résultats (avec n importe quelle extension) ne figurant pas dans la fenêtre Application (la commande Ouvrir/Résultats du menu Fichier ou le bouton Ouvrir de la barre d outils), on exécute un setup IDAMS ; le contenu de résultats est alors automatiquement affiché. Une table des matières fournie pour chaque fichier Résultats permet de se déplacer rapidement à l intérieur de celui-ci. On peut ainsi accéder au début des résultats d un programme ou même à une section particulière. De plus, le menu Edition donne accès à un outil de recherche. La fenêtre est divisée en trois panneaux : l un montre la structure arborescente de la table des matières (TDM) des résultats, l autre affiche le contenu des résultats, le troisième affiche les messages d erreurs et les avertissements inclus dans les résultats. Par défaut, la pagination des résultats est celle qui est établie par les programmes d IDAMS eux-mêmes (l option Mode Page est cochée dans le menu Vues). Pour économiser de l espace, on décoche cette option. Les lignes de blancs à la fin des pages sont alors supprimées partout et les coupures de pages sont remplacées par la ligne de texte «Page break». Pour ouvrir/fermer rapidement la structure arborescente TDM, on dispose de trois touches sur le pavé numérique du clavier : * ouvre tous les niveaux de la structure en dessous du noeud sélectionné - ferme tous les niveaux de la structure en dessous du noeud sélectionné + ouvre un niveau de la structure en dessous du noeud sélectionné. Pour visualiser une partie déterminée des résultats, double-cliquer sur son nom dans la TDM. Pour localiser un message d erreur ou un avertissement, double-cliquer sur son texte. La modification du contenu des résultats n est pas autorisée. Cependant on peut copier dans le Pressepapiers tout ou partie des résultats, en sélectionnant les passages ou en les cochant dans la structure arborescente et en utilisant la commande Copier du menu Edition, les touches Ctrl/C ou le bouton Copier dans la barre d outils ; on peut les coller ensuite dans n importe quel document à l aide des techniques types de Windows. L impression de tout ou partie des résultats s effectue avec la commande Imprimer du menu Fichier ou avec le bouton Imprimer de la barre d outils. On notera que les pages sont imprimées en mode Paysage et que l orientation ne peut être modifiée.

114 94 L Interface utilisateur Le contenu du fichier Résultats tel qu il est affiché peut être sauvegardé en format texte ou en format RTF avec la commande Enregistrer sous du menu Fichier. Les blancs de queue sont toujours éliminés. Les coupures de page sont traitées selon l option Mode Page.

115 9.11 Créer/Mettre à jour des fichiers en format texte et RTF Créer/Mettre à jour des fichiers en format texte et RTF WinIDAMS possède un Editeur général qui permet d ouvrir et de modifier n importe quel type de document en format caractère. Sa fonction essentielle est cependant d offrir une facilité perfectionnée pour l édition et le formatage de fichiers Texte. Il faut éviter de manipuler les fichiers Dictionnaire, Données et Setup avec l Editeur général et le faire avec circonspection pour les fichiers Matrice. La fenêtre Texte est appelée quand : on crée un nouveau fichier Texte (la commande Nouveau/Text file ou RTF file du menu Fichier ou le bouton Nouveau de la barre d outils), on ouvre un fichier Matrice (avec l extension.mat) se trouvant dans la fenêtre Application (doublecliquer sur le nom du fichier dans la liste «Matrices»), on ouvre n importe quel fichier de caractères ne figurant pas dans la fenêtre Application (la commande Ouvrir/Fichier avec Éditeur Général du menu Fichier ou le bouton Ouvrir de la barre d outils). L Editeur général fournit une série de commandes types d édition qui sont connues des utilisateurs de Windows. En voici la liste sans description détaillée : Insérer offre des commandes permettant l insertion de sauts de pages et de sections, d images, d objets OLE (Object Linking & Embedding), de cadres et d objets graphiques. Police offre des commandes permettant de changer la police et la couleur de textes préalablement sélectionnés, ainsi que la couleur de leur arrière-plan. Paragraphe offre des commandes permettant d aligner les paragraphes différemment, de les mettre en retrait, de les afficher en double interligne, de les encadrer et d ombrer l arrière-plan. Tableau offre une série de commandes permettant d insérer et de manipuler des tableaux. Vues offre trois autres commandes permettant d afficher respectivement le document actif en mode page, la règle et le marqueur de paragraphe. La barre d outils de formatage permet d appeler rapidement les commandes de formatage les plus fréquemment utilisées.

116

117 Troisième partie Facilités pour la gestion de données

118

119 Chapitre 10 Agrégation de données (AGGREG) 10.1 Description générale AGGREG effectue l agrégation d enregistrements (observations) en groupes définis par l utilisateur et calcule les statistiques descriptives globales pour les variables spécifiées dans chaque groupe. Les statistiques incluent les sommes, les moyennes, les variances, les écarts-types ainsi que les valeurs minimum et maximum et le compte des données non manquantes. Un dataset IDAMS est créé en sortie, càd le fichier des données regroupées (agrégées) décrites par un dictionnaire IDAMS ; le fichier de données agrégées contient un enregistrement (une observation) par groupe avec les variables résumant à son niveau chacune des variables d entrée sélectionnées. Les formules pour calculer la moyenne, la variance et l écart-type se trouvent dans la partie «Formules statistiques et références bibliographiques», chapitre «Tableaux univariés et bivariés». Cependant, il faut les ajuster car les observations ne sont pas pondérées et le coefficient N/(N-1) n entre pas dans le calcul de la variance et/ou l écart-type de l échantillon. On notera que les statistiques sélectionnées le sont pour toutes les variables agrégées. De sorte que s il y avait 2 variables agrégées et que l on avait sélectionné 3 statistiques, le programme calculerait 6 variables. AGGREG permet à l utilisateur de modifier le niveau d agrégation des données, par ex. du niveau des membres d une famille à celui du ménage, ou du niveau d un district à celui d une région, etc. Par exemple, supposons qu un fichier de données contienne des enregistrements pour chaque personne d un ménage et que l on veuille effectuer l analyse au niveau du ménage. AGGREG permet d agréger les valeurs des variables de tous les enregistrements individuels pour chacun des ménages et de créer un fichier d enregistrements au niveau du ménage pour d autres analyses. Pour être plus spécifique, si le fichier de données au niveau individuel contient une variable donnant le revenu de chaque personne, AGGREG pourrait créer des enregistrements au niveau du ménage avec une variable indiquant son revenu total. Regroupement des données. L utilisateur spécifie jusqu à 20 variables de définition de groupe (ID), lesquelles déterminent le niveau d agrégation du fichier en sortie. Par exemple, si l on veut agréger les données au niveau individuel à celui du ménage, une variable identifiant le ménage servirait de variable de définition de groupe. À chaque fois qu AGGREG lit un enregistrement en entrée, il vérifie si une modification est intervenue dans une variable ID. Si effectivement c est le cas, le programme génère en sortie un enregistrement contenant les statistiques globales calculées pour les variables agrégées spécifiées des enregistrements de l observation qu il vient de traiter. Insertion d une constante dans les enregistrements de données agrégées. On peut insérer une constante dans chacun d eux à l aide des paramètres PAD1,..., PAD5, qui servent à spécifier les variables dites pad. La valeur d une variable pad est une constante. Transfert de variables. On peut transférer des variables dans les enregistrements envoyés en sortie. On notera que le transfert s applique uniquement aux valeurs de la première observation du groupe.

120 100 Agrégation de données (AGGREG) 10.2 Caractéristiques standard d IDAMS Sélection d observations et de variables. Le filtre standard est disponible et permet de sélectionner un sous-ensemble d observations dans les données d entrée. Les variables ID servant à définir les groupes et les variables à agréger sont spécifiées à l aide des paramètres. Les variables ID sont automatiquement incluses dans le dataset en sortie. Transformation de données. Les instruction Recode peuvent être utilisées. Traitement des données manquantes. La valeur de chaque variable agrégée est comparée aux deux codes de données manquantes et automatiquement exclue des calculs si elle correspond à la valeur d un de ces codes. Un pourcentage fourni par l utilisateur, «le point où trancher» («cutoff point» - voir le paramètre CUTOFF) fixe le nombre de données manquantes autorisé avant que le programme n envoie en sortie la statistique globale sous la forme d un code de données manquantes. Ainsi, supposons qu il faille calculer la moyenne des valeurs d une variable pour les observations d un groupe et que celui-ci contienne 12 enregistrements dont 6 avec une valeur correspondant à un code de données manquantes, càd 50%. Si la valeur assignée à CUTOFF était de 75%, le programme calculerait la moyenne des 6 valeurs non manquantes et l enverrait en sortie pour ce groupe. Si la valeur de CUTOFF était de 25%, le programme alors ne calculerait pas la moyenne mais enverrait en sortie le premier code de données manquantes Résultats Information sur les données manquantes. (Facultatif : voir le paramètre PRINT). Pour chaque variable dans chaque groupe, le programme imprime le numéro de la variable en entrée, le numéro de la variable en sortie, le nombre d enregistrements sans données manquantes et le pourcentage d enregistrements avec des données manquantes. Information sur le groupe. (Facultatif : voir le paramètre PRINT). Il s agit du nombre d enregisrements en entrée pour chaque groupe. Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Dictionnaire en sortie. (Facultatif : voir le paramètre PRINT). Statistiques. (Facultatif : voir le paramètre PRINT). Pour chaque enregistrement, toutes les variables calculées peuvent être imprimées au niveau agrégé. Le programme imprime également le numéro de la variable agrégée correspondante et des variables ID Dataset en sortie En sortie, le dataset des données agrégées est un fichier Données décrit par un dictionnaire IDAMS. Chaque enregistrement contient les valeurs des variables ID, celles des variables calculées, des variables transférées et des constantes pad ; il y a un enregistrement par groupe. Ordre et numéro des variables. Les variables en sortie sont dans le même ordre relatif que les variables en entrée dont elles dérivent, peu importe si la variable en entrée est utilisée comme variable ID, variable agrégée ou variable à transférer. Ainsi, si la première variable du fichier en entrée est utilisée, la(les) variable(s) qui en dérive(nt) sera(seront) la(les) première(s) variable(s) en sortie. Chaque variable d entrée utilisée comme une variable ID ou comme une variable à transférer correspond à une variable en sortie; chaque variable agrégée correspond à 1-7 variables en sortie, en fonction du nombre de statistiques globales demandées (celles-ci étant produites dans l ordre relatif suivant : somme, moyenne, variance, écart-type, compte, minimum, maximum). Les variables en sortie sont toujours renumérotées, à partir du numéro fourni avec le paramètre VSTART. Les constantes pad viennent toujours en dernier. Noms des variables. Les variables en sortie portent le même nom que les variables en entrée dont elles dérivent, excepté les variables agrégées dont les 23e et 24e caractères du champ réservé au nom sont codés comme suit :

121 10.5 Dataset en entrée 101 S = somme M = moyenne V = variance D = écart-type CT = effectif MN = minimum MX = maximum. Les constantes pad reçoivent pour noms : «Pad variable 1», «Pad variable 2», etc. Type de variable. Les variables ID et les variables transférées sont envoyées en sortie avec le même type qu en entrée. Les variables calculées sont toujours envoyées en sortie sous forme numérique. Longueur de champs et nombre de décimales. Les longueurs des champs des variables agrégées en sortie dépendent des statistiques globales choisies, de la longueur du champ en entrée (FW), du nombre de décimales en entrée (ND) et des décimales supplémentaires demandées par l utilisateur avec le paramètre DEC. Les longueurs de champs et les décimales sont assignées de la manière indiquée ci-dessous, où FW=la longueur du champ et ND=le nombre de décimales pour les variables d entrée tandis que FW=6 et ND=0 pour les variables recodées. Statistique Longueur de champs Décimales SOMME FW + 3 * ND MOYENNE FW + DEC ** ND + DEC *** VARIANCE FW + DEC ** ND + DEC *** ÉCART-TYPE FW + DEC ** ND + DEC *** MIN FW ND MAX FW ND EFFECTIF 4 0 * Si le champ excède 9 caractères, sa longueur est ramenée à 9. ** Si le champ excède 9 caractères, le nombre de décimales supplémentaires (DEC) est réduit en conséquence. *** Si le nombre de décimales excède 9, la valeur de DEC est réduite en conséquence. Codes de données manquantes. Pour les variables ID et pour les variables transférées, ces codes sont tirés du dictionnaire d entrée. Pour les variables calculées, le deuxième code de données manquantes (MD2) est toujours laissé en blanc. La valeur du premier code de données manquantes (MD1) est assignée comme suit : Variable en sortie MD1 en sortie FW en sortie <= 7 9 s FW en sortie > Variable EFFECTIF 9999 Numéros de référence. Les variables calculées reçoivent le numéro de leur variable d origine. Enregistrements C. Les enregistrements C du dictionnaire d entrée sont passés au dictionnaire en sortie pour les variables ID et les variables transférées. Note sur le calcul des statistiques. Avant d être envoyées en sortie, les valeurs calculées sont arrondies en fonction de la longueur du champ et du nombre de décimales qui leur sont assignés. Si une valeur calculée excède ou est inférieure à , sa valeur en sortie est Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Les variables (ID) de définition de groupe et les variables à transférer peuvent être numériques ou alphabétiques, encore que les variables numériques soient traitées comme des chaînes de caractères, càd que la valeur 044 est différente de la valeur 44. Ce ne peuvent être des variables recodées. Les variables à agréger doivent être numériques et ce peuvent être des variables recodées.

122 102 Agrégation de données (AGGREG) Le fichier est traité séquentiellement et les enregistrements contigus avec la même valeur pour les variables ID sont agrégés. Pour cette raison, il faut procéder au classement du fichier en entrée sur la base des variables ID avant d utiliser AGGREG. On notera qu AGGREG ne vérifie pas le classement du fichier d entrée Structure du setup $RUN AGGREG $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie DATAyyyy données en sortie PRINT résultats (défaut IDAMS.LST) 10.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V1=10,20,30,50 OR V10= Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : AGRÉGATION DE DONNÉES ENSEIGNANTS/ÉLÈVES 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : IDVARS=(V1,V2) STATS=(SUM,VARI) DEC=3 - AGGV=(V5-V10,V50-V75) PAD1=80 INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN.

123 10.7 Instructions de contrôle du programme 103 BADDATA=STOP/SKIP/MD1/MD2 Traitement des données non numériques dans les variables agrégées et dans les variables utilisées avec Recode. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. IDVARS=(liste de variables) Jusqu à 20 numéros de variables pour la définition des groupes. Les variables R ne sont pas autorisées. Pas de défaut. AGGV=(liste de variables) Variables V ou R qu il faut agréger Pas de défaut. STATS=(SUM, MEAN, VARIANCE, SD, COUNT, MIN, MAX) Paramètres servant à sélectionner les statistiques à calculer (il faut sélectionner au moins une statistique parmi : SUM, MEAN, VARIANCE, SD). Elles sont envoyées en sortie pour chaque groupe et pour chaque variable AGGV. SUM La somme. MEAN La moyenne. VARI La variance. SD L écart-type. COUN Le nombre d observations valides. MIN La valeur minimum. MAX La valeur maximum. SAMPLE/POPULATION SAMP Calculer la variance et/ou l écart-type en utilisant l équation d échantillonnage. POPU Utiliser l équation de la population. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. VSTART=1/n Numéro de la première variable dans le dataset en sortie. CUTOFF=100/n Pourcentage d observations avec des codes MD (données manquantes) qui est autorisé avant qu un code MD ne soit généré en sortie. C est un nombre entier. DEC=2/n S applique aux variables calculées impliquant la moyenne, la variance ou l écart-type : le nombre de décimales en plus de celles existant déjà dans les variables en entrée (voir Restriction 7). TRANSVARS=(liste de variables) Variables dont les valeurs, telles que fournies pour la première observation de chaque groupe, doivent être passées au fichier en sortie. Les variables R ne sont pas autorisées. PAD1=constante PAD2=constante PAD3=constante PAD4=constante PAD5=constante

124 104 Agrégation de données (AGGREG) Jusqu à 5 constantes peuvent être ajoutées au dataset en sortie. Le nombre de caractères fournis détermine la longueur du champ de la constante. PRINT=(MDTABLES, GROUPS, DATA, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT) MDTA Imprimer un tableau donnant le pourcentage des données manquantes trouvées pour chaque variable agrégée dans chaque groupe. GROU Imprimer le nombre d observations par groupe. DATA Imprimer les valeurs de chaque variable calculée dans chaque enregistrement de groupe. CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. OUTD Imprimer le dictionnaire en sortie sans enregistrements C. OUTC Imprimer le dictionnaire en sortie avec les enregistrements C, s il y en a. NOOU Ne pas imprimer de dictionnaire en sortie Restrictions 1. Le nombre maximum de variables pouvant être agrégées est Le nombre maximum de variables ID est Le nombre maximum de caractères dans les variables de contrôle est Le nombre maximum de variables pouvant être transférées est Les variables recodées ne sont pas autorisées en tant que IDVARS ou TRANSVARS. 6. La même variable ne peut pas apparaître dans deux listes de variables Exemple Produire un dataset contenant une observation agrégée pour chaque valeur unique de V5 et V7. Pour chaque observation, les variables doivent être la somme, la moyenne et l écart-type de 4 variables d entrée et d 1 variable recodée agrégée au niveau des observations formant le groupe (càd avec les mêmes valeurs pour V5 et V7); les valeurs de V10 et V11 pour la première observation de chaque groupe doivent être passées dans les enregistrements de sortie; on veut obtenir un listage des valeurs produites pour chaque observation; dans le fichier de sortie, les variables doivent être numérotées en débutant à $RUN AGGREG $FILES PRINT = AGGR.LST DICTIN = IND.DIC fichier Dictionnaire en entrée DATAIN = IND.DAT fichier Données en entrée DICTOUT = AGGR.DIC fichier Dictionnaire en sortie DATAOUT = AGGR.DAT fichier Données en sortie $RECODE R100=COUNT(1,V20-V29) NAME R100 INDICE DE RICHESSE $SETUP AGRÉGATION DE 4 VARIABLES D ENTRÉE ET D 1 VARIABLE RECODÉE IDVARS=(V5,V7) AGGV=(V31,V41-V43,R100) STATS=(SUM, MEAN, SD) - VSTART=1001 PRINT=DATA TRANS=(V10,V11)

125 Chapitre 11 Construction d un dataset IDAMS (BUILD) 11.1 Description générale BUILD prend un fichier de données brutes, lequel peut contenir plusieurs enregistrements par observation, conjointement avec un dictionnaire décrivant les variables voulues, et il crée un nouveau fichier Données contenant un seul enregistrement par observation et uniquement les valeurs pour les variables spécifiées. En même temps, il sort un dictionnaire décrivant le fichier Données nouvellement formaté; en d autres termes, il produit un dataset IDAMS. Outre la restructuration des données, BUILD détecte également la présence de valeurs non numériques dans les variables numériques. Pour quelle raison utiliser BUILD? On peut utiliser n importe quel programme d IDAMS sans utiliser BUILD au préalable en préparant séparément un dictionnaire IDAMS. Cependant, il est recommandé d utiliser BUILD en premier lieu étant donné qu il permet : - de vérifier que le dictionnaire a été préparé correctement, - de s assurer qu il y a une correspondance exacte entre le dictionnaire et les données, - de s assurer qu il n y ait pas de caractères non numériques indésirables dans les données, - de mettre les données sous la forme d un enregistrement unique par observation, - de recoder les champs laissés en blanc avec les valeurs spécifiées par l utilisateur. Traitement des variables numériques. Quand BUILD procède au traitement d un champ supposé contenir une variable numérique, il vérifie que celui-ci contienne un nombre reconnaissable ou soit laissé en blanc. Si le programme rencontre une valeur autre que celles-ci, par ex. 3J, 3-, ++2, etc, il envoie à sa place en sortie une chaîne de neufs et imprime la position séquentielle de l observation, le numéro de la variable associée avec le champ concerné et l observation en entrée. Les règles de traitement sont les suivantes : Si le champ contient un nombre, celui-ci est traité de manière standard et envoyé en sortie (voir le chapitre «Les données dans IDAMS» pour les détails). Si un champ contient uniquement des blancs, BUILD remplace la valeur soit par le premier ou par le second code de données manquantes, des neufs ou des zéros, soit - si l utilisateur n a pas spécifié de recodage - il le sort avec des blancs tout en mentionnant qu il y a une erreur. La colonne 64 des enregistrements T peut être utilisée pour indiquer au programme de recoder les champs laissés en blanc avec des zéros, avec des neufs ou bien avec le premier ou avec le second code de données manquantes assigné à la variable (voir la section «Dictionnaire en entrée» pour les détails). Les blancs de queue, càd à la droite du champ, (par ex 04 dans un champ numérique à trois chiffres) ou les blancs intercalés (par ex. 0 4 ) seront mentionnés comme erreurs et leur valeur remplacée par des 9.

126 106 Construction d un dataset IDAMS (BUILD) Si un champ contient une valeur positive ou une valeur négative explicitement saisie avec les caractères + ou - mal placés, par ex. 1-23, il le sort avec les 9 tout en mentionnant qu il y a une erreur. Si un code de données manquantes d une variable a un chiffre de plus que le champ dans les données en entrée, le champ en sortie aura un chiffre de plus également. Cela peut être utilisée quand il est nécessaire d accroître la longueur du champ en sortie sans changement de la longueur du champ d entrée; par exemple, si on avait défini les codes 0-9 et un blanc pour une variable occupant une seule colonne en entrée, le champ laissé en blanc ne pourrait être recodé sous forme de valeur numérique sans disposer d un code à deux chiffres en sortie. Tableau d exemples de la mise en forme effectuée par BUILD et contenu du champ en sortie pour un champ numérique de 3 caractères en entrée Valeur No. MD1 Recodage Valeur Longueur Message d erreur en déc. spécifié en du champ entrée sortie en sortie blancs insérés dans var blancs insérés dans var (seulement si PRINT=RECODES) (seulement si PRINT=RECODES) - None 3 blancs dans var... A mauvais caractère dans var mauvais caractère dans var Caractéristiques standard d IDAMS Sélection d observations et de variables. BUILD ne permet pas de sélectionner des observations dans le fichier en entrée. Le filtre standard n est pas disponible. A l aide de la description des variables, on peut sélectionner pour la sortie n importe quel sous-ensemble de champs à l intérieur d une observation. Transformation de données. Les instructions Recode ne peuvent pas être utilisées. Traitement des données manquantes. BUILD ne fait pas de distinction entre les valeurs de données manquantes et les valeurs réelles. Cependant, les champs laissés en blanc peuvent être recodés à l aide des codes de données manquantes, de zéros ou de neuf.

127 11.3 Résultats Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Dans le listage du dictionnaire, la colonne «RègleB» contient les règles de recodage pour les champs laissés en blanc, telles que spécifiées en col. 64 du dictionnaire d entrée. On notera que les messages d erreurs éventuels concernant les descriptions de variables sont intercalés dans le dictionnaire non accompagnés du numéro de la variable à laquelle ils se rapportent. Dès lors, si l on n imprime pas le dictionnaire d entrée, l identification des erreurs peut s avérer difficile. Dictionnaire en sortie. (Facultatif : voir le paramètre PRINT). Les enregistrements contenant les descriptions de variables (enregistrements T) sont imprimés avec, ou sans, les enregistrements C s il y en a. Caractéristique du fichier Données en sortie. Il s agit de la longueur de l enregistrement pour les données en sortie. Messages sur la mise en forme des données. Pour chaque observation contenant des erreurs, le programme imprime l observation telle qu elle figure dans le fichier en entrée (jusqu à 100 caractères par ligne) ainsi que les erreurs dans l ordre de numérotation des variables. Messages sur le recodage des champs vides. (Facultatif : voir le paramètre PRINT). Pour chaque observation contenant des champs vides ayant fait l objet d un recodage, le programme imprime l information relative au recodage ainsi que l observation telle qu elle figure dans le fichier en entrée. Cette information est imprimée avec le rapport sur les erreurs dans les données de l observation, s il y en a Dataset en sortie BUILD crée un fichier Données et le dictionnaire correspondant, càd un dataset IDAMS. On notera que les enregistrements T générés par BUILD définissent toujours la place des variables en donnant la position initiale et la longueur du champ occupé par la variable. Le fichier Données contient un enregistrement pour chaque observation ou pour chaque unité d analyse. La longueur de l enregistrement est égale à la somme des longueurs de champs de toutes les variables en sortie et est fixée par le programme BUILD. Valeurs des variables numériques. Ces valeurs sont éditées sous une forme standard décrite dans le paragraphe «Traitement des variables numériques» ci-dessus. Valeurs des variables alphabétiques. Ces valeurs ne sont pas éditées et sont les mêmes en entrée et en sortie. Longueur des champs des variables. Normalement, BUILD affecte à une variable en sortie la même longueur que le nombre de caractères qu elle occupe dans les données en entrée. Cependant, si un code de données manquantes d une variable a un chiffre de plus que le champ dans les données en entrée, le champ en sortie sera agrandi d un chiffre. Position des variables. BUILD attribue les champs en sortie dans l ordre de numérotation des variables. Ainsi, si les deux premières variables ont en sortie des champs d une longueur de 5 et 3 respectivement, le programme attribue les positions 1-5 à la première variable et 6-8 à la seconde, etc. Numéro de référence et ID de l étude. Le numéro de référence, s il y en a, et l ID de l étude sont les mêmes qu en entrée. Si le champ réservé au numéro de référence est laissé en blanc dans l enregistrement T ou C, le programme y met le numéro de la variable Dictionnaire en entrée Il sert à décrire les variables que l on veut sélectionner pour la sortie. Son format est décrit dans le chapitre «Les données dans IDAMS», la colonne 64 des enregistrements T étant utilisée pour spécifier une règle de recodage pour les champs laissés en blanc (champs vides) dans une variable :

128 108 Construction d un dataset IDAMS (BUILD) blanc - les champs vides ne sont pas recodés, 0 - recoder les champs vides en zéros, 1 - recoder les champs vides avec le 1er code de données manquantes de la variable, 2 - recoder les champs vides avec le 2ème code de données manquantes de la variable, 9 - recoder les champs vides avec des 9. Note: la fenêtre Dictionnaire de l Interface utilisateur ne permet pas d accéder à la colonne 64. Dès lors, on remplira cette colonne à l aide d Editeur général de WinIDAMS (Fichier/Ouvrir/Fichier avec Éditeur Général) ou de n importe quel autre éditeur de texte Données en entrée Les données peuvent être sous la forme de n importe quel enregistrement de longueur fixe, avec un ou plusieurs enregistrements par observation pourvu qu il y ait exactement le même nombre d enregistrements pour chaque observation. Le fichier doit être trié par type d enregistrement pour chaque ID d observation. Pour chaque observation, les valeurs d une variable doivent être placées dans les mêmes colonnes du même enregistrement. Si les données en entrée contiennent plus d un enregistrement par observation, il faut toujours exécuter MERCHECK avant BUILD pour s assurer qu il y ait dans les données le même jeu d enregistrements pour chaque observation. Noter que la notation exponentielle de données n est pas acceptée par BUILD Structure du setup $RUN BUILD $FILES Spécification des fichiers $SETUP 1. Titre 2. Paramètres $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie DATAyyyy données en sortie PRINT résultats (défaut IDAMS.LST) 11.8 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-2 ci-dessous.

129 11.9 Exemples Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : CONSTRUCTION DU FICHIER ÉTUDE95 2. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : MAXERROR=50 INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. LRECL=80/n La longueur de chaque enregistrement de données en entrée. (Utilisé pour vérifier la validité des positions de début des variables sur les enregistrements T). MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser. Défaut : toutes les observations seront utilisées par le programme. VNUM=CONTIGUOUS/NONCONTIGUOUS CONT Vérifier que les variables sont numérotées consécutivement et dans l ordre ascendant dans le dictionnaire d entrée. NONC Vérifier uniquement que les variables sont numérotées dans l ordre ascendant. MAXERR=10/n Le nombre maximum d observations avec erreurs (blancs non recodés et valeurs non numériques pour des variables numériques) avant que BUILD ne termine son exécution. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. PRINT=(RECODES, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT) RECO Imprimer les observations en entrée contenant un/des champ(s) vide(s) recodé(s). CDIC Imprimer le dictionnaire d entrée pour toutes les variables, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. OUTD Imprimer le dictionnaire en sortie sans les enregistrements C. OUTC Imprimer le dictionnaire en sortie avec les enregistrements C, s il y en a. NOOU Ne pas imprimer le dictionnaire en sortie Exemples Exemple 1. Construire un dataset IDAMS (fichier Dictionnaire et fichier Données); les données en entrée sont sous la forme d enregistrements de 80 caractères avec 3 enregistrements par observation; les variables ne sont pas numérotées de manière contiguëe dans le dictionnaire d entrée; la variable V2 fournit l ID complet (colonnes 5-10) tandis que les variables V3 et V4 correspondent aux deux parties de l ID (colonnes 5-8 et 9-11 respectivement); les champs laissés en blanc vont être remplacés par le premier code de données manquantes pour les variables V101, V122, V168 et par des zéros pour la variable V169; pour la variable V123 (âge), les blancs seront traités comme des erreurs.

130 110 Construction d un dataset IDAMS (BUILD) $RUN BUILD $FILES DATAIN = ABCDATA.DAT RECL=80 fichier Données en entrée DICTOUT = ABC.DIC fichier Dictionnaire en sortie DATAOUT = ABC.DAT fichier Données en sortie $SETUP CONSTRUCTION D UN DATASET IDAMS VNUM=NONC MAXERR=200 $DICT T 1 CODE DE VILLE ID T 2 ID DE REPONDANT 5 10 ID T 3 NUMERO DE MENAGE 5 8 ID T 4 NUMERO DE REPONDANT 9 10 ID T 101 POSITION EN FAMILLE QS1 T 122 SEXE QS2 T 123 AGE QS2 T 168 PROFESSION QS3 T 169 REVENU QS3 Exemple 2. Vérifier la présence de caractères non numériques dans 4 champs numériques; il y a un enregistrement par observation dans le fichier Données en entrée; les enregistrements sont identifiés par un champ alphabétique; la numérotation des 5 variables n est pas contigüe; on ne demande pas en sortie les fichiers normalement produits par BUILD et ils sont définis comme fichiers temporaires (extension TMP) lesquels sont automatiquement détruits par IDAMS en fin de tâche. $RUN BUILD $FILES DATAIN = NEWDATA.DAT RECL=256 DICTOUT = DIC.TMP fichier Données en entrée fichier Dictionnaire temporaire en sortie fichier Données temporaire en sortie DATAOUT = DAT.TMP $SETUP VÉRIFICATION DE CARACTÈRES NON NUMÉRIQUES ET CHAMPS VIDES VNUM=NONC LRECL=256 PRINT=NOOU MAXERR=200 $DICT T 1 NOM DE REPONDANT T 21 ^AGE 21 2 T 22 REVENU 29 6 T 25 # DE CONTRATS DE TRAVAIL T 35 TITRE SCIENTIFIQUE 201 1

131 Chapitre 12 Vérification des codes (CHECK) 12.1 Description générale CHECK vérifie si les valeurs assignées aux variables sont correctes et dresse la liste, par ID d observation et par numéro de variable, de tous les codes incorrects («codes invalides»). Spécification des codes. Il y a deux façons de spécifier les codes des variables à vérifier. En premier lieu, les instructions de contrôle du programme contiennent un ensemble de «spécifications de codes» au moyen desquels on peut définir les variables et leurs codes corrects. Deuxièmement, l utilisateur peut fournir une liste de variables pour lesquelles les codes corrects sont à tirer des enregistrements C dans le dictionnaire. Dans n importe quelle exécution de CHECK, le programme peut appliquer la première méthode pour certaines variables et la deuxième pour d autres. La spécification des codes d une variable dans le setup a priorité sur celle du dictionnaire. Méthode utilisée pour vérifier les valeurs des données. Tant pour les variables numériques que pour les variables alphabétiques, le programme opère cette vérification caractère par caractère. Ainsi, si l on spécifie comme code correct V2=02,03, la valeur 2 dans les données sera incorrecte; un blanc de tête dans les données n est pas assimilé à zéro. Si l on spécifie les codes avec moins de chiffres que ne peut en contenir la longueur du champ de la variable, le programme assume qu il y a des zéros de tête. Ainsi, dans le cas de la spécification V2=2,3 où V2 est une variable à 2 chiffres, le programme utilisera 02, 03 comme valeurs correctes à comparer avec les données. De même si, pour une variable à 3 chiffres, -3 et 1 étaient spécifiés comme codes corrects, CHECK éditerait ces codes comme étant -03 et 001 avant de les comparer aux valeurs dans les données. Note. Si le programme trouve une erreur de syntaxe dans la spécification d un code, il poursuit la vérification des autres spécifications de codes mais ne traite pas les données Caractéristiques standard d IDAMS Sélection d observations et de variables. Le filtre standard est disponible pour sélectionner un sousensemble d observations dans le dataset d entrée. Quant aux variables, l utilisateur sélectionne celles à vérifier en les spécifiant dans une «liste de variables» et/ou dans les «spécifications de codes». Transformation de données. Les instructions Recode ne peuvent pas être utilisées. Traitement des données manquantes. CHECK ne fait pas de distinction entre les valeurs de données manquantes et les valeurs réelles; toutes les données sont traitées de la même façon.

132 112 Vérification des codes (CHECK) 12.3 Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Les enregistrements du dictionnaire sont imprimés pour toutes les variables, pas uniquement pour celles à vérifier. Informations sur les codes incorrects. CHECK imprime la(les) variable(s) ID de l observation pour chaque observation dans laquelle il trouve un code incorrect, ainsi que le numéro de la(des) variable(s) erronées et la valeur de celle(s)-ci Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. CHECK peut vérifier la validité des données par rapport à des variables numériques et à des variables alphabétiques. Si le dictionnaire contient des enregistrements C, ceux-ci peuvent être utilisés pour spécifier les codes corrects des variables. Le programme assume que les valeurs des variables numériques sont dans la forme qu elles auraient après avoir été éditées par BUILD. Ceci implique qu il n y a pas de blancs de tête (ils ont été remplacés par des zéros), que le signe négatif, s il y en a, est placé à l extrême gauche, et qu il n y a pas de point décimal explicite Structure du setup $RUN CHECK $FILES Spécification des fichiers $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications de codes (répétées autant de fois que nécessaire) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST) 12.6 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V10=3 AND V20=1-9

133 12.6 Instructions de contrôle du programme Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : DONNÉES : ÉTUDE95, VERSION 1 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : IDVA=(V1-V4) VARS=(V22-V26,V101-V102) INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. START=1/n Le numéro séquentiel de la première observation à vérifier. VARS=(liste de variables) Variables pour lesquelles les codes corrects sont à extraire des enregistrements C du dictionnaire. MAXERR=100/n Nombre maximum autorisé d observations avec des codes incorrects; si ce nombre est dépassé, le programme arrête son exécution. IDVARS=(liste de variables) Jusqu à 20 variables dont le programme imprimera la valeur s il trouve un code incorrect. La liste comporte au minimum la(les) variable(s) ID de l observation, mais peut en contenir d autres qui fournissent des informations supplémentaires à l utilisateur. Les variables peuvent être alphabétiques ou numériques. Pas de défaut. PRINT=CDICT/DICT CDIC Imprimer le dictionnaire d entrée pour toutes les variables, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. 4. Spécifications de codes (facultatif). Ces spécifications définissent les variables à vérifier ainsi que leurs valeurs de code correctes ou incorrectes. Exemples : V3=1,3,5-9 (Les données de la variable 3 peuvent avoir les codes 1,3,5-9. Toute autre valeur est incorrecte et sera signalée). V7,V9,V12-V14= - (Les données des variables 7,9 et 12 à 14 peuvent 2,50-75,100 avoir seulement les valeurs 2,50-75,100). V50 <> 75 (Les données de la variable 50 peuvent avoir n importe quel code sauf 75). Format général liste de variables = liste de valeurs des codes ou liste de variables <> liste de valeurs des codes

134 114 Vérification des codes (CHECK) Règles de codage Chaque spécification de codes doit commencer sur une nouvelle ligne. La continuation d une instruction sur la ligne suivante se fait après une virgule, et on entre un tiret. On peut utiliser autant de lignes de continuation que nécessaire. Il peut y avoir des blancs n importe où dans les spécifications. Liste de variables Chaque numéro de variable doit être précédé d un V. Les variables peuvent être spécifiées une par une (séparées par une virgule), par intervalles (séparées par un tiret), ou par une combinaison des deux (V1, V2, V10-V20). Les variables peuvent être spécifiées dans n importe quel ordre. Toutes les variables groupées dans une expression doivent avoir la même longueur de champ (par ex. pour V2,V3=10-20, V2 et V3 doivent l une et l autre avoir dans le dictionnaire la même longueur de champ). Les variables à vérifier peuvent être alphabétiques ou numériques. Correct (=) ou incorrect (<>) Un signe = indique que les codes qui suivent sont corrects pour les variables spécifiées. Tout autre code sera signalé comme étant une erreur. <> (non égal) indique que les codes qui suivent sont incorrects. Toutes les observations contenant ces codes pour les variables spécifiées seront signalées comme erreurs. Liste de valeurs des codes Les codes peuvent être spécifiés un par un (séparés par une virgule), par intervalles (séparés par un tiret), ou par une combinaison des deux. Il n est pas nécessaire d entrer des zéros de tête pour les variables numériques, mais se rappeler que si plusieurs variables sont vérifiées par rapport à des codes qu elles ont en commun, elles doivent toutes avoir la même longueur de champ que celle définie dans le dictionnaire. Pour les données contenant des chiffres décimaux, ne pas entrer le point décimal, mais donner la valeur reflétant exactement le nombre en y incluant les places pour les décimales implicites, par ex. le nombre 2 avec une décimale doit être entré comme 20. Pour les valeurs alphabétiques, on ne doit pas entrer les blancs de queue ; ils sont ajoutés par le programme de façon à correspondre à la longueur de la variable. Pour définir un blanc ou pour spécifier une valeur contenant des blancs intercalés, on place la valeurs entre primes (par ex. V10= NEW YORK, WASHINGTON, ). Les valeurs attribuées aux codes peuvent être définies dans n importe quel ordre. Notes. 1) Si deux spécifications différentes sont fournies pour la même variable, le programme utilisera seulement la dernière des deux. 2) Les spécifications de codes d une variable ont priorité sur celles figurant dans le dictionnaire pour les variables appelées avec le paramètre VARS Restrictions 1. Il peut y avoir un maximum de 20 variables ID. 2. Dans les spécifications de codes, on peut donner un maximum de 4000 codes distincts. Cette limite peut être dépassée en utilisant des intervalles de codes mais en tenant compte qu un intervalle compte pour 2 codes.

135 12.8 Exemples Exemples Exemple 1. Explorer les données en vue d identifier les codes illégaux dans les variables qualitatives et les valeurs en dehors des intervalles corrects dans les variables quantitatives; les seuls codes corrects pour les variables V10,V12 et V21 à V25 sont 1 à 5 et 9 ; le code 9998 est illégal pour la variable V35; les codes 0 et 8 sont illégaux pour les variables V41,V44,V46; les variables V71 à V77 doivent avoir des valeurs entre 0 et 100, ou la valeur 999; les observations sont identifiées par les variables V1,V2 et V4 ; les valeurs de codes du dictionnaire ne sont pas utilisées. $RUN CHECK $FILES PRINT = CHECK1.LST DICTIN = STUDY1.DIC fichier Dictionnaire en entrée DATAIN = STUDY1.DAT fichier Données en entrée $SETUP VÉRIFICATION DES CODES ILLEGAUX ET DES VALEURS EN DEHORS DES INTERVALLES IDVARS=(V1,V2,V4) V10,V12,V21-V25=1-5,9 V35<>9998 V41,V44,V46<>0,8 V71-V77=0-100,999 Exemple 2. Vérifier la validité des codes seulement pour un sous-ensemble d observations (quand la variable V21 est égale à 2 ou 3 et la variable V25 est égale à 1); les codes corrects sont tirés des enregistrements C du dictionnaire pour certaines variables; en outre, une spécification de code est fournie pour la variable V48; les observations sont identifiées par la variable V1. $RUN CHECK $FILES DICTIN = STUDY2.DIC DATAIN = STUDY2.DAT PRINT = CHECK.PRT $SETUP INCLUDE V21=2,3 AND V25=1 VÉRIFICATION DES CODES ILLEGAUX IDVARS=V1 VARS=(V18-V28,V36-V41) V48=15-45,99 fichier Dictionnaire en entrée fichier Données en entrée fichier Résultats

136

137 Chapitre 13 Vérification de cohérence logique (CONCHECK) 13.1 Description générale Utilisé conjointement avec les instructions Recode d IDAMS, CONCHECK fournit le moyen de vérifier les erreurs de logique en détectant les relations illégales entre les valeurs de différentes variables. Les instructions conditionnelles dans le setup de CONCHECK servent à donner un nom à chaque test et à indiquer au programme les variables qu il devra imprimer en cas d erreurs. Les vérifications sont définies avec Recode en testant une relation logique et en donnant à la variable résultat la valeur 1 si la relation n est pas satisfaite; par ex. si V3 ne peut logiquement pas prendre la valeur 9 quand V2 a la valeur 3, on peut utiliser l instruction Recode suivante : IF V2 EQ 3 AND V3 EQ 9 THEN R100=1 ELSE R100=0 Quand le programme trouve une erreur de logique dans une observation, il imprime les valeurs des variables servant à identifier celle-ci. En outre, il imprime les valeurs d une série de variables définies avec le paramètre VARS. Ces variables servent à donner une vue générale de l observation, en vue d identifier plus aisément la raison de l erreur de logique et de s assurer que la correction d une erreur n en causera pas une autre. Pour chaque test qui échoue, on peut demander au programme d imprimer un jeu séparé de variables, consistant normalement des variables particulières en train d être vérifiées, du numéro et du nom du test Caractéristiques standard d IDAMS Sélection d observations et de variables. A l aide du filtre standard, on peut sélectionner un sousensemble d observations à vérifier. Les variables à imprimer en cas d erreurs de logique sont spécifiées avec le paramètre VARS (pour l observation) ou avec le paramètre CVARS (pour une condition individuelle). Transformation de données. Les instructions Recode sont utilisées pour rédiger les vérifications de logique requises. Traitement des données manquantes. CONCHECK ne fait pas de distinction entre les valeurs de données manquantes et les valeurs réelles; toutes les données sont traitées de la même façon Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme.

138 118 Vérification de cohérence logique (CONCHECK) Erreurs de logique. Pour chaque observation contenant une erreur de logique, le programme imprime une ligne d information contenant le numéro séquentiel de l observation et, à titre facultatif, les valeurs des variables ID spécifiées. À la suite, le programme imprime les valeurs des variables spécifiées avec le paramère VARS. Pour chaque erreur individuelle détectée dans une observation, le programme imprime le numéro et le nom du test correspondant ainsi que les valeurs des variables spécifiées dans les instructions de test. Statistique des erreurs. A la fin de l exécution, le programme imprime un tableau où figurent le nombre des observations traitées, le nombre d observations contenant au moins une erreur de logique et, pour chaque test de logique, son numéro et son nom ainsi que le nombre d observations n ayant pas passé le test Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. On peut utiliser des variables numériques ou alphabétiques Structure du setup $RUN CONCHECK $FILES Spécification des fichiers $RECODE Instructions Recode avec les vérifications de logique $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Instructions de test $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST) 13.6 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-4 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V1=1

139 13.6 Instructions de contrôle du programme Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : VÉRIFICATION DE LOGIQUE DANS LES DONNÉES ÉTUDE95 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : IDVARS=(V1,V3-V4) MAXERR=50 INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MAXERR=999/n Le nombre maximum d erreurs de logique à imprimer par CONCHECK avant qu il n arrête son exécution. IDVARS=(liste de variables) Jusqu à 5 variables dont les valeurs seront imprimées pour identifier les observations contenant des erreurs de logique. Défaut : le programme imprime le numéro séquentiel de l observation. VARS=(liste de variables) Variables à imprimer pour toute observation contenant au moins une erreur. FILLCHAR= string Jusqu à 8 caractères utilisés pour séparer les variables dans le listage des erreurs. Défaut : 2 espaces. PRINT=(CDICT/DICT, VNAMES) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. VNAM Dans le listage des valeurs des variables pour les observations contenant des erreurs, imprimer les 6 premiers caractères du nom des variables au lieu de leur numéro. 4. Instructions de test (il faut en donner au moins une). Pour chacune des vérifications logiques à effectuer, on fournit une instruction contenant la référence aux instructions Recode correspondantes, le nom du test et la liste des variables à imprimer si le test échoue. Les règles de codage sont les mêmes que pour les paramètres. Chaque instruction de test doit débuter sur une nouvelle ligne. Exemple : TEST=R3 CVARS=(V34,V36,V52) - CNAME= ^AGE, SEXE ET L ÉTAT DE GROSSESSE TEST=numéro de variable Variable pour laquelle une valeur différente de zéro indique que le test de logique a échoué. Pas de défaut.

140 120 Vérification de cohérence logique (CONCHECK) CVARS=(liste de variables) Liste des variables dont le programme doit imprimer les valeurs quand il trouve une erreur de logique. Défaut : le programme imprime uniquement les variables spécifiées avec IDVARS et VARS. CNUM=n Numéro du test. Défaut : le numéro séquentiel du test. CNAME= string Nom de ce test, pouvant aller jusqu à 40 caractères. Défaut : pas de nom Restrictions 1. Le programme imprime seulement les 4 premiers caractères des variables alphabétiques. 2. Le nom donné aux tests ne peut pas dépasser 40 caractères. 3. Il peut y avoir un maximum de 5 variables ID. 4. Le programme imprime au maximum 20 variables pour chaque observation erronée (liste de variables fournies avec VARS). 5. Le programme imprime au maximum 20 variables pour chaque test (liste de variables fournies avec CVARS) Exemples Exemple 1. Vérifier la relation entre V6 et V7 et entre V20 et V21; les variables ID V2 et V3 seront imprimées pour chaque observation erronée avec les valeurs des variables clés V8-V10; les noms des variables seront imprimés. $RUN CONCHECK $FILES PRINT = CONCH1.LST DICTIN = MY.DIC fichier Dictionnaire en entrée DATAIN = MY.DAT fichier Données en entrée $RECODE R1=0 R2=0 IF V5 INLIST(1-5,8) AND V7 EQ 2 THEN R1=1 IF V20 LE 3 AND V21 EQ 5 OR V20 EQ 8 AND V21 EQ 7 OR V20 EQ V21 THEN R2=1 $SETUP VÉRIFICATION DE DEUX RELATIONS PRINT=VNAMES IDVARS=(V2,V3) VARS=(V8-V10) TEST=R1 CNAME= Test No 1 CVARS=(V5,V7) TEST=R2 CNAME= Test No 2 CVARS=(V20,V21) Exemple 2. Vérifier 5 conditions dans la partie 2 d un questionnaire; la numérotation des tests débutera à 201; pour chaque questionnaire contenant une erreur, toutes les variables de la partie 2 seront imprimées avec les variables clés de la partie 1 (V5-V10); en outre, pour chaque test non réussi, les variables particulières utilisées dans le test seront également imprimées. On notera l utilisation de la fonction SELECT de Recode pour initialiser à 0 les variables résultat correspondantes.

141 13.8 Exemples 121 $RUN CONCHECK $FILES DICTIN = MY.DIC fichier Dictionnaire en entrée DATAIN = MY.DAT fichier Données en entrée $SETUP VÉRIFICATION DE LOGIQUE - PARTIE 2 MAXERR=400 IDVARS=(V1,V3) VARS=(V5-V10,V200-V231) TEST=R1 CNUM=201 CVARS=(V203-V205) TEST=R2 CNUM=202 CVARS=(V203,V210-V212) TEST=R3 CNUM=203 CVARS=(V214,V215) TEST=R4 CNUM=204 CVARS=(V222-V226) TEST=R5 CNUM=205 CVARS=(V229,V230) $RECODE R900=1 A SELECT (FROM=(R1-R5), BY R900) = 0 IF R900 LT 5 THEN R900=R900+1 AND GO TO A IF V203 IN(1-5,17,20-25) AND V204 EQ 3 OR V205 EQ M THEN R1=1 IF V203 GT 6 AND MDATA(V210,V211,V212) THEN R2=1 IF 2*TRUNC(V214/2) EQ V214 OR V215 EQ 0 THEN R3=1 IF COUNT(1,V222-V226) LT 2 THEN R4=1 IF MDATA(V229) AND NOT MDATA(V230) THEN R5=1

142

143 Chapitre 14 Vérification de la fusion des enregistrements (MERCHECK) 14.1 Description générale Avec un fichier de données contenant des enregistrements multiples par observation, le programme MER- CHECK sert à détecter et à corriger les erreurs provenant d une fusion défectueuse de ceux-ci (enregistrements manquants, en double ou invalides). Il produit en sortie un fichier contenant un nombre égal d enregistrements par observation, en mettant des caractères de remplissage dans les enregistrements manquants et en supprimant ceux qui sont en double ou invalides. Bien qu écrit à l origine pour vérifier des données sous forme d image-carte, les enregistrements de données en entrée peuvent avoir n importe quelle longueur jusqu à 128 caractères. Etant donné que tous les autres programmes d IDAMS supposent que dans un fichier il y a le même nombre d enregistrements pour chaque observation, l utilisation de MERCHECK constitue une étape initiale de vérification qui s avère essentielle pour tous les fichiers de données contenant plus d un enregistrement par observation. Manière d opérer du programme. L utilisateur founit un jeu de descriptions d enregistrement définissant les types d enregistrement autorisés. Pendant qu il traite les données, le programme charge dans une zone de travail tous les enregistrements contigus de données en entrée ayant une valeur identique d ID d observation. Il compare ces enregistrements un par un avec les types d enregistrements définis par l utilisateur et construit une observation en sortie. Les enregistrements sont remplis avec des caractères de remplissage, supprimés, reclassés, etc. selon ce qui est nécessaire. L observation est ensuite transférée dans le fichier en sortie et le programme repart lire le jeu d enregistrements en entrée pour l observation suivante. Les corrections effectuées par le programme sur les données en entrée sont documentées dans les résultats. Identification des observations et des enregistrements. MERCHECK requiert que la position du(des) champ(s) ID des observations soit la même pour tous les enregistrements. Ces champs peuvent se trouver dans des colonnes non contiguës et être composés de n importe quels caractères. Les types d enregistrement sont identifiés à l aide d un seul champ (de 1-5 colonnes) pouvant contenir n importe quels caractères sauf des blancs. Ci-dessous est présentée une esquisse de fichier de données avec deux types d enregistrement. Les séries de points représentent des données ou des champs avec des blancs....se se se se se se er champ d ID 2ème champ d ID champ d ID d un enregistrement Dans cet exemple, il y a 2 types d enregistrement pour chaque observation, identifiés par un 10 ou un 12 dans les colonnes 28, 29. L ID des observations est constitué de deux champs non contigus, les colonnes 4-7 et Par conséquent, SE2301 est l ID d une observation, de même que SE2302 et SE2401.

144 124 Vérification de la fusion des enregistrements (MERCHECK) Elimination des enregistrements invalides. Le programme peut à titre facultatif imprimer, mais il ne transfère jamais au fichier en sortie un enregistrement de données en entrée, connu comme enregistrement «extra», contenant un ID d enregistrement non défini par les descriptions d enregistrement. En outre, il y a deux options permettant d éliminer d autres types d enregistrement invalides. Les enregistrements dépourvus d une constante spécifiée sont rejetés. (Voir les paramètres CONSTANT, CLOCATION et MAXNOCONSTANT). L utilisateur peut fournir la valeur ID de la première observation valide. Tous les enregistrements contenant une valeur inférieure à celle spécifiée sont rejetés. (Voir le paramètre BEGINID). Options pour le traitement des observations avec enregistrements manquants. L utilisateur doit choisir, avec le paramètre DELETE, l une des trois manières possibles de traiter les observations incomplètes. 1. DELETE=ANYMISSING. Le programme n envoie pas d observation en sortie lorsqu un ou plus d un de ses types d enregistrement est manquant. 2. DELETE=ALLMISSING. Le programme n envoie une observation en sortie que s il trouve au moins un numero ID d enregistrement valide. 3. DELETE=NEVER. Le programme n exclut jamais du fichier en sortie une observation dont un ou plus d un enregistrement manque. Dans ce cas, il construit un enregistrement à la place de chaque type d enregistrement manquant et le «remplit» avec des blancs ou avec des valeurs fournies par l utilisateur. Voir le paramètre PADCH et le paramètre PAD dans le paragraphe ci-après consacré aux descriptions des enregistrements. Le remplissage est effectué dans d autres colonnes que celles réservées aux champs ID des observations et des enregistrements. Les ID appropriés pour les observations et pour les enregistrements sont toujours insérés par le programme. Options pour le traitement des observations avec enregistrements en double. Un enregistrement en double est celui qui possède les mêmes ID pour l observation et pour l enregistrement qu un autre enregistrement, quel que soit par ailleurs le restant de leur contenu. S il y a plus d un enregistrement en entrée avec les mêmes ID d observation et d enregistrement, l utilisateur spécifie lequel est à conserver. Par exemple, l option DUPKEEP=1 a pour effet que le programme gardera le premier enregistrement et laissera les autres de côté. L observation n est pas transférée dans le fichier en sortie si le programme trouve un nombre d enregistrements en double inférieur à n (pour DUPKEEP=n), càd que pour supprimer des observations ayant des enregistrements en double, il faut spécifier une valeur supérieure à n. Attention : il peut arriver que des enregistrements avec des ID en double ne contiennent pas les mêmes données. C est à l utilisateur qu il appartient de déterminer quel enregistrement il convient de garder. Options pour le traitement des enregistrements supprimés. Les enregistrements de données en entrée qui sont supprimés, càd qui ne sont pas transférés dans le fichier en sortie, peuvent être sauvegardés dans un fichier à part (voir le paramètre WRITE). Sélection des types d enregistrement. Avec MERCHECK, l utilisateur peut sélectionner des sousensembles de types d enregistrement à partir d un fichier plus vaste de données en entrée. Il suffit d inclure uniquement les ID voulus dans les descriptions d enregistrement et de choisir l option appropriée pour l impression des erreurs (par exemple, EXTRAS=n ou PRINT=ERRORS) ainsi qu une valeur MAXERR réaliste. Il est essentiel de minimiser le nombre d observations avec erreurs qu on demande au programme d imprimer, étant donné que pratiquement chaque observation dans le fichier de données en entrée sera signalée comme erronée du fait des enregistrements ayant un ID invalide (càd ceux qui n ont pas été spécifiés dans les descriptions d enregistrements). Possibilités de redémarrer. Dans le cas où une exécution de MERCHECK se termine avant que toutes les données en entrée aient été traitées, on peut utiliser BEGINID pour redémarrer le programme. L utilisateur doit déterminer l ID de la dernière observation traitée et fixer pour BEGINID cette valeur+1. (Si l exécution se termine parce que la valeur assignée au paramètre MAXERR a été dépassée, le dernier enregistrement en entrée lu par le programme sera imprimé en sortie, et il faudra assigner à BEGINID la valeur de l ID de l observation à laquelle appartient l enregistrement). Note. MERCHECK étant destiné à vérifier des fichiers de données avec plusieurs enregistrements par observation, il faut qu il y ait un ID d enregistrement inséré dans chacun d eux. Théoriquement, on pourrait

145 14.2 Caractéristiques standard d IDAMS 125 utiliser MERCHECK pour éliminer les enregistrements en double ainsi que ceux sans constante particulière pour des fichiers de données contenant un seul enregistrement par observation. Ceci n est toutefois possible que si chaque enregistrement contient une constante dont la valeur peut être traitée comme étant son ID. Il est préférable d effectuer cette opération à l aide du programme SUBSET, en utilisant un filtre pour éliminer les enregistrements sans constante et l option DUPLICATE=DELETE pour éliminer les enregistrements en double. (Voir le descriptif de SUBSET) Caractéristiques standard d IDAMS Sélection des observations et des variables. Pas disponible avec ce programme, sauf pour ce qui a été défini ci-dessus. Transformation des données et données manquantes. Ces options ne sont pas applicables à MER- CHECK Résultats Observations avec des erreurs. Résultats complets avec la documentation sur chaque observation erronée comportent trois parties : un résumé des erreurs, les enregistrements non envoyés en sortie (mauvais enregistrements), et l observation telle qu elle figure dans le fichier en sortie (bons enregistrements). Voir ci-dessous pour plus de détails. Dans le cas de données avec un nombre élevé de types d enregistrement et contenant beaucoup d observations erronées, le listage de celles-ci peut s avérer coûteux et, pour certaines tâches, n être pas du tout nécessaire. La taille du listage dépend du niveau de connaissance qu un utilisateur a de ses données, ainsi que de son habilité à corriger ou à revérifier les erreurs. Par exemple, si un utilisateur s attend à un remplissage considérable mais pratiquement à aucun enregistrement en double ou invalide, il peut être suffisant d imprimer seulement le résumé des erreurs, de sauvegarder les observations erronées (s il y en a) (voir l option WRITE=BADRECS) et d en demander la liste plus tard. Différents moyens de contrôler la taille du listage existent avec les paramètres PRINT, EXTRAS, DUPS et PADS. Observations avec des erreurs : résumé des erreurs. Ce résumé consiste en l identification de l observation erronée (compte séquentiel de l observation ou ID de l observation) et de l un des messages à propos des trois types d erreur pouvant se produire. Le compte séquentiel des observations ne prend pas en considération les enregistrements ou les observations qui ont été éliminés du fait qu ils apparaissent avant leur ID ou qu ils ne possèdent pas la constante requise. L ID de l observation est tiré du (ou des) champ(s) qui lui sont réservés, tel(s) que spécifié(s) sur le paramètre IDLOC. Les 3 types d erreurs sont signalés : 1. types d enregistrement invalides, 2. observations avec des enregistrements manquants, 3. observations avec des enregistrements en double. Observations avec des erreurs : mauvais enregistrements. Il s agit des enregistrements en double et des enregistrements invalides, ainsi que de tous les enregistrements se rapportant à des observations rejetées parce qu il leur manquait un ou des enregistrement(s). Ils sont imprimés dans l ordre dans lequel ils apparaissent dans le fichier en entrée. Observations avec des erreurs : bons enregistrements. Si une observation est gardée après que le programme ait rencontré une erreur, les enregistrements qui sont envoyés dans le fichier en sortie, y compris les enregistrements contenant des caractères de remplissage, sont imprimés. Enregistrements antérieurs à celui précisé avec BEGINID. Leur impression est facultative. Voir le paramètre PRINT=LOWID. Enregistrements mal classés. Normalement, le programme les imprime, bien qu il soit possible de ne pas le faire. Voir le paramètre PRINT=NOSORT. Enregistrements dépourvus de constante. Tout enregistrement auquel manque la constante spécifiée

146 126 Vérification de la fusion des enregistrements (MERCHECK) par l utilisateur dans les bonnes colonnes est imprimé. L impression peut être supprimée. Voir le paramètre PRINT=NOCONSTANT. Statistiques relatives à l exécution. À la fin des résultats, le programme imprime le nombre total d enregistrements manquants, d enregistrements invalides et d enregistrements en double, ainsi que le nombre total d observations qui ont été lues, envoyées en sortie, supprimées et qui contiennent des erreurs Données en sortie Les données en sortie se trouvent dans un fichier contenant des enregistrements de même longueur que celle des données en entrée et le même nombre d enregistrements par observation. Chaque observation se voit affecter les enregistrements qui s y rapportent (avec leur ID) tels que spécifiés dans les descriptions d enregistrements Données en entrée Les données en entrée consistent en un fichier d enregistrements de longueur fixe, normalement triés sur la base de l ID des observations et, à l intérieur de chaque observation, selon l ID des enregistrements. La longueur de l enregistrement ne peut pas dépasser 128 caractères Structure du setup $RUN MERCHECK $FILES Spécificaition des fichiers $SETUP 1. Titre 2. Paramètres 3. Descriptions des enregistrements (répétées autant de fois que nécessaire) $DATA (conditionnel) Données Fichiers : FT02 enregistrements rejetés (mauvaises observations) quand WRITE=BADRECS est spécifié DATAxxxx données en entrée (omettre si $DATA est utilisé) DATAyyyy données en sortie (bonnes observations) PRINT résultats (défaut IDAMS.LST) 14.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous.

147 14.7 Instructions de contrôle du programme Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : VÉRIFICATION DE LA FUSION DES DONNÉES ÉTUDE95 2. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : MAXE=25 RECORDS=8 IDLOC=(1,5) INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Données en entrée. ddname par défaut : DATAIN MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser par le programme. Défaut : toutes les observations sont utilisées. MAXERR=10/n Nombre maximum d observations avec des erreurs. Quand il y a n+1 observations erronées, l exécution du programme se termine. Les observations avant BEGINID, celles qui ne sont pas classées et les enregistrements sans la constante ne comptent pas comme des observations erronées. Ces dernières sont celles avec des enregistrements invalides, en double ou manquants. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Données en sortie. ddname par défaut : DATAOUT. RECORDS=2/n Le nombre d enregistrements par observation (tel que défini dans les descriptions d enregistrement). IDLOC=(s1,e1, s2,e2,...) Colonnes de début et de fin pour 1-5 champs d identification des observations. Il faut indiquer au moins un champ. S il y en a plus d un, il faut les spécifier dans l ordre selon lequel les données en entrée sont classées. Pas de défaut. BEGINID= id de l observation Observation valide avec l ID le plus petit, à partir de laquelle le programme commencera à traiter les données : 1 à 40 caractères placés entre primes s ils contiennent des caractères non alphanumériques. Dans le cas d observations avec des ID à champs multiples, la valeur doit être la concaténation des ID individuels fournis dans l ordre du tri. Défaut : blancs. NOSORT=0/n Le nombre maximum d observations non classées qui sera toléré par le programme. Son exécution se termine s il y a n+1 observations non classées. DELETE=NEVER/ANYMISSING/ALLMISSING Spécifie à quelles conditions, concernant les enregistrements manquants, le programme supprimera une observation. NEVE Ne rejette jamais d observation pour cause d enregistrements manquants. S il manque un enregistrement quelconque ou bien tous, le programme mettra des caractères de remplissage (des blancs ou les valeurs spécifiées par l utilisateur) dans tous les enregistrements manquants et il rejettera, avant d envoyer l observation en sortie, tout enregistrement ayant un ID invalide. ANYM N envoie pas en sortie une observation à laquelle il manque un ou plus d un enregistrement, càd que toute observation incomplète ne sera pas envoyée en sortie.

148 128 Vérification de la fusion des enregistrements (MERCHECK) ALLM N envoie pas en sortie une observation dans laquelle il n y a pas d enregistrement valide, càd lorsque tous les les ID des enregistrements d une observation sont invalides. PADCH=x Caractère à utiliser par le programme pour le remplissage des enregistrements. Un caractère non alphanumérique doit être placé entre primes. Voir aussi ci-après sous les «Descriptions des enregistrements» plus de détails sur les valeurs de remplissage. Défaut : blancs. DUPKEEP=1/n Spécifie (pour les enregistrements en double) que le programme doit garder le n-ème double qu il rencontre. S il en rencontre moins de n, l observation dans laquelle ils se trouvent est supprimée (ceci même au cas où DELETE=NEVER est spécifié). WRITE=BADRECS Créer un fichier avec les enregistrements rejetés (mauvaises observations). CONSTANT=valeur La valeur d une constante. À placer entre primes si elle contient des caractères non alphanumériques. Tout enregistrement sans constante est rejeté. La constante doit avoir la même localisation dans tous les enregistrements en entrée quel que soit le type d enregistrement. CLOCATION=(s, e) (À spécifier uniquement si CONSTANT est utilisé). Il s agit du champ de la constante. s Indique la colonne de début du champ de la constante dans chaque enregistrement. e Indique la colonne de fin du champ. MAXNOCONSTANT=0/n (À spécifier uniquement si CONSTANT est utilisé). C est le nombre maximum d enregistrements sans constante qui doit être toléré par le programme. Quand le programme rencontre n+1 enregistrements, MERCHECK termine l exécution. PRINT=(CONSTANT/NOCONSTANT, SORT/NOSORT, ERRORS/NOERRORS, LOWID, BADRECS,GOODRECS) CONS Imprime les enregistrements sans la constante spécifiée. NOCO N imprime pas les enregistrements sans constante. SORT Imprime une notice de 3 lignes pour les observations non classées. NOSO N imprime pas les observations non classées. LOWI Imprime tous les enregistrements avec un ID inférieur à celui spécifié avec BEGINID. Les options d impression suivantes concernent le listage des observations avec erreurs (càd des enregistrements manquants, invalides ou en double). ERRO Imprime un résumé des erreurs pour chaque observation contenant au moins une erreur. NOER N imprime pas le résumé des erreurs. BADR Imprime les enregistrements rejetés (mauvais) pour les observations avec erreurs. GOOD Imprime les enregistrements conservés (bons) pour les observations avec erreurs. EXTRAS=0/n DUPS=0/n PADS=0/n Dans le cas où une observation a moins de n enregistrements invalides (extra/en double/avec remplissage) et pas d autres erreurs, le programme n imprime rien pour cette observation. Ainsi, si EXTRAS=3, le programme n imprime rien pour une observation ayant seulement 2 enregistrements invalides et aucun enregistrement manquant ou en double, mais s il manquait 1 enregistrement à l observation, le programme imprimerait un rapport selon les spécifications assignées à PRINT. Défaut : le programme imprimera un rapport pour toutes les observations avec erreurs selon les spécifications de PRINT.

149 14.8 Restrictions Descriptions des enregistrements (obligatoire : une description pour chaque type d enregistrement sélectionné pour être envoyé en sortie). Les règles de codage sont les mêmes que pour les paramètres. Chaque description doit débuter sur une nouvelle ligne. Exemple : RECID=21 RIDLOC=1 RECID=3 RIDLOC=2 PAD= RECID=xxxxx Un code de type d enregistrement, de 1-5 caractères non blancs. À placer entre primes s il contient des minuscules. Pas de défaut. RIDLOC=s Colonne de début du champ réservé à l ID de l enregistrement. Pas de défaut. PAD= xxx... Valeurs à utiliser pour le remplissage d un enregistrement de ce type. La chaîne de caractères doit être placée entre primes si elle contient des valeurs non alphanumériques. Le premier caractère sera placé en colonne 1 de l enregistrement envoyé en sortie, etc. Pour passer à la ligne suivante, entrer un tiret. Si la longueur de la chaîne est inférieure à celle de l enregistrement, le programme remplit le reste avec les caractères spécifiés par PADCH. Défaut : PADCH est utilisé pour toute la chaîne de caractères. Note : l ID correct de l observation ainsi que celui de l enregistrement sont insérés automatiquement aux bonnes positions dans l enregistrement contenant un remplissage effectué par le programme Restrictions 1. Pour les données en entrée, la longueur maximum de l enregistrement est Le nombre maximum d enregistrements en sortie est de 50 par observation. 3. Le programme se réserve un espace de travail pour, au maximum, 60 enregistrements ayant un ID d observation identique. Dans ce chiffre sont inclus les enregistrements invalides, en double ainsi que ceux qui sont valides, et aussi les enregistrements remplis par le programme. MERCHECK termine son exécution s il trouve dans la zone de travail plus de 60 enregistrements avec le même ID d observation. 4. La longueur globale des champs réservés à l ID d une observation est de 40 caractères. 5. La longueur maximum d un champ réservé à l ID d un enregistrement est de 5 caractères contigus et non blancs. 6. La longueur maximum d une constante à vérifier est de 12 caractères. 7. Le nombre maximum de champs réservés à l ID d une observation est Exemples Exemple 1. Vérifier la fusion de trois enregistrements par observation, lesquels sont de type 1, 2 et 3 respectivement; les enregistrements manquants sont remplis par le programme : les enregistrements 1 et 2 sont remplis avec des blancs, l enregistrement 3 est rempli avec une copie des valeurs assignées au paramètre PAD; les observations sans enregistrements valides (le cas quand tous les enregistrements d une observation ont des types invalides) sont envoyées dans le fichier BAD ; les observations ayant jusqu à quatre enregistrements en double sont également envoyées dans le fichier BAD (si pour une observation il y a 5 ou plus de 5 doubles d un type particulier d enregistrement, celle-ci est gardée comme une bonne observation en utilisant le 5ème double et en éliminant les autres).

150 130 Vérification de la fusion des enregistrements (MERCHECK) $RUN MERCHECK $FILES PRINT = MERCH1.LST FT02 = \DEMO\BAD.DAT fichier pour les mauvaises observations DATAIN = \DEMO\DATA1.DAT fichier Données en entrée DATAOUT = \DEMO\DATA2.DAT fichier Données en sortie (bonnes observations) $SETUP VÉRIFICATION DE LA FUSION DE DONNÉES IDLO=(1,3,5,6,10,10) RECO=3 DELE=ALLM DUPK=5 WRITE=BADRECS MAXE=200 RECID=1 RIDLOC=12 RECID=2 RIDLOC=12 RECID=3 RIDLOC=12 PAD= Exemple 2. Vérifier les données, en supprimant toutes les observations avec des enregistrements manquants et en éliminant celles qui n appartiennent pas à l étude; le fichier Données contient deux enregistrements par observation; on garde les observations ayant des enregistrements en double (en laissant tomber tous les doubles d une même série sauf le premier); il y a un type d enregistrement TT en colonnes 4 et 5 d un enregistrement et un type AB en colonnes 7 et 8 de l autre; l ID de l étude, HST, doit figurer dans les colonnes de chaque enregistrement. $RUN MERCHECK $FILES FT02 = BAD.DAT fichier pour les mauvaises observations DATAIN = DATA.DAT RECL=126 fichier Données en entrée DATAOUT = GOOD.DAT fichier Données en sortie (bonnes observations) $SETUP VÉRIFICATION DE LA FUSION DE DONNÉES IDLO=(1,3) RECO=2 WRITE=BADRECS MAXE=20 - CONS=HST CLOC=(124,126) RECID=TT RIDLOC=4 RECID=AB RIDLOC=7

151 Chapitre 15 Correction de données (CORRECT) 15.1 Description générale CORRECT offre les moyens de corriger les données dans un dataset IDAMS. Il est possible de corriger les valeurs de variables individuelles dans les observations qu on spécifie ou de supprimer des observations entières. CORRECT est utile pour corriger des erreurs dans des variables spécifiques pour des observations spécifiées, telles qu elles ont été détectées par exemple par BUILD, CHECK ou CONCHECK. La préparation des instructions de mise à jour est aisée. Le programme vérifie la compatibilité entre les données et les corrections et il imprime une bonne documentation décrivant toutes les corrections effectuées. Manière de procéder du programme. En premier lieu CORRECT lit le dictionnaire et stocke les informations relatives aux variables dans le dataset. Ensuite il exécute chaque instruction de correction de données. Après avoir lu une instruction, CORRECT lit le fichier Données et copie les observations jusqu à ce qu il rencontre l observation mentionnée dans l instruction. Puis, il exécute l instruction et, selon ce qui est demandé, soit : (i) il imprime l observation et l envoie telle quelle dans le fichier de sortie; (ii) il corrige les valeurs spécifiées et envoie l observation en sortie; (iii) il supprime l observation du fichier en sortie. Après avoir traité toutes les instructions, le programme envoie dans le fichier en sortie le restant des observations (s il y en a), et termine son exécution normalement. Si CORRECT rencontre des erreurs dans l ordre des instructions ou dans celui des observations ou encore dans la syntaxe des instructions de correction, il documente la situation dans le listage et continue son exécution avec l instruction suivante. Correction des variables. L utilisateur spécifie l identification de l observation suivie par les numéros des variables à corriger avec leur nouvelle valeur. Il est possible de corriger les valeurs de variables numériques (sans ou avec décimales) aussi que de variables alphabétiques. Correction de variables servant à identifier les observations. S il faut corriger un champ ID, l ordre sera normalement affecté et le paramètre CKSORT=NO doit donc être spécifié. S il y a des caractères non numériques erronés dans la variable ID, il faut placer sa valeur entre primes dans l instruction de correction. Suppression d observations. L utilisateur peut supprimer une observation du fichier Données en spécifiant son ID et le mot «DELETE». Listage d observations. L utilisateur peut imprimer une observation particulière en spécifiant son ID et le mot «LIST» Caractéristiques standard d IDAMS Sélection d observations et de variables. On peut sélectionner un sous-ensemble d observations à traiter et à envoyer en sortie en incluant un filtre standard. Sélection de variables est inappropriée. Transformation de données. Les instructions Recode ne peuvent pas être utilisées. Traitement des données manquantes. CORRECT ne fait pas de distinction entre les valeurs correspon-

152 132 Correction de données (CORRECT) dant à des données manquantes et celles représentant des données réelles; le concept ne s applique pas aux opérations du programme Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Les enregistrements du dictionnaire sont imprimés pour toutes les variables, pas uniquement pour celles faisant l objet de corrections. Listage des instructions de corrections. Les instructions de corrections sont toujours imprimées. À titre facultatif, le programme imprime aussi avec chaque correction : (1) les enregistrements de données en entrée, (2) les enregistrements supprimés, ou (3) les enregistrements corrigés (voir le paramètre PRINT) Dataset en sortie Une copie du dictionnaire est toujours envoyée en sortie. Si on souhaite s en passer, il est possible d omettre la définition du fichier DICTOUT. Les données sont toujours envoyées dans un fichier en sortie, même s il n y a pas de corrections ou de suppressions Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Normalement, CORRECT s attend à ce que les observations soient rangées dans l ordre ascendant de leurs variables ID. L utilisateur peut toutefois (à l aide du paramètre CKSORT) indiquer que les observations ne sont pas dans l ordre ascendant. Il convient d utiliser cette option avec précaution : l ordre des instructions de corrections doit épouser exactement l ordre des données dans le fichier Structure du setup $RUN CORRECT $FILES Spécification des fichiers $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Instructions de corrections (répétées autant de fois que nécessaire) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie DATAyyyy données en sortie PRINT résultats (défaut IDAMS.LST)

153 15.7 Instructions de contrôle du programme Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V1=10,20,30 AND V12=1,3,7 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : CORRECTION DE DONNÉES ÉTUDE95 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : PRINT=CORRECTIONS, IDVARS=V4 INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Si MAXC=0, le programme vérifiera dans toutes les instructions de corrections s il n y a pas d erreurs de syntaxe mais ne traitera pas les données. Défaut : toutes les observations seront utilisées par le programme. IDVARS=(liste de variables) Jusqu à 5 variables pour les champs servant à identifier les observations. Si plus d un champ ID est spécifié, il faut indiquer les numéros de variables dans l ordre de tri descendant. Pas de défaut. CKSORT=YES/NO Sert à indiquer au programme s il doit vérifier que le(s) champ(s) ID des observations sont dans l ordre séquentiel ascendant. L exécution se termine quand une observation hors de l ordre est trouvée. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. PRINT=(DELETIONS, CORRECTIONS, CDICT/DICT) DELE Imprimer les observations pour lesquelles l option de suppression est spécifiée dans les instructions de corrections. CORR Imprimer les observations corrigées. CDIC Imprimer le dictionnaire d entrée pour toutes les variables, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. 4. Instructions de corrections. Elles servent à indiquer au programme laquelle des options de listage, de suppression ou de correction appliquer et pour quelles observations. Exemples : ID=1026,V5=9, - (Dans l observation avec ID "1026" changer V6=22 la valeur du V5 en 9 et la valeur du V6 en 22). ID= JOHN DOE,DELETE (Supprimer du fichier en sortie l observation avec ID "JOHN DOE"). ID=091,3,LIST (Imprimer l observation avec ID "091","3"). ID=023,16,V8= DON_T,- (Changer la valeur du V8 en DON T V9= TEACH RES et la valeur du V9 en TEACH,RES)

154 134 Correction de données (CORRECT) Règles de codage Chaque instruction de corrections doit commencer sur une nouvelle ligne. La continuation d une instruction sur la ligne suivante se fait après une virgule, et on entre un tiret après la virgule à la fin d une correction complète d une variable. On peut utiliser autant de lignes de continuation que nécessaire. Il peut y avoir des blancs n importe où dans les instructions. Les instructions de corrections doivent être rangées dans exactement la même séquence relative selon les valeurs ID des observations que les observations. Valeurs ID de l observation L observation à corriger est identifiée à l aide du mot clé «ID» suivi de la (ou des) valeur(s) de la (des) variable(s) ID. Dans l instruction, la liste des valeurs n est pas placée entre parenthèses. Chaque valeur, y compris la dernière, doit être suivie d une virgule, et l ordre des valeurs doit correspondre à l ordre des variables ID spécifiées avec le paramètre IDVARS. Le nombre de chiffres ou de caractères d une valeur doit être égal à la longueur de la variable telle que définie dans le dictionnaire, càd que l on peut avoir besoin d insérer les zéros de tête. Les valeurs contenant des caratères non numériques doivent être placées entre primes, par ex. ID=9, PAM. Type d instruction L identification de l observation est suivie ou du mot «LIST», ou du mot «DELETE», ou par une chaîne de corrections de variables. Corrections de variables La correction d une variable consiste du numéro de la variable précédé par un V et suivi par un = et la valeur correcte, par ex. V3=4. Les corrections pour différentes variables dans la même observation sont séparées par des virgules. Les valeurs de correction pour les variables numériques peuvent être spécifiées sans zéros de tête. Si la variable inclut des décimales, le point décimal peut être entré, mais il n est pas écrit dans le fichier en sortie. Les chiffres sont alignés selon le nombre de décimales indiquées dans le dictionnaire et le programme arrondit les chiffres décimaux de trop. Si la valeur contient des caractères non numériques, elle doit être placée entre primes. Une virgule intercalée doit être représentée par une barre verticale, et un prime intercalé doit être représenté par un tiret de soulignement; le programme convertissant respectivement en virgule et en prime la barre verticale et le tiret de soulignement, par ex. v8= n est. Les valeurs de corrections pour les variables alphabétiques doivent épouser la longueur de la variable. Si la valeur de correction contient des blancs ou des caractères en minuscules, elle doit être placée entre primes Restriction Il peut y avoir un maximum de 5 variables ID Exemple Correction d un fichier Données; les variables numériques et alphabétiques doivent être corrigées, et il faut supprimer deux observations; les observations sont identifiées par les variables V1, V2 et V5 ; le dictionnaire n est pas modifié, par conséquent il n y a pas besoin d un dictionnaire en sortie.

155 15.9 Exemple 135 $RUN CORRECT $FILES PRINT = CORRECT1.LST DICTIN = DATA1.DIC DATAIN = DATA1.DAT DICTOUT = DATA2.DIC fichier Dictionnaire en entrée fichier Données en entrée fichier Dictionnaire en sortie (m^eme que en entrée) fichier Données en sortie (corrigées) DATAOUT = DATA2.DAT $SETUP CORRECTION D UN FICHIER DE DONNÉES IDVARS=(V1,V2,V5) ID=311,01,21,V12= JOHN MILLER ID=311,05,41,DELETE ID=557,11,32,V58=199,V76=2,V90=155 ID=559,11,35,V12= AGATA CHRISTI,V13= F ID=657,31,11,V58=100,V77=4,V90=105,V36=999999,V37=999999,V38=999999, - V41=98,V44=99 ID=711,15,11,DELETE

156

157 Chapitre 16 Importation/exportation de données (IMPEX) 16.1 Description générale Le programme IMPEX effectue l importation/exportation de données en format libre ou DIF, et l importation/exportation d une matrice en format libre. En format libre, les champs peuvent être séparés par le caractère de tabulation, un blanc, virgule, point-virgule ou un autre caractère défini par l utilisateur. Un point ou une virgule peut être utilisé pour la notation décimale. Le numéro et/ou le nom de variables peuvent figurer comme titres de colonnes dans un fichier Données importé/exporté. Le numéro et/ou le nom de variables/de codes peuvent figurer comme titres de colonnes/lignes dans un fichier Matrice importé/exporté. Importation de données. À partir d un fichier de données en format libre ou DIF et d un dictionnaire IDAMS, IMPEX crée un nouveau dataset IDAMS. Le dictionnaire en entrée sert à définir la manière dont les champs du fichier Données seront transférés dans le dataset IDAMS en sortie. DIF est un format développé par Software Arts Products Corp. (USA) pour échanger des données; il est utilisé par la plupart des logiciels de gestion des données. Exportation de données. IMPEX crée un nouveau fichier de données ASCII qui contient les variables du dataset IDAMS existant ainsi que les nouvelles variables définies avec les instructions Recode d IDAMS. Le fichier exporté peut être en format libre ou DIF. Importation de matrices. À partir d un fichier ASCII en format libre contenant soit le triangle inférieur d une matrice carrée, soit une matrice rectangulaire, le programme crée un fichier Matrice d IDAMS. Exportation de matrices. Le programme crée un fichier ASCII qui contient toutes les matrices stockées dans un fichier Matrice d IDAMS. Seul le format libre est disponible pour l exportation Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection d un sous-ensemble d observations à partir des données d entrée lorsqu on veut effectuer une exportation. Lors de l exportation de données, la sélection des variables est effectuée à l aide du paramètre OUTVARS. Transformation de données. Les instructions Recode peuvent être utilisées lors de l exportation de données. Traitement des données manquantes. Le programme ne vérifie pas s il y a des données manquantes, sauf à l aide d instructions Recode lors de l exportation de données. En ce qui concerne l importation de données, les champs avec blancs (champs vides entre délimiteurs consécutifs) sont remplacés par le premier code de données manquantes ou par un champ de 9 si le premier code de données manquantes n a pas été défini.

158 138 Importation/exportation de données (IMPEX) 16.3 Résultats Importation de données Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, pour toutes les variables figurant dans le dictionnaire en entrée. Titres et codes des colonnes en entrée. (Facultatif : voir le paramètre PRINT et EXPORT/IMPORT). Les titres et les codes sont imprimés (sans formatage) tels qu ils sont lus à partir du fichier en entrée. Données d entrée. (Facultatif : voir le paramètre PRINT). Au fur et à mesure qu il les lit, le programme imprime sans formatage les lignes de données en entrée pour toutes les observations. Dictionnaire en sortie. (Facultatif : voir le paramètre PRINT). Données en sortie. (Facultatif : voir le paramètre PRINT). Pour toutes les observations, le programme fournit, dans l ordre des lignes de données en entrée et à raison de 10 valeurs par ligne, les valeurs de toutes les variables. Exportation de données Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C (s il y en a), et ceci uniquement pour les variables utilisées durant l exécution du programme. Données en sortie. (Facultatif : voir le paramètre PRINT). Le programme fournit, pour toutes les observations, les valeurs de chacune des variables V ou R, à raison de 10 valeurs par ligne. Pour les variables alphabétiques, seuls les 10 premiers caractères sont imprimés. Importation de matrices Matrice en entrée. (Facultatif : voir le paramètre PRINT). Le programme imprime une matrice du fichier ASCII en entrée avec ou sans les titres et codes des colonnes. Exportation de matrices Matrices en entrée. (Facultatif : voir le paramètre PRINT). Le programme imprime les matrices qui se trouvent dans le fichier Matrice d IDAMS en entrée, avec ou sans les enregistrements descripteurs de variables ou ceux des codes et noms de codes Fichiers en sortie Importation Selon l importation demandée, la sortie est soit un dataset IDAMS, soit une matrice IDAMS. S il s agit d un dataset IDAMS, les valeurs des variables numériques sont éditées selon les règles d IDAMS (voir le chapitre «Les données dans IDAMS»). Les champs numériques vides (càd avec des chaînes vides entre délimiteurs) dans un fichier en format libre sont remplacés par le premier code de données manquantes ou, s il n est pas défini, par des 9. Exportation La sortie est un fichier ASCII dont le contenu varie en fonction des spécifications de l exportation. Données en format DIF. C est un fichier avec des sections standard «Header» (en-tête) et «Data» (données). Les VECTORS correspondent aux variables IDAMS et les TUPLES aux observations. Outre les en-têtes, LABEL est utilisé pour exporter le nom des variables. Dans la section DATA, l indicateur de valeur V est toujours utilisé pour les valeurs numériques. Si le nombre de décimales défini dans le dictionnaire est plus grand que zéro, le point ou la virgule est utilisé pour la notation décimale.

159 16.5 Fichiers en entrée 139 Données en format libre. C est un fichier dans lequel les valeurs des variables sont séparées par un délimiteur (voir les paramètres WITH et DELCHAR) tandis que les observations sont en outre séparées par le retour chariot et le caractère d avancement de ligne. Si le nombre de décimales défini dans le dictionnaire pour les variables numériques est plus grand que zéro, le programme inclut un point ou une virgule pour la notation décimale (voir le paramètre DECIMALS). Les variables alphabétiques sont soit placées entre primes ou entre guillemets, soit pas (voir le paramètre STRINGS). Matrice en format libre. Les matrices produites par IMPEX ont le même format que celui exigé pour les matrices en entrée (voir «Importation de matrices» dans la section «Fichiers en entrée» ci-dessous. La seule différence est que le programme insère des caractères délimiteurs supplémentaires pour assurer un positionnement correct des titres de colonnes et de ligne dans les applications utilisant des logiciels à tableurs Fichiers en entrée Importation de données Dans le cas de l importation de données, l entrée peut être : un fichier ASCII contenant un tableau de données en format libre où les champs sont séparés par un délimiteur, et un dictionnaire IDAMS qui définit comment transférer les données en sortie dans un dataset IDAMS (il faut décrire tous les champs dans le dictionnaire en entrée); un fichier de données en format DIF, et un dictionnaire IDAMS également. Il se peut que les fichiers en entrée contiennent des informations pour le dictionnaire. S il s agit de fichiers en format libre, cela signifie que les titres et codes de colonnes (correspondant respectivement au nom et au numéro des variables) constituent les premières lignes du tableau des données. Les titres comme les codes sont facultatifs. S ils sont fournis, les titres de colonne ont priorité sur les noms des variables figurant dans le dictionnaire d entrée et ils sont insérés dans le dictionnaire en sortie. Ils peuvent être placés entre des caractères spéciaux (voir le paramètre STRINGS). Les codes de colonnes servent uniquement à vérifier qu ils correspondent aux numéros des variables dans le dictionnaire d entrée. Pour les fichiers en format DIF, les titres de colonnes apparaissent comme items LABEL dans la section «Header» (en-tête). Les codes de colonnes peuvent être fournis comme première ligne du tableau de données. Importation de matrices On a toujours en entrée un fichier ASCII en format libre dans lequel les valeurs numériques et les chaînes de caractères sont séparées par un délimiteur. Les champs vides (càd avec des chaînes vides entre délimiteurs) sont omis. Un fichier ne peut contenir qu une matrice à importer. Le cas échéant, le fichier Matrice en entrée peut contenir des informations pour le dictionnaire, celles-ci consistant en séries de chaînes de caractères pour donner un titre aux colonnes et aux lignes de la matrice, accompagnées des codes correspondants. Ces informations doivent suivre la syntaxe décrite ci-dessous (qui n est pas la même pour les matrices rectangulaires et les matrices carrées). Matrice rectangulaire C est un fichier ASCII contenant un tableau rectangulaire de valeurs en format libre, complété le cas échéant par des informations pour le dictionnaire. Exemple. Salaire moyen; Groupe d ^age; Sexe; Masculin; Féminin; 1;2; 20-30;1;600;530; 31-40;2;650;564; 41-60;3;723;618;

160 140 Importation/exportation de données (IMPEX) Format. 1. Les trois premières chaînes de caractères contiennent : (1) la description du contenu de la matrice, (2) le titre global des lignes («nom de la variable de ligne» ) (3) le titre global des colonnes («nom de la variable de colonne» ). (Facultatif). 2. Le titre de chaque colonne. (Facultatif : autant qu il y a de colonnes dans le tableau des valeurs). 3. Le code de chaque colonne. (Facultatif : autant qu il y a de colonnes dans le tableau des valeurs). 4. Le tableau des valeurs. (Au début de chaque ligne de valeurs, on peut avoir, à titre facultatif, un titre de ligne et/ou un code). Note. En l absence de titres et/ou de codes pour les lignes et les colonnes, le programme les génère automatiquement pour la matrice IDAMS en sortie (les titres seront R-#0001, R-#0002,... C-#0001, C-#0002,... et les codes iront de 1 jusqu au nombre de lignes et de colonnes respectivement). Matrice carrée C est un fichier ASCII contenant le triangle inférieur gauche de la matrice (uniquement les éléments en dehors de la diagonale); à titre facultatif, on peut obtenir après la matrice les vecteurs des moyennes et des écarts-types, présentés en format libre. Exemple. Format. ;;Paris;Londres;Bruxelles;Madrid;... ;;1;2;3;4;... Paris;1; Londres;2;0.55; Bruxelles;3;0.45;0.35; Madrid;4;1.45;2.35;1.15; Le titre de chaque colonne («nom de variable» ). (Facultatif : autant qu il y a de colonnes/lignes dans le tableau des valeurs). 2. Le code de chaque colonne («numéro de variable» ). (Facultatif : autant qu il y a de colonnes/lignes dans le tableau des valeurs). 3. Le tableau des valeurs. (Au début de chaque ligne de valeurs, on peut avoir, à titre facultatif, un titre et/ou un code de ligne). 4. Un vecteur avec les moyennes. (Facultatif). 5. Un vecteur avec les écarts-types. (Facultatif). Note. En l absence de titres et/ou de codes, le programme les génère automatiquement pour la matrice IDAMS en sortie (les titres seront V-#0001, V-#0002,... et les codes iront de 1 jusqu au nombre de lignes et de colonnes respectivement). Exportation de données et de matrices Selon que l on ait à exporter des données ou une (des) matrice(s), on aura en entrée soit un fichier Données décrit par un dictionnaire IDAMS (les variables numériques et les variables alphabétiques peuvent être utilisées) ou un fichier Matrice(s) IDAMS carrée(s) ou rectangulaire(s).

161 16.6 Structure du setup Structure du setup $RUN IMPEX $FILES Spécification des fichiers $RECODE (facultatif avec exportation de données ; non disponible autrement) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée pour exportation/importation de données (omettre si $DICT est utilisé) DATAxxxx données/matrice en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie pour importation de données DATAyyyy données/matrice en sortie PRINT résultats (défaut IDAMS.LST) 16.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme si l exportation de données est spécifiée. Exemple : EXCLUDE V19= Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : EXPORTATION DES INDICES DE DEVELOPPEMENT SOCIAL 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : EXPORT=(DATA,NAMES) FORMAT=DELIMITED WITH=SPACE IMPORT=(DATA/MATRIX, NAMES, CODES) DATA Importer de données. MATR Importer une matrice. NAME Le nom des variables figurent dans le fichier Données à importer. Le nom des variables/le nom des codes figurent dans le fichier Matrice à importer. CODE Le numéro des variables figurent dans le fichier Données à importer. Le numéro des variables/la valeur des codes figurent dans le fichier Matrice à importer.

162 142 Importation/exportation de données (IMPEX) EXPORT=(DATA/MATRIX, NAMES, CODES) DATA Exporter de données. MATR Exporter une matrice. NAME Exporter le nom des variables dans le fichier Données en sortie. Exporter le nom des variables/le nom des codes dans le fichier Matrice en sortie. CODE Exporter le numéro des variables dans le fichier Données en sortie. Exporter le numéro des variables/la valeur des codes dans le fichier Matrice en sortie. Note. Pas de défaut. Il faut spécifier soit IMPORT, soit EXPORT (mais pas les deux). INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le(s) ddname(s) du(des) fichier(s) en entrée : fichier Données ou fichier Matrice à importer (ddname par défaut : DATAIN), fichiers Dictionnaire et Données à exporter (ddnames par défaut : DICTIN, DATAIN), fichier Matrice IDAMS à exporter (ddname par défaut : DATAIN). BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques exportées ou importées et des valeurs en sortie pour lesquelles la longueur du champ est insuffisante. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Applicable uniquement si l on a spécifié l importation/l exportation de données. Le nombre maximum d observations du fichier Données en entrée à utiliser (après le filtre). Défaut : le programme utilisera toutes les observations. MAXERR=0/n Le nombre maximum d erreurs dues à une longueur de champ insuffisante autorisée avant que le programme n arrête son exécution. Ces erreurs surviennent lorsque la valeur d une variable dépasse la longueur du champ qui lui est assigné, par ex. la valeur 250 à laquelle on aurait assigné un champ de 2 caractères. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le(s) ddname(s) du(des) fichier(s) en sortie : fichiers Dictionnaire et Données importés (ddnames par défaut : DICTOUT, DATAOUT), fichier Matrice IDAMS importé (ddname par défaut : DATAOUT), fichier Données ou fichier Matrice exporté (ddname par défaut : DATAOUT). OUTVARS=(liste de variables) Applicable uniquement si l on a spécifié l exportation de données. Les variables V et R à exporter. L ordre des variables n a pas d importance étant donné qu en sortie elles figureront dans l ordre ascendant de leurs numéros. Chacune des variables V et R doit porter un numéro unique. Pas de défaut. MATSIZE=(n,m) Applicable uniquement si l on a spécifié l importation d une matrice. Nombre des colonnes et des lignes de la matrice à importer. Si les deux sont spécifiés, le programme présume qu il s agit d une matrice rectangulaire, sinon qu il s agit d une matrice carrée symétrique. n Nombre de lignes. m Nombre de colonnes. Pas de défaut. FORMAT=DELIMITED/DIF Spécifie le format des données/de la matrice en entrée pour l importation, ou le format des données/de la(des) matrice(s) en sortie pour l exportation. DELI Les données/la(les) matrice(s) seront en format libre avec les champs séparés par un délimiteur (voir ci-dessous).

163 16.8 Restrictions 143 DIF Les données seront en format DIF. Note : le format DIF est disponible uniquement pour l exportation ou l importation de données. WITH=SPACE/TABULATOR/COMMA/SEMICOLON/USER (Conditionnel : voir FORMAT=DELIMITED). Spécifie le caractère délimiteur qui sépare les champs dans le fichier en format libre. SPAC Le caractère blanc (ASCII, code 32). TABU Le caractère de tabulation (ASCII, code 9). COMM La virgule «,» (ASCII, code 44). SEMI Le point-virgule «;» (ASCII, code 59). USER Le caractère spécifié par l utilisateur (voir le paramètre DELCHAR ci-dessous). Note : lors de l importation/l exportation de fichiers DIF, COMMA est toujours utilisé comme délimiteur quel que soit le choix fait par ailleurs. DELCHAR= x (Conditionnel : voir le paramètre WITH=USER ci-dessus). Définit le caractère à utiliser pour séparer les champs dans le fichier en format libre. Défaut : blanc. DECIMALS=POINT/COMMA Définit le caractère à utiliser pour la notation décimale. POIN Le point «.» (ASCII, code 46). COMM La virgule «,» (ASCII, code 44). STRINGS=PRIME/QUOTE/NONE Définit le caractère à utiliser pour entourer les chaînes de caractères. PRIM Les primes. QUOT Les guillemets. NONE On n utilise pas de caractères spéciaux. Note : lors de l importation/l exportation de fichiers DIF, QUOTE est toujours utilisé quel que soit le choix fait par ailleurs. NDEC=2/n Nombre de décimales à conserver pour l exportation. PRINT=(DICT/CDICT/NODICT, DATA) DICT Imprimer le dictionnaire sans les enregistrements C. CDIC Imprimer le dictionnaire avec les enregistrements C s il y en a. DATA Imprimer les valeurs des données/la (les) matrice(s). Note : (a) Les options d impression du dictionnaire valent pour les dictionnaires d entrée et de sortie. (b) L option d impression des données contrôle l impression des données en sortie lors de l exportation de données; elle contrôle l impression des données en entrée et en sortie lors de l importation de données (sauf s il s agit de l importation d un fichier en format DIF, auquel cas le programme n imprime jamais les données en entrée). (c) La matrice en entrée sera toujours imprimée avec l option d impression des données Restrictions 1. On peut exporter au maximum 250 variables R. 2. Lors d une même exécution, on peut utiliser au maximum 500 variables (y compris les variables utilisées uniquement avec les instructions de Recode). 3. Une matrice peut avoir 100 lignes au maximum.

164 144 Importation/exportation de données (IMPEX) 4. Une matrice peut avoir 100 colonnes au maximum. 5. Une matrice peut contenir 1000 cellules au maximum Exemples Exemple 1. Transférer dans le fichier en sortie une sélection de variables provenant du dataset en entrée avec 2 nouvelles variables; les données seront envoyées en sortie en format libre et les valeurs seront séparées par des points-virgules; on utilisera la virgule pour la notation décimale et les variables alphabétiques seront placées entre guillemets; on incluera le nom et le numéro des variables dans le fichier de sortie. $RUN IMPEX $FILES PRINT = EXPDAT.LST DICTIN = OLD.DIC DATAIN = OLD.DAT fichier Dictionnaire en entrée fichier Données en entrée fichier Données exporté DATAOUT = EXPORTED.DAT $SETUP EXPORTATION DES DONNÉES DE FORMAT FIXE IDAMS EN FORMAT LIBRE EXPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 - OUTVARS=(V1-V20,V33,V45-V50,R105,R122) - FORMAT=DELIM WITH=SEMI DECIM=COMMA STRINGS=QUOTE $RECODE R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9) MDCODES R105(9) NAME R105 GROUPES D ^AGE IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3 MDCODES R122(99.9) NAME R122 NO ARTICLES PER ANNÉE Exemple 2. Des données en format DIF sont importées dans IDAMS ; les titres et les codes des colonnes sont inclus dans le fichier Données en entrée; la virgule est utilisée pour la notation décimale. $RUN IMPEX $FILES PRINT = IMPDAT.LST DICTIN = IDA.DIC DATAIN = IMPORTED.DAT DICTOUT = IDAFORM.DIC DATAOUT = IDAFORM.DAT $SETUP IMPORTATION DE DONNEES EN FORMAT DIF VERS IDAMS IMPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 - FORMAT=DIF DECIM=COMMA fichier Dictionnaire décrivant les données à importer fichier Données à importer fichier Dictionnaire en sortie fichier Données en sortie Exemple 3. On exporte un jeu de matrices rectangulaires créées par le programme TABLES; les champs seront séparées par des points-virgules et la virgule utilisée pour la notation décimale; les titres et codes des colonnes et des lignes seront inclus dans le fichier Matrice en sortie; les matrices en entrée sont imprimées. $RUN IMPEX $FILES PRINT = EXPMAT.LST DATAIN = TABLES.MAT fichier contenant les matrices rectangulaires fichier contenant les matrices exportées DATAOUT = EXPORTED.MAT $SETUP EXPORTATION DE MATRICES RECTANGULAIRES IDAMS EN FORMAT LIBRE EXPORT=(MATRIX,NAMES,CODES) PRINT=DATA - FORMAT=DELIM WITH=SEMI DECIM=COMMA STRINGS=QUOTE

165 16.9 Exemples 145 Exemple 4. Importation d une matrice carrée contenant des mesures de distance pour 10 objets numérotés de 1 à 10; les champs contiennent les nombres entiers et ils sont séparés avec le signe %; les codes des colonnes et lignes ainsi que les vecteurs contenant les moyennes et les écarts-types sont inclus dans le fichier de la matrice. $RUN IMPEX $FILES PRINT = IMPMAT.LST DATAOUT = IMPORTED.MAT fichier contenant la matrice à importer $SETUP IMPORTATION D UNE MATRICE EN FORMAT LIBRE VERS IDAMS IMPORT=(MATRIX,CODES) MATSIZE=10 - FORMAT=DELIM WITH=USER DELCH= % $DATA $PRINT % 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 1% 2%38% 3%72%25% 4%24%53%17% 5%64%26%76%18% 6%48%25%63%15%61% 7%12%50%7%42%8%8% 8%19%7%13%4%14%1%15% 9%29%37%34%21%24%35%3%5% 10%32%57%29%45%26%28%74%24%61% %46%15%7%7119%74%38%9%19%34%256% %9%11%84%8971%23%28%12%20%35%843%

166

167 Chapitre 17 Listage de datasets (LIST) 17.1 Description générale On peut utiliser LIST pour imprimer les données d un fichier, les variables recodées et des informations provenant du dictionnaire associé. On peut sélectionner des variables spécifiques pour l impression, on peut aussi imprimer l entièreté des données et/ou du dictionnaire. Dans un fichier Données, chaque enregistrement est une suite continue de valeurs. Quand on l imprime tel quel, il devient difficile de distinguer les valeurs des variables adjacentes. LIST élimine cet inconvénient en offrant un format d impression des données qui sépare les valeurs des variables. On peut imprimer un dictionnaire IDAMS sans son fichier Données correspondant en spécifiant un fichier fictif (càd un fichier vide ou nul) au moment où l on définit le fichier Données à utiliser pour l exécution du programme Caractéristiques standard d IDAMS Sélection d observations et de variables. On peut sélectionner les observations à l aide d un filtre ou avec l option de saut d observations (SKIP). Si elle est utilisée, cette option indique au programme d imprimer la première observation et ensuite chaque n-ème observation. Si on utilise un filtre, l option de saut s applique à celles des observations qui passent le filtre. Pour les observations sélectionnées, le programme imprime les données correspondant à toutes les variables décrites dans le dictionnaire, ou seulement un sous-ensemble de celles-ci si le paramètre VARS est spécifié. Transformation de données. Les instruction Recode peuvent être utilisées. Traitement des données manquantes. Les valeurs de données manquantes sont imprimées comme elles se présentent, sans causer d action spéciale Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Si on sélectionne toutes les variables pour l impression, le dictionnaire complet est imprimé en ordre séquentiel. Les données. Les variables numériques sont imprimées avec le point décimal explicite s il y en a, et sans zéros de tête. Si une valeur déborde la longueur d un champ, elle est imprimée sous la forme d une chaîne d astérisques. Les données contenant des caractères illégaux remplacés par des codes de données manquantes par défaut sont imprimées sous la forme de blancs. Les valeurs d une variable sont imprimées dans une colonne qui continue sur autant de pages que nécessaire pour couvrir toutes les observations sélectionnées pour l impression. Voici un schéma du format d impression :

168 148 Listage de datasets (LIST) v v v v xxx xxxx x xxxxxxxx xxx xxxx x xxxxxxxx xxx xxxx x xxxxxxxx xxx xxxx x xxxxxxxx Les en-têtes v des colonnes représentent les numéros de variables et les x représentent les valeurs des variables. Si l utilisateur demande l impression de plus de variables que ne peut en contenir une ligne (127 caractères), LIST parcourera les données autant de fois que nécessaire et imprimera à chaque fois autant de variables que possible. Par exemple, s il fallait imprimer 50 variables, LIST va lire les données et imprimer toutes les valeurs pour, disons, les 10 premières variables. Puis il lira à nouveau les données pour imprimer, disons, les 12 variables suivantes, et ainsi de suite. Le nombre de variables imprimées lors de chaque lecture dépend de la longueur du champ des variables à imprimer et est calculé par LIST automatiquement. Séquence et identification des observations. Il existe des options permettant d imprimer pour chaque observation son numéro séquentiel et/ou les valeurs des variables servant à l identifier. (Voir paramètres PRINT et IDVARS). Ils sont imprimés dans les premières colonnes. Variables créées avec Recode. Elles sont imprimées avec 11 chiffres incluant un point décimal explicite et 2 décimales Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Si on demande un listage du dictionnaire uniquement, le fichier Données est spécifié comme NUL Structure du setup $RUN LIST $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST)

169 17.6 Instructions de contrôle du programme Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V5= Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : IMPRESSION DE DONNÉES ÉTUDE95 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : VARS=(V3,V10-V25) IDVARS=V1 INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations à imprimer. Défaut : toutes les observations seront utilisées par le programme. SKIP=n Le programme imprime chaque n-ème observation (ou chaque n-ème observation ayant passé le filtre), en commençant par la 1ère observation. La dernière observation est toujours imprimée à moins que l option MAXCASES l interdise. Défaut : toutes les observations (ou toutes celles ayant passé le filtre) sont imprimées. VARS=(liste de variables) Imprimer les données pour les variables spécifiées. Les valeurs des variables seront imprimées selon l ordre dans lequel elles apparaissent dans cette liste. Défaut : le programme imprime toutes les variables du dictionnaire. IDVARS=(liste de variables) Le programme imprime la (les) valeur(s) de la (des) variable(s) spécifiée(s) pour l identification de chaque observation. SPACE=3/n Nombre d espaces entre les colonnes. La valeur maximum est SPACE=8. PRINT=(CDICT/DICT, SEQNUM, LONG/SHORT, SINGLE/DOUBLE) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregisrements C. SEQN Imprimer un numéro séquentiel d observation pour chaque observation imprimée. Noter que les observations sont numérotées après application du filtre. LONG Présume 127 caractères par ligne imprimée. SHOR Présume 70 caractères par ligne imprimée. SING Espace simple entre les lignes de données. DOUB Double espace entre les lignes de données.

170 150 Listage de datasets (LIST) 17.7 Restriction La somme des longueurs des champs des variables à imprimer, y inclus les variables ID d observations, doit être inférieure ou égale à caractères Exemples Exemple 1. Imprimer 50 variables parmi lesquelles une variable recodée; toutes les observations seront imprimées avec leurs variables d identification (V1, V2 et V4); le dictionnaire sera imprimé, mais sans enregistrements C. $RUN LIST $FILES PRINT = LIST1.LST DICTIN = STUDY.DIC fichier Dictionnaire en entrée DATAIN = STUDY.DAT fichier Données en entrée $RECODE R6=BRAC(V6,0-50=1,51-99=2) $SETUP IMPRESSION DE 50 VARIABLES ET DE 3 VARIABLES ID AVEC CHAQUE GROUPE IDVA=(V1,V2,V4) VARS=(V3-V49,V59,V52,R6) PRIN=DICT Exemple 2. Impression d un dictionnaire complet avec les enregistrements C sans imprimer les données. $RUN LIST $FILES DICTIN = STUDY.DIC DATAIN = NUL $SETUP IMPRESSION D UN DICTIONNAIRE COMPLET PRIN=CDICT fichier Dictionnaire en entrée Exemple 3. Vérification d un recodage en imprimant les valeurs des variables en entrée et des variables recodées pour 10 observations. $RUN LIST $FILES DICTIN = A.DIC DATAIN = A.DAT $RECODE R101=COUNT(1,V40-V49) IF MDATA(V9,V10) THEN R102=99 ELSE R102=V9+V10 R103=BRAC(V16,15-24=1,25-34=2,35-54=3,ELSE=9) $SETUP VÉRIFICATION D UN RECODAGE DE 3 VARIABLES MAXCASES=10 SKIP=10 SPACE=1 - VARS=(V40-V49,R101,V9,V10,R102,V16,R103) fichier Dictionnaire en entrée fichier Données en entrée

171 Chapitre 18 Fusion de datasets (MERGE) 18.1 Description générale MERGE fusionne des variables provenant d un dataset IDAMS avec des variables d un second dataset, en appariant les observations par pairs à partir de variables communes appelées «variables d appariement» («match variables» ). Il n est pas nécessaire que les observations soient identiques dans les deux datasets, càd que toutes les observations dans un dataset ne doivent pas figurer dans l autre. Le fichier Données en sortie consiste en enregistrements contenant les variables spécifiées par l utilisateur dans chacun des deux fichiers en entrée, accompagnés du dictionnaire IDAMS correspondant. Pour établir une distinction entre les deux datasets en entrée, on fait référence à l un comme «dataset A» et à l autre comme «dataset B» tout au long du descriptif de MERGE. Combinaison de datasets avec des ensembles identiques d observations. Un exemple d utilisation du programme est la combinaison de données provenant d une première série d interviews avec celles provenant d interviews ultérieures réalisées avec le même ensemble de répondants. Combinaison de datasets avec des ensembles quelque peu différents d observations. Lorsque dans une enquête il y a plus d une vague d interviews, certains des répondants peuvent être laissés de côté, d autres peuvent venir s ajouter. De telles divergences entre datasets sont permises et on peut, par exemple, demander au programme de produire en sortie les enregistrements pour tous les répondants, y compris ceux interviewés seulement dans la première vague. Dans cet exemple, quand un répondant n a pas été interviewé dans la première vague, les variables prendront en sortie les valeurs de données manquantes. Combinaison de datasets avec des niveaux de données différents. On peut aussi utiliser MERGE pour combiner deux datasets dont l un contient des données à un niveau plus agrégé que l autre. Par exemple, les données au niveau du ménage peuvent être ajoutées aux données des membres individuels de celui-ci Caractéristiques standard d IDAMS Sélection d observations et de variables. On peut utiliser un filtre avec l un des deux ou avec les deux datasets en entrée. La seule différence dans le format du filtre est qu il doit être précédé par un «A:» ou un «B:» dans les colonnes 1-2 de manière à indiquer à quel dataset le filtre s applique. Toutes les variables ou des variables sélectionnées dans chacun des datasets en entrée peuvent être incluses dans le dataset de sortie. Ces variables sont spécifiées dans une liste de variables qui a le format habituel, sauf que les variables sont notées par un «A» ou un «B» (au lieu d un V) pour identifier le dataset d entrée où elles se trouvent. Par exemple, «A1, B5, A3-A45» sélectionne les variables V1, V3-V45 du dataset A et la variable V5 du dataset B. Voir la description des variables de sortie dans la section «Instructions de contrôle du programme». Transformation de données. Les instructions Recode ne peuvent pas être utilisées. Traitement des données manquantes. Avec les options MATCH=UNION, MATCH=A, MATCH=B, le programme utilise les codes de données manquantes comme valeurs pour les variables de sortie non

172 152 Fusion de datasets (MERGE) disponibles pour une observation particulière. Voir ci-dessous, dans la section décrivant le dataset en sortie, le paragraphe «Traitement des observations qui figurent seulement dans l un des deux datasets en entrée». Les codes de données manquantes se trouvent dans les dictionnaires correspondant aux datasets A et B. Pour chaque dataset, l utilisateur spécifie si c est le premier ou le second code de données manquantes qui va être utilisé par le programme et cela pour toutes les variables (voir les paramètre APAD et BPAD). Si une variable n a pas de code de données manquantes approprié dans le dictionnaire, le programme envoie en sortie des blancs à la place. Le programme n envoie jamais en sortie un code de données manquantes comme valeur d une variable de sortie qui est également l une des variables d appariement, étant donné que la valeur d une variable d appariement existe toujours dans celui des datasets qui contient l observation. Par exemple, avec MATCH=UNION, supposons que A1 et B3 soient utilisées comme variables d appariement et que seule A1 fasse partie de la liste des variables de sortie (comme A1 et B3 ont probablement la même valeur, elles ne doivent pas être toutes les deux sur la liste) : dans ce cas, si une observation du dataset A était manquante, la valeur pour la variable de sortie A1 serait la valeur de B Résultats Numéro des variables en entrée et leur numéro correspondant en sortie. (Facultatif : voir le paramètre PRINT). Une table donnant la correspondance entre les numéros de variables et les numéros de référence en entrée et en sortie. Dictionnaire en sortie. (Facultatif : voir le paramètre PRINT). Documentation sur les observations non appariées dans l un des deux datasets A ou B. Il y a plusieurs manières de documenter les observations non appariées, càd celles qui figurent seulement dans un des fichiers (voir le paramètre PRINT). On peut imprimer les valeurs des variables d appariement : quand un code des données manquantes est attribué à une (ou des) variable(s) de sortie de l un des datasets, quand des observations du dataset A sont supprimées, quand des observations du dataset B sont supprimées. Quand une observation du dataset A ne peut être appariée avec aucune observation du dataset B, on peut imprimer les valeurs des variables du dataset A. Les variables sont imprimées dans l ordre indiqué pour le dataset sur la liste des variables de sortie, suivies par toutes les variables d appariement qui ne sont pas aussi des variables de sortie. Quand une observation du dataset B ne peut être appariée avec aucune observation du dataset A, on peut imprimer les valeurs des variables du dataset B. Les variables sont imprimées dans l ordre indiqué pour le dataset sur la liste des variables de sortie, suivies par toutes les variables d appariement qui ne sont pas aussi des variables de sortie. Compte des observations. Le programme imprime le nombre des observations existant dans les datasets A et B, le nombre d observations dans le dataset A et pas dans le dataset B, le nombre d observations dans le dataset B et pas dans le dataset A, et le nombre total d observations en sortie Dataset en sortie La sortie est un nouveau fichier Données avec son dictionnaire IDAMS correspondant. Chaque enregistrement de données contient les valeurs des variables de sortie pour les observations appariées provenant des datasets A et B. On notera qu une variable d appariement n est pas automatiquement envoyée en sortie : pour donner un ID aux observations dans le fichier de sortie, l utilisateur doit inclure la (ou les) variable(s) d appariement d un des datasets dans la liste des variables de sortie.

173 18.4 Dataset en sortie 153 Traitement des observations qui figurent seulement dans un des datasets d entrée. Il y a quatre actions possibles : 1. MATCH=INTERSECTION. Les observations figurant seulement dans l un des datasets en entrée ne sont pas incluses dans le dataset de sortie. (Si l on considère les datasets A et B comme des ensembles d observations, la sortie est l intersection de A et B). 2. MATCH=UNION. Toute observation figurant dans l un des datasets en entrée est incluse dans le dataset de sortie. Les variables du dataset en entrée ne contenant pas l observation reçoivent en sortie les valeurs de données manquantes. (La sortie est l union des ensembles A et B). 3. MATCH=A. Toute observation figurant dans le dataset A est incluse dans le dataset de sortie, tandis qu une observation figurant seulement dans le dataset B n est pas incluse. Si une observation figure seulement dans le dataset A, les variables du dataset B reçoivent en sortie pour cette observation les valeurs de données manquantes. (La sortie est l ensemble A). 4. MATCH=B. Idem que l action 3, sauf que c est le dataset B qui définit les observations incluses dans le dataset de sortie. (La sortie est l ensemble B). Traitement des observations en double. Quand l un des datasets en entrée contient plus d une observation avec la même valeur pour la (ou les) variable(s) d appariement, ce dataset est dit contenir des observations en double. Normalement (càd quand le paramètre DUPBFILE n est pas spécifié) le programme imprime un message signalant qu il y a une ou des observations en double, et traite ensuite chacune de cellesci comme une observation séparée. Les observations effectivement écrites dans le fichier de sortie dépendent de l option de MATCH qui a été choisie. Le schéma ci-dessous montre comment ceci fonctionne. Fusion de fichiers contenant des doubles (DUPBFILE non spécifié) Entrée Sortie A B MATCH = UNION MATCH = A MATCH = B MATCH =INTER ID N1 ID N2 ID N1 N2 ID N1 N2 ID N1 N2 ID N1 N2 01 Anne 01 Nina 01 Anne Nina 01 Anne Nina 01 Anne Nina 01 Anne Nina 01 Eric 02 Marc 01 Eric 01 Eric 02 Luc Marc 02 Luc Marc 02 Luc 03 Paul 02 Luc Marc 02 Luc Marc 03 Paul 03 Paul Toutefois, on peut interpréter et traiter différemment les observations en double quand l un des deux datasets contient des observations à un niveau d analyse inférieur à celui de l autre dataset. Par exemple, un dataset contient des données par ménage et le second des données sur les membres du ménage. Dans ce cas, les variables d appariement spécifiées dans chaque dataset serviront à identifier le ménage. Ainsi, on trouvera normalement des «duplicatas» dans le dataset «membre d un ménage» étant donné que la plupart des ménages ont plus d un membre. En spécifiant le paramètre DUPBFILE, le programme n imprime pas de message sur l existence d observations en double, et il construit des observations pour chaque double dans le dataset B, en copiant dans chacune d elles les variables de l observation appariée du fichier A. Le schéma ci-dessous montre un exemple de cette procédure.

174 154 Fusion de datasets (MERGE) Fusion de fichiers à différents niveaux (DUPBFILE spécifié) Entrée Sortie A B MATCH = UNION MATCH = A MATCH = B MATCH =INTER ID N1 ID N2 ID N1 N2 ID N1 N2 ID N1 N2 ID N1 N2 01 Roux 01 Gaël 01 Roux Gaël 01 Roux Gaël 01 Roux Gaël 01 Roux Gaël 03 Lux 01 Yves 01 Roux Yves 01 Roux Yves 01 Roux Yves 01 Roux Yves 04 Davy 01 Anne 01 Roux Anne 01 Roux Anne 01 Roux Anne 01 Roux Anne 02 Léon 02 Léon 03 Lux Ella 02 Léon 03 Lux Ella 02 Nina 02 Nina 04 Davy 02 Nina 03 Ella 03 Lux Ella 03 Lux Ella 04 Davy Ordre et numéro des variables. Les variables sont envoyées en sortie dans l ordre donné sur la liste des variables de sortie et elles sont toujours renumérotées à partir de la valeur du paramètre VSTART. Ainsi, si VSTART=1, une liste de variables de sortie telle que «A1-A5, B6, A7-A25, B100» produirait en sortie un dataset avec les variables V1 jusqu à V26. Les numéros de référence des variables, quand il y en a, sont transférés tels quels dans le dictionnaire de sortie. Emplacement des variables. Ils sont attribués par MERGE en commençant par la première variable de sortie et en continuant dans l ordre de la liste des variables de sortie Dataset en entrée MERGE requiert 2 fichiers Données en entrée, chacun décrit par un dictionnaire IDAMS. Les variables servant à l appariement peuvent être alphabétiques ou numériques. Les variables d appariement qui se correspondent, en provenance des datasets A et B, doivent avoir la même longueur de champ. Les variables de sortie peuvent être alphabétiques ou numériques. Avant d utiliser MERGE, chaque fichier Données en entrée doit être trié dans l ordre ascendant par rapport à ses variables d appariement.

175 18.6 Structure du setup Structure du setup $RUN MERGE $FILES Spécification des fichiers $SETUP 1. Filtre(s) (facultatif) 2. Titre 3. Paramètres 4. Spécification des variables d appariement 5. Variables de sortie $DICT (conditionnel) Dictionnaire (voir la Note ci-dessous) $DATA (conditionnel) Données (voir la Note ci-dessous) Fichiers : DICTxxxx dictionnaire en entrée pour dataset A (omettre si $DICT est utilisé) DATAxxxx données en entrée pour dataset A (omettre si $DATA est utilisé) DICTyyyy dictionnaire en entrée pour dataset B (omettre si $DICT est utilisé) DATAyyyy données en entrée pour dataset B (omettre si $DATA est utilisé) DICTzzzz dictionnaire en sortie DATAzzzz données en sortie PRINT résultats (défaut IDAMS.LST) Note. On peut introduire dans le setup soit le dataset A, soit le dataset B, mais pas les deux à la fois. N empêche que les enregistrements placés après $DICT et $DATA sont copiés dans les fichiers définis respectivement par DICTIN et DATAIN. Par conséquent si le fichier A est introduit dans le setup, le dataset A sera défini par DICTIN et par DATAIN, et il faut spécifier INAFILE=IN. De même, si c est le fichier B qui est introduit dans le setup, il faut alors spécifier INBFILE=IN Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre(s) (facultatif). Sélectionne(nt) un sous-ensemble d observations du dataset A et/ou du dataset B à utiliser avec le programme. On notera que chaque instruction de filtre doit être précédée de «A:» ou «B:» dans les colonnes un et deux afin d indiquer à quel dataset s applique(nt) le(s) filtre(s). Exemple : A: INCLUDE V1=10,20,30 B: INCLUDE V1=10,20,30 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : FUSIONNER DES DONNÉES ENSEIGNANTS AVEC DES DONNÉES ÉLÈVES 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : MATCH=INTE PRINT=(A, B)

176 156 Fusion de datasets (MERGE) INAFILE=INA/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire A et du fichier Données A en entrée. ddnames par défaut : DICTINA, DATAINA. INBFILE=INB/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire B et du fichier Données B en entrée. ddnames par défaut : DICTINB, DATAINB MAXCASES=n Le nombre maximum d observations du fichier A en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MATCH=INTERSECTION/UNION/A/B INTE Envoyer en sortie uniquement les observations figurant à la fois dans les deux datasets A et B. UNIO Envoyer en sortie les observations figurant soit dans les deux datasets A et B, soit dans l un d entre eux, en remplissant les variables, quand nécessaire, avec les valeurs de données manquantes. A Envoyer en sortie uniquement les observations figurant dans le dataset A, en remplissant, quand nécessaire, les variables B avec des valeurs de données manquantes. B Envoyer en sortie uniquement les observations figurant dans le dataset B, en remplissant, quand nécessaire, les variables A avec des valeurs de données manquantes. Pas de défaut. DUPBFILE Une observation du dataset A peut être mise en paire avec une ou plusieurs observations (càd avec des duplicatas) du dataset B. Pour chaque paire, le programme produit un enregistrement en sortie selon l instruction donnée avec le paramètre MATCH. Note : le dataset contenant les duplicatas doit être défini comme étant le dataset B. Défaut : les observations figurant en double dans l un ou l autre dataset seront relevées dans les résultats et traitées ensuite comme des observations distinctes selon la spécification donnée au paramètre MATCH. OUTFILE=OUT/zzzz Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. VSTART=1/n Le numéro de la variable pour la première variable dans le dataset en sortie. APAD=MD1/MD2 Remplir des variables A avec des données manquantes. MD1 Envoyer en sortie le premier code de données manquantes. MD2 Envoyer en sortie le second code de données manquantes. BPAD=MD1/MD2 Remplir des variables B avec des données manquantes. MD1 Envoyer en sortie le premier code de données manquantes. MD2 Envoyer en sortie le second code de données manquantes.

177 18.7 Instructions de contrôle du programme 157 PRINT=(PAD/NOPAD, ADELETE/NOADELETE, BDELETE/NOBDELETE, VARNOS, A, B, OUTDICT/OUTCDICT/NOOUTDICT) PAD Imprimer les valeurs des variables d appariement dans le cas où un code de données manquantes a été attribué à une (des) variable(s) de sortie de l un des datasets. ADEL Imprimer les valeurs des variables d appariement pour le dataset A toutes les fois qu une observation du dataset A n est pas incluse dans le fichier Données en sortie. BDEL Imprimer les valeurs des variables d appariement pour le dataset B toutes les fois qu une observation du dataset B n est pas incluse dans le fichier Données en sortie. VARN Imprimer une liste des numéros des variables dans les datasets en entrée et les numéros des variables correspondant dans le dataset de sortie. A Imprimer les valeurs de toutes les variables d appariement et de sortie pour les observations figurant uniquement dans le dataset A, que celles-ci soient ou non incluses dans le dataset de sortie. B Imprimer les valeurs de toutes les variables d appariement et de sortie pour les observations figurant uniquement dans le dataset B, que celles-ci soient ou non incluses dans le dataset de sortie. OUTD Imprimer le dictionnaire de sortie sans les enregistrements C. OUTC Imprimer le dictionnaire de sortie avec les enregistrements C s il y en a. NOOU Ne pas imprimer le dictionnaire de sortie. 4. Spécification de variables d appariement (obligatoire). Cette instruction définit les variables en provenance des datasets A et B que le programme doit comparer pour apparier les observations. On notera que chacun des fichiers Données en entrée doit être trié d après sa (ou ses) variable(s) d appariement avant d utiliser MERGE. Exemple : A1=B3, A5=B1 ce qui signifie que pour qu une observation du dataset A soit appariée avec une observation du dataset B, la valeur de la variable V1 du dataset A doit être identique à la valeur de la variable V3 du dataset B, et de même pour les variables V5 et V1. Format général Règles de codage An=Bm, Aq=Br,... La longueur des champs des deux variables à comparer doit être identique. La comparaison est effectuée caractère par caractère, non sur une base numérique. De sorte que 0.9 n est pas équivalent à 009, pas plus que 9 n est équivalent à 09. Lorsque les longueurs de champs ne sont pas les mêmes, utiliser le programme TRANS pour modifier la longueur d une des variables avant d exécuter MERGE. Chaque paire de variables d appariement est séparée par une virgule. Il peut y avoir des blancs n importe où dans la liste. Pour continuer sur une autre ligne, arrêter le texte à une virgule et entrer un tiret pour indiquer au programme qu il y a une continuation. 5. Variables de sortie (obligatoire). On définit ici lesquelles des variables de chacun des datasets en entrée doivent être transférées en sortie et quel doit être leur ordre en sortie. Exemple : A1, B2, A5-A10, B5, B7-B10 ce qui signifie que le dataset de sortie contiendra la variable V1 du dataset A, suivie de la variable V2 du dataset B, suivie par les variables V5 à V10 du dataset A, etc. dans cet ordre. Règles de codage Le règles de codage sont les mêmes que pour la spécification de variables avec le paramètre VARS, excepté que les lettres A et B sont utilisées au lieu de la lettre V. Chaque numéro de variable du dataset A est précédé d un A et chaque numéro de variable du dataset B est précédé d un B. Les variables en double sur la liste sont traitées comme les variables séparées.

178 158 Fusion de datasets (MERGE) 18.8 Restrictions 1. Il peut y avoir un maximum de 20 variables d appariement en provenance de chaque dataset. 2. Les variables d appariement doivent être du même type et de la même longueur dans chaque fichier. 3. La longueur totale maximum de l ensemble des variables d appariement en provenance de chaque dataset est de 200 caractères Exemples Exemple 1. Fusionner les enregistrements de 2 datasets contenant un ensemble identique d observations; celles-ci sont identifiées dans les deux datasets par les variables 1 et 3; il faut sélectionner toutes les variables de chacun des datasets en entrée. $RUN MERGE $FILES DICTOUT = AB.DIC fichier Dictionnaire en sortie DATAOUT = AB.DAT fichier Données en sortie DICTINA = A.DIC fichier Dictionnaire en entrée pour dataset A DATAINA = A.DAT fichier Données en entrée pour dataset A DICTINB = B.DIC fichier Dictionnaire en entrée pour dataset B DATAINB = B.DAT fichier Données en entrée pour dataset B $SETUP FUSION DE 2 DATASETS CONTENANT UN ENSEMBLE IDENTIQUE D OBSERVATIONS MATCH=UNION A1=B1,A3=B3 A1-A112,B201-B401 Exemple 2. Fusionner des datasets contenant des ensembles un peu différent d observations; sont envoyées en sortie uniquement les observations ayant des enregistrements dans les deux datasets; les observations sont identifiées par les variables 2 et 4 dans le premier dataset et par les variables 105 et 107 dans le second dataset; dans le dataset de sortie, les variables seront renumérotées à partir du numéro 201, et on demande d imprimer les références; seules les variables sélectionnées seront extraites de chacun des datasets en entrée. $RUN MERGE $FILES comme pour Exemple 1 $SETUP Fusion de 2 datasets contenant des ensembles un peu différent d observations MATCH=INTE VSTA=201 PRIN=VARNOS A2=B105,A4=B107 B105,B107,A36-A42,B120,B131 Exemple 3. Fusionner des datasets ayant des niveaux différents de données; des observations du dataset A seront fusionnées avec un sous-ensemble d observations du dataset B; une observation du dataset A peut être mise en paire avec une ou plusieurs observations du dataset B ; les observations dans le dataset A qui ne s apparient pas avec une observation dans le sous-ensemble sélectionné du dataset B sont rejetées et pas imprimées.

179 18.9 Exemples 159 $RUN MERGE $FILES comme pour Exemple 1 $SETUP B: INCLUDE V18=2 AND V21=3 Fusion de 2 datasets ayant des niveaux différents MATCH=B DUPB A1=B15 B15,A2,A6-A12,B20-B31,B40 Exemple 4. On va calculer le revenu des ménages à partir d un fichier contenant des données au niveau des membres du ménage, et fusionner le résultat avec les enregistrements au niveau des membres individuels ; on utilise d abord AGGREG pour calculer la somme (V6) des revenus individuels ; V3 est la variable servant à identifier le ménage; le dataset de sortie d AGGREG (défini par DICTAGG et DATAAGG) contiendra 2 variables, l ID du ménage (V1) et le revenu du ménage (V2); ce fichier est ensuite utilisé en tant que fichier «A» avec MERGE pour ajouter le revenu du ménage approprié (variable A2) à chaque enregistrement des membres individuels du ménage (variables B1-B146). $RUN AGGREG $FILES PRINT = MERGE4.LST DICTIN = INDIV.DIC DATAIN = INDIV.DAT DICTAGG = AGGDIC.TMP DATAAGG = AGGDAT.TMP DICTOUT = INDIV2.DIC fichier Dictionnaire en entrée fichier Données en entrée fichier temporaire Dictionnaire en sortie d AGGREG fichier temporaire Données en sortie d AGGREG fichier Dictionnaire en sortie de MERGE fichier Données en sortie de MERGE DATAOUT = INDIV2.DAT $SETUP Agrégation du revenu IDVARS=V3 AGGV=V6 STATS=SUM OUTF=AGG $RUN MERGE $SETUP Le revenu du ménage est ajouté à chaque enregistrement individuel INAFILE=AGG INBFILE=IN DUPB MATCH=B A1=B3 B1-B46,A2 On notera qu une fois faites les attributions de fichiers sous $FILES, il ne faut pas les répéter si on les réutilise dans des étapes ultérieures.

180

181 Chapitre 19 Tri et fusion de fichiers (SORMER) 19.1 Description générale SORMER permet à l utilisateur d effectuer plus commodément une opération de Tri/Fusion en acceptant que les informations relatives aux champs qui contrôlent le tri ou la fusion soient spécifiées dans le format habituel des paramètres d IDAMS. Si le fichier Données est décrit par un dictionnaire IDAMS, on peut envoyer en sortie une copie du dictionnaire correspondant aux données triées, les champs de tri étant spécifié par le numéro des variables; sinon, ils sont spécifiés par leur position. Ordre de tri. L utilisateur est tenu de spécifier si les données doivent être triées/fusionnées dans l ordre ascendant ou descendant Caractéristiques standard d IDAMS SORMER est un programme utilitaire et il ne possède aucune des caractéristiques standard d IDAMS Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, pour les variables clés de tri. Résultats du Tri/Fusion. Nombre d enregistrements triés/fusionnés Dictionnaire en sortie Une copie du dictionnaire en entrée correspondent au fichier Données en sortie Données en sortie La sortie consiste en un fichier doté des mêmes attributs que le(s) fichier(s) en entrée, avec les enregistrements triés dans l ordre requis.

182 162 Tri et fusion de fichiers (SORMER) 19.6 Dictionnaire en entrée Si les champs servant au tri sont spécifiés avec les numéros de variables, il faut entrer un dictionnaire IDAMS contenant des enregistrements T au moins pour ces variables. Seuls sont autorisés les dictionnaires décrivant un enregistrement par observation Données en entrée Pour le tri, il y a un fichier Données en entrée, contenant un ou plusieurs champs (ou variables) dont les valeurs définissent l ordre de tri voulu. Pour la fusion, l entrée consiste en 2-16 fichiers Données, chacun avec le même format pour les enregistrements, càd ayant des enregistrements de même longueur et les champs définissant l ordre de tri dans les mêmes positions. Avant d être fusionné, chaque fichier doit être trié sur la base des champs de contrôle de la fusion Structure du setup $RUN SORMER $FILES Spécification des fichiers $SETUP 1. Titre 2. Paramètres $DICT (conditionnel) Dictionnaire des variables utilisées pour le tri/la fusion Fichiers pour le tri : DICTxxxx dictionnaire des variables utilisées pour le tri (omettre si $DICT est utilisé) SORTIN données en entrée DICTyyyy dictionnaire en sortie SORTOUT données en sortie Fichiers pour la fusion : DICTxxxx dictionnaire des variables utilisées pour la fusion (omettre si $DICT est utilisé) SORTIN01 1er fichier Données SORTIN02 2ème fichier Données.. DICTyyyy dictionnaire en sortie SORTOUT données en sortie PRINT résultats (défaut IDAMS.LST) Note. Si l exécution de SORMER est demandée plus d une fois dans le même setup, les spécifications de fichiers d entrée sont modifiées mais non remplacées pour la (les) exécution(s) suivante(s) de SORMER. En clair, si on spécifie dans le même setup SORTIN01, SORTIN02 et SORTIN03 pour la première exécution, et SORTIN01 et SORTIN02 pour la deuxième exécution, SORMER fusionnera les nouveaux SORT01 et SORTIN02 ainsi que l ancien SORTIN03.

183 19.9 Instructions de contrôle du programme Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-2 ci-dessous. 1. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : TRI DE LA PREMIÈRE PARTIE 2. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : KEYVARS=(V2,V3) INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire en entrée. ddname par défaut : DICTIN. OUTFILE=yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire en sortie. Il faut le spécifier pour obtenir en sortie une copie du Dictionnaire en entrée. SORT/MERGE SORT Il faut trier les données en entrée. MERG Il faut fusionner deux ou plus de deux fichiers. ORDER=A/D A Trier en ordre ascendant sur les champs de tri. D Trier dans l ordre descendant. KEYVARS=(liste de variables) Liste des variables à utiliser comme champs pour le tri (le dictionnaire IDAMS doit être fourni). Note : avec cette option, le fichier Données doit ne contenir qu un enregistrement par observation, sinon il faut utiliser KEYLOC. KEYLOC=(D1,F1, D2,F2,...) Dn Localisation du début du n-ème champ de tri. Fn Localisation de la fin de ce champ. Doit être spécifiée même si celle-ci est égale à la localisation de début. Note. Il n y a pas de valeur par défaut. Il faut spécifier soit KEYVARS, soit KEYLOC (mais pas les deux). PRINT=CDICT/DICT CDIC Imprimer le dictionnaire en entrée pour les variables clé de tri, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire en entrée sans les enregistrements C Restrictions 1. On peut fusionner au maximum 16 fichiers. 2. On peut spécifier au maximum 12 champs ou variables de contrôle pour le Tri/Fusion. 3. Le nombre maximum d enregistrements dépend de l espace disponible sur le disque pour les fichiers de travail SORTWK01, 02, 03, 04, 05. On peut, si nécessaire, allouer ces fichiers à un autre disque que celui disponible par défaut.

184 164 Tri et fusion de fichiers (SORMER) Exemples Exemple 1. Fusionner trois fichiers Données du même format et déjà triés; chacun des fichiers est décrit par le même dictionnaire IDAMS ; les observations sont triées en ordre ascendant sur trois variables : V1, V2 et V4. $RUN SORMER $FILES PRINT = SORT1.LST DICTIN = \SURV\DICT.DIC fichier Dictionnaire en entrée SORTIN01 = DATA1.DAT fichier Données 1 en entrée SORTIN02 = DATA2.DAT fichier Données 2 en entrée SORTIN03 = DATA3.DAT fichier Données 3 en entrée DICTOUT = \SURV\DATA123.DIC fichier Dictionnaire en sortie SORTOUT = \SURV\DATA123.DAT fichier Données en sortie $SETUP FUSION DE TROIS FICHIERS DE DONNÉES : DATA1, DATA2 ET DATA3 MERG KEYVARS=(V1,V2,V4) OUTF=OUT Exemple 2. Trier un fichier Données en ordre descendant sur deux champs : le premier a une longueur de 4 caractères et commence en colonne 12; le second a 2 caractères de long et commence en colonne 3; on n utilise pas de dictionnaire. $RUN SORMER $FILES SORTIN = RAW.DAT fichier Données en entrée SORTOUT = SORT.DAT fichier Données en sortie $SETUP TRI DU FICHIER DE DONNÉES SANS UTILISATION DE DICTIONNAIRE KEYLOC=(12,15,3,4) ORDER=D

185 Chapitre 20 Subdivision de datasets (SUBSET) 20.1 Description générale SUBSET permet de subdiviser un fichier Données et le dictionnaire IDAMS associé, observation par observation et/ou par variable, ou de copier des fichiers complets. Vérification de l ordre de tri. Le programme a une option permettant de vérifier que les observations sont en ordre ascendant, sur la base d une liste de variables de tri (voir le paramètre SORTVARS). Les observations adjacentes dont l identification est dupliquée ne sont pas considérées comme n étant pas bien classées. Il existe cependant une option pour supprimer les duplicatas de n importe quelle observation Caractéristiques standard d IDAMS Sélection d observations et de variables. La sélection d observations s effectue à l aide d un filtre permettant de sélectionner un jeu particulier d observations dans le dataset en entrée. Les variables sont sélectionnées en définissant un jeu de variables en entrée à transférer dans le dataset de sortie. Les variables peuvent être envoyées en sortie dans n importe quel ordre, et être transférées plus d une fois pourvu que les numéros des variables en sortie soient renumérotés. Transformation de données. Les instructions Recode ne peuvent pas être utilisées. Traitement des données manquantes. SUBSET ne fait pas de distinction entre les valeurs de données manquantes et les valeurs réelles; toutes les données sont traitées de la même façon Résultats Dictionnaire en sortie. (Facultatif : voir le paramètre PRINT). Statistiques relatives aux subdivisions. La longueur de l enregistrement en sortie, le nombre d enregistrements du dictionnaire en sortie et le nombre d enregistrements des données en sortie. Numéro des variables en entrée et leur numéro correspondant en sortie. (Facultatif : voir le paramètre PRINT). Une table donnant la correspondance entre les numéros de variables et les numéros de référence en entrée et en sortie. Information sur les observations dupliquées. (Conditionnel : si l on vérifie l ordre de tri du fichier, le programme fournit une information sur toutes les observations dupliquées, que le paramètre DUPLI- CATE=DELETE soit spécifié ou non). Pour chaque observation dont l identification apparaît plus d une fois dans les données, le programme imprime le nombre d observations dupliquées, le numéro séquentiel de l observation et son identification. Il imprime en outre le nombre d enregistrements des données en entrée et le nombre de ceux supprimés.

186 166 Subdivision de datasets (SUBSET) 20.4 Dataset en sortie La sortie est un dataset IDAMS construit à partir des spécifications de l utilisateur quant à la sélection des observations et/ou des variables dans le fichier d entrée. Au cas où toutes les variables sont copiées (càd le paramètre OUTVARS n est pas spécifié), la structure des enregistrements de données en sortie est identique à la structure en entrée et le dictionnaire de sortie est une copie exacte du dictionnaire en entrée. Sinon, les informations fournies par le dictionnaire pour les variables sont attribuées de la manière suivante : Ordre et numéro des variables. Si VSTART est spécifié, les variables sont positionnées selon l ordre des variables dans la liste OUTVARS et elles sont numérotées selon le paramètre VSTART. Si VSTART n est pas spécifié, les variables gardent leur numéros d entrée et sont triées par ordre des numéros. Position des variables. Les variables sont positionnées de manière contigüe selon l ordre des variables dans la liste OUTVARS (si VSTART est spécifié) ou selon leur classement par ordre des numéros (si VSTART n est pas spécifié). Type de variables, longueur de champ et nombre de décimales sont les mêmes qu en entrée. Numéro de référence. Il a la même valeur qu en entrée ou bien il est modifié selon le paramètre REFNO. Enregistrements C. Les codes et leur noms sont copiés inchangés dans le dictionnaire de sortie Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. On peut utiliser des variables alphabétiques ou numériques Structure du setup $RUN SUBSET $FILES Spécification des fichiers $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie DATAyyyy données en sortie PRINT résultats (défaut IDAMS.LST)

187 20.7 Instructions de contrôle du programme Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V1=10,20,30 AND V2=1,5,7 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : SOUS-ENSEMBLE DU FICHIER ÉTUDE95 : V1-V50 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : SORT=(V1,V2), DUPLICATE=DELETE INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. SORTVARS=(liste de variables) S il faut vérifier l ordre de tri du fichier, spécifier jusqu à 20 variables définissant la séquence de tri dans l ordre plus grand à plus petit. Les observations dupliquées sont considérées comme étant dans l ordre ascendant. DUPLICATE=KEEP/DELETE Suppression des observations dupliquées (s applique uniquement si SORT est spécifié). KEEP Envoyer en sortie tous les observations dupliquées rencontrées. DELE Envoyer en sortie seulement la première observation dupliquée rencontrée, et imprimer un message à propos des autres. OUTVARS=(liste de variables) Soumettre cette liste uniquement si l on veut envoyer en sortie un sous-ensemble des variables du dataset en entrée. Si on ne sélectionne pas VSTART, duplication des numéros de variables n est pas autorisée. Sinon, les variables peuvent être spécifiées dans n importe quel ordre, et elles peuvent être répétées autant de fois que nécessaire. Défaut : toutes les variables sont envoyées en sortie. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. VSTART=n Dans le dataset en sortie les variables seront numérotées séquentiellement, en commençant à n. Défaut : la numérotation des variables en entrée est conservée. REFNO=OLDREF/VARNO OLDR Conserver dans les enregistrements C et T les numéros de référence tels que dans le dictionnaire en entrée. VARN Mettre à jour dans les enregistrements C et T le champ du numéro de référence pour qu il corresponde au numéro de variable en sortie.

188 168 Subdivision de datasets (SUBSET) PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, VARNOS) OUTD Imprimer le dictionnaire de sortie sans les enregistrements C. OUTC Imprimer le dictionnaire de sortie avec les enregistrements C, s il y en a. VARN Imprimer les numéros de variables et de référence en entrée et en sortie Restrictions 1. On peut définir un maximum de 20 variables de tri. 2. La taille globale des champs des variables de tri ne peut excéder 200 caractères Exemples Exemple 1. Construire un sous-ensemble d observations pour des variables sélectionnées; les variables seront renumérotées à partir de 1 et on imprimera un tableau donnant la correspondance entre les numéros de variables en entrée et en sortie. $RUN SUBSET $FILES PRINT = SUBS1.LST DICTIN = ABC.DIC fichier Dictionnaire en entrée DATAIN = ABC.DAT fichier Données en entrée DICTOUT = SUBS.DIC fichier Dictionnaire en sortie DATAOUT = SUBS.DAT fichier Données en sortie $SETUP INCLUDE V5=2,4,5 AND V6=2301 CONSTRUCTION D UN SOUS-ENSEMBLE D OBSERVATIONS ET DES VARIABLES PRINT=VARNOS VSTART=1 - OUTVARS=(V1-V5,V18,V43-V57,V114,V116) Exemple 2. Utilisation du programme SUBSET pour détecter les observations dupliquées; les observations sont identifiées par des variables dans les colonnes 1-3 et 7-8; il y a un enregistrement par observation; le dataset en sortie n étant pas nécessaire, il n est pas gardé. $RUN SUBSET $FILES DATAIN = DEMOG.DAT fichier Données en entrée $SETUP VÉRIFICATION DES OBSERVATIONS DUPLIQUÉES SORT=(V2,V4) PRIN=NOOUTDICT $DICT $PRINT T 2 1E VAR ID D OBSERVATION 1 3 T 4 2E VAR ID D OBSERVATION 7 2

189 Chapitre 21 Transformation de données (TRANS) 21.1 Description générale Le programme TRANS crée un nouveau dataset IDAMS contenant des variables provenant d un dataset existant et de nouvelles variables définies par des instructions Recode. C est une manière de «sauvegarder» des variables recodées. TRANS possède une option d impression et il peut donc utilement servir à tester des instructions Recode avec un petit nombre d observations avant d exécuter un programme d analyse ou avant de sauvegarder tout un fichier Caractéristiques standard d IDAMS Sélection d observations et de variables. On peut utiliser le filtre standard pour sélectionner un sousensemble d observations dans les données d entrée. La sélection des variables s effectue avec le paramètre OUTVARS. Transformation de données. Les instructions Recode peuvent être utilisées. Traitement des données manquantes. Les codes de données manquantes appropriés sont écrits dans le dictionnaire en sortie; ils sont normalement copiés du dictionnaire d entrée mais ils peuvent aussi être remplacés ou encore être fournis pour les variables en sortie au moyen de l instruction MDCODES de Recode. Le programme ne vérifie pas s il y a des valeurs manquantes dans les données sauf par le biais d instructions de Recode Résultats Dictionnaire en sortie. (Facultatif : voir le paramètre PRINT). Données en sortie. (Facultatif : voir le paramètre PRINT). A raison de 10 variables par ligne, le programme imprime pour chaque variable V ou R les valeurs pour toutes les observations. Pour les variables alphabétiques, seulement les 10 premiers caractères sont imprimés Dataset en sortie La sortie est un dataset IDAMS qui contient uniquement les variables (V et R) spécifiées avec le paramètre OUTVARS. Pour les variables figurant dans le fichier en sortie, les informations fournies par le dictionnaire sont attribuées de la manière suivante :

190 170 Transformation de données (TRANS) Ordre et numéro des variables. Si VSTART est spécifié, les variables sont positionnées selon l ordre des variables dans la liste OUTVARS et elles sont numérotées selon le paramètre VSTART. Si VSTART n est pas spécifié, les variables gardent leur numéros d entrée et sont triées par ordre des numéros. Nom des variables et codes de données manquantes. Pris dans le dictionnaire en entrée (uniquement pour les variables V) ou dans les instructions NAME et MDCODES de Recode s il y en a. Position des variables. Les variables sont positionnées de manière contigüe selon l ordre des variables dans la liste OUTVARS (si VSTART est spécifié) ou selon leur classement par ordre des numéros (si VSTART n est pas spécifié). Type de variables, longueur de champ et nombre de décimales. Variables V : le type, la longueur de champ et le nombre de décimales sont les mêmes qu en entrée. Variables R : le type des variables R est toujours numérique; la longueur de leurs champs et le nombre de décimales sont assignés en fonction des valeurs données aux paramètres WIDTH (9 par défaut) et DEC (0 par défaut), ou sont assignées en utilisant les spécifications du dictionnaire pour des variables individuelles. Numéro de référence et ID de l étude. Pour les variables V, ce sont les mêmes valeurs qu en entrée. Pour les variables R, il n y a pas de numéro de référence et le programme insère REC comme ID de l étude. Enregistrements C. On ne peut pas créer d enregistrements C pour les variables R. Les enregistrements C (s il y en a) sont copiés dans le dictionnaire de sortie pour toutes les variables V. On notera que si une variable V est recodée durant l exécution de TRANS, les enregistrements C copiés en sortie peuvent ne plus être pertinents Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. On peut utiliser des variables numériques ou alphabétiques.

191 21.6 Structure du setup Structure du setup $RUN TRANS $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications du dictionnaire (facultatif) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie DATAyyyy données en sortie PRINT résultats (défaut IDAMS.LST) 21.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-4 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : EXCLUDE V19= Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : CONSTRUCTION DES INDICES DE LA VIOLENCE 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : VSTART=1, WIDTH=2 OUTVARS=(V2-V5,R7) INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques des données en entrée et des valeurs dépassant la longueur du champ prévu en sortie. Voir le chapitre «Le fichier Setup d IDAMS».

192 172 Transformation de données (TRANS) MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MAXERR=0/n Le nombre maximum autorisé d erreurs de «longueur insuffisante de champ» avant que le programme n arrête son exécution. Ces erreurs surviennent lorsque la valeur d une variable est trop grande pour la caser dans le champ attribué, par ex. une valeur de 250 quand WIDTH=2 a été spécifié. Voir le chapitre «Les données dans IDAMS». OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. OUTVARS=(liste de variables) Les variables V et R qui doivent être envoyées en sortie. L ordre des variables dans la liste n est significatif que si le paramètre VSTART est spécifié. Si VSTART n est pas spécifié, il faut que tous les numéros des variables V et R soient uniques. Pas de défaut. VSTART=n Dans le dataset en sortie, les variables seront numérotées séquentiellement, en commençant à n. Défaut : la numérotation des variables en entrée est conservée. WIDTH=9/n Valeur par défaut de la longueur de champ des variables en sortie à utiliser pour les variables R. Pour des variables spécifiques, on peut remplacer cette valeur par défaut à l aide du paramètre WIDTH de la spécification du dictionnaire. Pour modifier la longueur de champ d une variable V numérique, on crée une variable R équivalente (voir Exemple 1). DEC=0/n Nombre de décimales à garder pour les variables R. PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, DATA) OUTD Imprimer le dictionnaire en sortie sans les enregistrements C. OUTC Imprimer le dictionnaire en sortie avec les enregistrements C, s il y en a. DATA Imprimer les valeurs des variables en sortie. 4. Spécifications du dictionnaire (facultatif). La longueur de champ et le nombre de décimales peuvent être spécifiés pour tout jeu particulier de variables. Ces valeurs auront priorité sur les valeurs fixées par les paramètres principaux WIDTH et DEC. On notera que les codes de données manquantes et les noms des variables sont assignés respectivement par les instructions MDCODES et NAME de Recode. Attention : l instruction MDCODES ne retient que 2 décimales pour les variables R et arrondit au besoin les valeurs qui dépassent. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification doit commencer sur une nouvelle ligne. Exemples : VARS=R4, WIDTH=4, DEC=1 VARS=R8, WIDTH=2 VARS=(R100-R109), WIDTH=1 VARS=(liste de variables) Les variables R auxquelles s appliquent les paramètres WIDTH et DEC. WIDTH=n Longueur de champ des variables de sortie. Défaut : valeur assignée au paramètre WIDTH

193 21.8 Restrictions 173 DEC=n Nombre de décimales. Défaut : valeur assignée au paramètre DEC Restrictions 1. Un maximum de 250 variables R peut être envoyé en sortie. 2. Lors d une même exécution de TRANS, on peut utiliser un maximum de 1000 variables (y inclus les variables utilisées seulement avec les instructions de Recode). 3. Il peut y avoir au maximum 200 spécifications du dictionnaire Exemples Exemple 1. Des variables sélectionnées dans le dataset en entrée sont envoyées en sortie avec 2 nouvelles variables; les numéros de variables ne sont pas modifiés; on modifie la longueur du champ en entrée de la variable V20 et on lui attribue 4 caractères. $RUN TRANS $FILES PRINT = TRANS1.LST DICTIN = OLD.DIC fichier Dictionnaire en entrée DATAIN = OLD.DAT fichier Données en entrée DICTOUT = NEW.DIC fichier Dictionnaire en sortie DATAOUT = NEW.DAT fichier Données en sortie $SETUP CONSTRUCTION DE 2 NOUVELLES VARIABLES PRINT=NOOUTDICT OUTVARS=(V1-V19,R20,V33,V45-V50,R105,R122) VARS=R105,WIDTH=1 VARS=R122,WIDTH=3,DEC=1 VARS=R20,WIDTH=4 $RECODE R20=V20 NAME R20 VARIABLE 20 R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9) MDCODES R105(9) NAME R105 GROUPES D ^AGE IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3 MDCODES R122(99.9) NAME R122 NO D ARTICLES PAR ANNÉE Exemple 2. Cet exemple illustre l utilisation de TRANS pour la vérification d instructions de Recode ; on imprime pour les 30 premières observations les valeurs des variables ID (V1, V2), celles des variables utilisées avec Recode ainsi que les valeurs des variables résultat; le dataset en sortie n est pas demandé et il n est pas défini.

194 174 Transformation de données (TRANS) $RUN TRANS $FILES DICTIN = STUDY.DIC fichier Dictionnaire en entrée DATAIN = STUDY.DAT fichier Données en entrée $SETUP VÉRIFICATION D INSTRUCTIONS DE RECODE WIDTH=2 PRINT=(DATA,NOOUTDICT) MAXCASES=30 - OUTVARS=(V1-V2,V71-V74,V118,V12,V13,R901-R903) $RECODE R901=BRAC(V118,1-16=2,17=1,18-23=3,24=1,25-35=3,36=1,37=2,ELSE=9) IF NOT MDATA(V12,V13) THEN R902=TRUNC(V12/V13) ELSE R902=99 R903=COUNT(1,V71-V74) Exemple 3. Créer un fichier test avec un échantillon de 1/20 tiré au hasard dans le fichier Données; il n est pas nécessaire de sauvegarder le dictionnaire en sortie étant donné qu il est identique au dictionnaire d entrée. $RUN TRANS $FILES DICTIN = STUDY.DIC fichier Dictionnaire en entrée DATAIN = STUDY.DAT fichier Données en entrée DATAOUT = TEST.DAT fichier Données en sortie $SETUP CONSTRUCTION D UN FICHIER TEST AVEC 1/20 D OBSERVATIONS TIRÉES AU HASARD PRINT=NOOUTDICT OUTVARS=(V1-V505) $RECODE IF RAND(0,20) NE 1 THEN REJECT

195 Quatrième partie Facilités pour l analyse de données

196

197 Chapitre 22 Partition et regroupement en classes (CLUSFIND) 22.1 Description générale CLUSFIND est un programme de classification basée sur le partitionnement d un ensemble d objets (observations ou variables) en une série de classes, ceci à l aide d un des six algorithmes du programme : deux d entre eux sont fondés sur le partitionnement autour de médoïdes, un sur la logique floue, et les trois autres sur la classification hiérarchique Caractéristiques standard d IDAMS Sélection d observations et de variables. Si l on entre des données brutes, on peut utiliser le filtre standard pour sélectionner dans celles-ci un sous-ensemble d observations. Les variables destinées à l analyse sont spécifiées avec le paramètre VARS. Transformation de données. Si l on entre des données brutes, les instructions Recode peuvent être utilisées. Pondération de données. L utilisation de variables poids n est pas applicable. Traitement des données manquantes. Si l on a des données brutes en entrée, on dispose du paramètre MDVALUES pour spécifier les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. Le programme supprime automatiquement les observations dont toutes les variables contiennent des données manquantes. Sinon, les données manquantes sont supprimées par pairs. Si les données sont normalisées, le programme calcule la moyenne et la déviation moyenne absolue uniquement sur les valeurs correctes. Pour le calcul des distances, seules sont prises en considération celles qui ont des valeurs correctes pour les deux objets. Si l on a une matrice en entrée, on dispose du paramètre MDMATRIX pour spécifier quelles valeurs utiliser pour vérifier si la matrice contient des éléments non valides Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Données d entrée après normalisation. (Facultatif : voir le paramètre PRINT). Les valeurs normalisées de chacune des variables V ou R pour toutes les observations utilisées dans l analyse, précédées de la moyenne et de la déviation moyenne absolue de ces variables.

198 178 Partition et regroupement en classes (CLUSFIND) Matrice de dissimilarité. (Facultatif : voir le paramètre PRINT). Le triangle inférieur gauche de la matrice tel qu entré dans le programme ou calculé par celui-ci. Résultats d analyse PAM. Pour chaque nombre de classes (clusters) fixé avec les paramètres CMIN et CMAX, le programme imprime à tour de rôle les informations suivantes : le nombre d objets représentatifs (classes) et la distance finale moyenne, pour chaque classe : l ID de l objet représentatif, le nombre d objets et la liste des objets appartenant à cette classe, les coordonnées des médoïdes (les valeurs des variables d analyse pour chaque objet représentatif; uniquement pour le dataset en entrée), le vecteur de classification (un vecteur de chiffres correspondant aux objets et indiquant à quelle classe chacun d eux appartient) et les caractéristiques de celle-ci, la représentation graphique des résultats, càd un tracé de la silhouette de chaque classe (facultatif - voir le paramètre PRINT). Résultats d analyse FANNY. Le programme imprime pour chaque classe à tour de rôle (de CMIN à CMAX) les informations suivantes : nombre de classes, la valeur de la fonction objective à chaque itération, l ID de chaque objet et son coefficient d appartenance à chaque classe, le coefficient de partition de Dunn ainsi que sa version normalisée, les classes les plus proches, càd le nombre d objets ainsi que la liste des objets appartenant à chaque classe, le vecteur de classification, la représentation graphique des résultats, càd un tracé de la silhouette de chaque classe (facultatif - voir le paramètre PRINT). Résultats d analyse CLARA. Le programme imprime les informations suivantes pour les classes qu il a réussi à constituer : liste des objets sélectionnés dans l échantillon retenu pour l analyse, le vecteur de classification, pour chaque classe : l ID de l objet représentatif, le nombre d objets et la liste des objets appartenant à cette classe, les distances moyennes et maximales par rapport à chaque médoïde, la représentation graphique des résultats, càd un tracé de la silhouette de chaque classe appartenant à l échantillon sélectionné (facultatif - voir le paramètre PRINT). Résultats d analyse AGNES. Ils donnent les informations suivantes : le classement final des objets (identifiés par leur ID) et les dissimilarités entre ceux-ci, la représentation graphique des résultats, càd un tracé des marques de dissimilarité (facultatif - voir le paramètre PRINT). Résultats d analyse DIANA. Ils donnent les informations suivantes :. le classement final des objets (identifiés par leur ID) et le diamètre des classes, la représentation graphique des résultats, càd un tracé des marques de dissimilarité (facultatif - voir le paramètre PRINT). Résultats d analyse MONA. Ils donnent les informations suivantes : le tracé des partitions (facultatif - voir le paramètre PRINT) avec, à chaque étape, la classe qui va être partagée, la liste des objets (identifiés par leur variable ID) de chacun des deux sous-ensembles et la variable qui a servi à la partition, le classement final des objets, la représentation graphique des résultats, càd un graphe des partitions avec la liste des objets dans chaque classe et la variable utilisée (facultatif - voir le paramètre PRINT) Dataset en entrée Le dataset en entrée est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables utilisées pour l analyse doivent être numériques, avec des valeurs entières ou décimales. La variable ID de l observation peut être alphabétique. Les valeurs des variables utilisées pour les analyses PAM, CLARA, FANNY, AGNES

199 22.5 Matrice en entrée 179 ou DIANA doivent être mesurées sur des échelles d intervalles. Les variables utilisées dans MONA doivent être dichotomiques (avec des valeurs de 0 ou 1). CLUSFIND n utilise au maximum, il faut le noter, que 8 caractères du nom de la variable figurant dans le dictionnaire IDAMS Matrice en entrée C est une matrice IDAMS carrée. Voir le chapitre «Les données dans IDAMS». Elle peut contenir des mesures de similarité, de dissimilarité ou des coefficients de corrélation. On notera que CLUSFIND n utilise au maximum que 8 caractères du nom de l objet tel qu il figure sur les enregistrements des identificateurs de variables Structure du setup $RUN CLUSFIND $FILES Spécification des fichiers $RECODE (facultatif pour les données brutes en entrée ; il n est pas disponible avec une matrice en entrée) Instructions Recode $SETUP 1. Filter (facultatif ; seulement pour les données brutes en entrée) 2. Titre 3. Paramètres $DICT (conditionnel) Dictionnaire pour les données brutes en entrée $DATA (conditionnel) Données pour les données brutes en entrée $MATRIX (conditionnel) Matrice pour une matrice en entrée Fichiers : FT09 matrice en entrée (si $MATRIX n est pas utilisé et il y a une matrice en entrée) DICTxxxx dictionnaire en entrée (si $DICT n est pas utilisé et INPU=RAWD) DATAxxxx données en entrée (si $DATA n est pas utilisé et INPUT=RAWDATA) PRINT résultats (défaut IDAMS.LST) 22.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Disponible uniquement avec des données brutes en entrée.

200 180 Partition et regroupement en classes (CLUSFIND) Exemple : INCLUDE V8= Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : PARTITION AUTOUR DES MEDOÏDES 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : ANALISIS=PAM VARS=(V7-V12) IDVAR=V1 INPUT=RAWDATA/SIMILARITIES/DISSIMILARITIES/CORRELATIONS RAWD En entrée : un fichier Données décrit par un dictionnaire IDAMS. SIMI En entrée : des mesures de similarités sous forme d une matrice IDAMS carrée. DISS En entrée : des mesures de dissimilarités sous forme d une matrice IDAMS carrée. CORR En entrée : coefficients de corrélation sous forme d une matrice carrée IDAMS. Paramètres valables uniquement pour des données brutes en entrée INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=100/n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Sa valeur dépendra de l espace mémoire disponible. n=0 Pas d exécution; vérification des paramètres uniquement. 0<n<=100 Exécution normale. n>100 Seule l analyse CLARA est autorisée. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes à utiliser par le programme pour les variables auxquelles il accédera durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». STANDARDIZE Normalisation des variables avant le calcul des dissimilarités. DTYPE=EUCLIDEAN/CITY Type de distance à utiliser dans le calcul des dissimilarités. EUCL Distance euclidienne. CITY Distance «City block». IDVAR=numéro de variable Variable à imprimer comme identificateur d observation. Trois caractères seulement figurent sur les résultats. Par conséquent, les variables identifiées par un nombre entier doivent avoir une valeur inférieure à Quant aux variables alphabétiques, seuls les trois premiers caractères sont imprimés. Pas de défaut. PRINT=(CDICT/DICT, STAND) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. STAN Imprimer les données d entrée après leur normalisation. Paramètres uniquement pour les matrices en entrée DISSIMILARITIES=ABSOLUTE/SIGN

201 22.8 Restrictions 181 Pour INPUT=CORR, le paramètre spécifie comment calculer la matrice de dissimilarité. ABSO Considérer les valeurs absolues des coefficients de corrélation comme mesures de similarité. SIGN Utiliser les coefficients de corrélation avec leur signe. MDMATRIX=n Traiter les éléments de la matrice égale à n comme données manquantes. Défaut : toutes les valeurs sont valides. PRINT=MATRIX Imprimer la matrice d entrée. Paramètres valables pour les deux types d entrée VARS=(liste de variables) Les variables qui seront utilisées dans l analyse. Pas de défaut. ANALYSIS=PAM/FANNY/CLARA/AGNES/DIANA/MONA Spécifie le type d analyse à effectuer. PAM Partition autour des médoïdes. FANN Partition avec classification floue. CLAR Partition autour des médoïdes (comme avec PAM) mais pour des datasets d au moins 100 observations. CLUSFIND va échantillonner les observations et choisir l échantillon le plus représentatif. Le programme tire cinq échantillons de 40+2*CMAX observations (voir le paramètre CMAX ci-dessous). Uniquement avec des données brutes en entrée. AGNE Classification hiérarchique par agglomération (ascendante). DIAN Classification hiérarchique par division (descendante). MONA Classification sur la base de variables dichotomiques. Il faut au moins 3 variables. Uniquement avec des données brutes en entrée. Pas de défaut. CMIN=2/n Pour PAM et FANNY. Le nombre minimum de classes à former par le programme. CMAX=n Pour PAM et FANNY : le nombre maximum de classes à former par le programme. Pour CLARA : le nombre exact de classes à former. Défaut : la valeur plus grande entre 20 et la valeur spécifiée pour CMIN. PRINT=(DISSIMILARITIES, GRAPH, TRACE, VNAMES) DISS Imprimer la matrice de dissimilarités. GRAP Imprimer la représentation graphique des résultats. TRAC Avec MONA, imprimer chaque étape de la partition binaire. VNAM Dans le cas d une matrice fournie en entrée, imprimer pour identifier les objets soit les 3 premiers caractères, soit les 8 premiers du noms des variables Restrictions 1. Excepté pour CLARA, le nombre maximum d observations qu on peut utiliser dans une analyse est Le nombre minimum d observations requis pour une analyse CLARA est Dans une matrice d entrée, le nombre maximum d éléments est Le programme n imprime que 3 caractères de la variable ID sur les résultats.

202 182 Partition et regroupement en classes (CLUSFIND) 22.9 Exemples Exemple 1. Classer les 100 premières observations en 5 classes en utilisant 6 variables quantitatives, V11- V16; les valeurs des variables sont normalisées et on utilise la distance euclidienne pour les calculs; le classement est effectué par partitionnement autour des médoïdes; on demande l impression des résultats graphiques; les observations sont identifiées par la variable V2. $RUN CLUSFIND $FILES PRINT = CLUS1.LST DICTIN = MY.DIC fichier Dictionnaire en entrée DATAIN = MY.DAT fichier Données en entrée $SETUP ANALYSE PAM AVEC DES DONNÉES BRUTES EN ENTRÉE BADD=MD1 VARS=(V11-V16) STAND IDVAR=V2 CMIN=5 CMAX=5 PRINT=GRAP Exemple 2. Classification hiérarchique agglomérative de 30 villes ; la matrice d entrée contient les distances entre les villes et celles-ci sont numérotées de 1 à 30; on demande l impression des résultats graphiques; le nom des villes figure sur les résultats. $RUN CLUSFIND $FILES PRINT = CLUS2.LST FT09 = TOWNS.MAT fichier Matrice en entrée $SETUP ANALYSE AGNES AVEC UNE MATRICE DE DISTANCES EN ENTRÉE INPUT=DISS VARS=(V1-V30) ANAL=AGNES PRINT=(GRAP,VNAMES)

203 Chapitre 23 Analyse de configuration (CONFIG) 23.1 Description générale CONFIG effectue l analyse d une configuration d entrée ayant la forme d une matrice IDAMS rectangulaire (telle qu en produit par ex. MDSCAL). Le programme peut effectuer les opérations de centrage, normalisation, rotation, translation des dimensions, calcul des distances entre points et des produits scalaires. Chaque ligne d une matrice de configuration fournit les coordonnées d un point de la configuration. En conséquence, le nombre de lignes est égal au nombre de points (variables), tandis que le nombre de colonnes est égal au nombre de dimensions. Les résultats de CONFIG peuvent permettre à l utilisateur de comparer plus aisément des configurations ayant originellement des orientations dissemblables. Il peut également servir à effectuer une analyse de configuration ultérieure. La rotation, par exemple, peut rendre une configuration plus facile à interpréter Caractéristiques standard d IDAMS Sélection d observations et de variables. La sélection d observations n est pas applicable, et le filtre n est pas disponible. Il n y a pas d option pour sélectionner une partie de la configuration d entrée. CONFIG dispose d une option permettant de sélectionner une matrice dans un fichier contenant des matrices multiples (voir le paramètre DSEQ). Transformation de données. L utilisation des instructions Recode n est pas applicable dans CONFIG. Pondération de données. Ne s utilise pas avec CONFIG. Traitement des données manquantes. CONFIG ne reconnaît pas les données manquantes dans la configuration d entrée. D ordinaire, ceci ne présente pas de problèmes, étant donné que les configurations sont d habitude complètes Résultats Dictionnaire de la matrice d entrée. (Conditionnel : uniquement si la matrice d entrée contient un dictionnaire. Voir le paramètre MATRIX). Enregistrements du dictionnaire des variables en entrée avec leur numéro de correspondance sur les graphiques. Configuration d entrée. Une copie imprimée de la configuration d entrée. Configuration centrée. (Facultatif : voir le paramètre PRINT). Si l utilisateur spécifie PRINT=ALL ou PRINT=CENT et que la configuration est déjà centrée, le message «La configuration d entrée est centrée» est imprimé par le programme.

204 184 Analyse de configuration (CONFIG) Configuration normée. (Facultatif : voir le paramètre PRINT). Si l utilisateur spécifie PRINT=ALL ou PRINT=NORM et que la configuration est déjà normée, le message «La configuration d entrée est normalisée» est imprimé par le programme. Solution avec les axes principaux. (Facultatif : voir le paramètre PRINT). Les lignes de la matrice sont les points et les colonnes sont les axes. Les éléments de la matrice sont les projections des points sur les axes. Produits scalaires. (Facultatif : voir le paramètre PRINT). Le programme imprime la moitié inférieure gauche de la matrice. Chaque élément de la matrice est le produit scalaire d une paire de points (variables). Distances entre points. (Facultatif : voir le paramètre PRINT). Le programme imprime la moitié inférieure gauche de la matrice. Chaque élément de la matrice est la distance entre une paire de points (variables). La diagonale, qui ne contient que des zéros, est aussi imprimée. Configuration(s) transformée(s). (Facultatif : voir sous les spécifications de transformations le paramètre PRINT). La configuration transformée est imprimée après la rotation et/ou translation. Projection de la (des) configuration(s) transformée(s). (Facultatif : voir sous les spécifications de transformations le paramètre PRINT). La configuration transformée est projetée 2 axes à la fois. Les points sont numérotés. Histoire de la rotation Varimax. (Facultatif : voir le paramètre PRINT). Le programme imprime un vecteur contenant la variance de la matrice de configuration avant chaque cycle d itération. Ensuite, il imprime la matrice de configuration après la rotation effectuée pour maximiser le critère normal de Varimax. Cette matrice a le même nombre de lignes et de colonnes que la matrice de configuration d entrée. Configuration triée. (Facultatif : voir le paramètre PRINT). Après leur tri en ordre ascendant, les valeurs sont imprimées horizontalement pour chacune des dimensions. Graphiques des vecteurs. (Facultatif : voir le paramètre PRINT). La configuration finale est projetée deux axes à la fois. Les points sont numérotés selon le numéro des variables tel qu imprimé avec le dictionnaire de la configuration d entrée Matrice de configuration en sortie La configuration finale peut être écrite dans un fichier (voir le paramètre WRITE). Elle est envoyée en sortie sous la forme d une matrice IDAMS rectangulaire. Voir le chapitre «Les données dans IDAMS» pour une description des matrices IDAMS. Les enregistrements servant à identifier les variables sont envoyés en sortie uniquement s ils sont inclus dans le fichier de la configuration d entrée (voir le paramètre MATRIX). Le format des éléments de la matrice est 10F7.3. Les enregistrements contenant les éléments de la matrice sont identifiés par CFG dans les colonnes et par un numéro séquentiel dans les colonnes Les dimensions de la matrice sont les mêmes que celles de la matrice d entrée Matrice des distances en sortie La matrice des distances entre points peut être écrite dans un fichier (voir le paramètre WRITE). Elle est envoyée en sortie sous la forme d une matrice IDAMS carrée avec des enregistrements fictifs fournis pour les moyennes et les écarts-types attendus dans une telle matrice. Les enregistrements servant à identifier les variables sont envoyés en sortie uniquement s ils sont inclus dans le fichier de la configuration d entrée (voir le paramètre MATRIX). Le format des éléments de la matrice est 10F7.3. Les enregistrements contenant les éléments de la matrice sont identifiés par CFG dans les colonnes et par un numéro séquentiel dans les colonnes Matrice de configuration en entrée La matrice d entrée doit avoir la forme d une matrice IDAMS rectangulaire, soit avec, soit sans enregistrements d identification de variables (voir le paramètre MATRIX). Voir le chapitre «Les données dans IDAMS» pour une description du format.

205 23.7 Structure du setup 185 Les matrices de configuration obtenues avec le programme MDSCAL peuvent être introduites directement dans CONFIG. La matrice d entrée de n(lignes) par m(colonnes) doit contenir les coordonnées de n points pour m dimensions. Il ne peut pas y avoir de données manquantes dans la matrice d entrée. Il peut y avoir plus d une configuration dans un fichier introduit dans CONFIG. Celle qui doit être analysée est sélectionnée à l aide du paramètre DSEQ Structure du setup $RUN CONFIG $FILES Spécification des fichiers $SETUP 1. Titre 2. Paramètres 3. Spécifications des transformations (conditionnel) $MATRIX (conditionnel) Matrice Fichiers : FT02 FT09 PRINT configuration en sortie et/ou matrice de distances configuration en entrée (omettre si $MATRIX est utilisé) résultats (défaut IDAMS.LST) 23.8 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : EXÉCUTION DE CONFIG APRÈS MDSCAL 2. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : PRINT=(CENT,SORT,DIST) TRANS MATRIX=STANDARD/NONSTANDARD STAN Les enregistrements d identification des variables sont inclus dans la matrice de configuration en entrée. NONS Les enregistrements ne sont pas inclus. DSEQ=1/n Le numéro séquentiel, dans le fichier en entrée, de la configuration à analyser. WRITE=(CONFIG,DISTANCES) CONF Envoyer la configuration finale dans un fichier. DIST Envoyer la matrice des distances entre points dans un fichier.

206 186 Analyse de configuration (CONFIG) TRANSFORM Les spécifications de transformation seront fournies. PRINT=(CENTER, NORMALIZE, PRINAXIS, SCALARS, DISTANCES, VARIMAX, SORTED, PLOT, ALL) CENT Déplacer l origine au point centroïde de l espace. NORM Modifier la taille de l espace de telle sorte que la somme des éléments au carré est égale au nombre de variables. PRIN Recherche des axes principaux. SCAL Matrice des produits scalaires. DIST Matrice des distances entre points. VARI Rotation orthogonale Varimax (après transformation s il y en a). SORT Configuration triée (après transformation s il y en a). PLOT Projection de la configuration finale. ALL Imprimer CENT, NORM, PRIN, SCAL, DIST, VARI, SORT, PLOT. Défaut : le programme imprime la configuration d entrée. Note. Les options d analyse sont exécutées avec la configuration d entrée selon la séquence spécifiée ci-dessus, peu importe l ordre dans lequel elles sont spécifiées avec le paramètre PRINT. Les transformations, s il y en a, sont exécutées juste avant la rotation de la configuration. Après l exécution de chaque option, les résultats sont imprimés. Les effets des options d analyse sont cumulatifs. Si la configuration finale est projetée et/ou sauvegardée, ceci est réalisé après que toutes les analyses aient été effectuées. 3. Spécifications des transformations. (Conditionnel : si TRANSFORM a été spécifié, utiliser les paramètres spécifiés ci-dessous). On peut spécifier autant de transformations que l on veut; chacune d elles doit commencer sur une nouvelle ligne. Si l utilisateur spécifie l angle de rotation (DEGREES) et deux dimensions (DIMENSION), le programme effectue une rotation. S il spécifie une constante (ADD) et une dimension (DIMENSION), le programme effectue une translation. Exemple : DEGR=45, DIME=(5,8) PRINT=PLOT PRINT=(CONFIG, PLOT) CONF Imprimer la configuration ayant fait l objet d une translation ou d une rotation (automatique pour les configurations à 2 dimensions et pour la configuration finale). PLOT Projeter la configuration ayant fait l objet d une translation ou d une rotation. Note : il n y a pas de résultats pour la transformation si PRINT n est pas spécifié. Il faut le spécifier pour chaque transformation. Paramètres de rotation DIMENSION=(n, m) Les deux dimensions qui doivent faire l objet d une rotation (rotation par paire seulement). DEGREES=n L angle de rotation en degrés (rotation orthogonale seulement). Paramètres de translation DIMENSION=n La dimension qui doit faire l objet d une translation. ADD=n Valeur à ajouter à chaque coordonnée pour la dimension spécifiée (peut être négative et avoir des décimales) Restriction En entrée, la taille maximum de la matrice de configuration est de 60 lignes x 10 colonnes.

207 23.10 Exemples Exemples Exemple 1. Rotation et transformation d une matrice de configuration créée antérieurement par le programme MDSCAL ; la configuration finale est écrite dans un fichier et projetée; les dimensions 1 et 2 doivent faire l objet d une rotation de 60 degrés; il faut transformer la dimension 1 en lui ajoutant 6. $RUN CONFIG $FILES PRINT = CONF1.LST FT02 = CONFIG.MAT FT09 = MDS.MAT $SETUP ANALYSE DE CONFIGURATION PRINT=(PLOT,VARI) TRAN WRITE=CONF DEGR=60 DIME=(1,2) PRINT=PLOT ADD=6 DIME=1 PRINT=PLOT fichier pour la matrice de configuration en sortie matrice de configuration en entrée Exemple 2. Calcul de la matrice de produits scalaires et de la matrice de distances entre points pour la 4ème configuration dans le fichier d entrée; on ne demande pas de projections. $RUN CONFIG $FILES PRINT = CONF2.LST FT02 = SCAL.MAT FT09 = MDS.MAT $SETUP ANALYSE DE CONFIGURATION PRINT=(SCAL,DIST) DSEQ=4 fichier de sortie pour les produits scalaires et distances matrice de configuration en entrée

208

209 Chapitre 24 Analyse discriminante (DISCRAN) 24.1 Description générale La tâche de l analyse discriminante est de trouver la meilleure ou les meilleures fonction(s) linéaire(s) discriminante(s) d un ensemble de variables reproduisant, autant que faire se peut, un groupement a priori des observations considérées. Le programme utilise une procédure pas à pas, càd qu à chaque pas la variable à plus fort pouvoir explicatif entre dans la fonction discriminante. La fonction servant de critère pour sélectionner la variable suivante dépend du nombre de groupes spécifié (le nombre de groupes varie entre 2 et 20). Dans le cas où il y a deux groupes, le programme utilise la distance de Mahalanobis. Quand le nombre de groupes est plus grand que 2, le critère pour la sélection de variables est la trace du produit de la matrice de covariance des variables impliquées et de la matrice de covariance interclasse à un pas donné. Il s agit de la généralisation de la distance D de Mahalanobis définie pour deux groupes. Outre l exécution des étapes principales de l analyse discriminante sur un échantillon de base, le programme contient deux autres options permettant : (i) de vérifier le pouvoir de la (des) fonction(s) discriminante(s) à l aide d un échantillon test, pour lequel on connaît l affectation des observations au groupe (comme dans l échantillon de base) mais qui ne sont pas utilisées dans l analyse; (ii) de classer, avec les fonctions discriminantes fournies par l analyse, les observations d un échantillon anonyme pour lequel l affectation des observations au groupe n est pas connue ou tout au moins n est pas utilisée Caractéristiques standard d IDAMS Sélection d observations et de variables. On peut utiliser le filtre standard pour sélectionner un sousensemble d observations dans les données d entrée. À partir de là, on peut encore subdiviser les observations en utilisant les variables d échantillon et de groupe. Les variables destinées à l analyse sont sélectionnées avec le paramètre VARS. Transformation de données. Les instructions Recode peuvent être utilisées. Pondération de données. On peut utiliser une variable pour pondérer les données d entrée; cette variable poids peut prendre une valeur entière ou une valeur décimale. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime un message à propos du nombre des observations traitées de cette façon. Traitement des données manquantes. Le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. On a la possibilité d exclure de l analyse les observations avec données manquantes dans la variable de l échantillon, la variable du groupe et la/les variable(s) servant à l analyse.

210 190 Analyse discriminante (DISCRAN) 24.3 Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Nombre des observations dans les échantillons. Le programme imprime le nombre d observations dans les échantillons de base, test et anonyme selon les valeurs fournies avec les paramètres de définition des échantillons. Nombre révisé des observations dans les échantillons. Le programme imprime le nombre révisé d observations dans les échantillons de base, test et anonyme, lequel est basé à la fois sur les paramètres de définition de l échantillon et du groupe. Noter que les chiffres révisés peuvent être inférieurs aux chiffres non révisés pour les échantillons de base et test si les groupes qui ont été définis ne recouvrent pas complètement les échantillons. Échantillon de base. (Facultatif : voir le paramètre PRINT). Pour l échantillon de base, le programme imprime par groupes les variables d identification des observations et d analyse, les groupes étant séparés les uns des autres par une ligne d astérisques. Échantillon test. Idem que pour l échantillon de base. Échantillon anonyme. Idem que pour l échantillon de base, excepté qu il n y a pas de groupes. Statistiques univariées. Pour chaque variable utilisée dans l analyse, le programme imprime les moyennes totale et de groupes ainsi que les écarts-types. Résultats de la procédure pas à pas (pour chaque pas) Numéro du pas. Le numéro séquentiel du pas dans l itération. Variables entrées. Liste des variables retenues dans le pas pour le calcul de la fonction. Fonction linéaire discriminante. (Conditionnel : uniquement si 2 groupes sont spécifiés). Le programme imprime la constante et les coefficients de cette fonction pour les variables déjà entrées. Tableau de classement pour l échantillon de base. Tableau bivarié de la distribution des observations par rapport aux groupes de départ (en lignes) et par rapport aux groupes alloués sur la base de la fonction discriminante (en colonnes), suivi du pourcentage d observations correctement classées. Tableau de classement pour l échantillon test. Idem que pour l échantillon de base. Liste des observations selon leur affectation. (Facultatif : voir le paramètre PRINT). Le programme imprime les observations des trois échantillons avec identification de l observation, son affectation au groupe calculée par le programme et la valeur de la fonction discriminante (pour 2 groupes), ou les distances par rapport à chaque groupe (si plus de 2 groupes). Résultats de l analyse factorielle discriminante. (Conditionnel : uniquement si plus de 2 groupes spécifiés). Puissance discriminante globale et puissance discriminante des trois premiers facteurs, suivies par les valeurs des facteurs de discrimination des moyennes des groupes. Le programme fournit en outre une représentation graphique des observations et des moyennes des groupes dans l espace défini par les deux premiers facteurs Dataset en sortie L utilisateur peut demander en sortie un dataset donnant l affectation finale des groupes aux observations. Ce dataset est produit sous la forme d un fichier Données décrit par un dictionnaire IDAMS (voir le paramètre WRITE et le chapitre «Les données dans IDAMS»).

211 24.5 Dataset en entrée 191 Il contient dans l ordre : - les variables transférées, - le code des groupes au départ re-numéroté par DISCRAN («Original group»), - le code des groupes affecté aux observations à la fin («Assigned group»), - le type d échantillon - «Sample type» (1=échantillon de base, 2=échantillon test, 3=échantillon anonyme) et, - pour une analyse de plus de 2 groupes, les valeurs des deux premiers facteurs discriminants («Factor-1», «Factor-2»). Le programme re-numérote les variables à partir de un. Le code des groupes de départ prend la valeur du premier code de données manquantes ( ) pour les observations dans l échantillon anonyme; les facteurs prennent la valeur du premier code de données manquantes ( ) pour les observations dans l échantillon test et l échantillon anonyme. Note : la variable spécifiée dans IDVAR n est pas envoyée automatiquement ver la sortie et donc il vaut mieux l inclure dans la liste des variables à transférer Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Trois types d échantillon peuvent être spécifiés dans le fichier en entrée, à savoir : - l échantillon de base - l échantillon test, et - l échantillon anonyme. L analyse est fondée sur l échantillon de base. L échantillon test sert à vérifier la(les) fonction(s) discriminante(s) tandis que les observations de l échantillon anonyme sont simplement classées à l aide des fonctions discriminantes. Les échantillons sont définis avec une «variable d échantillon». L échantillon de base ne peut pas être vide. Les groupes qu il faudra séparer par la (les) fonction(s) discriminante(s) doivent être définis par une «variable de groupe». Cette variable définit un classement a priori des observations de l échantillon de base et de l échantillon test. Toutes les variables utilisées dans l analyse doivent être numériques; elles peuvent avoir une valeur entière ou décimale. La variable ID d observation et les variables à transférer peuvent être alphabétiques.

212 192 Analyse discriminante (DISCRAN) 24.6 Structure du setup $RUN DISCRAN $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie si WRITE=DATA est spécifié DATAyyyy données en sortie si WRITE=DATA est spécifié PRINT résultats (défaut IDAMS.LST) 24.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V3=6 OR V11=99 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : ANALYSE DISCRIMINANTE SUR UNE ÉTUDE EN AGRICULTURE 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : MDHA=SAMPVAR IDVAR=V4 SAVAR=R5 BASA=(1,5) - VARS=(V12-V15) INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS».

213 24.7 Instructions de contrôle du programme 193 MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. VARS=(liste de variables) Liste des variables V et/ou R à utiliser dans l analyse. Pas de défaut. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». MDHANDLING=(SAMPVAR, GROUPVAR, ANALVARS) Choix de la manière dont traiter les données manquantes. SAMP Exclure de l analyse les observations avec données manquantes dans la variable de l échantillon. GROU Exclure de l analyse les observations des échantillons de base et test avec données manquantes dans la variable de groupe. ANAL Exclure de l analyse les observations avec données manquantes dans les variables d analyse. Défaut : les observations avec données manquantes sont incluses. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. IDVAR=numéro de variable Variable d identification de l observation utilisée pour le listage des données et/ou celui de l affectation des observations aux groupes résultant de l analyse. Défaut : «DISC» est utilisé comme identificateur pour toutes les observations. STEPMAX=n Nombre maximum de pas à exécuter. Ce nombre doit être inférieur ou égal au nombre des variables d analyse. Défaut : nombre des variables d analyse. MEMORY=20000/n Mémoire nécessaire pour l exécution du programme. WRITE=DATA Créer un dataset IDAMS contenant les variables transférées, les codes affectés aux observations, le type d échantillon et les valeurs des facteurs discriminants, s il y en a. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. TRANSVARS=(variable list) Variables (jusqu à 99) à transférer dans le dataset de sortie. PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, DATA, GROUP) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. OUTC Imprimer le dictionnaire de sortie, avec les enregistrements C s il y en a. OUTD Imprimer le dictionnaire de sortie sans les enregistrements C. DATA Imprimer les données avec l affectation originale des observations aux groupes.

214 194 Analyse discriminante (DISCRAN) GROU Spécification d échantillon Imprimer pour chaque observation l affectation au groupe sur la base de la fonction discriminante. Ces paramètres sont facultatifs. S ils ne sont pas spécifiés, toutes les observations du fichier d entrée sont prises pour l échantillon de base. Les échantillons test et anonyme, quand ils existent, doivent être explicitement définis. L intersection des échantillons par paire doit être vide. Cependant, il n est pas nécessaire que les échantillons couvrent la totalité du fichier Données en entrée. On peut utiliser une seule valeur ou bien un intervalle de valeurs pour sélectionner les observations appartenant à l échantillon correspondant. m1 = valeur de la variable d échantillon ou m1 <= valeur de la variable d échantillon < m2 où m1 et m2 peuvent être des valeurs entières ou décimales. SAVAR=numéro de variable La variable utilisée pour définir l échantillon. Les variables V ou R peuvent être utilisées. BASA=(m1, m2) Conditionnel : sert à définir l échantillon de base. Doit être fourni si SAVAR est spécifié. TESA=(m1, m2) Conditionnel et facultatif : si SAVAR est spécifié. Sert à définir l échantillon test. ANSA=(m1, m2) Conditionnel et facultatif : si SAVAR est spécifié. Sert à définir l échantillon anonyme. Classement de l échantillon de base Ces paramètres servent à définir les groupes a priori utilisés dans la procédure de l analyse discriminante. Tous les groupes doivent être explicitement définis et leur intersection par paire doit être vide. Toutefois, ils ne doivent pas couvrir la totalité de l échantillon de base. GRVAR=numéro de variable La variable utilisée pour définir les groupes. On peut utiliser les variables V ou R. Pas de défaut. GR01=(m1, m2) Définit le premier groupe dans l échantillon de base. GR02=(m1, m2) Définit le second groupe dans l échantillon de base. GRnn=(m1, m2) Définit le n-ème groupe dans l échantillon de base (nn <= 20). Note. Il faut spécifier deux groupes au minimum Restrictions 1. Le nombre maximum de groupes a priori est La même variable ne peut être utilisée deux fois.

215 24.9 Exemples Le champ de la variable d identification des observations ne peut dépasser 4 caractères. 4. On peut transférer un maximum de 99 variables. 5. On ne peut transférer les variables R. 6. Si on transfère une variable alphabétique et qu elle dépasse 4 caractères, seuls les quatre premiers sont utilisés par le programme Exemples Exemple 1. Analyse discriminante sur toutes les observations prises ensemble; les observations sont identifiées par la variable V1 ; on demande 5 pas d analyse; les groupes a priori sont définis avec la variable V111 qui comprend les catégories 1-6. $RUN DISCRAN $FILES PRINT = DISC1.LST DICTIN = MY.DIC fichier Dictionnaire en entrée fichier Données en entrée DATAIN = MY.DAT $SETUP ANALYSE DISCRIMINANTE LINÉAIRE PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) - GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7) Exemple 2. Répéter l analyse de l exemple 1 avec le sous-ensemble de répondants qui ont la valeur 1 pour V5 pour l échantillon de base et vérifier les résultats avec les répondants ayant la valeur 2 pour V5. $RUN DISCRAN $FILES comme pour Exemple 1 $SETUP ANALYSE DISCRIMINANTE LINÉAIRE AVEC ÉCHANTILLON DE BASE ET ÉCHANTILLON TEST PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) - SAVAR=V5 BASA=1 TESA=2 - GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7)

216

217 Chapitre 25 Fonctions de distribution et de Lorenz (QUANTILE) 25.1 Description générale QUANTILE produit des fonctions de distribution, des fonctions de Lorenz et des indices de Gini pour des variables individuelles, et effectue le test de Kolmogorov-Smirnov entre deux variables ou entre deux échantillons Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection d un sous-ensemble d observations à partir des données d entrée. En outre, chaque analyse peut être effectuée sur un sous-ensemble supplémentaire à l aide d un paramètre de filtrage. Les variables à analyser sont spécifiées avec le paramètre VAR. Transformation de données. Les instructions Recode peuvent être utilisées. Pondération de données. Les données en entrée peuvent être pondérées par des valeurs entières jusqu à la valeur maximum affectable de On notera que les valeurs décimales sont arrondies au nombre entier le plus proche. Les observations dont les poids sont des valeurs manquantes, des zéros, des valeurs négatives ou non numériques sont ignorées par le programme qui imprime un message à propos des observations traitées de cette façon. Traitement des données manquantes. Le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. Les observations avec données manquantes dans une variable d analyse sont éliminées de cette analyse Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Résultats pour chaque analyse. Fonction de distibution : minimum, maximum et points de coupure entre les sous-intervalles. Fonction de Lorenz (facultatif) : minimum, maximum, points de coupure entre les sous-intervalles et indice de Gini. Courbe de Lorenz (facultatif) : projetée en déciles. Statistiques du test de Kolmogorov-Smirnov (facultatif).

218 198 Fonctions de distribution et de Lorenz (QUANTILE) 25.4 Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables utilisées par le programme (à l exeption des variables du filtre principal) doivent être numériques; elles peuvent avoir pour valeur un nombre décimal ou entier Structure du setup $RUN QUANTILE $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications des sous-ensembles (facultatif) 5. QUANTILE 6. Spécifications d analyse (répétées autant de fois que nécessaire) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST) 25.6 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 et 6 ci-dessous. 1. Filtre (Facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V5=1 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : COUPURE EN 10 SOUS-INTERVALLES 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : MDVAL=MD1, PRINT=DICT INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN.

219 25.6 Instructions de contrôle du programme 199 BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». Les observations avec données manquantes dans une analyse sont éliminées de celle-ci. PRINT=CDICT/DICT CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. 4. Spécifications des sous-ensembles (facultatif). Ces instructions permettent de sélectionner un sousensemble d observations pour une analyse particulière. Exemple : FEMME INCLUDE V6=2 Règles de codage Prototype : nom instruction nom Nom du sous-ensemble. 1-8 caractères alphanumériques commençant par une lettre. Ce nom doit correspondre exactement au nom utilisé ensuite dans les spécifications d analyse. Les blancs intercalaires ne sont pas autorisés. Il est recommandé de justifier tous les noms à gauche. instruction Définition du sous-ensemble qui suit la syntaxe de l instruction de filtre standard d IDAMS. 5. QUANTILE. Le mot QUANTILE sur cette ligne signale que les spécifications d analyse vont suivre. Il doit être inclus (ceci pour séparer les spécifications de sous-ensembles de celles d analyse) et ne peut apparaître qu une fois. 6. Spécifications d analyse. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification doit commencer sur une nouvelle ligne. Exemples : VAR=R10 N=5 PRINT=CLORENZ VAR=V25 N=10 FILTER=MALE ANALID=M VAR=V25 N=10 FILTER=FEMALE KS=M VAR=numéro de variable Variable à analyser. Pas de défaut. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. Pondération des données n est pas autorisée avec le test de Kolmogorov-Smirnov. N=20/n Nombre de sous-intervalles. Si n<2 ou n>100, le programme imprime un avertissement et utilise la valeur par défaut de 20. FILTER=xxxxxxxx Le programme utilisera pour cette analyse uniquement les observations qui satisfont à la condition définie dans la spécification du sous-ensemble nommé xxxxxxxx. Il faut saisir le nom en lettres majuscules et le placer entre primes s il contient des caractères non alphanumériques.

220 200 Fonctions de distribution et de Lorenz (QUANTILE) ANALID= nom Un nom est affecté à cette analyse de façon à ce qu il puisse y être fait référence pour effectuer un test de Kolmogorov-Smirnov. Il doit être placé entre primes s il contient des caractères non alphanumériques. KS= nom Le nom dont il s agit ici est celui qui a été assigné à une analyse antérieure à l aide du paramètre ANALID, et il définit la variable et/ou l échantillon qui fera/feront l objet d une comparaison avec la présente analyse à l aide du test de Kolmogorov-Smirnov. Il doit être placé entre primes s il contient des caractères non alphanumériques. PRINT=(FLORENZ, CLORENZ) FLOR Imprimer la fonction de Lorenz et l indice de Gini. CLOR Imprimer la courbe de Lorenz projetée en déciles. (Dans ce cas, la fonction de Lorenz est toujours imprimée). Note : si KS est spécifié, le programme ignore le paramètre PRINT Restrictions 1. Le nombre maximum de variables utilisées (vars d analyse + var poids + vars filtre local) est Le nombre maximum d observations qui peuvent être analysées est Le nombre minimum de sous-intervalles est 2; le maximum est Le nombre maximum de spécifications de sous-ensembles est Si on utilise le test de Kolmogorov-Smirnov, le nombre maximum d observations qui peuvent être analysées est On ne peut demander à la fois la fonction de Lorenz et le test de Kolmogorov-Smirnov dans la même analyse. 7. Les valeurs des points de séparation sont toujours imprimées avec trois décimales. Les variables qui ont plus de trois décimales sont tronquées à trois décimales Exemple On demande de générer une fonction de distribution, une fonction de Lorenz et des indices de Gini pour la variable V67; des analyses séparées seront effectuées sur la totalité des données et sur deux sous-ensembles; on exécutera le test de Kolmogorov-Smirnov pour tester la différence entre les distributions de la variable V67 dans les deux sous-ensembles de données. $RUN QUANTILE $FILES PRINT = QUANT.LST DICTIN = MY.DIC fichier Dictionnaire en entrée DATAIN = MY.DAT fichier Données en entrée $SETUP COMPARAISON DE DISTRIBUTIONS D ^AGE ENTRE LES FEMMES ET LES HOMMES * (valeurs par défaut pour tous les paramètres) FEMME INCLUDE V12=1 HOMME INCLUDE V12=2 QUANTILE VAR=V67 N=15 PRINT=(FLOR,CLOR) VAR=V67 N=15 PRINT=(FLOR,CLOR) FILT=FEMME ANALID=F VAR=V67 N=15 PRINT=(FLOR,CLOR) FILT=HOMME VAR=V67 N=15 FILT=HOMME KS=F

221 Chapitre 26 Analyses factorielles (FACTOR) 26.1 Description générale FACTOR couvre une série d analyses factorielles en composantes principales et l analyse des correspondances possédant des spécifications communes. Avec seulement une lecture des données, il offre la possibilité d exécuter l analyse factorielle des correspondances, des produits scalaires, des covariances et des corrélations. Pour chaque analyse, le programme construit une matrice représentant les relations entre les variables et calcule ses valeurs propres et ses vecteurs propres. Il calcule ensuite les facteurs «observations» et «variables», en donnant pour chaque «observation» et pour chaque «variable» son ordonnée, sa qualité de représentation et sa contribution aux facteurs. Il est possible d imprimer une représentation graphique des facteurs avec les options ordinaire et simplicio-factorielle. Les variables/observations actives (principales) sont celles sur la base desquelles le programme effectue la décomposition factorielle, càd qu il les utilise pour le calcul de la matrice des relations. On peut aussi représenter d autres variables/observations dans l espace factoriel correspondant aux variables actives. Ces variables/observations (sans influence sur les facteurs) sont appelées variables/observations passives (supplémentaires). On parle d une représentation ordinaire (des variables/observations) lorsque les valeurs (scores factoriels) provenant directement de l analyse sont utilisées dans la représentation graphique. Cependant, pour une meilleure intelligence de la relation entre les variables et les observations, il est possible d obtenir une autre représentation simultanée, la représentation simplicio-factorielle Caractéristiques standard d IDAMS Sélection d observations et de variables. Le filtre standard est disponible pour sélectionner un sousensemble d observations à partir des données en entrée. Les variables sont sélectionnées avec les paramètres PVARS et SVARS. Transformation de données. Les instructions Recode peuvent être utilisées. Pondération de données. On peut utiliser une variable pour pondérer les données d entrée; cette variable poids peut prendre une valeur entière ou une valeur décimale. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Traitement des données manquantes. Le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. Il y a deux manières de traiter les données manquantes : exclure de l analyse les observations contenant des données manquantes dans les variables actives, exclure les observations contenant des données manquantes dans les variables actives ou passives.

222 202 Analyses factorielles (FACTOR) 26.3 Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Statistiques univariées. (Facultatif : voir le paramètre PRINT). Numéro de la variable, nom de la variable, nouveau numéro de la variable (elles sont renumérotées à partir de 1), valeurs minimum et maximum, moyenne, écart-type, coefficient de variation, somme, variance, coefficient d asymétrie (skewness), coefficient d aplatissement (kurtosis) et nombre pondéré d observations valides pour chaque variable. Note : l écart-type et la variance sont des valeurs estimées basées sur les données pondérées. Données d entrée. (Facultatif : voir le paramètre PRINT). Variables actives et passives imprimées en colonnes par groupe de 16. La première ligne donne le total de chaque colonne pour les observations actives uniquement. Ensuite, ligne par ligne, pour chacune des observations : sa variable ID, son poids, le total pondéré des variables actives, la valeur de toutes les variables. Les valeurs sont imprimées avec le point décimal suivi d une décimale. Si plus de 7 caractères sont nécessaires, le programme imprime des astérisques à la place de la valeur. Matrice de relations. (Facultatif : voir le paramètre PRINT). La matrice (après multiplication par dix à la puissance n comme indiqué sur la ligne imprimée avant la matrice), la valeur de trace et le tableau des vecteurs propres et des valeurs propres. Histogramme des valeurs propres. L histogramme avec les pourcentages et les pourcentages cumulatifs de la contribution de chaque valeur propre à l inertie totale. Les tirets montrent le critère de Kaiser pour l analyse de corrélation. Dictionnaires des fichiers Données en sortie. (Facultatif : voir le paramètre PRINT). Le dictionnaire appartenant aux facteurs «observations» suivi par celui des facteurs «variables». Tableau(x) des facteurs. Selon l (les) option(s) choisie(s), il y aura un tableau (soit pour les facteurs «observations», soit pour les facteurs «variables» ), ou bien deux tableaux (pour les facteurs «observations» et pour les facteurs «variables», dans cet ordre). En fonction de l option d impression choisie, ces tableaux contiendront seulement les observations (variables) actives, seulement les passives, ou les deux. Le tableau des facteurs «observations». Il fournit, ligne par ligne : le numéro d identification de l observation, les informations concernant tous les facteurs pris ensemble, càd la qualité de la représentation de l observation dans l espace défini par les facteurs, le poids de l observation et l «inertie» de l observation, pour chaque facteur à tour de rôle, le programme donne l ordonnée de l observation, le cosinus carré de l angle formé par l observation et le facteur et la contribution de l observation au facteur. Le tableau des facteurs «variables». Il fournit, ligne par ligne, des informations similaires pour les variables. Diagrammes de dispersion. (Facultatif : voir le paramètre PLOTS). La première ligne donne le numéro du facteur représenté le long de l axe horizontal avec sa valeur propre et l intervalle de ses valeurs minimales-maximales. La seconde ligne donne les mêmes informations pour l axe vertical. Avec le titre donné à l exécution, le programme imprime le nombre d observations/variables (càd le nombre de points) représentées. Sur le côté droit de chaque diagramme sont imprimés : le nombre de points qui ne peuvent être imprimés pour cette ordonnée (points qui se chevauchent), le nombre de points qu il n est pas possible de représenter, numéro de la page. Facteurs ayant subi une rotation. (Facultatif : voir le paramètre ROTATION). A chaque itération de la rotation (avec la méthode Varimax), le programme imprime la variance calculée pour chaque matrice factorielle, suivie des communalités des variables avant et après rotation, et termine avec le tableau des facteurs ayant fait l objet d une rotation. Message de fin d exécution. A la fin de chaque analyse, le programme imprime un message de fin d exécution avec le type d analyse effectuée.

223 26.4 Dataset(s) en sortie Dataset(s) en sortie On peut, à titre facultatif, construire deux fichiers Données, chacun associé avec un dictionnaire IDAMS. Dans le fichier des facteurs d «observations», les enregistrements correspondent aux observations (actives et passives), les colonnes correspondant aux variables (y inclus l identificateur de l observation et les variables transférées) et aux facteurs. Dans le fichier des facteurs de «variables», les enregistrements correspondent aux variables d analyse, tandis que les colonnes contiennent les valeurs servant à identifier les variables (numéros d origine des variables) et les facteurs. Les variables de sortie sont numérotées séquentiellement à partir de 1 et possèdent les caractéristiques suivantes : Variable (ID) servant à identifier l observation et variables transférées : les variables V ont les mêmes caractéristiques que leur équivalent en entrée, les variables recodées sortent avec WIDTH=7 et DEC=0. Variables correspondant aux facteurs : nom spécifié par FNAME longueur de champ 7 nombre de décimales 5 MD1 et MD Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables utilisées pour l analyse doivent être numériques, avec des valeurs entières ou décimales. Elles doivent être dichotomiques ou mesurées avec une échelle d intervalle. L identificateur de l observation et les variables à transférer peuvent être alphabétiques. Il y a deux sortes de variables d analyse, à savoir : les variables actives et les variables passives. En outre, il faut qu il y ait une variable servant à identifier l observation. D autres variables peuvent être sélectionnées pour transfert au fichier Données en sortie des facteurs «observations». On peut spécifier comme observations passives une ou plusieurs observations à la fin du fichier Données en entrée. Deux types de variables conviennent pour l analyse des correspondances : a) des variables dichotomiques provenant d un fichier Données brutes ou b) un tableau de contingences décrit par un dictionnaire et saisi en entrée comme un dataset IDAMS.

224 204 Analyses factorielles (FACTOR) 26.6 Structure du setup $RUN FACTOR $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications de projections définies par l utilisateur (conditionnel) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie pour les facteurs "observations" DATAyyyy données en sortie pour les facteurs "observations" DICTzzzz dictionnaire en sortie pour les facteurs "variables" DATAzzzz données en sortie pour les facteurs "variables" PRINT résultats (défaut IDAMS.LST) 26.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-4 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : EXCLUDE V10=99 OR V11=99 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : ÉTUDE EN AGRICULTURE EN Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : ANAL=(CRSP,SSPRO) TRANS=(V16,V20) IDVAR=V1 - PVARS=(V31-V35) INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS».

225 26.7 Instructions de contrôle du programme 205 MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes à utiliser par le programme pour les variables auxquelles il accédera durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». MDHANDLING=PRINCIPAL/ALL PRIN Les observations avec données manquantes dans les variables actives sont exclues de l analyse, mais non les observations avec données manquantes dans les variables passives. Les facteurs des variables passives sont basés sur les données valides uniquement. ALL Toutes les observations contenant des données manquantes sont exclues. ANALYSIS=(CRSP/NOCRSP, SSPRO, NSSPRO, COVA, CORR) Choix d analyses. CRSP Analyse factorielle des correspondances. SSPR Analyse factorielle des produits scalaires. NSSP Analyse factorielle des produits scalaires normés. COVA Analyse factorielle des covariances. CORR Analyse factorielle des corrélations. PVARS=(liste de variables) Liste des variables V et/ou R à utiliser comme variables actives (principales). Pas de défaut. SVARS=(liste de variables) Liste des variables V et/ou R à utiliser comme variables passives (supplémentaires). WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. NSCASES=0/n Nombre d observations passives. Note : ces observations ne sont pas incluses dans le calcul des statistiques, ni dans celui de la matrice et des facteurs; ce sont les n-èmes dernières observations dans le fichier Données. IDVAR=numéro de variable Variable d identification de l observation utilisée pour identifier les points sur les diagrammes et les observations dans le fichier de sortie. Pas de défaut. KAISER/NFACT=n/VMIN=n Critère utilisé pour déterminer le nombre de facteurs. KAIS Le critère de Kaiser - le nombre de racines est plus grand que 1. NFAC VMIN Le nombre de facteurs désirés. Le pourcentage minimum de variance à expliquer par les facteurs pris tous ensemble. Ne pas saisir la décimale, par ex. «VMIN=95». ROTATION=KAISER/UDEF/NOROTATION Spécifie la rotation Varimax des facteurs de «variables». Analyse de corrélations seulement. KAIS Le nombre de facteurs soumis à rotation est défini selon le critère de Kaiser. UDEF Le nombre de facteurs soumis à rotation est spécifié par l utilisateur (voir le paramètre NROT).

226 206 Analyses factorielles (FACTOR) NROT=1/n Nombre de facteurs devant être soumis à rotation. WRITE=(OBSERV, VARS) Contrôle la sortie des fichiers des facteurs d «observations» et de «variables». Si l on demande plus d une analyse avec le paramètre ANALYSIS, ces fichiers serviront seulement pour la première analyse spécifiée. OBSE Crée un fichier contenant les facteurs d «observations». VARS Crée un fichier contenant les facteurs de «variables». OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données pour les facteurs d «observations». ddnames par défaut : DICTOUT, DATAOUT. OUTVFILE=OUTV/zzzz Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données pour les facteurs de «variables». ddnames par défaut : DICTOUTV, DATAOUTV. TRANSVARS=(liste de variables) Variables (maximum 99) à transférer dans le fichier en sortie des facteurs d «observations». FNAME=uuuu Une chaîne de 1-4 caractères servant de préfixe pour les noms de variables des facteurs dans les dictionnaires en sortie. Elle doit être placée entre primes si elle contient des caractères non alphanumériques. Les facteurs ont les noms uuuufact0001, uuuufact0002, etc. Défaut : l espace est laissé en blanc. PLOTS=STANDARD/USER/NOPLOTS Contrôle la représentation graphique des résultats. STAN On souhaite obtenir des projections standard pour les paires de facteurs 1-2, 1-3, 2-3 avec les options PAGES=1, OVLP=LIST, NCHAR=4, REPR=COORD, VAR- PLOT=(PRINCIPAL,SUPPL). USER On souhaite des projections définies par l utilisateur (voir ci-dessous les paramètres pour les projections définies par l utilisateur). PRINT=(CDICT/DICT, OUTCDICTS/OUTDICTS, STATS, DATA, MATRIX, VFPRINC/NOVFPRINC, VFSUPPL, OFPRINC, OFSUPPL) CDIC Imprimer le dictionnaire d entrée, avec les enregistrements C s il y en a, pour les variables utilisées par le programme. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. OUTC Imprimer les dictionnaires en sortie avec les enregistrements C s il y en a. OUTD Imprimer les dictionnaires en sortie sans les enregistrements C. STAT Imprimer les statistiques des variables actives et passives. DATA Imprimer les données d entrée. MATR Imprimer la matrice de relations (core matrix) et les vecteurs propres. VFPR Imprimer les facteurs de «variables» pour les variables actives. VFSU Imprimer les facteurs de «variables» pour les variables passives. OFPR Imprimer les facteurs d «observations» pour les observations actives. OFSU Imprimer les facteurs d «observations» pour les observations passives. 4. Spécifications de projections définies par l utilisateur (conditionnel : si le paramètre PLOT=USER est spécifié). A répéter pour chaque projection bi-dimensionnelle à imprimer. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification de projection doit débuter sur une nouvelle ligne. Exemple : X=3 Y=10

227 26.7 Instructions de contrôle du programme 207 X=numéro du facteur Numéro du facteur à représenter sur l axe horizontal. Y=numéro du facteur Numéro du facteur à représenter sur l axe vertical (voir aussi le paramètre de projection FOR- MAT=STANDARD). ANSP=ALL/CRSP/SSPRO/NSSPRO/COVA/CORR Spécifie les analyses pour lesquelles les projections doivent être imprimées. ALL Projections demandées pour toutes les analyses spécifiées avec le paramètre ANALY- SIS. Avec les autres mots clés, une projection pour une seule analyse (les mots clés ont la même signification qu avec le paramètre ANALYSIS). Ces options impliquent l impression d une seule projection. OBSPLOT=(PRINCIPAL, SUPPL) Choix des observations à représenter sur le(s) diagramme(s). PRIN Représenter les observations actives. SUPP Représenter les observations passives. VARPLOT=(PRINCIPAL/NOPRINCIPAL, SUPPL) Choix des variables à représenter sur le(s) diagramme(s). PRIN Représenter les variables actives. SUPP Représenter les variables passives. REPRESENT=COORD/BASVEC/NORMBV Choix de la représentation simultanée de points (variables/observations). COOR Coordonnées telles qu indiquées dans le tableau des facteurs. BASV Représenter les vecteurs de base. NORM Représenter les vecteurs de base à l aide d une norme spéciale pour la représentation «simplicio-factorielle». OVLP=FIRST/LIST/DEN Option concernant la représentation des points qui se chevauchent. FIRS Imprimer le numéro de la variable/l ID de l observation uniquement pour le premier point. LIST Donner une liste verticale des points ayant la même abscisse dans le diagramme jusqu à ce que le programme rencontre un autre point (le numéro de la variable/l ID de l observation sont alors perdus). DEN Imprimer la densité (nombre de points se chevauchant). Imprimer pour un point «.», pour deux points (se chevauchant) «:», pour trois points «3», etc., pour 9 points «9», pour plus de 9 points «*». Si cette option est choisie, NCHAR=2 doit être spécifié. NCHAR=4/n Nombre de chiffres/caractères utilisés pour l identification des variables/observations sur le(s) diagramme(s) (1 à 4 caractères). PAGES=1/n Nombre de pages par diagramme. FORMAT=STANDARD/NONSTANDARD Sert à définir la taille de l encadrement du diagramme. STAN Utiliser un encadrement de 21 x 30 cm en plaçant sur l axe horizontal le facteur le plus étendu et en employant des échelles différentes pour les deux axes. NONS L encadrement ne sera pas standardisé comme indiqué ci-dessus. La taille du diagramme est définie par PAGES=n, et la signification des axes par X et Y.

228 208 Analyses factorielles (FACTOR) 26.8 Restrictions 1. Il peut y avoir un maximum de 80 variables d analyse. 2. Il faut spécifier une (et seulement une) variable d identification. 3. On peut transférer au maximum 99 variables. 4. Il peut y avoir au maximum 100 variables en entrée y inclus celles qui sont utilisées pour le filtre et les instructions de Recode. 5. Il peut y avoir au maximum 24 projections définies par l utilisateur. 6. Si la variable identificatrice de l observation ou une variable à transférer sont de type alphabétique et dépassent 4 caractères, seuls les quatre premiers sont utilisés par le programme. 7. Il faut observer la règle suivante pour les paramètres : max(d1,d2,d3) < 5000 où D1=NPV * NPV + 10 * NV D2=NV * (NF + 6) + NPV * NIF D3=NV + NF + NIF + 3 * NP et NV, NPV, NF, NIF, NP indiquent respectivement le nombre total de variables d analyse, le nombre de variables actives, le nombre de facteurs à calculer, le nombre de facteurs à ignorer, le nombre maximum de points à représenter dans les diagrammes Exemples Exemple 1. Analyse factorielle de corrélations basée sur 20 variables et on veut obtenir 20 facteurs; le nombre de facteurs soumis à rotation est défini selon le critère de Kaiser; on demande l impression des statistiques, de la matrice de corrélation et des vecteurs propres, suivis par les facteurs de variables et les projections standard; les facteurs ne sont pas gardés dans un fichier. $RUN FACTOR $FILES PRINT = FACT1.LST DICTIN = A.DIC fichier Dictionnaire en entrée DATAIN = A.DAT fichier Données en entrée $SETUP ANALYSE FACTORIELLE DE CORRÉLATIONS ANAL=(NOCRSP,CORR) ROTA=KAISER NFACT=7 IDVAR=V1 PRINT=(STATS,MATRIX) - PVARS=(V12-V16,V101-V115) Exemple 2. Analyse factorielle des produits scalaires basée sur 10 variables; 2 variables passives, les variables V5 et V7, doivent être représentées sur les projections; celles-ci sont définies par l utilisateur étant donné qu on demande seulement le premier des points de chevauchement; le critère de Kaiser est utilisé pour déterminer le nombre de facteurs; les facteurs de variables et d observations seront gardés dans des fichiers.

229 26.9 Exemples 209 $RUN FACTOR $FILES DICTIN = A.DIC fichier Dictionnaire en entrée DATAIN = A.DAT fichier Données en entrée DICTOUT = CASEF.DIC fichier Dictionnaire pour les facteurs d observations DATAOUT = CASEF.DAT fichier Données pour les facteurs d observations DICTOUTV = VARF.DIC fichier Dictionnaire pour les facteurs de variables DATAOUTV = VARF.DAT fichier Données pour les facteurs de variables $SETUP ANALYSE FACTORIELLE DES PRODUITS SCALAIRES ANAL=(NOCRSP,SSPR) IDVAR=V1 WRITE=(OBSERV,VARS) PRINT=STATS PLOT=USER - PVARS=(V112-V116,V201-V205) SVARS=(V5,V7) X=1 Y=2 VARP=(PRINCIPAL,SUPPL) X=1 Y=3 VARP=(PRINCIPAL,SUPPL) X=2 Y=3 VARP=(PRINCIPAL,SUPPL) Exemple 3. Analyse de correspondances sur un tableau de contingences décrit par un dictionnaire et saisi en entrée comme un dataset dans le fichier Setup à exécuter; le nombre de facteurs est défini selon le critère de Kaiser; on demande l impression de la matrice de relations suivis par les facteurs de variables et d observations, et les projections de variables et d observations; celles-ci sont définies par l utilisateur étant donné qu on demande une projection d observations. $RUN FACTOR $FILES PRINT = FACT3.LST $SETUP ANALYSE DE CORRESPONDANCES SUR UN TABLEAU DE CONTINGENCES BADD=MD1 IDVAR=V8 PLOTS=USER PRINT=(MATRIX,OFPRINC) PVARS=(V31-V33) $DICT $PRINT T 8 Degré scientifique 1 20 C 8 81 Professeur C 8 82 Ass.Prof. C 8 83 Docteur C 8 84 Ma^ıtrise C 8 85 Licence C 8 86 Autre T 31 Chef 4 20 T 32 Scientifique 7 20 T 33 Technicien $DATA $PRINT

230

231 Chapitre 27 Régression linéaire (REGRESSN) 27.1 Description générale REGRESSN est un programme général de régression multiple qui se prête à une analyse de régression standard ou pas à pas. Lors d une même exécution, on peut effectuer plusieurs analyses de régression en utilisant différents paramètres et variables. Terme constant. Si l entrée consiste en données brutes, l utilisateur peut demander que les équations ne contiennent pas de termes constants (voir le paramètre de régression CONSTANT=0). Dans ce cas l analyse est effectuée à partir d une matrice de produits croisés au lieu d une matrice de corrélation. Ceci modifie la pente de la droite de régression et peut affecter les résultats de manière substantielle. Dans la régression pas à pas, l entrée des variables dans l équation peut se faire dans un autre ordre que celui qui serait le leur si l on estimait le terme constant. Si l entrée est une matrice de corrélation, l équation de régression inclut toujours un terme constant. Utilisation de variables catégoricales comme variables indépendantes. L utilisateur dispose d un option pour créer des variables fictives (dichotomiques) à partir de variables catégoricales qu on a spécifiées (voir le paramètre CATE). Ces variables fictives peuvent être utilisées comme variables indépendantes dans l analyse de régression. Choix du rapport F pour entrer une variable dans l équation. Dans une régression pas à pas, les variables sont ajoutées tour à tour dans l équation de régression jusqu à ce que l équation soit satisfaisante. À chaque pas, le programme sélectionne la variable ayant la corrélation partielle la plus élevée avec la variable dépendante. Il calcule ensuite une valeur de test F partiel pour la variable et cette valeur est comparée à une valeur critique fournie par l utilisateur. Aussitôt que le F partiel pour la prochaine variable à entrer est inférieur à la valeur critique, l analyse est terminée. Choix du rapport F pour retirer une variable de l équation. Une variable peut, au début d une analyse de régression pas à pas, s avérer la meilleure à entrer dans le modèle, et ne plus l être à un pas ultérieur en raison de sa relation actuelle avec d autres variables à présent dans la régression. Afin de pouvoir détecter une telle éventualité, le programme calcule à chaque pas la valeur du F partiel pour chaque variable dans la régression, et la compare à une valeur critique fournie par l utilisateur. Toute variable dont la valeur du F partiel est inférieure à la valeur critique est retirée du modèle. Régression pas à pas. Si une régression pas à pas est demandée, le programme va déterminer, parmi les variables indépendantes spécifiées par l utilisateur lesquelles, fictives ou non, seront effectivement utilisées pour la régression, ainsi que l ordre dans lequel elles seront introduites, en commençant par les variables forcées et en continuant, une par une, avec les autres variables et les variables fictives. Après chaque pas, l algorithme sélectionne, parmi les variables prédicteurs restantes, la variable, fictive ou non, qui apporte la plus grande réduction de la variance résiduelle (non expliquée) de la variable dépendante, sauf si sa contribution au rapport F total pour la régression demeure en dessous d un seuil spécifié par l utilisateur. De même, après chaque pas, l algorithme évalue si la contribution d une variable quelconque, fictive ou non, déjà inluse dans le modèle tombe sous le seuil spécifié par l utilisateur, auquel cas elle est éliminée de l analyse. Régression pas à pas descendante. L algorithme agit comme pour la régression pas à pas, sauf qu il débute avec toutes les variables indépendantes et ensuite élimine pas à pas les variables, fictives ou non. À

232 212 Régression linéaire (REGRESSN) chaque pas, l algorithme sélectionne, à partir des variables prédicteurs restantes, la variable, fictive ou non, qui produit la plus petite réduction de la variance expliquée de la variable dépendante, sauf si elle excède le seuil spécifié par l utilisateur. De même, l algorithme évalue à chaque pas si la contribution d une variable quelconque, fictive ou non, supprimée auparavant de la régression, a progressé au-dessus du seuil spécifié, auquel cas elle est réintroduite dans la régression. Production d un dataset contenant les valeurs résiduelles. Avec des données brutes en entrée, les résidus peuvent être calculés et envoyés en sortie sous la forme d un fichier Données décrit par un dictionnaire IDAMS. Pour plus de détails, voir la section «Datasets des résidus en sortie». On notera que chaque équation produit un dataset séparé de résidus. En outre, comme REGRESSN ne permet pas de transférer des variables, présentant un intérêt pour une analyse des résidus, à partir des données brutes en entrée vers le dataset des résidus en sortie, il peut s avérer nécessaire d utiliser le programme MERGE pour créer le dataset qui contiendra toutes les variables désirées. Pour permettre la correspondance, une variable ID d observation tirée du dataset en entrée est envoyée dans le dataset des résidus. Production d une matrice de corrélation. Si des données brutes sont utilisées en entrée, le programme calcule des coefficients de corrélation qui peuvent être envoyés en sortie sous la forme d une matrice carrée d IDAMS pour être utilisées par la suite dans une autre analyse. Dans REGRESSN, les corrélations incluent toutes les variables de toutes les équations de régression et elles sont basées sur les observations possédant des données valides sur toutes les variables de la matrice. En conséquence, ces corrélations seront d habitude différentes de celles obtenues avec le programme PEARSON exécuté avec l option MDHANDLING=PAIR. Lorsque l élimination des données manquantes dans REGRESSN laisse un échantillon de taille acceptable, REGRESSN constitue une alternative à PEARSON pour la production d une matrice de corrélation (voir le paragraphe «Traitement des données manquantes» ) Caractéristiques standard d IDAMS Sélection d observations et de variables. Si l on entre des données brutes, le filtre standard est disponible pour sélectionner un sous-ensemble d observations à partir des données d entrée. Si l on utilise une matrice de corrélation comme entrée du programme, on n a pas la possibilité de sélectionner des observations. Les variables pour l équation de régression sont spécifiées avec les paramètres de régression DEPVAR et VARS. Transformation de données. Si l on entre des données brutes, les instructions Recode peuvent être utilisées. Pondération de données. Si l on entre des données brutes, on peut utiliser une variable pour pondérer les données d entrée; cette variable poids peut prendre une valeur entière ou une valeur décimale. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Le programme forcera la somme des poids à être égale au nombre des observations en entrée. Traitement des données manquantes. 1. Données en entrée. Si l on entre des données brutes, le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. Le programme élimine les observations pour lesquelles il y a des données manquantes dans n importe quelle variable de régression dans n importe quelle analyse (suppression de données manquantes «par observations» ). Une option permet à l utilisateur de spécifier le nombre maximum d observations manquantes qui peut être toléré avant de mettre fin à l exécution du programme (voir le paramètre MDHANDLING). Avertissement : si l on effectue des analyses multiples au cours d une seule et même exécution de REGRESSN, le programme calcule une seule matrice de corrélation pour toutes les variables utilisées dans les différentes analyses. En raison de la méthode de suppression «par observations» des observations avec données manquantes, le nombre d observations utilisées par le programme et donc aussi les statistiques résultant de la régression peuvent ne pas être les mêmes que si l on effectue les analyses séparément. Si l on utilise une matrice en entrée, les observations avec données manquantes doivent avoir été traitées au moment de la création de la matrice. Si une cellule de la matrice d entrée contient un code de données manquantes (par ex ), le programme omettra toute analyse impliquant cette cellule. 2. Valeurs résiduelles en sortie. Si des résidus sont demandés, le programme calcule les valeurs prédites

233 27.3 Résultats 213 et les résidus pour toutes les observations qui passent le filtre (facultatif). Si une observation contient des données manquantes pour n importe quelle variable nécessaire pour ces calculs, le programme produira des codes de données manquantes en sortie. 3. Matrice de corrélation en sortie. L algorithme de REGRESSN pour le traitement des données manquantes dans les données d entrée est conçu de façon à ce qu une matrice de corrélation en sortie ne contienne pas de cellules avec données manquantes Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Statistiques univariées. (Uniquement pour les données brutes en entrée). Pour toutes les variables dépendantes et indépendantes utilisées, le programme imprime la somme, la moyenne, l écart-type, le coefficient de variation, le maximum et le minimum. Matrice des sommes totales des carrés et des produits croisés. (Uniquement pour les données brutes en entrée. Facultatif : voir le paramètre PRINT). Matrice des sommes résiduelles des carrés et des produits croisés. (Uniquement pour les données brutes en entrée. Facultatif : voir le paramètre PRINT). Matrice de corrélation totale. (Facultatif : voir le paramètre PRINT). Matrice de corrélation partielle. (Facultatif pour chaque régression : voir le paramètre de régression PARTIALS). L élément ij est la corrélation partielle entre la variable i et la variable j, en maintenant constantes les variables spécifiées dans la liste de variables de PARTIALS. Matrice inverse. (Facultatif pour chaque régression : voir le paramètre de régression PRINT). Statistiques générales d analyse. Le programme imprime les statistiques suivantes pour chaque régression, ou pour chaque pas s il s agit d une régression pas à pas : erreur standard des estimés, rapport F, coefficient de corrélation multiple (ajusté et non ajusté), fraction de la variance expliquée (ajustée et non ajustée), déterminant de la matrice de corrélation, degrés de liberté résiduels, terme constant. Statistiques relatives aux prédicteurs. Le programme imprime les statistiques suivantes pour chaque régression, ou pour chaque pas s il s agit d une régression pas à pas : coefficient B (coefficient de régression partiel non standardisé), erreur standard (sigma) de B, coefficient beta (coefficient de régression partiel standardisé), erreur standard (sigma) de beta, R carrés partiel et marginal, rapport t, rapport de covariance, valeurs de R marginal carré pour tous les prédicteurs et, rapports t pour toutes les variables fictives (régression pas à pas). Dictionnaire des résidus en sortie. (Uniquement pour les données brutes en entrée. Facultatif : voir le paramètre de régression WRITE). Données résiduelles en sortie. (Uniquement pour les données brutes en entrée. Facultatif : voir le paramètre de régression PRINT). Si les valeurs calculées portent sur moins de 1000 observations, les valeurs calculées, les valeurs observées et les valeurs résiduelles (différences) peuvent être imprimées dans l ordre ascendant de ces dernières. Quand la liste des résidus suit l ordre séquentiel des observations le programme imprime la statistique de Durbin-Watson relative à l association des résidus.

234 214 Régression linéaire (REGRESSN) 27.4 Matrice de corrélation en sortie On peut produire en sortie la matrice de corrélation qui a été calculée (voir le paramètre WRITE). Elle est écrite sous la forme d une matrice carrée d IDAMS. Voir le chapitre «Les données dans IDAMS». Le format est 6F11.7 pour les corrélations et 4E15.7 pour les moyennes et les écarts-types. En outre, les colonnes des enregistrements sont réservées à des informations servant de titres, comme suit : enregistrement du descripteur de la matrice enregistrements pour les corrélations enregistrements pour les moyennes enregistrements pour les écarts-types N=nnnnn REG xxx MEAN xxx SDEV xxx (nnnnn est la taille de l échantillon de REGRESSN. Les xxx correspondent à un numéro séquentiel commençant avec 1 pour le premier enregistrement de corrélation et incrémenté d un en un pour chacun des enregistrements suivants jusqu au dernier enregistrement d écart-type). Les éléments de la matrice sont des r de Pearson. Tout comme les moyennes et les écarts-types, ils sont basés sur les observations ayant des données valides pour toutes les variables spécifiées dans n importe laquelle des listes de variables de régression. Les corrélations sont pour toutes les paires de variables se trouvant dans toutes les listes de variables d analyse prises ensemble Datasets des résidus en sortie On peut demander pour chaque analyse un dataset de résidus (voir le paramètre de régression WRITE). Celui-ci est produit sous la forme d un fichier Données décrit par un dictionnaire IDAMS. Il contient soit quatre, soit cinq variables par observation selon que les données aient été, ou non, pondérées : une variable ID, une variable dépendante, une variable dépendante prédite (calculée), un résidu, et un poids s il y en a. Le fichier des résidus en sortie est dans le même ordre que celui des observations en entrée. Le dataset possède les caractéristiques suivantes : N de la Nom de la Longueur Nombre de Code variable variable de champ décimales MD1 (variable ID) 1 idem entrée * 0 idem entrée (var. dépendante) 2 idem entrée * ** idem entrée (variable prédite) 3 Predicted value 7 *** (résidu) 4 Residual 7 *** (poids, s il y en a) 5 idem entrée * ** idem entrée * valeur transférée du dictionnaire d entrée pour les variables V ou 7 pour les variables R ** valeur transférée du dictionnaire d entrée pour les variables V ou 2 pour les variables R *** 6 plus le nombre de décimales pour la variable dépendante moins sa longueur de champ ; 0 si cette valeur est négative. Si la valeur calculée ou le résidu dépassent la longueur du champ, ils sont remplacés par le code MD Dataset en entrée Le dataset en entrée est un fichier contenant des données brutes décrit par un dictionnaire IDAMS. Toutes les variables d analyse doivent être numériques; elles peuvent être des valeurs entières ou décimales. La variable ID de l observation peut être alphabétique.

235 27.7 Matrice de corrélation en entrée Matrice de corrélation en entrée C est une matrice carrée d IDAMS. Une matrice de corrélation produite par PEARSON ou par une exécution antérieure de REGRESSN constitue une entrée appropriée pour REGRESSN. Le dictionnaire de la matrice d entrée doit contenir les numéros des variables et leur nom. La matrice doit contenir les corrélations, moyennes et écarts-types. Les moyennes et les écarts-types sont tous deux utilisés Structure du setup $RUN REGRESSN $FILES Spécification des fichiers $RECODE (facultatif avec un dataset en entrée ; n est pas disponible avec une matrice en entrée) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Définition de variables fictives (conditionnel) 5. Spécifications de régression (répétées autant de fois que nécessaire) $DICT (conditionnel) Dictionnaire pour les données brutes en entrée $DATA (conditionnel) Données pour les données brutes en entrée $MATRIX (conditionnel) Matrice pour une matrice de corrélation en entrée Fichiers : FT02 matrice de corrélation en sortie FT09 matrice de corrélation en entrée (si $MATRIX n est pas utilisé et INPUT=MATRIX) DICTxxxx dictionnaire en entrée (si $DICT n est pas utilisé et INPUT=RAWDATA) DATAxxxx données en entrée (si $DATA n est pas utilisé et INPUT=RAWDATA) DICTyyyy dictionnaire des résidus en sortie DATAyyyy données des résidus en sortie PRINT résultats (défaut IDAMS.LST) ) un jeu pour chaque ) fichier de résidus 27.9 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 et 5 ci-dessous.

236 216 Régression linéaire (REGRESSN) 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Disponible uniquement si l on utilise des données brutes en entrée. Exemple : INCLUDE V3=5 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : ANALYSE DE RÉGRESSION 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : IDVAR=V1 MDHANDLING=100 INPUT=RAWDATA/MATRIX RAWD Les données d entrée sont sous la forme d un fichier Données décrit par un dictionnaire IDAMS. MATR Les données d entrée sont des coefficients de corrélation sous la forme d une matrice carrée d IDAMS. Paramètres valables uniquement pour des données brutes en entrée INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». MDHANDLING=0/n Le nombre d observations avec données manquantes autorisé avant de mettre fin à l exécution. Une observation est comptée comme manquante si elle a des données manquantes pour n importe quelles variables dans les équations de régression. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. CATE Spécifier CATE si va suivre une définition de variables fictives. IDVAR=numéro de variable Variable à produire en sortie comme variable ID d observation si l on demande un dataset de résidus. Il ne faut inclure la variable ID dans aucune liste de variables. WRITE=MATRIX Ecrire la matrice de corrélation calculée à partir des données brutes d entrée dans un fichier en sortie.

237 27.9 Instructions de contrôle du programme 217 PRINT=(CDICT/DICT, XMOM, XPRODUCTS, MATRIX) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées par le programme, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. XMOM Imprimer la matrice des sommes résiduelles des carrés et des produits croisés. XPRO Imprimer la matrice des sommes totales des carrés et des produits croisés. MATR Imprimer la matrice de corrélation. Paramètres valables pour une matrice de corrélation comme entrée CASES=n Donner à CASES une valeur égale au nombre d observations utilisées pour créer la matrice d entrée. Ce nombre est utilisé dans le calcul du niveau F. Pas de défaut; doit être fourni s il y a une matrice de corrélation en entrée. PRINT=MATRIX Imprimer la matrice de corrélation. 4. Définition de variables fictives (conditionnel : si CATE a été spécifié comme paramètre). Le programme de régression peut transformer une variable catégoricale en une série de variables fictives. Pour qu une variable soit traitée comme catégoricale, l utilisateur doit : a) inclure le paramètre CATE dans la liste des paramètres et b) spécifier les variables à considérer comme catégoricales suivies des codes de leurs catégories placés entre parenthèses. Pour chaque variable, tout code non inclus dans la liste est exclu des calculs. Note : il faut éviter d inclure tous les codes dans la liste sinon il en résultera une matrice singulière. Exemple : V100(5,6,1), V101 (1-6) Dans la régression, les codes 5,6 et 1 de la variable 100 seront repésentés sous la forme de variables fictives ainsi que les codes 1 à 6 de la variable 101. Si une variable figure dans la définition des variables fictives et qu elle est utilisée comme prédicteur (VARS) ou bien avec les paramètres PARTIALS (listes de variables partielles) ou FORCE (listes de variables forcées) pour la régresssion pas à pas, elle renvoie à la série des variables fictives créées à partir d elle. Dans les régressions pas à pas, les codes de telles variables sont entrés ou exclus tous ensemble, tandis que les R carrés marginaux et les rapports F sont calculés pour tous les codes pris ensemble aussi bien que pour chaque code individuellement. Une variable figurant dans la définition des variables fictives ne peut pas être utilisée comme variable dépendante. 5. Spécifications de régression. Les règles de codage sont les mêmes que pour les paramètres. Chaque série de paramètres de régression doit débuter sur une nouvelle ligne. Exemple : DEPV=V5 METH=STEP FORCE=(V7) VARS=(V7,V16,V22,V37-V47,R14) METHOD=STANDARD/STEPWISE/DESCENDING STAN Effectuer une régression standard. STEP Effectuer une régression pas à pas. DESC Effectuer une régression pas à pas descendante. DEPVAR=numéro de variable Numéro de variable de la variable dépendante. Pas de défaut. VARS=(liste de variables) Variables indépendantes à utiliser dans l analyse. Pas de défaut.

238 218 Régression linéaire (REGRESSN) PARTIALS=(liste de variables) Calculer et imprimer une matrice de corrélation partielle en supprimant de la liste des variables indépendantes les variables spécifiées. Défaut : pas de matrice de corrélation partielle. FORCE=(liste de variables) Forcer les variables figurant sur la liste à entrer dans la régression pas à pas (METHOD=STEPWISE) ou à rester dans la régression pas à pas descendante (METHOD=DESCENDING). Défaut : on ne force pas les variables. FINRATIO=.001/n La valeur du rapport F sous laquelle une variable n entrera pas dans la régression pas à pas; il s agit du «rapport F pour l entrée d une variable» dans la régression. Il faut saisir le point décimal. FOUTRATIO=0.0/n La valeur du rapport F au-dessus duquel doit se trouver une variable pour rester dans la procédure de régression pas à pas; il s agit du «rapport F pour retirer une variable» de la régression. Il faut saisir le point décimal. CONSTANT=0 Concerne uniquement les données brutes en entrée. Le terme constant doit être égal à zéro et n est pas estimé par le programme. Défaut : le programme estimera un terme constant. WRITE=RESIDUALS Ecrire les résidus dans un dataset IDAMS en sortie. OUTFILE=OUT/yyyy Ce paramètre est applicable uniquement si WRITE=RESI est spécifié. Un suffixe de 1-4 caractères pour le ddname du fichier des résidus en sortie et du fichier Dictionnaire correspondant. Si l on veut envoyer dans un fichier de sortie les résidus provenant de plus d une analyse, ddname par défaut, OUT, ne peut être utilisé qu une seule fois. PRINT=(STEP, RESIDUALS, ERESIDUALS, INVERSE) STEP Valable seulement pour la régression pas à pas : imprimer les R carrés marginaux pour tous les prédicteurs à chaque pas. RESI Imprimer les résidus selon la séquence des observations en entrée et la statistique de Durbin-Watson. ERES Imprimer les résidus, sauf pour les données manquantes, selon la grandeur de l erreur, pour autant qu il y ait moins de 1000 observations. INVE Imprimer la matrice de corrélation inverse Restrictions 1. Avec des données brutes en entrée, il peut y avoir dans la même équation de régression jusqu à 99 ou 100 variables distinctes (selon que l on utilise ou non une variable poids); le nombre total de variables dans toute une analyse ne peut dépasser 200, y compris les variables de Recode, la variable poids et la variable ID. 2. Si l on utilise une matrice en entrée, celle-ci peut être de 200 x 200, et toute équation de régression peut contenir jusqu à 100 variables. 3. FINRATIO doit être plus grand ou égal à FOUTRATIO. 4. Si l on imprime les résidus, ceux-ci peuvent figurer selon l ordre ascendant des valeurs résiduelles pour autant qu il y ait moins de 1000 observations.

239 27.11 Exemples Une variable qui a été spécifiée dans la définition des variables fictives ne peut pas être utilisée comme variable dépendante. 6. On peut définir au maximum 12 variables fictives à partir d une variable catégoricale. 7. Si une variable ID alphabétique dépasse 4 caractères, seuls les quatre premiers sont utilisés par le programme Exemples Exemple 1. Régression standard avec cinq variables indépendantes en utilisant comme entrée une matrice de corrélation IDAMS. $RUN REGRESSN $FILES FT09 = A.MAT fichier Matrice en entrée $SETUP RÉGRESSION STANDARD EN UTILISANT UNE MATRICE EN ENTRÉE INPUT=MATR CASES=1460 DEPV=V116 VARS=(V18,V36,V55-V57) Exemple 2. Régression standard avec six variables indépendantes et deux variables ayant chacune 3 catégories transformées en 6 variables fictives; on utilise comme entrée les données brutes ; on va calculer les résidus et les écrire dans un dataset (les observations sont identifiées par la variable V2). $RUN REGRESSN $FILES PRINT = REGR2.LST DICTIN = STUDY.DIC fichier Dictionnaire en entrée DATAIN = STUDY.DAT fichier Données en entrée DICTOUT = RESID.DIC fichier Dictionnaire pour les résidus DATAOUT = RESID.DAT fichier Données pour les résidus $SETUP RÉGRESSION STANDARD - LES DONNÉES BRUTES EN ENTRÉE ET RESIDUS EN SORTIE MDHANDLING=50 IDVAR=2 CATE V5(1,5,6),V6(1-3) DEPV=V116 WRITE=RESI - VARS=(V5,V6,V8,V13,V75-V78) Exemple 3. Effectuer deux régressions, l une standard et l autre pas à pas, en utilisant les données brutes comme entrée. $RUN REGRESSN $FILES DICTIN = STUDY.DIC DATAIN = STUDY.DAT $SETUP DEUX RÉGRESSIONS PRINT=(XMOM,XPROD) DEPV=V10 VARS=(V101-V104,V35) PRINT=INVERSE DEPV=V11 METHOD=STEP PRINT=STEP - VARS=(V1,V3,V15-V18,V23-V29) fichier Dictionnaire en entrée fichier Données en entrée Exemple 4. Régression en deux étapes; dans la première étape, on utilise les variables V2-V6 pour estimer les valeurs de la variable dépendante V122; dans la deuxième étape, deux variables supplémentaires V12, V23 sont utilisées pour estimer les valeurs prédites de V122, càd en ayant éliminé les effets des variables V2-V6.

240 220 Régression linéaire (REGRESSN) Dans la première régression, on calcule les valeurs prédites de la variable dépendante (V122) et on les écrit comme variable 3 dans le fichier des résidus (OUTB). Ensuite, à l aide de MERGE, on fusionne cette variable avec les variables provenant du fichier original dont on a besoin dans la seconde étape. Le dataset généré par MERGE (c est un fichier temporaire et donc il n est pas besoin de le définir) contiendra les 5 variables provenant de la liste «build», V1 à V5, où A12 et A23 (à utiliser comme prédicteurs dans la deuxième étape) deviennent V2 et V3, A122 - la variable dépendante originale - devient V4, et B3, la variable donnant les valeurs de prédiction de V122, devient V5. Ce fichier de sortie est ensuite utilisé comme entrée pour la deuxième étape. $RUN REGRESSN $FILES PRINT = REGR4.LST DICTIN = STUDY.DIC fichier Dictionnaire en entrée DATAIN = STUDY.DAT fichier Données en entrée DICTOUTB = RESID.DIC fichier Dictionnaire pour les résidus DATAOUTB = RESID.DAT fichier Données pour les résidus $SETUP RÉGRESSION EN DEUX ÉTAPES - PREMIÈRE ÉTAPE MDHANDLING=100 IDVAR=V1 DEPV=V122 WRITE=RESI OUTF=OUTB VARS=(V2-V6) $RUN MERGE $SETUP FUSION DE LA VALEUR ESTIMÉE AVEC DES DONNÉES EN ENTRÉE MATCH=INTE INAF=IN INBF=OUTB A1=B1 A1,A12,A23,A122,B3 $RUN REGRESSN $SETUP RÉGRESSION EN DEUX ÉTAPES - SECONDE ÉTAPE MDHANDLING=100 INFI=OUT DEPV=V5 VARS=(V2,V3)

241 Chapitre 28 Analyse multidimensionnelle des proximités (MDSCAL) 28.1 Description générale MDSCAL est un programme d analyse multidimensionnelle et non métrique des proximités. Le programme, qui procède à partir d une matrice de mesures de similarité ou de dissimilarité, est conçu pour trouver la meilleure représentation géométrique des données dans l espace, et ceci pour chacune des dimensions spécifiées. L analyse multidimensionnelle des proximités est utilisée à des fins similaires à celles de l analyse factorielle, par ex. on peut projeter des grappes de variables, mettre en évidence la dimensionalité des données et, parfois, on peut interpréter les dimensions. Le programme CONFIG peut servir à analyser une configuration produite par MDSCAL. Configuration d entrée. Normalement, une configuration de départ arbitraire est créée par le programme pour démarrer les calculs. Cependant, l utilisateur peut fournir une configuration initiale. Ceci peut se justifier pour plusieurs raisons. L utilisateur peut avoir des raisons théoriques pour démarrer avec une certaine configuration; on peut vouloir effectuer des itérations supplémentaires sur une configuration qui n est pas suffisamment proche de la meilleure configuration; ou bien, pour épargner du temps de calcul, on peut vouloir fournir une configuration de dimension plus élevée comme point de départ pour une configuration de dimension inférieure. Algorithme d échelonnement. Le programme démarre avec une configuration initiale qui est soit générée arbitrairement, soit fournie par l utilisateur, et (en utilisant une procédure de type «descente la plus inclinée»- «steepest descent») il réitère les calculs successivement sur des configurations d essai, en comparant à chaque fois l ordre de rang des différences interpoint dans la configuration d essai avec l ordre de rang de la mesure correspondante dans les données. Une mesure de «mauvaise qualité d ajustement» (coefficient de contrainte - «stress coefficient») est calculée après chaque itération et la configuration réarrangée en conséquence de façon à améliorer son ajustement aux données jusqu à ce que, idéalement, l ordre de rang des distances dans la configuration soit parfaitement monotonique avec l ordre de rang des dissimilarités fourni par les données; dans ce cas, la contrainte («stress») sera zéro. En pratique, le programme arrête le calcul (dans n importe quel nombre de dimensions) parce que la contrainte («stress») a atteint une valeur suffisamment petite (STRMIN), le facteur d échelle (grandeur) des gradients a atteint une valeur suffisamment petite (SRGFMN), le ratio de contrainte a été amélioré trop lentement (SRATIO), ou le nombre maximum d itérations préfixé a été atteint (ITERATIONS). Le programme s arrête pour l une quelconque de ces conditions qui survient en premier. La même procédure est répétée pour la dimension inférieure qui suit en utilisant comme configuration initiale les résultats précédents, ceci jusqu à ce que le nombre minimum spécifié de dimensions soit atteint. Durant les calculs, le cosinus de l angle entre les gradients successifs joue un rôle important à plusieurs égards; à titre facultatif, on peut spécifier deux paramètres internes de pondération (voir les paramètres COSAVW et ACSAVW). Dimension et métrique. On peut obtenir des solutions allant de 2 à 10 dimensions. L utilisateur contrôle la dimension des configurations obtenues en spécifiant le nombre maximum et minimum de dimensions désirées

242 222 Analyse multidimensionnelle des proximités (MDSCAL) et la différence entre les dimensions des solutions successives (voir les paramètres DMAX, DMIN et DDIF). L utilisateur spécifie également, à l aide du paramètre R, si la métrique de distance est euclidienne (R=2), le cas habituel, ou quelque autre métrique r de Minkowski. Contrainte («Stress»). La contrainte est une mesure de la qualité de l ajustement de la configuration aux données. L utitilisateur a le choix entre deux formules alternatives pour calculer le coefficient de contrainte : en le normalisant soit par la somme des carrés des distances par rapport à la moyenne (SQDIST), soit par la somme des carrés des écarts à la moyenne (SQDEV). Dans beaucoup de situations, les configurations obtenues par les deux formules ne seront pas substantiellement différentes. Avec la formule 2, on obtient des valeurs de contrainte plus grandes pour le même degré d ajustement. Liens (valeurs identiques) dans les données d entrée. Le programme offre deux méthodes alternatives pour gérer les liens : on peut demander que les distances correspondantes soient traitées comme étant égales (TIES=EQUAL) ou permettre qu elles diffèrent (TIES=DIFFER). Quand il y a peu de liens, il n y a pas grande différence entre les deux approches. Par contre, il y a une différence quand les liens sont nombreux, et il faut donc considérer le contexte en optant pour l une ou l autre Caractéristiques standard d IDAMS Sélection d observations et de variables. La sélection des observations doit être effectuée au moment où la matrice est créée, pas lors de l exécution de MDSCAL. Le paramètre VARS permet d effectuer les calculs sur des sous-ensembles de la matrice plutôt que sur la matrice entière. Transformation de données. L utilisation des instructions Recode n est pas applicable dans MDSCAL. Les transformations de données doivent être effectuées au moment où la matrice est créée. Pondération de données. La pondération au sens usuel de ce terme (pondération des observations pour pallier les différents taux d échantillonnage ou les différents niveaux d agrégation) doit être effectuée avant d utiliser MDSCAL ; les poids doivent être incorporés dans la matrice de données en entrée. Il existe dans MDSCAL une option de pondération de nature très différente (voir le paramètre INPUT=WEIGHTS). On peut l utiliser pour affecter des poids aux cellules de la matrice d entrée; l utilisateur fournit une matrice de valeurs à utiliser comme poids pour les éléments correspondants de la matrice d entrée. Traitement des données manquantes. Les données manquantes doivent être prises en compte au moment où la matrice de données en entrée est créée, pas au moment de l utilisation de MDSCAL. Si après la création de la matrice, une de ses entrées manque, càd contient un code de données manquantes, MDSCAL offre une possibilté de traitement : l option de coupure (voir le paramètre CUTOFF) peut être utilisée pour exclure de l analyse les valeurs de données manquantes si ces valeurs sont moins élevées que les valeurs des données valides. MDSCAL ne dispose pas d option pour reconnaître les valeurs de données manquantes constituées de nombres élevés (tel que , le code de données manquantes produit par PEARSON). Si les données contiennent des codes de données manquantes élevés, il faut les éditer sous forme de nombres plus petits. S il y a beaucoup de données manquantes pour une variable particulière, il faut éventuellement exclure celle-ci de l analyse Résultats Matrice d entrée. (Facultatif : voir le paramètre PRINT). Poids en entrée. (Facultatif : voir le paramètre PRINT). Configuration d entrée. Si l on fournit une configuration de départ, celle-ci est toujours imprimée.

243 28.4 Matrice de configuration en sortie 223 Historique des calculs. Pour chaque solution, le programme imprime un historique complet des calculs, en faisant mention de la valeur de contrainte («stress») et de ses paramètres auxiliaires à chaque itération : Itération Stress SRAT SRATAV CAGRGL COSAV ACSAV SFGR STEP le numéro de l itération la valeur de la contrainte («stress») à ce stade la valeur du ratio de contrainte à ce stade la valeur du ratio de contrainte moyen à ce stade (c est une moyenne pondérée exponentiellement) le cosinus de l angle entre le gradient actuel et le gradient précédent la valeur moyenne du cosinus de l angle entre gradients successifs (une moyenne pondérée) la valeur moyenne absolue du cosinus de l angle entre gradients successifs (une moyenne pondérée) la longueur (plus exactement le facteur d échelle) du gradient la taille de l étape. Motif de terminaison. Quand le programme met fin aux calculs, le motif en est indiqué au moyen d un des messages suivants : «Minimum atteint», «Nombre maximum d itération utilisé», «Stress satisfaisant atteint», ou «Stress nul atteint». Configuration finale. Pour chaque solution, le programme imprime les coordonnées cartésiennes de la configuration finale. Configuration finale triée. (Facultatif : voir le paramètre PRINT). Pour chaque solution, le programme classe séparément en ordre ascendant, sur chaque dimension, les projections de points de la configuration finale. Résumé. Pour chaque solution, le programme classe les valeurs des données originales et les imprime avec leurs distances finales correspondantes (DIST) et avec les distances hypothétiques requises pour un ajustement monotonique parfait (DHAT) Matrice de configuration en sortie Au fur et à mesure que le programme calcule la configuration finale pour chaque nombre de dimensions, celle-ci peut être envoyée en sortie comme une matrice rectangulaire IDAMS. La configuration est centrée et normée. Les lignes représentent les variables et les colonnes les dimensions. Les éléments de la matrice sont écrits dans le format 10F7.3. Le programme produit les enregistrements du dictionnaire. Cette matrice peut être soumise en tant que configuration d entrée pour une autre exécution de MDSCAL ou elle peut servir d entrée à un autre programme, tel que CONFIG, pour une analyse supplémentaire Matrice de données en entrée D ordinaire, l entrée de MDSCAL est une matrice IDAMS carrée (voir le chapitre «Les données dans IDAMS»). Cette matrice est la matrice supérieure droite sans diagonale et elle est définie par le paramètre INPUT=STANDARD. Les programmes TABLES et PEARSON produisent des matrices convenant comme entrée de MDSCAL. Les moyennes et les écarts-types ne sont pas utilisés, mais il faut fournir des enregistrements appropriés (fictifs). MDSCAL accepte des matrices dans d autres formats que le triangle supérieur droit sans diagonale. Toutefois, ces matrices doivent contenir la portion du dictionnaire d une matrice carrée IDAMS et elles doivent posséder des enregistrements contenant à la fin des pseudo moyennes et écarts-types. Les paramètres d entrée ci-dessous indiquent le format exact de la matrice d entrée : STAN STAN, DIAG LOWER, DIAG LOWER SQUARE triangle supérieur droit, sans diagonale triangle supérieur droit, avec diagonale triangle inférieur gauche, avec diagonale triangle inférieur gauche, sans diagonale matrice carrée entière avec diagonale.

244 224 Analyse multidimensionnelle des proximités (MDSCAL) Les mesures contenues dans la matrice de données peuvent être soit des mesures de similarité (telles que des corrélations) ou des dissimilarités. Bien qu une matrice de corrélations (par ex. une matrice de gammas ou une matrice de coefficients r de Pearson) constitue l entrée habituelle de MDSCAL, la matrice d entrée peut contenir toute mesure qui a un sens en tant que mesure de proximité. Etant donné que la procédure d échelonnement non métrique utilise seulement les propriétés ordinales des données, il n est rien besoin d assumer quant aux propriétés quantitatives ou numériques des données. Il faut qu il y ait, au minimum, deux fois autant de variables que de dimensions Matrice de poids en entrée Si l on fournit une matrice de poids, elle doit être exactement dans le même format que la matrice de données en entrée. Le paramètre INPUT=(STAN/LOWE/SQUA, DIAG) s applique aussi bien à la matrice des poids qu à la matrice de données. Le dictionnaire de la matrice des poids doit être le même que pour la matrice de données en entrée. Les moyennes et les écarts-types ne sont pas utilisés, mais il faut fournir des lignes fictives correspondantes. Cette matrice contient des valeurs à utiliser comme poids, dont chacune correpond à un élément de la matrice des données. Ces valeurs sont utilisées conjointement avec le paramètre CUTOFF quand il est appliqué aux données. Le programme signale une condition d erreur si une donnée a une valeur plus grande que la valeur de coupure et la valeur de poids correspondante est inférieure ou égale à zéro. Il en va de même si une donnée a une valeur inférieure ou égale à la valeur de coupure et que la valeur de poids correspondante est supérieure à zéro. Si l une ou l autre de ces contradictions survient, le programme termine son exécution Matrice de configuration en entrée La configuration d entrée doit avoir le format d une matrice rectangulaire IDAMS. Voir le chapitre «Les données dans IDAMS». Elle sert à fournir une configuration de départ à utiliser dans les calculs. Les lignes doivent représenter les variables et les colonnes les dimensions. D ordinaire, cette configuration résulte d une exécution antérieure de MDSCAL et est utilisée de façon à reprendre une exécution là où on l a laissée. La matrice doit contenir un nombre de dimensions au moins égal à la valeur assignée au paramètre DMAX. Note : si on spécifie un sous-ensemble de variables (VARS), MDSCAL utilise les n premières lignes de la configuration d entrée, où n est le nombre de variables dans la liste, ceci sans vérifier les numéros de variables.

245 28.8 Structure du setup Structure du setup $RUN MDSCAL $FILES Spécification des fichiers $SETUP 1. Titre 2. Paramètres $MATRIX (conditionnel) Matrice de données Matrice de poids Matrice de configuration de départ (Note : il n est pas nécessaire d inclure toutes les matrices ici ; si plus d une matrice est incluse, elles doivent ^etre dans l ordre ci-dessus). Fichiers : FT02 matrice de configuration en sortie FT03 matrice de poids en entrée si INPUT=WEIGHTS est spécifié (omettre si $MATRIX est utilisé) FT05 matrice de configuration en entrée si INPUT=CONFIG est spécifié (omettre si $MATRIX est utilisé) FT08 matrice de données en entrée (omettre si $MATRIX est utilisé) PRINT résultats (défaut IDAMS.LST) 28.9 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-2 ci-dessous. 1. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : EXÉCUTION DE MDSCAL AVEC LE DATASET X Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : DMAX=5 ITER=75 WRITE=CONFIG INPUT=(STANDARD/LOWER/SQUARE, DIAGONAL, WEIGHTS, CONFIG) STAN L entrée est une matrice carrée IDAMS, càd la partie supérieure droite d une matrice, sans diagonale. LOWE La matrice d entrée est la moitié inférieure gauche d une matrice. SQUA La matrice d entrée est une matrice entière. DIAG La matrice d entrée contient les éléments de la diagonale. WEIG Une matrice de poids est fournie. CONF La matrice de configuration de départ est fournie. VARS=(liste de variables) Liste de variables dans la matrice qui vont servir pour l analyse. Défaut : utilisation de la matrice entière.

246 226 Analyse multidimensionnelle des proximités (MDSCAL) FILE=(DATA, WEIGHTS, CONFIG) DATA La matrice de données en entrée se trouve dans un fichier. WEIG La matrice des poids se trouve dans un fichier. CONF La matrice de configuration en entrée se trouve dans un fichier. Défaut : le programme suppose que toutes les matrices suivent une commande $MATRIX, dans l ordre : données, poids, configuration. COEFF=SIMILARITIES/DISSIMILARITIES SIMI Des coefficients élevés dans la matrice de données indiquent que les points sont similaires ou rapprochés. DISS Des coefficients élevés indiquent que les points ne sont pas similaires ou qu ils sont éloignés les uns des autres. DMAX=2/n La dimension maximum : le calcul débute avec l espace de dimension maximum. DMIN=2/n La dimension minimum : le calcul continue jusqu à ce que la dimension minimum soit atteinte ou sur le point d être dépassée. DDIF=1/n La différence de dimension : le calcul procède de la dimension maximum à la dimension minimum, par pas ayant la taille de la différence de dimension. R=2.0/n Indique quelle est la métrique r de Minkowski à utiliser. On peut utiliser toute valeur >= 1.0. R=1.0 Métrique «City block». R=2.0 Distance euclidienne ordinaire. CUTOFF=0.0/n Les valeurs de données inférieures ou égales à n ne sont pas prises en compte par le programme. Si les valeurs acceptables des coefficients d entrée vont de -1.0 à 1.0, il faut utiliser CUTOFF= TIES=DIFFER/EQUAL DIFF Des distances inégales correspondant à des valeurs égales dans les données ne contribuent pas au coefficient de contrainte et on ne tente pas d égaliser ces distances. EQUA Des distances inégales correspondant à des valeurs égales dans les données contribuent au coefficient de contrainte et on tente d égaliser ces distances. ITERATIONS=50/n Le nombre maximum d itérations à effectuer pour tout nombre donné de dimensions. Ce maximum est une mesure de précaution permettant de contrôler le temps d exécution. STRMIN=.01/n Contrainte minimum. Le calcul s arrêtera si la contrainte atteint la valeur minimum. SFGRMN=0.0/n Minimum du facteur d échelle du gradient. Le calcul s arrêtera si la taille du gradient atteint la valeur minimum. SRATIO=.999/n Le ratio de contrainte. Le calcul s arrête si le ratio de contrainte entre deux pas successifs atteint la valeur n.

247 28.10 Restrictions 227 ACSAVW=.66/n Le facteur de pondération de la valeur moyenne absolue du cosinus de l angle entre gradients successifs. COSAVW=.66/n Le facteur de pondération du cosinus moyen de l angle entre gradients successifs. STRESS=SQDIST/SQDEV SQDI Calcul de la contrainte en utilisant la normalisation par la somme des carrés des distances. SQDE Calcul de la contrainte en utilisant la normalisation par la somme des carrés des écarts à la moyenne. WRITE=CONFIG Envoyer la configuration finale de chaque solution dans un fichier. PRINT=(MATRIX, SORTCONF, LONG/SHORT) MATR Imprimer la matrice de données en entrée et la matrice des poids si on en fournit une. SORT Trier chaque dimension de la configuration finale en ordre ascendant, et l imprimer. LONG Imprimer les matrices sur les lignes longues. SHOR Imprimer les matrices sur les lignes courtes Restrictions 1. Le programme a une capacité de 1800 points représentant des données (par ex éléments d une matrice de similarité ou de dissimilarité). Ceci est équivalent à une matrice triangulaire de 60 x 60 ou à une matrice carrée de 42 x L échelonnement des variables peut s effectuer dans un espace allant jusqu à 10 dimensions. 3. La matrice de configuration de départ peut avoir au maximum 60 lignes et 10 colonnes Exemple Production d une matrice de configuration en sortie; la matrice de données en entrée a une forme IDAMS standard et se trouve dans un fichier; il n y a pas de matrice de poids en entrée ni de matrice de configuration; on demande 20 itérations; l analyse doit être effectuée sur un sous-ensemble de variables. $RUN MDSCAL $FILES FT02 = MDS.MAT fichier Matrice de configuration en sortie fichier Matrice de données en entrée FT08 = ABC.COR $SETUP ANALYSE MULTIDIMENSIONNELLE DES PROXIMITÉS ITER=20 WRITE=CONFIG FILE=DATA VARS=(V18-V36)

248

249 Chapitre 29 Analyse de classification multiple (MCA) 29.1 Description générale MCA examine les relations entre plusieurs variables prédicteurs et une seule variable dépendante et détermine l effet de chaque prédicteur avant et après ajustement pour ses inter-corrélations avec les autres prédicteurs. Le programme fournit également des informations sur les relations bivariées et multivariées entre les prédicteurs et la variable dépendante. La technique de MCA peut être considérée comme l équivalent d une analyse de régression multiple utilisant des variables fictives. Toutefois, MCA est souvent plus aisé à utiliser et interpréter. MCA possède aussi une option permettant d effectuer une analyse de variance à un facteur. MCA présuppose que les effets des prédicteurs sont additifs càd qu il n y a pas d interactions entre eux. La technique est conçue pour être utilisée avec des variables prédicteurs mesurées sur des échelles nominale, ordinale et d intervalle. Le programme accepte un nombre inégal d observations dans les cellules constituées par la classification croisée des prédicteurs. REGRESSN et ONEWAY sont des alternatives à MCA. REGRESSN fournit une technique générale de régression multiple. ONEWAY permet d effectuer une analyse de variance à un facteur. MCA a l avantage sur REGRESSN d accepter des variables prédicteurs sous une forme aussi faible que les échelles nominales et de ne pas impliquer la linéarité de la régression. Sur ONEWAY, MCA a l avantage qu avec l option d analyse de variance à un facteur, le nombre maximum de catégories de la variable de contrôle est de 2999 (au lieu de 99 dans ONEWAY). Production d un dataset contenant les valeurs résiduelles. Les résidus peuvent être calculés et envoyés en sortie sous la forme d un fichier de données décrit par un dictionnaire IDAMS. Pour plus de détails, voir la section «Datasets des résidus en sortie». Cette option n est pas disponible si un seul prédicteur est spécifié. Procédures itératives. MCA utilise un algorithme d itération pour atteindre de manière approximative les coefficients constituant les solutions aux équations normales. L algorithme s arrête lorsque les coefficients générés par le programme sont suffisamment précis. Ceci implique de fixer un seuil de tolérance et de définir un test pour déterminer si le seuil de tolérance a été satisfait (voir les paramètres d analyse CRITERION et TEST). Le programme dispose de quatre tests de convergence. Si les coefficients ne convergent pas dans le cadre des limites établies par l utilisateur, le programme imprime ses résultats sur la base de la dernière itération. Le nombre d itérations utiles dépend quelque peu du nombre de prédicteurs ainsi que de la fraction spécifiée comme seuil de tolérance. S il y a moins de 10 prédicteurs, l expérience a démontré qu il était suffisant de spécifier 10 comme nombre maximum d itérations. Détection et traitement des interactions. Le programme présuppose que le phénomène étudié est intelligible à l aide d un modèle additif. Si, sur une base a priori, on soupçonne l existence d interactions entre des variables particulières, MCA permet de déterminer l importance de celles-ci de la manière suivante. Si on spécifie un seul prédicteur, MCA effectue une analyse de variance à un facteur. Une telle analyse peut aider à détecter et à éliminer les

250 230 Analyse de classification multiple (MCA) interactions entre prédicteurs. La procédure complète se présente comme suit (voir aussi l exemple 3) : 1. Déterminer un ensemble de prédicteurs suspects d être en interaction. 2. Former une seule «variable combinée» en utilisant ces prédicteurs et l instruction COMBINE de Recode. 3. Exécuter une analyse MCA en utilisant les prédicteurs suspects pour obtenir le R au carré ajusté. 4. Exécuter une analyse MCA avec la «variable combinée» comme variable de contrôle dans une analyse de variance à un facteur pour obtenir le eta au carré ajusté, lequel sera plus grand ou égal au R au carré ajusté. 5. Utiliser la différence entre le eta au carré ajusté et le R au carré ajusté (c est la fraction de variance expliquée qui est perdue en raison de l assomption d additivité), comme guide pour déterminer s il est justifié d utiliser la variable combinée à la place des prédicteurs originaux. Il faut utiliser le même échantillon pour le test d interaction que pour l analyse MCA normale. Si des interactions sont détectées, il faut alors utiliser la variable combinée comme prédicteur à la place des variables originales qui sont en état d interaction Caractéristiques standard d IDAMS Sélection d observations et de variables. On peut exclure des observations de toutes les analyses lors d une exécution de MCA à l aide d une instruction de filtre standard. Dans une analyse de classification multiple, on peut aussi exclure des observations en dépassant le code maximum des catégories du prédicteur. (Note : dans toute analyse effectuée avec MCA, si le code d un prédicteur est en dehors de l intervalle 0-31, le programme élimine l observation contenant la valeur incriminée). D autres observations peuvent être exclues d une analyse particulière pour les raisons suivantes : Une observation (mentionnée comme étant excentrique) a une variable dépendante dont la valeur est plus élevée que le nombre spécifié d écarts-types de la moyenne de la variable dépendante. Voir les paramètres d analyse OUTDISTANCE et OUTLIERS. Une observation a une variable dépendante dont la valeur est plus élevée que le maximum spécifié par l utilisateur. Voir le paramètre d analyse DEPVAR. Une observation contient des données manquantes pour la variable dépendante ou la variable de pondération. Voir ci-dessous les paragraphes «Traitement des données manquantes» et «Pondération des données». Transformation de données. Les instructions Recode peuvent être utilisées. Pondération de données. On peut utiliser une variable pour pondérer les données d entrée; cette variable poids peut prendre une valeur entière ou une valeur décimale. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Si on utilise des données pondérées, il faut interpréter avec prudence les tests de signification statistique. Traitement des données manquantes. Le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. Les observations contenant des données manquantes dans la variable dépendante sont toujours exclues. Les observations avec des données manquantes dans les variables prédicteurs peuvent être exclues de l analyse à l aide du filtre. (Dans la classification multiple, ceci est nécessaire uniquement si les codes de données manquantes se situent dans l intervalle 0-31; si un prédicteur a une valeur en dehors de cet intervalle, l observation est automatiquement exclue de toutes les analyses d une exécution de MCA).

251 29.3 Résultats Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Tableau des fréquences pondérées. (Facultatif : voir le paramètre PRINT). Le programme imprime une matrice N x M pour chaque paire de prédicteurs où N=le code maximum du prédicteur de ligne et M=le code maximum du prédicteur de colonne. Le nombre total de tableaux est P(P-1)/2 où P est le nombre de prédicteurs. Coefficients pour chaque itération. (Facultatif : voir le paramètre PRINT). Les coefficients pour chaque classe de chaque prédicteur. Statistiques de la variable dépendante. Pour la variable dépendante (Y) : moyenne globale, écart-type et coefficient de variation, somme des Y et des Y au carré, somme des carrés totale, expliquée et résiduelle, nombre d observations utilisées dans l analyse et somme des poids. Statistiques des prédicteurs dans l analyse de classification multiple. Pour chaque catégorie de chaque prédicteur : le code de la catégorie (classe), et son nom s il existe dans le dictionnaire, le nombre d observations avec données valides (sous forme brute, pondérée et en pourcentages), moyenne (ajustée et non ajustée), écart-type et coefficient de variation de la variable dépendante, écart non ajusté de la moyenne de la catégorie par rapport à la moyenne globale et coefficient d ajustement. Pour chaque variable prédicteur : eta et eta au carré (ajusté et non ajusté), beta et beta au carré, sommes des carrés ajustée et non ajustée. Statistiques récapitulatives de l analyse de classification multiple. Pour tous les prédicteurs pris ensemble : R au carré multiple (ajusté et non ajusté), coefficient d ajustement pour les degrés de liberté, R multiple ajusté, la liste des betas dans l ordre décroissant de leurs valeurs. Statistiques récapitulatives de l analyse de variance à un facteur. Pour chaque catégorie du prédicteur : le code de la catégorie (classe), et son nom s il existe dans le dictionnaire, le nombre d observations avec données valides (sous forme brute, pondérée et en pourcentages), moyenne, écart-type et coefficient de variation de la variable dépendante, somme et pourcentages des valeurs de la variable dépendante, somme des carrés des valeurs de la variable dépendante. Pour le prédicteur : eta et eta au carré (ajusté et non ajusté), coefficient d ajustement pour les degrés de liberté, eta ajusté et eta au carré, somme des carrés totale, des carrés entre les moyennes des groupes et des carrés à l intérieur des groupes, valeur F (le programme imprime les degrés de liberté). Résidus. (Facultatif : voir le paramètre d analyse PRINT). Le programme imprime pour chaque observation, dans l ordre du fichier d entrée, la variable d identification, la valeur observée, la valeur prédite, le résidu ainsi que la variable poids s il y en a. Statistiques générales des résidus. Si l on demande les résidus, le programme imprime la somme des poids, la moyenne, la variance, le coefficient d asymétrie et le coefficient d aplatissement de la variable résidu.

252 232 Analyse de classification multiple (MCA) 29.4 Dataset(s) des résidus en sortie Lors de chaque analyse, on a la possibilité d envoyer les résidus dans un fichier de sortie décrit par un dictionnaire IDAMS. (Voir le paramètre d analyse WRITE=RESIDUALS). Un enregistrement est envoyé en sortie pour chaque observation qui passe le filtre contenant une variable ID, une valeur observée, une valeur calculée et une valeur résiduelle pour la variable dépendante ainsi que une variable poids s il y en a. Le dataset a les caractéristiques suivantes : N de la Nom de la Longueur Nombre de Codes variable variable de champ décimales MD (variable ID) 1 idem entrée * 0 idem entrée (var. dépendante) 2 idem entrée * ** idem entrée (variable prédite) 3 Predicted value 7 *** (résidu) 4 Residual 7 *** (poids, s il y en a) 5 idem entrée * ** idem entrée * valeur transférée du dictionnaire d entrée pour les variables V ou 7 pour les variables R ** valeur transférée du dictionnaire d entrée pour les variables V ou 2 pour les variables R *** 6 plus le nombre de décimales pour la variable dépendante moins sa longueur de champ ; 0 si cette valeur est négative. S il manque la valeur observée ou la valeur de la variable poids, ou bien si le programme a exclu l observation suite à une vérification de code maximum ou en raison du critère de situation excentrique, il envoie en sortie un enregistrement résiduel contenant toutes les variables avec le code MD1 (excepté pour la variable d identification) Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables utilisées dans l analyse doivent être numériques; elles peuvent avoir une valeur entière ou décimale, excepté pour les prédicteurs qui doivent être des nombres entiers, entre 0 et 31 pour la classification multiple et jusqu à 2999 pour l analyse de variance à un facteur. La variable identificatrice de l observation peut être alphabétique. Pour une analyse MCA, on a besoin d un grand nombre d observations; une règle pratique est de s assurer que le nombre total de catégories (càd la somme de toutes les catégories de tous les prédicteurs) n excède pas 10% de la taille de l échantillon. La variable dépendante doit être mesurée sur une échelle d intervalle ou bien être dichotomique et ne doit pas être trop fortement asymétrique. Pour MCA, les variables prédicteurs doivent être catégoricales, de préférence avec pas plus de 6 catégories. Bien que MCA soit conçu pour gérer des prédicteurs corrélés, il ne faut pas que deux prédicteurs soient tellement fortement corrélés qu il y ait un chevauchement complet entre n importe lesquelles de leurs catégories. (Si un chevauchement complet existe entre catégories, il faut combiner celles-ci par recodage ou utiliser le filtre pour écarter les observations qui en sont la cause).

253 29.6 Structure du setup Structure du setup $RUN MCA $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications de l analyse (répétées autant de fois que nécessaire) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire des résidus en sortie ) un jeu pour chaque DATAyyyy données des résidus en sortie ) fichier de résidus PRINT résultats (défaut IDAMS.LST) 29.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-4 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V6= Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : EXÉCUTION TEST DE MCA 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : * INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS».

254 234 Analyse de classification multiple (MCA) MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. PRINT=CDICT/DICT CDIC Imprimer le dictionnaire d entrée pour les variables utilisées par le programme, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. 4. Spécifications de l analyse. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification d analyse doit débuter sur une nouvelle ligne. Exemple : PRINT=TABLES, DEPVAR=(V35,98), ITER=100, CONV=(V4-V8) DEPVAR=(numéro de variable, maxcode) Le numéro de variable et le code maximum pour la variable dépendante. Pas de défaut; le numéro de la variable doit toujours être spécifié. Le défaut pour le code maximum est CONVARS=(liste de variables) Les variables à utiliser comme prédicteurs. Si on ne spécifie qu une seule variable, le programme effectuera une analyse de variance à un facteur. Pas de défaut. MDVALUES=BOTH/MD1/MD2/NONE Indique au programme quelles valeurs de données manquantes il doit utiliser pour la variable dépendante. Voir le chapitre «Le fichier Setup d IDAMS». Note : le programme ne vérifie jamais les valeurs de données manquantes pour les variables prédicteurs. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. ITERATIONS=25/n Le nombre maximum d itérations. L intervalle est TEST=PCTMEAN/CUTOFF/PCTRATIO/NONE Sert à spécifier le test de convergence qui est désiré. PCTM Vérifier si d une itération à l autre le changement dans tous les coefficients est sous une fraction spécifiée de la moyenne globale. CUTO Vérifier si d une itération à l autre le changement dans tous les coefficients est inférieur à une valeur spécifiée. PCTR Vérifier si d une itération à l autre le changement dans tous les coefficients est inférieur à une fraction spécifiée du rapport entre l écart-type de la variable dépendante et sa moyenne. NONE Le programme continuera les itérations jusqu à ce que le nombre maximum de celles-ci ait été dépassé. CRITERION=.005/n Sert à fournir une valeur numérique qui correspond à la tolérance du test de convergence sélectionné. L intervalle est de 0.0 à 1.0. (Il faut entrer le point décimal). OUTLIERS=INCLUDE/EXCLUDE INCL Le programme incluera dans l analyse les observations pour lesquelles il rencontra des valeurs extrêmes dans la variable dépendante, et il en fera le décompte. EXCL Les observations avec valeurs extrêmes dans la variable dépendante seront exclues de l analyse.

255 29.8 Restrictions 235 OUTDISTANCE=5/n Nombre d écarts-types à partir de la moyenne globale à utiliser par le programme pour déterminer quand une valeur de la variable dépendante doit être traitée comme étant extrême. WRITE=RESIDUALS Ecrire les résidus dans un dataset IDAMS ; appliquer le modèle MCA seulement au sous-ensemble d observations passant les critères de données manquantes, de code maximum et de valeurs extrêmes. Les observations auxquelles le modèle MCA ne s applique pas sont incluses dans le dataset des résidus avec le code MD1 pour toutes leurs valeurs (sauf la variable d identification). On ne peut obtenir de résidus si un seul prédicteur a été spécifié. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données des résidus en sortie. ddnames par défaut : DICTOUT, DATAOUT. Note : si l on veut obtenir des résidus en sortie pour plus d une analyse, les ddnames par défaut DICTOUT et DATAOUT ne peuvent servir que pour l une d entre elles. IDVAR=numéro de variable Numéro d une variable d identification à inclure dans le dataset des résidus. Défaut : le programme crée une variable dont les valeurs sont les numéros indiquant la position séquentielle de l observation dans le fichier des résidus. PRINT=(TABLES, HISTORY, RESIDUALS) TABL Imprimer par paires les tabulations croisées des prédicteurs. HIST Imprimer les coefficients pour toutes itérations. Si on ne choisit pas l option HIST et que les itérations convergent, ce sont uniquement les coefficients finaux qui seront imprimés; si les itérations ne convergent pas, ce seront les coefficients des 2 dernières itérations. RESI Imprimer les résidus dans l ordre de séquence des observations en entrée Restrictions 1. Le nombre maximum de variables en entrée, y compris les variables utilisées dans les instructions Recode, est Il peut y avoir un maximum de 50 variables prédicteurs (de contrôle) par analyse. 3. Il n est pas possible d utiliser dans une analyse le nombre maximum de prédicteurs, chacun d eux avec le nombre maximum de catégories. Si un problème dépasse la mémoire disponible, le programme imprime un message d erreur et il passe à l analyse suivante. 4. Le nombre maximum d analyses que l on peut effectuer lors d une exécution de MCA est Les variables prédicteurs pour une analyse de classification multiple doivent être catégoricales, avec de préférence 6 catégories ou moins. Les codes des catégories doivent être des chiffres entiers dans l intervalle Les observations avec n importe quel autre code sont écartées de l analyse. 6. La variable prédicteur pour une analyse de variance à un facteur doit se trouver dans l intervalle Les observations avec n importe quel autre code sont écartées de l analyse. 7. Si une variable prédicteur contient des décimales, le programme utilisera seulement la partie entière. 8. Si la variable identificatrice de l observation est de type alphabétique et dépasse 4 caractères, seuls les quatre premiers sont utilisés par le programme.

256 236 Analyse de classification multiple (MCA) 29.9 Exemples Exemple 1. Analyse de classification multiple utilisant quatre variables de contrôle (prédicteurs) : V7, V9, V12, V13 et la variable dépendante V100; les analyses seront effectuées séparément sur la totalité du dataset et sur deux sous-ensembles d observations. $RUN MCA $FILES PRINT = MCA1.LST DICTIN = STUDY.DIC fichier Dictionnaire en entrée DATAIN = STUDY.DAT fichier Données en entrée $SETUP TOUS LES RÉPONDANTS ENSEMBLE * (valeurs par défaut pour tous les paramètres) DEPV=V100 CONV=(V7,V9,V12-V13) $RUN MCA $SETUP INCLUDE V4=21,31-39 SEULEMENT LES CHERCHEURS * (valeurs par défaut pour tous les paramètres) DEPV=V100 CONV=(V7,V9,V12-V13) $RUN MCA $SETUP INCLUDE V4=41-49 SEULEMENT LES TECHNICIENS * (valeurs par défaut pour tous les paramètres) DEPV=V100 CONV=(V7,V9,V12-V13) Exemple 2. Analyse de classification multipe avec la variable dépendante V201 et trois variables prédicteurs V101, V102, V107; les données doivent être pondérées avec la variable V6; on produira un dataset de résidus dans lequel les observations seront identifiées par la variable V2 ; sont exclues de l analyse les observations contenant des valeurs extrêmes pour la variable dépendante (valeurs dépassant 4 écarts-types à partir de la moyenne globale). Après l exécution, on dresse la liste des résidus pour les 20 premières observations avec le programme LIST. $RUN MCA $FILES PRINT = MCA2.LST DICTIN = LAB.DIC fichier Dictionnaire en entrée DATAIN = LAB.DAT fichier Données en entrée DICTOUT = LABRES.DIC fichier Dictionnaire des résidus DATAOUT = LABRES.DAT fichier Données des résidus $SETUP ANALYSE DE CLASSIFICATION MULTIPLE - RÉSIDUS ENVOYÉS DANS UN FICHIER * (valeurs par défaut pour tous les paramètres) DEPV=V201 OUTL=EXCL OUTD=4 IDVA=V2 WRITE=RESI - CONV=(V101,V102,V107) WEIGHT=V6 $RUN LIST $SETUP LISTE DES RÉSIDUS POUR LES 20 PREMIÈRES OBSERVATIONS MAXCASES=20 INFILE=OUT Exemple 3. Pour une variable dépendante V52, on va vérifier la présence d interactions entre trois variables (V7, V9, V12). V7 est codée 1,2,9, V9 est codée 1,3,5,9, et V12 est codée 0,1,9 où les 9 sont les valeurs de données manquantes; on construit une variable de combinaison à l aide de Recode. Ceci implique de recoder chaque variable avec un jeu de codes contigus débutant à zéro, et d utiliser ensuite la fonction COMBINE pour générer un code unique pour chaque combinaison possible des codes des trois variables. On effectue une MCA en utilisant les trois variables séparées comme prédicteurs et une analyse de variance à un facteur en utilisant la variable de combinaison comme variable de contrôle. On exclut les observations ayant des

257 29.9 Exemples 237 données manquantes sur les prédicteurs. On exclut également les observations avec une valeur dépassant pour la variable dépendante. $RUN MCA $FILES DICTIN = CON.DIC DATAIN = CON.DAT $SETUP EXCLUDE V7=9 OR V9=9 OR V12=9 VÉRIFICATION DES INTERACTIONS BADD=SKIP DEPV=(V52,90000) CONVARS=(V7,V9,V12) DEPV=(V52,90000) CONVARS=R1 $RECODE R7=V7-1 R9=BRAC(V9,1=0,3=1,5=2) R1=COMBINE R7(2),R9(3),V12(2) fichier Dictionnaire en entrée fichier Données en entrée

258

259 Chapitre 30 Analyse de la variance multivariée (MANOVA) 30.1 Description générale MANOVA utilise un modèle linéaire général permettant de faire de l analyse de la variance univariée, multivariée et de l analyse de covariance. On peut utiliser 8 facteurs au maximum (variables indépendantes). Si on spécifie plus d une variable dépendante, MANOVA fait des analyses univariées et une analyse multivariée. Le nombre d observations peut être le même dans toutes les cellules ou il peut être différent d une cellule à l autre. MANOVA est le seul programme d IDAMS pour l analyse de la variance multivariée. Si on veut faire une analyse de la variance à un facteur, il vaut mieux utiliser le programme ONEWAY. Le programme MCA traite du cas à plusieurs facteurs. MCA n a pas de limites en ce qui concerne les cellules vides, permet d avoir plus de 8 prédicteurs et 80 cellules. Cependant le modèle analytique de base de MCA est différent de celui de MANOVA, en particulier, MCA est insensible aux effets d interaction. Modèle de régression hiérarchique. MANOVA utilise une approche de type régression pour l analyse de la variance. En fait plus particulièrement, le programme utilise un modèle hiérarchique. Cela a une conséquence importante pour l utilisateur : si l exécution de MANOVA implique plus d un facteur, et si le nombre d observations dans les cellules formées par le croisement de facteurs n est pas équilibré, il faut faire attention à l ordre dans lequel les facteurs sont spécifiés. La disproportion du nombre d observations dans les sous-classes provoque une confusion des effets principaux et le chercheur doit choisir l ordre dans lequel les effets confondus doivent être éliminés. Dans MANOVA, ce choix se fait en fonction de l ordre dans lequel les facteurs sont spécifiés. Si on utilise l ordre standard, les premières variables spécifiées auront les effets des dernières variables supprimées, càd le premier effet listé sera testé avec tous les autres effets principaux éliminés. La règle générale est la suivante : chaque test élimine les effets testés avant lui et ignore les effets listés après lui. Pour une analyse standard à 2 facteurs, l effet d interaction n est pas affecté par l ordre des facteurs; plus généralement pour une analyse standard à n facteurs, seul le terme d interaction d ordre n et uniquement lui, ne sera pas affecté par l ordre. Le problème existe à la fois pour l analyse univariée et l analyse multivariée. Option calcul des contrastes. Deux options sont disponibles pour le calcul des contrastes (voir le paramètre de facteur CONTRAST). Les contrastes nominaux sont générés par défaut : ce sont les écarts habituels entre les moyennes de lignes, de colonnes et la moyenne générale et la généralisation de ces calculs pour les effets d interaction. Le programme peut aussi calculer les contrastes de Helmert. Augmentation de la somme des carrés intra. Il est possible d augmenter la somme des carrés intra (terme d erreur) en utilisant les estimés orthogonaux (voir le paramètre AUGMENT). Cela permet au programme d être utilisé pour des carrés latins ou de confondre les termes d interaction et l erreur. Ordre d entrée des variables et/ou confusion des estimés orthogonaux. Le programme ordonne les estimés orthogonaux des effets (càd moyenne, C, B, A, BxC, AxC, AxB, AxBxC pour un plan à 3 facteurs) pour une utilisation standard. On peut cependant les ordonner différemment (voir le paramètre REORDER). En plus, il est possible de confondre plusieurs estimés orthogonaux, comme plusieurs termes d interaction,

260 240 Analyse de la variance multivariée (MANOVA) pour des tests simultanés ou pour découper le groupe des estimés orthogonaux pour un effet donné en plus petits groupes permettant des tests séparés (voir le paramètre DEGFR) Caractéristiques standard d IDAMS Sélection d observations et de variables. Le filtre standard est disponible pour sélectionner les observations. Les variables dépendantes sont sélectionnées par le paramètre DEPVARS et les covariables par le paramètre COVARS. Les facteurs sont spécifiés par des instructions spéciales. Transformation de données. Les instructions Recode peuvent être utilisées. Notez que seules des valeurs entières (positives ou négatives) sont acceptées pour les variables utilisées comme facteurs. Pondération de données. L utilisation de variables poids n est pas applicable. Traitement des données manquantes. Le paramètre MDVALUES est disponible pour indiquer quelles valeurs de données manquantes, s il y en a, doivent être utilisées pour tester les valeurs manquantes. Les observations avec des codes de données manquantes pour n importe laquelle des variables (dépendante, covariable ou facteur) sont exclues. Ceci peut avoir comme conséquence l exclusion de beaucoup d observations et constituer un problème à prendre en compte lors de la planification Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Moyennes et effectifs des cellules. Pour chaque cellule du plan d expérience, sont imprimés : l effectif et les moyennes de chaque variable dépendante et de chaque covariable. Les moyennes ne sont ajustées pour aucune covariable. Les cellules sont nommées dans l ordre, en commençant par 1 1 (exemple pour un plan à 2 facteurs) quelque soit les vrais codes des variables dépendantes. Dans cette indexation des cellules, les indices du dernier facteur sont les plus petits (càd ceux qui avancent le plus vite). Base du plan. Est imprimée la matrice décrivant le plan générée par le programme. Les équations des effets sont en colonnes, commençant par l effet moyen en colonne 1. Si le paramètre REORDER est spécifié, c est la matrice réordonnée qui est imprimée. Corrélations entre les coefficients des équations normales. Matrice des corrélations de l erreur. Dans une analyse de variance multivariée, le terme d erreur est une matrice de variances-covariances. Ce terme d erreur (avant tout ajustement sur les covariables, s il y en a) est imprimée après transformation en matrice des corrélations. Composantes principales de la matrice des corrélations de l erreur. Les composantes principales sont en colonnes. Ce sont les composantes principales du terme d erreurs de l analyse (avant tout ajustement sur les covariables, s il y en a). Matrice de dispersion de l erreur et l erreur standard des estimations. C est le terme d erreur, une matrice de variances-covariances, pour l analyse. Cette matrice est ajustée pour les covariables s il y en a. Chaque élément diagonal de la matrice est exactement ce qui apparaîtrait dans un tableau d analyse de la variance conventionnel comme le carré moyen inter de l erreur pour une variable. Les degrés de liberté peuvent être augmentés si on le demande. L erreur standard des estimations correspond à la racine carrée des éléments diagonaux de la matrice. Analyse avec des covariables Matrice de dispersion modifiée réduite en une matrice des corrélations. Il s agit du terme d erreur, une matrice de variances-covariances, après ajustement pour les covariables, exprimé sous forme de matrice des corrélations.

261 30.4 Dataset en entrée 241 Résumé de l analyse de la régression. Composantes principales de la matrice des corrélations de l erreur après ajustement des covariables. Les composantes sont en colonnes. Ce sont les composantes du terme d erreur de l analyse après ajustement pour les covariables. Analyse univariée Tableau d analyse de la variance. Degrés de liberté, somme de carrés, carrés moyens et valeurs des rapports F de Fisher. Analyse multivariée On imprime les termes suivants pour chaque effet. S il y a des covariables, on fait les ajustements. L ordre des effets est à l inverse de l ordre fourni pour les tests. Valeur du rapport F de Fisher pour le critère de la vraisemblance. On utilise l approximation de Rao. C est un test multivarié concernant l effet global pour toutes les variables dépendantes simultanément. Variances canoniques des composantes principales des hypothèses. Ce sont les racines ou valeurs propres et la matrice d hypothèses. Coefficients des composantes principales des hypothèses. Ce sont les corrélations entre les variables et les composantes de la matrice d hypothèses. Le nombre de composantes non nulles pour chaque effet sera le minimum des degrés de liberté et du nombre de variables dépendantes. Scores des composantes de contrastes pour les effets estimés. Ce sont les scores des hypothèses pour les contrastes utilisés dans le plan. Ils sont analogues aux moyennes de colonnes dans une analyse de la variance univariée et peuvent être utilisés de la même façon pour déterminer les variables et les contrastes qui s éloignent le plus de l hypothèse nulle. Tests de Bartlett cumulés sur les racines. C est un test approximatif pour les racines qui restent après élimination de la première, deuxième, troisième, etc. Rapport F de Fisher pour les tests univariés. Ce sont les quotients F exacts qu on peut obtenir dans une analyse conventionnelle Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Les variables doivent être numériques. Les variables dépendantes et les covariables doivent être réelles ou binaires. Les facteurs peuvent être des variables nominales, ordinales ou réelles mais doivent prendre des valeurs entières; elles seront utilisées pour désigner la cellule pour l observation.

262 242 Analyse de la variance multivariée (MANOVA) 30.5 Structure du setup $RUN MANOVA $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications des facteurs (répétées autant de fois que nécessaire ; il faut au moins en fournir un) 5. Spécifications des noms de test (répétées autant de fois que nécessaire ; il faut au moins en fournir un) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST) 30.6 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-5 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V2=1-4 AND V15=2 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : ANALYSE DE L AGE ET DU SALAIRE AVEC LE SEXE ET LA PROFESSION 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : DEPVARS=(V5,V8) COVA=(V101,V102) INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS».

263 30.6 Instructions de contrôle du programme 243 MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède dans ce jeu de tableaux. Voir le chapitre «Le fichier setup d IDAMS». DEPVARS=(liste de variables) Une liste de variables à utiliser comme variables dépendantes. Pas de défaut. CONVARS=(liste de variables) Une liste de variables à utiliser comme covariables. AUGMENT=(m,n) Pour construire le terme d erreur, la somme des carrés intra sera augmentée par les colonnes m, m+1, m+2,...,n de la matrice des estimés orthogonaux. Défaut : la somme des carrés intra sera utilisée comme terme d erreur. REORDER=(liste des valeurs) On réordonne les estimés orthogonaux suivant la liste (voir le paragraphe «Ordre d entrée des variables et/ou confusion des estimés orthogonaux» au-dessus). Si on demande de réordonner la liste, l ordre des spécifications de noms du test doit correspondre au nouvel ordre. Exemple : l ordre habituel pour un plan à 3 facteurs peut être changé en : moyenne, A, B, C, AxB, AxC, BxC, AxBxC en utilisant REORDER=(1,4,3,2,7,6,5,8). PRINT=CDICT/DICT CDIC Imprimer le dictionnaire d entrée pour les variables utilisées par le programme, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. 4. Spécifications des facteurs (il faut au moins en fournir un). On peut avoir jusqu à 8 spécifications de facteurs. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification de facteur doit commencer sur une nouvelle ligne Exemple : FACTOR=(V3,1,2) FACTOR=(numéro de variable, liste des codes) La variable utilisée comme facteur, suivie des valeurs des codes qui seront utilisées pour désigner la cellule de l observation. CONTRAST=NOMINAL/HELMERT Spécifie le type de contraste à utiliser dans les calculs. NOMI Contrastes nominaux. Effets différentiels : moyennes des effets moins la moyenne générale, càd M(1)-GM, M(2)-GM, etc. HELM Contrastes de Helmert. Moyenne de l effet 1 moins la somme des moyennes de 1 à r, quand r niveaux sont impliqués. 5. Spécifications des noms de test (il faut au moins en fournir un). Ces spécifications identifient les tests à faire. Ils doivent être dans le bon ordre. En général, il y aura une spécification pour la moyenne générale, suivie des spécifications pour chaque effet principal et finalement une spécification pour chaque interaction possible. Si les paramètres du plan sont réordonnés, ou si les degrés de liberté sont regroupés (voir les paramètres REORDER and DEGFR), les instructions concernant les noms des tests doivent être faits en cohérence avec ces modifications. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification de nom de test doit commencer sur une nouvelle ligne.

264 244 Analyse de la variance multivariée (MANOVA) Exemple : TESTNAME= moyenne gén TESTNAME= nom de test On peut utiliser 12 caractères maximum pour chaque test à réaliser. Les primes sont obligatoires si le nom contient des caractères qui ne sont pas alphanumériques. DEGFR=n Le regroupement naturel des degrés de liberté (ou des équations des paramètres d hypothèses) se fait quand on utilise l ordre habituel des tests. DEGFR sera utilisé pour changer le regroupement, càd quand on veut confondre plusieurs termes d interaction et les tester simultanément ou quand on veut diviser les degrés de liberté d un effet en 2 ou plusieurs parties. Quand on utilise DEGFR, il faut être sûr de l utiliser dans toutes les instructions de noms de test, incluant un degré de liberté pour la moyenne générale. Défaut : le groupement habituel des degrés de liberté est utilisé Restrictions 1. Le nombre maximal de variables dépendantes est Le nombre maximal de covariables est Le nombre maximal de spécifications de facteurs est Le nombre maximal de valeurs de codes (niveaux) pour un facteur est Le nombre maximal de cellules est Les cellules vides, avec seulement une observation, ou avec des observations identiques peuvent causer des problèmes; le programme peut s arrêter prématurément ou il peut se terminer normalement mais fournir des valeurs invalides pour les quotients F ou pour d autres statistiques Exemples Exemple 1. Analyse de la variance univariée (V10 est la variable dépendante) avec deux facteurs représentés par A à 3 niveaux 1,2,3 et B à 2 niveaux 21 et 31; les contrastes nominaux sont utilisés dans les calculs et les tests sont réalisés dans l ordre classique. $RUN MANOVA $FILES PRINT = MANOVA1.LST DICTIN = CM-NEW.DIC DATAIN = CM-NEW.DAT $SETUP ANALYSE DE LA VARIANCE UNIVARIEE DEPVARS=v10 FACTOR=(V3,1,2,3) FACTOR=(V8,21,31) TESTNAME= moyenne gén TESTNAME=B TESTNAME=A TESTNAME=AB fichier Dictionnaire en entrée fichier Données en entrée Exemple 2. Analyse de la variance multivariée (V11-V14 sont des variables dépendantes) avec deux facteurs («sexe» codé 1,2 et «âge» codé 1,2,3); on utilisera des contrastes nominaux dans les calculs et les tests seront réalisés dans l ordre classique.

265 30.8 Exemples 245 $RUN MANOVA $FILES comme pour Exemple 1 $SETUP ANALYSE DE LA VARIANCE MULTIVARIEE DEPVARS=(v11-v14) FACTOR=(V2,1,2) FACTOR=(V5,1,2,3) TESTNAME= moyenne gén TESTNAME=^age TESTNAME=sexe TESTNAME= sexe & ^age Exemple 3. Analyse de la variance multivariée (V11-V14 sont des variables dépendantes) avec trois facteurs (A codé 1,2, B codé 1,2,3, C codé 1,2,3,4); on utilise des contrastes nominaux dans les calculs et les tests sont réalisés après modification de l ordre (moyenne, A, B, AxB, C, AxC, BxC, AxBxC). $RUN MANOVA $FILES comme pour Exemple 1 $SETUP ANALYSE DE LA VARIANCE - TESTS DANS L ORDRE MODIFIE DEPVARS=(v11-v14) REORDER=(1,4,3,7,2,6,5,8) FACTOR=(V2,1,2) FACTOR=(V5,1,2,3) FACTOR=(V8,1,2,3,4) TESTNAME=moyenne TESTNAME=A TESTNAME=B TESTNAME=AxB TESTNAME=C TESTNAME=AxC TESTNAME=BxC TESTNAME=AxBxC

266

267 Chapitre 31 Analyse de variance à un facteur (ONEWAY) 31.1 Description générale ONEWAY est un programme d analyse de variance à un facteur. Dans une seule et même exécution, on peut produire un nombre illimité de tableaux en utilisant différentes paires de variables indépendantes et dépendantes. Chaque analyse peut être effectuée sur toutes les observations ou sur un sous-ensembles d entre elles tirées du fichier Données; la sélection des observations pour une analyse est indépendante de celle qui est faite pour d autres analyses. L expression «variable de contrôle» utilisée dans ONEWAY est équivalente à «variable indépendante», «prédicteur» ou, selon la terminologie de l analyse de variance à «facteur». Le programme MCA effectue une analyse de variance à un facteur quand un seul prédicteur est spécifié. Ceci permet d utiliser un code d au maximum 2999 catégories pour une variable de contrôle alors que ONEWAY est limité à un code d au maximum 99 catégories Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection d un sous-ensemble d observations à partir des données d entrée. Ce filtre affecte toutes les analyses effectuées au cours d une même exécution. En outre, il y a deux filtres locaux permettant de sélectionner indépendamment un sous-ensemble d observations pour chaque analyse. Si l on utilise deux filtres locaux, une observation doit satisfaire aux conditions de l un et de l autre pour être incluse dans l analyse. Les variables sont sélectionnées pour chaque analyse à l aide des paramètres de tableaux DEPVARS et CONVARS. Le programme produit un tableau séparé pour chaque variable de la liste DEPVARS avec chaque variable de la liste CONVARS. Transformation de données. Les instructions Recode peuvent être utilisées. Pondération de données. On peut utiliser une variable pour pondérer les données d entrée; cette variable poids peut prendre une valeur entière ou une valeur décimale. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Traitement des données manquantes. Le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. Les observations avec données manquantes dans la variable dépendante sont toujours exclues. L utilisateur a la faculté d exclure les observations avec données manquantes dans la variable de contrôle (voir le paramètre de tableaux MDHANDLING).

268 248 Analyse de variance à un facteur (ONEWAY) 31.3 Résultats Spécifications des tableaux. Une liste avec les spécifications des tableaux, ce qui fournit une table des matières des résultats. Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Statistiques descriptives à l intérieur des catégories de la variable de contrôle. Les statistiques intermédiaires sont imprimées sous forme de tableau pour chacun des codes de la variable de contrôle, à savoir: le nombre d observations valides (N) et la somme des poids (arrondie au nombre entier le plus proche), la somme des poids comme pourcentage de la somme totale, la moyenne, l écart-type, le coefficient de variation, la somme et la somme des carrés de la variable dépendante, la somme de la variable dépendante comme pourcentage de la somme totale. Le programme imprime une ligne de totaux qui donnent les sommes de toutes les catégories de la variable de contrôle (à l exception des catégories avec zéro degré de liberté qui sont exclues des totaux). Statistiques de l analyse de variance. Les catégories de la variable de contrôle ayant zéro degré de liberté ne sont pas incluses dans le calcul de ces statistiques. Chaque tableau contient les statistiques suivantes : somme totale des carrés de la variable dépendante, eta et eta au carré (non ajusté et ajusté), la somme des carrés entre les groupes (ou somme des carrés entre les moyennes) et la somme des carrés intra-groupes, le ratio F (imprimé seulement si les données ne sont pas pondérées) Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables d analyse doivent être numériques; elles peuvent avoir pour valeur un nombre décimal ou entier. Une variable dépendante doit être mesurée sur une échelle d intervalle ou être dichotomique. Une variable de contrôle peut être mesurée sur une échelle nominale, ordinale ou d intervalle, mais ses valeurs doivent être dans l intervalle Si, pour n importe quelle observation, la variable de contrôle a, lors d une analyse, une valeur supérieure, l observation est éliminée de cette analyse; il n y a pas de message fourni. Si la valeur de la variable de contrôle contient des décimales, le programme utilise seulement la partie entière du chiffre (par ex. 1.1 et 1.6 sont tous les deux placés dans le groupe 1); il n y a pas de message fourni.

269 31.5 Structure du setup Structure du setup $RUN ONEWAY $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications des tableaux (répétées autant de fois que nécessaire) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST) 31.6 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-4 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : EXCLUDE V3=9 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : LES EFFETS D ENTRAINEMENT SUR LES JOUEURS 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : * INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme.

270 250 Analyse de variance à un facteur (ONEWAY) PRINT=CDICT/DICT CDIC Imprimer le dictionnaire d entrée pour les variables utilisées par le programme, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. 4. Spécifications des tableaux. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification doit débuter sur une nouvelle ligne. Exemples : CONV=V6 DEPV=V26 WEIG=V3 F1=(V14,2,7) F2=(V13,1,1) CONV=V5 DEPV=(V27-V29,V80) DEPVARS=(liste de variables) Une liste de variables à utiliser comme variables dépendantes. CONVARS=(liste de variables) Une liste de variables à utiliser comme variables de contrôle. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède dans ce jeu de tableaux. Voir le chapitre «Le fichier setup d IDAMS». MDHANDLING=DELETE/KEEP DELE Exclure les observations avec données manquantes dans la variable de contrôle. KEEP Inclure les observations avec données manquantes dans la variable de contrôle. Note : les observations avec données manquantes dans la variable dépendante sont toujours exclues. F1=(numéro de variable, code minimum valide, code maximum valide) F1 se réfère à la première variable filtre utilisée pour créer un sous-ensemble de données. Le numéro de variable doit être le numéro de la variable filtre ; les observations dont les valeurs pour cette variable tombent dans l intervalle minimum-maximum entrent dans le tableau. La valeur minimum peut être un nombre entier négatif. Le maximum doit être inférieur à 99,999. Les décimales doivent être entrées à la place appropriée. F2=(numéro de variable, code minimum valide, code maximum valide) F2 se réfère à la deuxième variable filtre. Si on spécifie un second filtre, une observation doit satisfaire aux conditions des deux filtres pour entrer dans le tableau Restrictions 1. Le nombre maximum de variables de contrôle est 99. Le nombre maximum de variables dépendantes est 99. Le nombre total de variables auxquelles le programme peut accéder est 204, y inclus les variables utilisées dans les instructions de Recode. 2. ONEWAY utilise une variable de contrôle dont les valeurs se situent entre 0 et 99. Pour n importe quelle observation, si la variable de contrôle détient, pour une certaine analyse, une valeur en dehors de cet intervalle, l observation est éliminée du tableau en question. 3. La somme maximum des poids est environ 2,000,000, Le programme imprime le ratio F seulement pour les données non pondérées.

271 31.8 Exemples Exemples Exemple 1. Trois analyses de variance à un facteur en utilisant V201 comme variable de contrôle et V204 comme variable dépendante : en premier lieu pour tout le dataset, ensuite pour un sous-ensemble d observations ayant les valeurs 1-3 pour la variable V5, troisièmement pour un sous-ensemble d observations ayant les valeurs 4-7 pour la variable V5. $RUN ONEWAY $FILES PRINT = ONEW1.LST DICTIN = STUDY.DIC fichier Dictionnaire en entrée DATAIN = STUDY.DAT fichier Données en entrée $SETUP TROIS ANALYSES DE VARIANCE DEMANDÉES INDIVIDUELLEMENT * (valeurs par défaut pour tous les paramètres) CONV=V201 DEPV=V204 CONV=V201 DEPV=V204 F1=(V5,1,3) CONV=V201 DEPV=V204 F1=(V5,4,7) Exemple 2. Réalisation d une analyse de variance à un facteur pour toutes les combinaisons des variables de contrôle V101, V102, V105 et V110, avec les variables dépendantes V17 à V21; les données sont pondérées par la variable V3. $RUN ONEWAY $FILES comme pour Exemple 1 $SETUP PLUSIEURS ANALYSES DE VARIANCE DEMANDÉES ENSEMBLE * (valeurs par défaut pour tous les paramètres) CONV=(V101,V102,V105,V110) DEPV=(V17-V21) WEIGHT=V3

272

273 Chapitre 32 Scores fondés sur l ordre partiel des observations (POSCOR) 32.1 Description générale POSCOR calcule des scores (sur une échelle ordinale) en utilisant une procédure basée sur la position hiérarchique des éléments dans un ensemble partiellement ordonné, par rapport à un certain nombre de propriétés (ou caractéristiques). Les scores, calculés séparément pour chaque élément de l ensemble, sont envoyés en sortie dans un fichier Données décrit par un dictionnaire IDAMS. Ce dataset peut être utilisé par la suite comme entrée d autres programmes d analyse. En utilisant le paramètre ORDER, on peut obtenir : (1) quatre types de scores où le calcul est basé sur la proportion d observations dominées par l observation examinée; (2) quatre autres où le calcul est basé sur la proportion d observations qui dominent celle-ci. L étendue des scores est déterminée à l aide du paramètre SCALE. On peut s attendre à des valeurs de scores significatives uniquement quand le nombre d observations est beaucoup plus élevé que le nombre de variables utilisées. Dans les applications où il y a des variables d importance inégale, on peut définir une liste de priorités en utilisant le paramètre LEVEL dans l ordonnancement partiel. Si les variables de priorité plus élevée déterminent de manière non ambiguë la relation entre deux observations, le programme ne considère pas les variables de priorité inférieure. Dans le cas spécial où une seule variable est utilisée dans l analyse, les valeurs transformées correspondent à leurs probabilités (voir les options ORDER=ASEA/DEEA/ASCA/DESA). Dans une même analyse, on peut examiner une série de sous-ensembles mutuellement exclusifs à l aide de la facilité de découpage en sous-ensembles. Dans cette éventualité, la(les) variable(s) score(s) sont calculées à l intérieur de chaque sous-ensemble d observations Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection des observations. Une option de découpage en sous-ensembles d observations est également disponible pour chaque analyse. Les variables à transférer au fichier en sortie sont sélectionnées avec le paramètre TRANSVARS. Les variables à analyser sont sélectionnées dans le cadre des spécifications de l analyse. Transformation de données. Les instructions Recode peuvent être utilisées. On notera que le programme utilise seulement la partie entière des variables recodées, càd que les variables recodées sont arrondies au nombre entier le plus proche. Pondération de données. Ne s applique pas à POSCOR. Traitement des données manquantes. Le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en

274 254 Scores fondés sur l ordre partiel des observations (POSCOR) contiennent. Le paramètre MDHANDLING sert à indiquer si les variables ou les observations avec données manquantes doivent être exclues d une analyse Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Dictionnaire en sortie. (Facultatif : voir le paramètre PRINT) Dataset en sortie Pour chaque observation utilisée dans l analyse (càd toutes les observations ayant passées le filtre et qui ne sont pas exclues en raison de l option de données manquantes), le fichier de sortie contient les scores calculés par le programme ainsi que les variables transférées et, à titre facultatif, les variables servant à l analyse. Un dictionnaire IDAMS associé à ce fichier est également produit. Les variables de sortie possèdent les caractéristiques décrites ci-dessous et sont numérotées séquentiellement à partir de 1 et dans l ordre suivant : Variables utilisées dans l analyse et pour les sous-ensembles (conditionnel : uniquement si AUTR=YES). Les variables V ont les mêmes caractéristiques que leur équivalent en entrée. Les variables recodées sont envoyées en sortie avec WIDTH=7 et DEC=0. Variable (ID) servant à identifier l observation et les variables transférées. Les variables V possèdent les mêmes caractéristiques que leur équivalent en entrée. Les variables recodées sortent avec WIDTH=7 et DEC=0. Variables correspondant aux scores calculés. Avec ORDER=ASEA/DEEA/ASCA/DESA, une variable pour chaque analyse avec les informations suivantes : nom spécifié par ANAME (par défaut : blanc) longueur de champ spécifié par FSIZE (par défaut : 5) nombre de décimales 0 MD1 spécifié par OMD1 (par défaut : 99999) MD2 spécifié par OMD2 (par défaut : 99999) Avec ORDER=ASER/DESR/ASCR/DEER, deux variables pour chaque analyse, leur nom étant spécifié respectivement avec les paramètres ANAME et DNAME et les autres caractéristiques comme décrit ci-dessus. Note. Si l on répète une analyse pour plusieurs sous-ensembles d observations mutuellement exclusifs, la variable score est calculée à tour de rôle pour les observations dans chaque sous-ensemble. S il arrive qu une observation ne se trouve dans aucun des sous-ensembles définis pour l analyse, sa(ses) variable(s) score(s) prennent la valeur du code MD Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Pour les variables d analyse, le programme utilise uniquement les nombres entiers. S il y a des valeurs décimales, celles-ci sont arrondies au nombre entier le plus proche. La variable ID et les variables à transférer peuvent être alphabétiques.

275 32.6 Structure du setup Structure du setup $RUN POSCOR $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications des sous-ensembles (facultatif) 5. POSCOR 6. Spécifications d analyse (répétées autant de fois que nécessaire) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie DATAyyyy données en sortie PRINT résultats (défaut IDAMS.LST) 32.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 et 6 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V2=1-4 AND V15=2 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : ECHELONNEMENT DES VARIABLES DU QUESTIONNAIRE RU 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : MDHAND=CASES TRAN=V5 IDVAR=R6 INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS».

276 256 Scores fondés sur l ordre partiel des observations (POSCOR) MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». MDHANDLING=VARS/CASES Traitement des données manquantes. VARS Une variable contenant une valeur de données manquantes est exclue de la comparaison. CASE Une observation contenant une valeur de données manquantes est exclue de l analyse. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. IDVAR=numéro de variable Variable à transférer dans le dataset en sortie pour l identification des observations. Pas de défaut. TRANSVARS=(liste de variables) Variables supplémentaires (jusqu à 99) à transférer dans le dataset en sortie. Cette liste ne doit pas inclure de variables servant à l analyse ou à spécifier les sous-ensembles d observations. Celles-ci sont transférées automatiquement avec le paramètre AUTR. AUTR=YES/NO YES Les variables servant à l analyse et à spécifier les sous-ensembles d observations sont automatiquement transférées dans le dataset de sortie. NO Les variables servant à l analyse et à spécifier les sous-ensembles d observations ne sont pas transférées. FSIZE=5/n Longueur de champ des variables (scores) calculées. SCALE=100/n Valeur (facteur d échelle) qui spécifie la grandeur de l intervalle (0 - n) dans lequel se situent les scores calculés. OMD1=99999/n Valeur du premier code de données manquantes pour les variables calculées (scores). OMD2=99999/n Valeur du second code de données manquantes pour les variables calculées (scores). PRINT=(CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. OUTD Imprimer le dictionnaire de sortie sans les enregistrements C. OUTC Imprimer le dictionnaire de sortie avec les enregistrements C, s il y en a. NOOU Ne pas imprimer le dictionnaire de sortie.

277 32.7 Instructions de contrôle du programme Spécifications des sous-ensembles (facultatif). On spécifie ici les sous-ensembles mutuellement exclusifs d observations pour une analyse particulière. Exemple : ^AGE INCLUDE V5=15-20,21-45,46-64 Règles de codage Prototype : nom instruction nom Nom du sous-ensemble. 1-8 caractères alphanumériques commençant par une lettre. Ce nom doit correspondre exactement au nom utilisé ensuite dans les spécifications d analyse. Les blancs intercalaires ne sont pas autorisés. Il est recommandé de justifier tous les noms à gauche. instruction Définition du sous-ensemble. Débuter avec le mot INCLUDE. Spécifier le numéro de la variable (variable V ou R) sur laquelle sont fondés les sous-ensembles (les variables alphabétiques ne sont pas autorisées). Spécifier les valeurs et/ou les intervalles de valeurs en les séparant par des virgules. Chaque valeur ou intervalle de valeurs définit un sous-ensemble. Les sous-ensembles sont séparés par des virgules. Les intervalles négatifs doivent être exprimés en séquence numérique, par ex (pour -4 à -2); -2-5 (pour -2 à +5). Les sous-ensembles doivent être mutuellement exclusifs (càd que les mêmes valeurs ne peuvent pas apparaître dans deux intervalles). Dans l exemple ci-dessus, on définit 3 sous-ensembles fondés sur la valeur prise par V5 pour spécifier le sousensemble ÂGE. Placer un tiret à la fin d une ligne pour continuer sur la ligne suivante. 5. POSCOR. Le mot POSCOR sur cette ligne signale que les spécifications d analyse vont suivre. Il doit être inclus (ceci pour séparer les spécifications de sous-ensembles de celles d analyse) et ne peut apparaître qu une fois. 6. Spécifications d analyse. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification doit commencer sur une nouvelle ligne. Exemple : ORDER=ASER ANAME=MSDCORE LEVELS=(1,1,2,2) - DNAME=DOWNSCORE VARS=(V3-V6) VARS=(liste de variables) Les variables V et/ou R à utiliser dans l analyse. Pas de défaut. ORDER=ASEA/DEEA/ASCA/DESA/ASER/DESR/ASCR/DEER Spécifie le type de scores à calculer. Le score est basé sur : ASEA DEEA ASCA DESA observations meilleures ou égales/dominantes observations pires ou égales/dominées observations strictement meilleures/strictement dominantes observations strictement pires/strictement dominées relativement au nombre total d observations. ASER/DESR ASER observations meilleures ou égales/dominantes DESR observations strictement pires/strictement dominées relativement au nombre d observations comparables. ASCR/DEER ASCR observations strictement meilleures/strictement dominantes DEER observations pires ou égales/dominées relativement au nombre d observations comparables.

278 258 Scores fondés sur l ordre partiel des observations (POSCOR) Note. Dans les deux derniers cas, le programme calcule les deux scores quel que soit celui qui est choisi. Leur somme est égale à la valeur spécifiée avec le paramètre SCALE. SUBSET=xxxxxxxx Spécifie le nom à utiliser pour la spécification du sous-ensemble, s il y en a. Si le nom contient des caractères non alphanumériques, il faut le placer entre primes. Utiliser des lettres majuscules. LEVELS=(1, 1,..., 1) / (N1,N2,N3,...,Nk) k est le nombre de variables utilisées dans la liste de variables d analyse. Ni définit l ordre de priorité de la i-ème variable dans la liste de variables impliquées dans l ordonnancement partiel. Une valeur plus élevée correspond à une priorité plus basse. Les valeurs de priorité doivent être spécifiées dans la même séquence que celle des variables correspondantes dans la liste des variables d analyse. Le défaut consistant à assigner tous des 1 implique que toutes les variables ont la même priorité. ANAME= nom Un nom pouvant avoir jusqu à 24 caractères pour le score ascendant. Les primes sont obligatoires si le nom contient des caractères non alphanumériques. Défaut : blancs. DNAME= nom Un nom pouvant avoir jusqu à 24 caractères pour le score descendant. Les primes sont obligatoires si le nom contient des caractères non alphanumériques. Défaut : blancs Restrictions 1. Les valeurs des variables d analyse doivent se situer entre et Dans le paramètre LEVEL, les composants de la liste de priorités doivent être des nombres entiers positifs entre 1 et Le nombre maximum d analyses est Le nombre maximum de variables que l on peut transférer est La même variable ne peut être utilisée qu une seule fois, que ce soit une variable ID, dans une liste des variables d analyse, ou dans une liste de variables à transférer. S il est nécessaire d utiliser la même variable deux fois, il faut la recoder pour obtenir une copie avec un différent numéro de variable (résultat). 6. Le nombre maximum de variables : variables d analyse, de spécifications de sous-ensembles et que l on peut transférer est 100 (ce chiffre couvrant les variables V et R). 7. Le nombre maximum de sous-ensembles que l on peut spécifier est Seuls sont envoyés en sortie les 4 premiers caractères des variables alphabétiques ID et à transférer. 9. Bien que le nombre d observations est illimité, il faut noter cependant que le temps d exécution croît comme une fonction quadratique du nombre d observations analysées Exemples Exemple 1. Calcul de deux scores avec les mêmes variables V10, V12, V35 à V40; le premier score est calculé sur l entièreté du dataset, tandis que le second est calculé séparément sur trois sous-ensembles (pour les valeurs 1, 2 et 3 de la variable V7); les observations contenant des données manquantes sont exclues des analyses; les deux scores sont basés sur les observations strictement dominées par rapport au nombre d observations comparables; les observations sont identifiées par les variables V2 et V4 qui sont transférées dans le dataset de sortie. On notera l utilisation de Recode pour effectuer une copie des variables en raison

279 32.9 Exemples 259 d une restriction du programme stipulant qu une même variable ne peut être utilisée qu une fois au cours d une exécution. $RUN POSCOR $FILES PRINT = POSCOR1.LST DICTIN = PREF.DIC DATAIN = PREF.DAT DICTOUT = SCORES.DIC DATAOUT = SCORES.DAT $SETUP CALCUL DE DEUX SCORES MDHAND=CASES IDVAR=V2 TRANSVARS=V4 fichier Dictionnaire en entrée fichier Données en entrée fichier Dictionnaire en sortie fichier Données en sortie TYPE INCLUDE V7=1,2,3 POSCOR ORDER=DESR ANAME= SCORE GLOBAL INCR DNAME= SCORE GLOBAL DECR - VARS=(V10,V12,V35-V40) ORDER=DESR ANAME= SCORE AJUSTE INCR - DNAME= SCORE AJUSTE DECR SUBS=TYPE - VARS=(R10,R12,R35-R40) $RECODE R10=V10 R12=V12 R35=V35 R36=V36 R37=V37 R38=V38 R39=V39 R40=V40 Exemple 2. Calcul de trois scores basés sur les observations dominant les autres par rapport au nombre total d observations; les variables d analyse ne sont pas transférées au dataset de sortie; les variables contenant des valeurs de données manquantes sont exclues des comparaisons; les variables V1 et V5 servant à identifier les observations sont transférées. $RUN POSCOR $FILES comme pour Exemple 1 $SETUP CALCUL DE TROIS SCORES AUTR=NO IDVAR=V1 TRANSVARS=V5 POSCOR ORDER=ASEA ANAME= SCORE 1 INCR VARS=(V11,V17,V55-V60) ORDER=ASEA ANAME= SCORE 2 INCR VARS=(V108-V110,V114,V116,V118,V120) ORDER=ASEA ANAME= SCORE 3 INCR VARS=(V22,V33,V101-V105)

280

281 Chapitre 33 Corrélation de Pearson (PEARSON) 33.1 Description générale PEARSON calcule et imprime des matrices de coefficients de corrélation r de Pearson ainsi que des covariances pour toutes les paires de variables d une liste (option de matrice carrée) ou pour chaque paire de variables formée en prenant une variable de chacune de deux listes de variables (option de matrice rectangulaire). La suppression des données manquantes peut être effectuée par «paires» ou par «observations». On peut aussi utiliser PEARSON pour produire une matrice de corrélation qui peut par la suite servir d entrée aux programmes REGRESSN et MDSCAL. Bien que REGRESSN soit capable de calculer sa propre matrice de corrélation, sa gestion des données manquantes est limitée à la suppression par «observations». Par contre, PEARSON peut produire une matrice traitant les données manquantes avec un algorithme de suppression par «paires» Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection d un sous-ensemble d observations à partir des données d entrée. Les variables pour lesquelles on veut obtenir des corrélations sont spécifiées à l aide des paramètres ROWVARS et COLVARS. Transformation de données. Les instructions Recode peuvent être utilisées. Pondération de données. On peut utiliser une variable pour pondérer les données d entrée; cette variable poids peut prendre une valeur entière ou une valeur décimale. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Traitement des données manquantes. Le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. Pour chaque variable, le programme calcule les statistiques univariées sur les observations ayant des données valides (non manquantes) pour la variable en question. Données manquantes : suppression par paires. Les statistiques par paires et chaque coefficient de corrélation peuvent être calculés à partir des observations ayant des données valides pour les deux variables (MDHANDLING=PAIR). Ainsi, une observation peut être utilisée dans le calcul de certaines paires de variables et non d autres. Cette méthode de gestion des données manquantes est appelée algorithme de suppression par «paires». Note : s il y a des données manquantes, on peut calculer des coefficients de corrélation individuels sur différents sous-ensembles de données. Un grand nombre de données manquantes peut amener des incohérences internes dans la matrice de corrélation, ce qui peut causer des difficultés dans des analyses multivariées ultérieures.

282 262 Corrélation de Pearson (PEARSON) Données manquantes : suppression par observations. On peut aussi demander au programme (MD- HANDLING=CASE) de calculer les statistiques par paires et les corrélations à partir des observations ayant des données valides pour toutes les variables dans la liste de variables. Dès lors, une observation est soit utilisée dans les calculs pour toutes les paires de variables, soit pas utilisée du tout. Cette méthode de gestion des données manquantes est appelée algorithme de suppression par «observations» (existant également dans le programme REGRESSN), et s applique uniquement à l option de matrice carrée Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Option de matrice carrée Statistiques par paires. (Facultatif : voir le paramètre PRINT). Pour chaque paire de variables dans la liste de variables, le programme imprime les informations suivantes : nombre d observations valides (ou somme pondérée des observations), moyenne et écart-type de la variable X, moyenne et écart-type de la variable Y, test T pour le coefficient de corrélation, coefficient de corrélation. Statistiques univariées. Pour chaque variable dans la liste, sont imprimés : nombre d observations valides et somme des poids, somme des valeurs de la variable et somme des valeurs de la variable au carré, moyenne et écart-type. Coefficients de régression pour les données brutes. (Facultatif : voir le paramètre PRINT). Pour chaque paire de variables x et y, le programme imprime les coefficients de régression a et c et les termes constants b et d dans les équations de régression x=ay+b et y=cx+d. Matrice de corrélation. (Facultatif : voir le paramètre PRINT). Le programme imprime le triangle inférieur gauche de la matrice. Matrice des produits croisés. (Facultatif : voir le paramètre PRINT). Le programme imprime le triangle inférieur gauche de la matrice. Matrice de covariance. (Facultatif : voir le paramètre PRINT). Le programme imprime le triangle inférieur gauche de la matrice avec la diagonale. Pour chaque matrice mentionnée ci-dessus, le programme imprime un maximum de 11 colonnes et 27 lignes par page. Option de matrice rectangulaire Tableau des fréquences. Nombre d observations valides pour chaque paire de variables. Tableau des moyennes pour les variables de colonnes. Pour chaque variable de colonne, le programme calcule et imprime la moyenne des observations valides, à tour de rôle pour chaque variable de ligne. Tableau des écarts-types pour les variables de colonnes. De même que pour les moyennes. Matrice de corrélation. (Facultatif : voir le paramètre PRINT). Coefficients de corrélation pour chacune des paires de variables. Matrice de covariance. (Facultatif : voir le paramètre PRINT). Covariances pour chacune des paires de variables. Pour chacun des tableaux ci-dessus, le programme imprime au maximum 8 colonnes et 50 lignes par page. Note : s il n y a pas d observations valides pour une paire de variables, le programme imprime 0.0 pour la moyenne, l écart-type, la corrélation et la covariance.

283 33.4 Matrices en sortie Matrices en sortie Matrice de corrélation Quand le paramètre WRITE=CORR est spécifié, le programme produit en sortie une matrice de corrélation ayant la forme d une matrice IDAMS carrée. Le format utilisé pour écrire les corrélations est 8F9.6; pour les moyennes et pour les écarts-types le format est 5E14.7. Les colonnes servent à identifier les enregistrements. La matrice contient des corrélations, des moyennes et des écarts-types. Les moyennes et les écarts-types ne sont pas produits par paires. Les enregistrements dictionnaire produits par PEARSON contiennent les noms et les numéros de variables tirés du dictionnaire d entrée et/ou des instructions de Recode. L ordre des variables est déterminé par l ordre des variables dans la liste des variables. PEARSON peut produire des corrélations égales à y des moyennes et des écarts-types égaux à 0.0 quand il n arrive pas à calculer une valeur raisonnable. Des motifs typiques d une telle situation sont, par exemple, la suppression de toutes les observations en raison des données manquantes ou le fait que l une des variables a une valeur constante. On notera que MDSCAL n accepte pas ces «valeurs manquantes» tandis que REGRESSN les accepte. Matrice de covariance Quand le paramètre WRITE=COVA est spécifié, le programme produit en sortie une matrice de covariance sans la diagonale, ayant la forme d une matrice IDAMS carrée Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables d analyse doivent être numériques; elles peuvent avoir pour valeur un nombre décimal ou entier Structure du setup $RUN PEARSON $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : FT02 matrices en sortie si le paramètre WRITE est spéfifié DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST)

284 264 Corrélation de Pearson (PEARSON) 33.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V2=11-15,60 OR V3=9 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : PREMIÈRE EXÉCUTION DE PEARSON - 27 AVRIL 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : WRITE=CORR, PRINT=(CORR,COVA) ROWV=(V1,V3-V6,R47,V25) INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MATRIX=SQUARE/RECTANGULAR SQUA Calculer les coefficients de corrélation Pearson pour toutes les paires de variables de la liste ROWV. RECT Calculer les coefficients de corrélation Pearson pour chaque paire de variables formée en prenant une variable de chacune des deux listes de variables ROWV et COLV. ROWVARS=(liste de variables) Une liste de variables V et/ou R dont calculer les coefficients de corrélation (MATRIX=SQUARE) ou la liste des variables en lignes (MATRIX=RECTANG). Pas de défaut. COLVARS=(liste de variables) (MATRIX=RECTANGULAR seulement). Une liste de variables V et/ou R dont calculer les coefficients de corrélation. Le programme imprime huit colonnes par page; si l une des listes de variables contient moins que huit variables, il est préférable (pour faciliter la lecture) de la prendre comme liste de variables de colonne. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». MDHANDLING=PAIR/CASE Manière de gérer les données manquantes. PAIR Suppression par paires. CASE Suppression par observations (non disponible avec MATRIX=RECT). WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données.

285 33.8 Restrictions 265 WRITE=(CORR, COVA) (MATRIX=SQUARE seulement). CORR Envoyer en sortie la matrice de corrélation avec les moyennes et les écarts-types. COVA Envoyer en sortie la matrice des covariances avec les moyennes et les écarts-types. PRINT=(CDICT/DICT, CORR/NOCORR, COVA, PAIR, REGR, XPRODUCTS) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. CORR Imprimer la matrice de corrélation. COVA Imprimer la matrice de covariance. PAIR Imprimer les statistiques par paires (MATRIX=SQUARE seulement). REGR Imprimer les coefficients de régression (MATRIX=SQUARE seulement). XPRO Imprimer la matrice des sommes des produits croisés (MATRIX=SQUARE seulement) Restrictions Quand on spécifie MATRIX=SQUARE 1. Le nombre maximum de variables autorisé dans une même exécution est 200. Ce chiffre inclut toutes les variables d analyse et les variables utilisées avec Recode. 2. Si le paramètre WRITE est spécifié, les numéros des variables recodées ne peuvent pas dépasser 999. (Ils sont envoyés en sortie sous forme de nombres négatifs dans la partie descriptive de la matrice, où il y a seulement 4 colonnes réservées pour le numéro de la variable, par ex. R862 devient -862). Quand on spécifie MATRIX=RECTANGULAR 1. Le nombre maximum de variables dans la liste de variables de lignes ou de colonnes est Le nombre total de variables de lignes, de colonnes, utilisées avec Recode, et de poids, ne peut dépasser Exemples Exemple 1. Calcul d une matrice carrée de coefficients de corrélation r de Pearson, avec suppression par paires des observations ayant des données manquantes; la matrice sera envoyée dans un fichier et imprimée. $RUN PEARSON $FILES PRINT = PEARS1.LST FT02 = BIRDCOR.MAT DICTIN = BIRD.DIC fichier Matrice en sortie fichier Dictionnaire en entrée fichier Données en entrée DATAIN = BIRD.DAT $SETUP MATRICE DE COEFFICIENTS DE CORRÉLATION PRINT=(PAIR,REGR,CORR) WRITE=CORR ROWV=(V18-V21,V36,V55-V61)

286 266 Corrélation de Pearson (PEARSON) Exemple 2. Calcul des coefficients de corrélation r de Pearson pour les variables V10-V20 avec les variables V5-V6. $RUN PEARSON $FILES DICTIN = BIRD.DIC DATAIN = BIRD.DAT $SETUP COEFFICIENTS DE CORRÉLATION MATRIX=RECT ROWV=(V10-V20) COLV=(V5-V6) fichier Dictionnaire en entrée fichier Données en entrée

287 Chapitre 34 Classement d alternatives (RANK) 34.1 Description générale RANK classe de manière raisonnable des alternatives, en utilisant en entrée des données correspondant à des préférences, et ceci à l aide de trois procédures, l une fondée sur la logique classique (la méthode ELECTRE) et les deux autres sur la logique floue. Les deux approches diffèrent essentiellement par la manière dont les matrices de relations sont construites. Avec la technique de classement flou, les données déterminent complètement les résultats, tandis qu avec le classement classique, l utilisateur a la possibilité, en recourant aux concepts de la logique classique, de contrôler le calcul des relations entre les alternatives au niveau global. La méthode ELECTRE (logique classique) mise en oeuvre dans RANK va, dans une première étape, utiliser les données d entrée indiquant des préférences pour calculer une matrice finale exprimant l opinion collective globale à propos de la «dominance» entre les alternatives, la structure relationnelle ne correspondant pas nécessairement à un ordre linéaire ou partiel. Pour chaque paire d alternatives, la relation de «dominance» est contrôlée par les conditions fixées par l utilisateur pour la «concordance» et pour la «discordance». On peut obtenir différentes structures relationnelles à partir des mêmes données en faisant varier les paramètres d analyse. Dans une deuxième étape, la procédure recherche une séquence de couches (noyaux) d alternatives non dominées. Le premier noyau est constitué par les alternatives de rang le plus élevé dans l ensemble considéré. Il faut noter que, dans certains cas, il peut ne pas y avoir d autres noyaux en raison de boucles dans la relation. Ceci peut se produire même au niveau le plus haut. La première méthode floue (couches non dominées) fut développée à l origine pour résoudre des problèmes de prises de décision sur la base d informations floues. Cette méthode permet de trouver une séquence de couches (noyaux) non dominées d alternatives dans une structure de préférences floue, laquelle ne représente pas nécessairement un ordre linéaire (total). Les noyaux suivants sont des groupes d alternatives qui ont le rang le plus élévé parmi les alternatives n appartenant pas aux noyaux précédents de niveau plus élevé. Le premier noyau est constitué des alternatives de rang le plus élevé dans tout l ensemble considéré. La deuxième méthode floue (rangs) tente de trouver la crédibilité d affirmations telles que «l alternative j est exactement à la position p dans la suite ordonnée d alternatives». Les résultats sont clairs quand il y a une relation d ordre linéaire total dans les données; sinon, il faut interpréter les résultats avec un soin spécial. La procédure d optimisation, développée pour gérer le cas général (normé ou non), permet à l utilisateur de décider s il faut normaliser, ou non, la matrice relationnelle floue avant de procéder au classement des alternatives (voir l option NORM). Après normalisation, une interprétation attentive des résultats est indispensable. Habituellement, des données incomplètes donnent une matrice de relations non normée, en particulier quand on spécifie DATA=RAWC et que le nombre d alternatives sélectionnées dans les réponses individuelles est inférieur au nombre d alternatives possibles. Encore qu une matrice non normée donne des résultats pour lesquels le niveau d incertitude est plus élevé, une telle matrice peut fournir une image plus réaliste à propos de la relation latente déterminant les données; en effet, la normalisation peut s interpréter comme une sorte d extrapolation. Deux types de relations de préférence individuelles (stricte ou faible) peuvent être spécifiés dans le cas de données représentant une sélection d alternatives aussi bien que dans le cas de données représentant une série ordonnée d alternatives.

288 268 Classement d alternatives (RANK) 1. Données représentant une sélection d alternatives. Préférence stricte : on considère que chaque alternative sélectionnée occupe un rang unique (différent), tandis qu on attribue le même rang le moins élevé aux alternatives qui ne sont pas sélectionnées. Préférence faible : on considère que toutes les alternatives sélectionnées occupent le même rang commun, lequel est plus élevé que le rang des alternatives non sélectionnées. 2. Données représentant une série ordonnée d alternatives. Préférence stricte : on suppose que toutes les alternatives ordonnées ont des valeurs différentes, et que les relations entre les alternatives de même rang sont ignorées dans le calcul de la relation de préférence globale entre les alternatives. Préférence faible : les alternatives de même rang sont prises en compte dans le calcul Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection d un sous-ensemble d observations à partir des données d entrée et du paramètre VARS pour sélectionner les variables. Transformation de données. Les instructions Recode peuvent être utilisées. On notera que le programme utilise seulement la partie entière des variables recodées, càd que les variables recodées sont arrondies au nombre entier le plus proche. Pondération de données. Les données peuvent être pondérées par des valeurs entières. On notera que les poids avec valeurs décimales sont arrondis au nombre entier le plus proche. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Traitement des données manquantes. L utilisateur dispose du paramètre MDVALUES pour indiquer au programme quelles valeurs de données manquantes utiliser pour vérifier les données. Avec DATA=RAWC, le programme ignore les variables avec données manquantes; avec DATA=RANKS, le programme substitue aux données manquantes le rang le plus bas Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Données incorrectes. Message à propos des données incorrectes (rejetées). Méthodes fondées sur la logique floue (METHODS=NOND/RANKS) Matrice de relations. Le programme imprime en lignes une matrice carrée représentant la relation floue. Si les lignes contiennent plus de dix éléments, ceux-ci sont imprimés sur la(les) ligne(s) suivante(s). Description des relations. Après le type de relation suivent trois mesures caractérisant brièvement celle-ci, à savoir : les indices de cohérence absolue, d intensité et de «dominance» (puissance) absolue. Résultats des analyses. Ils sont présentés de manière différente pour chaque méthode. Avec METHOD=NOND, les noyaux sont imprimés séquentiellement à partir du rang le plus élevé, et pour chacun d eux sont fournies les informations suivantes : le numéro séquentiel du noyau avec son niveau de certitude, le code et le nom des alternatives ou le numéro des variables et leur nom (jusqu à 8 caractères), les valeurs de la fonction d appartenance des alternatives indiquant combien fortement elles sont connectées au noyau; un astérisque remplace les valeurs des alternatives appartenant aux noyaux précédents,

289 34.4 Dataset en entrée 269 liste des alternatives appartenant au noyau ayant le plus haut niveau d appartenance (alternatives les plus crédibles). Avec METHOD=RANKS, la matrice de relation normée est imprimée en premier si la normalisation a été demandée. Les résultats sont ensuite imprimés, et ceci sous deux formes pour en faciliter l interprétation. 1. Toutes les alternatives sont imprimées séquentiellement, avec pour chacune d elles : son code et son nom, ou le numéro de la variable et son nom, la valeur de sa fonction d appartenance indiquant la force de sa liaison à chaque rang, la liste des rangs les plus crédibles pour cette alternative (ou le rang le plus crédible). 2. Tous les rangs sont imprimés séquentiellement, avec pour chacun d eux : le numéro du rang, le code et le nom des alternatives, ou bien le numéro et le nom des variables, la valeur de sa fonction d appartenance indiquant combien fortement elles sont connectées à ce rang, la liste de la (des) alternative(s) la (les) plus crédible(s) pour ce rang. Méthode fondée sur la logique classique (METHOD=CLASS) Résultats des analyses. Pour chaque structure relationnelle de «dominance» résultant d une analyse, le programme imprime les différences de rang et les proportions minimum/maximum de la population spécifiées par l utilisateur, suivies par la liste des noyaux successifs non dominés (identifiés par leur numéro séquentiel) accompagnés des alternatives leur appartenant. Note. Pour DATA=RANKS, le nom des alternatives consiste dans les 8 premiers caractères du nom de la variable et pour DATA=RAWC, ce sont les 8 caractères du nom affecté au code (pour autant qu il y ait des enregistrements C dans le dictionnaire) Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables d analyse doivent être des nombres entiers positifs. On notera que les variables avec valeurs décimales sont arrondies à l entier le plus proche. Il y a 2 façons de représenter les préférences dans les données. Elles sont illustrées ci-dessous. Supposons que l on doive recueillir des données à propos des préférences d employés à l égard de divers facteurs liés à leur travail : bureau individuel salaire élevé grandes vacances supervision minimale collègues compatibles. Les deux façons de représenter ceci dans un questionnaire sont : 1. DATA=RAWC Dans ce cas, les facteurs reçoivent un code (par ex. 1 à 5) et on demande au répondant de les choisir par ordre de préférence. Dans les données, les variables représenteront les rangs, par ex. V6 Facteur le plus important V7 2ème facteur par ordre d importance.. V10 Facteur le moins important et les codes attribués à chacune de ces variables par le répondant représenteront les facteurs (par ex. 1=bureau individuel, 2=salaire élevé, etc.).

290 270 Classement d alternatives (RANK) Il n est pas indispensable de sélectionner tous les facteurs, on peut ainsi demander seulement les 3 facteurs les plus importants, en spécifiant uniquement sur la liste de variables les variables correspondantes, par ex. V6, V7, V8. Le nombre des différents facteurs qui vont être utilisés est spécifié avec le paramètre NALT. 2. DATA=RANKS Ici, chaque facteur est mentionné en tant que variable dans le questionnaire, par ex. Notes. V13 Bureau individuel V14 Salaire élevé.. V17 Collègues compatibles et le répondant est invité à attribuer un rang à chaque facteur, 1 correspondant au facteur le plus important, 2 au facteur le plus important suivant, etc. Ici les variables représentent les facteurs et leurs valeurs représentent les rangs. Il faut attribuer un rang à chaque variable et tous les facteurs seront toujours entrés dans l analyse. Les rangs doivent être codés de 1 à n, où n est le nombre de variables prises en considération. 1. Si DATA=RANKS, le code 0 et tous les codes plus grands que n où n est le nombre de variables (càd le nombre d alternatives) sont traités comme des données manquantes et se voient attribuer le rang le plus bas. 2. Si DATA=RAWC, les premiers NALT codes différents rencontrés par le programme pendant la lecture des données (0 exclu) sont utilisés comme codes valides. Les autres codes rencontrés ultérieurement dans les données sont considérés comme des codes illégaux. Zéro est toujours traité comme un code illégal. Si le nombre d alternatives sélectionnées par les répondants est inférieur à NALT, alors les alternatives non sélectionnées apparaissent sur les résultats avec le code zéro et sans nom de code Structure du setup $RUN RANK $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications d analyse, répétées autant de fois que nécessaire (uniquement pour la logique classique) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST)

291 34.6 Instructions de contrôle du programme Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-4 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V2=11 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : PREMIÈRE EXÉCUTION DE RANK 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : DATA=RANKS PREF=STRICT MDVALUES=NONE VARS=(V11-V13) INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre «Le fichier setup d IDAMS». Avec DATA=RAWC, les variables contenant des données manquantes ne sont pas incluses dans la procédure de classement. Avec DATA=RANKS, les valeurs de données manquantes sont recodées au rang le plus bas. VARS=(liste de variables) Une liste de variables V et/ou R à utiliser pour la procédure de classement. Pas de défaut. WEIGHT= numéro de variable Numéro de la variable poids si l on va pondérer les données. METHOD=(CLASSICAL/NOCLASSICAL, NONDOMINATED, RANKS) Spécifie la méthode à utiliser dans l analyse. CLAS Méthode de la logique classique (ELECTRE). NOND Méthode de la logique floue 1, appelée couches non dominées. RANK Méthode de la logique floue 2, appelée rangs. DATA=RAWC/RANKS Type de données. RAWC Les variables correspondent aux rangs (la première variable dans la liste détient le premier rang, la seconde le second rang, etc.), tandis que leur valeur est le numéro du code de l alternative sélectionnée. RANK Les variables représentent les alternatives tandis que leurs valeurs sont les rangs des alternatives correspondantes.

292 272 Classement d alternatives (RANK) PREF=STRICT/WEAK Détermine le type de relation de préférence à utiliser dans l analyse. STRI On utilise une relation de préférence stricte. WEAK On utilise une relation de préférence faible. NALT=5/n (DATA=RAWC uniquement). Nombre total des alternatives à classer. Note : si DATA=RANKS, le nombre d alternatives est automatiquement fixé au nombre des variables d analyse. NORMALIZE=NO/YES (METHOD=RANKS uniquement). NO Pas de normalisation. YES Le programme effectue la normalisation de la matrice relationnelle avant de calculer les degrés de crédibilité des places des alternatives. PRINT=CDICT/DICT CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. 4. Spécifications d analyse (conditionnel : uniquement dans le cas de la méthode fondée sur la logique classique). Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification doit commencer sur une nouvelle ligne. Exemple : PCON=66 DDIS=4 PDIS=20 DCON=1/n Différence de rang qui contrôle la concordance dans les opinions individuelles (observations). Ce doit être un nombre entier situé dans l intervalle de 0 à NALT-1. PCON=51/n Proportion minimum de concordance individuelle requise dans l opinion collective, exprimée sous forme de pourcentage. Ce doit être un nombre entier situé dans l intervalle de 0 à 99. La valeur par défaut signifie qu un accord d au moins 51% est requis pour une concordance collective. DDIS=2/n Différence de rang qui contrôle la discordance dans les opinions individuelles (observations). Ce doit être un nombre entier situé dans l intervalle de 0 à NALT-1. PDIS=10/n Proportion maximum de discordance individuelle tolérée dans l opinion collective, exprimée sous forme de pourcentage. Ce doit être un nombre entier situé dans l intervalle de 0 à 100. La valeur par défaut signifie que l on ne tolère pas plus de 10% de discordance individuelle Restrictions 1. Dans une même exécution, le nombre maximum de variables autorisées est 200, y compris celles utilisées dans les instructions de Recode et pour la pondération. 2. Le nombre maximum de variables d analyse est Exemples Exemple 1. Détermination d une série ordonnée d alternatives en utilisant des données recueillies sous la forme de rangement d alternatives; il y a 10 alternatives, on suppose une relation de préférence faible, et l analyse utilisera la méthode ranks.

293 34.8 Exemples 273 $RUN RANK $FILES PRINT = RANK1.LST DICTIN = PREF.DIC fichier Dictionnaire en entrée fichier Données en entrée DATAIN = PREF.DAT $SETUP RANK - RANGEMENT D ALTERNATIVES : MÉTHODE FLOUE RANKS DATA=RANKS PREF=WEAK METH=(NOCL,RANKS) VARS=(V21-V30) Exemple 2. Détermination d une série ordonnée d alternatives en utilisant des données recueillies sous la forme de sélection de priorités; on sélectionne trois alternatives sur 20 et l ordre des variables déterminera la priorité de la sélection; on suppose une relation de préférence stricte ; les deux méthodes floues sont demandées dans l analyse. $RUN RANK $FILES comme pour Exemple 1 $SETUP RANK - RANGEMENT D ALTERNATIVES : DEUX MÉTHODES FLOUES NALT=20 METH=(NOCL,NOND,RANKS) VARS=(V101-V103) Exemple 3. Déterminer une série ordonnée d alternatives en utilisant des données recueillies sous la forme d une sélection de priorités; 4 alternatives sur 15 sont sélectionnées et l ordre des variables ne détermine pas la priorité de sélection (préférence faible); on demande quatre analyses fondées sur la logique classique en gardant la différence de rangs toujours égale à 1, mais en accroissant la proportion de discordance et en diminuant la proportion de concordance. $RUN RANK $FILES comme pour Exemple 1 $SETUP RANK - RANGEMENT D ALTERNATIVES : MÉTHODE CLASSIQUE ELECTRE PREF=WEAK NALT=15 METH=CLAS VARS=(V21,V23,V25,V27) PCON=75 DDIS=1 PDIS=5 PCON=66 DDIS=1 PDIS=10 PCON=51 DDIS=1 PDIS=15 PCON=40 DDIS=1 PDIS=20

294

295 Chapitre 35 Diagrammes de dispersion (SCAT) 35.1 Description générale SCAT est un programme d analyse bivariée qui produit des diagrammes de dispersion (nuages de points), ainsi que des statistiques univariées et bivariées. Les diagrammes sont projetés dans un système de cordonnées rectangulaires; la fréquence avec laquelle chaque combinaison des valeurs des coordonnées apparaît dans les données est affichée par le programme. SCAT est utile pour visualiser les relations bivariées lorsque le nombre de valeurs différentes prises par chaque variable est élevé et que le nombre d observations contenant une de ces valeurs est petit. Toutefois, si l on a affaire à un nombre élevé d observations et qu une variable prend relativement peu de valeurs différentes, le programme TABLES est plus approprié. Format des projections. Chaque projection demandée est définie séparément en spécifiant les deux variables à utiliser (appelées les variables X et Y). Les échelles des axes sont ajustées séparément pour chaque projection, de façon à ce que les variables ayant des échelles radicalement différentes puissent être projetées l une par rapport à l autre sans perte de discrimination. Normalement, c est la variable mesurée sur l échelle avec le plus grand intervalle (avant réduction) qui est projetée sur l axe horizontal. Toutefois, l utilisateur peut demander que la variable X soit toujours projetée sur l axe horizontal. Si les fréquences sont inférieures à 10, elles sont entrées dans le diagramme. Pour les fréquences allant de 10 à 65, les lettres de l alphabet sont utilisées. Si la fréquence d un point dépasse 65, un astérisque est placé dans le diagramme. Pour plus de facilité, ce schéma de codage est inclus dans les résultats. Statistiques. Pour chacune des variables auxquelles il accède, y compris le filtre et la variable poids s il y en a, le programme imprime la moyenne, l écart-type ainsi que les valeurs minimum et maximum. Pour chaque projection, le programme imprime également la moyenne, l écart-type, le compte des observations et les intervalles pour les deux variables, le coefficient de corrélation r de Pearson, la constante de régression et le coefficient de régression non standardisé pour la prédiction de Y à partir de X Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection d un sous-ensemble d observations à partir des données d entrée. En outre, afin de réduire le nombre d observations incluses dans un diagramme particulier, on peut spécifier un filtre pour la projection et l intervalle de valeurs que l on souhaite. Les variables à projeter sont spécifiées par paires avec les paramètres de projection. Transformation de données. Les instructions Recode peuvent être utilisées. On notera que le paramètre NDEC permet de spécifier le nombre de décimales à retenir pour les variables R. Pondération de données. Une variable poids peut être spécifiée pour chaque projection. Les variable V et R avec des décimales sont multipliées par un facteur d échelle pour obtenir des valeurs entiers. Voir la section «Dataset en entrée» ci-dessous.

296 276 Diagrammes de dispersion (SCAT) Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Traitement des données manquantes. Le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. Les statistiques qui figurent au début des résultats, immédiatement suivies du dictionnaire, sont basées sur toutes les observations avec des données valides pour chaque variable considérée séparément. Dans le cas des projections, le programme élimine les observations avec données manquantes soit pour l une ou l autre, soit pour les deux variables intervenant dans une projection. Cette suppression par paires affecte également les statistiques univariées et bivariées imprimées en tête de chaque projection Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Statistiques univariées. Le programme imprime les statistiques suivantes pour chacune des variables mentionnées, y compris pour les filtres et les variables poids : valeurs minimum et maximum, moyenne et écart-type, et nombre d observations avec des données valides. Clé du schéma de codage pour les projections. Un tableau montrant la correspondance entre les fréquences et les codes utilisés dans les projections. Projections et statistiques. Pour chacune des projections demandées, le programme imprime un diagramme de 8 1/2 x 12 pouces. En tête du diagramme, le programme imprime les statistiques univariées (moyennes, écarts-types) et les statistiques bivariées (r de Pearson, constante de régression A et coefficient de régression non standardisé B) Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables d analyse et de filtre de projection doivent être numériques; des nombres entiers ou décimaux. Les variables avec décimales sont multipliées par un facteur d échelle pour obtenir des valeurs entières. Ce facteur est calculé comme 10 n où n est le nombre de décimales provenant du dictionnaire pour les variables V et du paramètre NDEC pour les variables R ; il est imprimé pour chaque variable.

297 35.5 Structure du setup Structure du setup $RUN SCAT $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications des projections (répétées autant de fois que nécessaire) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST) 35.6 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-4 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V21=6 AND V37=5 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : ÉTUDE AO^UT ^AGE PAR TAILLE 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Les nouveaux paramètres sont précédés d un astérisque. Exemple : BADD=MD2 INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme.

298 278 Diagrammes de dispersion (SCAT) MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». * NDEC=0/n Nombre de décimales (maximum 4) à retenir pour les variables R. PRINT=CDICT/DICT CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. 4. Spécifications des projections. Une série pour chaque projection. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification doit débuter sur une nouvelle ligne. Exemple : X=V3 Y=R17 FILTER=(V3,1,1) X=numéro de variable Numéro de variable de la variable X. Y=numéro de variable Numéro de variable de la variable Y. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. FILTER=(numéro de variable, code minimum valide, code maximum valide) Filtre de projection. Feront partie de la projection uniquement les observations pour lesquelles la valeur de la variable filtre est supérieure ou égale au code minimum, et inférieure ou égale au code maximum. Par exemple, pour n inclure que les observations avec les codes 0-40 pour la variable 6, on spécifiera : FILTER=(V6,0,40). HORIZAXIS=MAXRANGE/X MAXR Projeter la variable avec le plus grand intervalle sur l axe horizontal. X Toujours projeter la variable X sur l axe horizontal Restrictions 1. On ne peut utiliser plus de 50 variables lors d une même exécution du programme. Ce chiffre inclut tout : les variables X et Y, les variables filtres pour les projections, les variables poids et les variables utilisées dans les instructions de Recode. 2. Le nombre de projections n est pas limité, mais SCAT ne produit que 5 projections par lecture des données d entrée Exemple Production de deux projections (l une pondérée par la variable V100 et l autre non pondérée) répétées pour trois sous-ensembles différents de données.

299 35.8 Exemple 279 $RUN SCAT $FILES PRINT = SCAT1.LST DICTIN = MY.DIC fichier Dictionnaire en entrée DATAIN = MY.DAT fichier Données en entrée $SETUP PRODUCTION DE DEUX PROJECTIONS POUR CHAQUE SOUS-ENSEMBLE DE DONNÉES * (valeur par défaut pour tous les paramètres) X=V21 Y=V3 FILTER=(V5,1,2) X=V21 Y=V3 FILTER=(V5,1,2) WEIGHT=V100 X=V21 Y=V3 FILTER=(V5,3,3) X=V21 Y=V3 FILTER=(V5,3,3) WEIGHT=V100 X=V21 Y=V3 FILTER=(V5,4,7) X=V21 Y=V3 FILTER=(V5,4,7) WEIGHT=V100

300

301 Chapitre 36 Recherche de structure (SEARCH) 36.1 Description générale SEARCH est une procédure de segmentation binaire utilisée pour développer un modèle prédictif pour une (des) variable(s) dépendante(s). Cette procédure vise à trouver parmi une série de prédicteurs ceux qui rendront le mieux compte de la variance ou de la distribution d une variable dépendante. La question suivante, insérée dans un processus itératif, sert de fondement à l algorithme : «quelle partition dichotomique d un seul prédicteur accroîtra-t-elle le plus notre aptitude à prédire les valeurs de la variable dépendante?». Par le biais d une série de découpages binaires, SEARCH divise les observations en sous-groupes mutuellement exclusifs. Les sous-groupes sont choisis de telle manière qu à chaque étape de la procédure la partition en deux nouveaux sous-groupes rend davantage compte de la variance ou de la distribution que toute autre partition (réduit davantage l erreur de prédiction). SEARCH peut effectuer les opérations suivantes : * Maximiser les différences entre moyennes de groupes, lignes de régression de groupes ou distributions (critère Chi-deux de vraisemblance maximum). * Ranger les prédicteurs de manière préférentielle en vue de la partition. * Sacrifier le pouvoir explicatif à la symétrie. * Démarrer l algorithme après qu une structure arborescente partielle ait été générée. Production d un dataset de résidus. Le programme peut calculer les résidus et les envoyer en sortie sous forme d un fichier Données décrit par un dictionnaire IDAMS. Se reporter pour plus de détails à la section «Dataset des résidus en sortie» Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection d un sous-ensemble d observations à partir des données d entrée. La (les) variable(s) dépendante(s) sont spécifiées avec le paramètre DEPVAR et les prédicteurs avec le paramètre VARS dans le corps des instructions qui leur sont propres. Transformation de données. Les instructions Recode peuvent être utilisées. Pondération de données. On peut utiliser une variable pour pondérer les données d entrée; cette variable poids peut prendre une valeur entière ou une valeur décimale. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Traitement des données manquantes. Le programme supprime automatiquement les observations contenant des données manquantes dans une variable dépendante continue ou dans une covariable. On peut exclure les observations contenant des données manquantes dans une variable catégoricale dépendante à l aide du filtre ou en spécifiant les codes valides avec le paramètre DEPVAR. Le programme n exclut pas automatique-

302 282 Recherche de structure (SEARCH) ment les observations contenant des données manquantes dans les prédicteurs. On peut cependant utiliser à cette fin le filtre ou le paramètre CODES Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Observations excentriques. (Facultatif : voir le paramètre PRINT). Imprimées avec les valeurs de la variable ID et de la variable dépendante. Trace. (Facultatif : voir les options TRACE et FULLTRACE du paramètre PRINT). La trace de chacune des partitions de chacun des prédicteurs contenant : les groupes candidats à une partition, le groupe sélectionné pour la partition, toutes les partitions éligibles pour chaque prédicteur, la meilleure partition pour chaque prédicteur et le groupe dédoublé. Récapitulatif de l analyse contenant l analyse de la variance ou de la distribution, le récapitulatif de la partition et des groupes finaux. Tableaux récapitulatifs des prédicteurs. (Facultatif : voir les options TABLE, FIRST et FINAL du paramètre PRINT). Les tableaux du premier groupe (PRINT=FIRST), du groupe final (TABLE=FINAL) ou de tous les groupes (PRINT=TABLE) contenant le récapitulatif des meilleures partitions pour chacun des prédicteurs de chaque groupe. Les tableaux sont imprimés en commençant par le dernier groupe. Diagramme arborescent. (Facultatif : voir le paramètre PRINT). Diagramme arborescent hiérarchique. Chaque noeud (boîte) de l arbre contient : le numéro du groupe, le nombre d observations (N), le numéro de la partition, le numéro de la variable prédicteur, la moyenne de la variable dépendante (pour l analyse des moyennes), la moyenne de la variable dépendante et de la covariable, et la pente (pour l analyse de régression) Dataset des résidus en sortie On a la possibilité de produire les résidus en sortie sous la forme d un fichier Données décrit par un dictionnaire IDAMS. (Voir le paramètre WRITE). Pour les analyses de moyennes et de régression ainsi que pour les analyses du Chi-deux avec variables dépendantes multiples chacun des enregistrements en sortie contient : une variable ID, la variable groupe, la(les) variable(s) dépendante(s), la(les) variable(s) dépendante(s) prédite(s) (calculées), le(s) résidu(s), et le poids s il y en a. Pour une analyse du Chi-deux avec une variable catégoricale dépendante, l enregistrement contient : une variable ID, la variable groupe, la valeur de la première catégorie de la variable dépendante, sa valeur prédite (calculée), sa valeur résiduelle, la valeur de la deuxième catégorie de la variable dépendante, etc. et le poids s il y en a. Les variables en sortie ont les caractéristiques suivantes : N de la Nom de la Longueur Nombre de Code variable variable de champ décimales MD1 (variable ID) 1 idem entrée * 0 idem entrée (variable groupe) 2 Group variable (var. dépendante 1) 3 idem entrée * ** idem entrée (var. prédite 1) 4 idem entrée cal 7 *** (résidu de la var.1) 5 idem entrée res 7 *** (var. dépendante 2) 6 idem entrée * ** idem entrée (var. prédite 2) 7 idem entrée cal 7 *** (résidu de la var.2) 8 idem entrée res 7 *** (poids, s il y en a) n idem entrée * ** idem entrée

303 36.5 Dataset en entrée 283 * transférée du dictionnaire d entrée pour les variables V ou 7 pour les variables R ** transférée du dictionnaire d entrée pour les variables V ou 2 pour les variables R *** 6 plus le nombre de décimales pour la variable dépendante moins sa longueur de champ; 0 si cette valeur est négative. Si la valeur calculée ou les résidus dépassent la longueur allouée au champ, ils sont remplacés par le code MD Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables d analyse doivent être numériques; elles peuvent avoir pour valeur un nombre entier ou décimal. La variable dépendante peut être continue ou catégoricale. Les variables prédicteurs peuvent être ordinales ou catégoricales. La variable ID de l observation peut être alphabétique Structure du setup $RUN SEARCH $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications de prédicteurs 5. Spécifications de partitions prédéfinies (facultatif) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire des résidus en sortie DATAyyyy données des résidus en sortie PRINT résultats (défaut IDAMS.LST) 36.7 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-5 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V3=5

304 284 Recherche de structure (SEARCH) 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : RECHERCHE DE STRUCTURE 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : DEPV=V5 INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. ANALYSIS=MEAN/REGRESSION/CHI MEAN Analyse des moyennes. REGR Analyse de régression. CHI Analyse du Chi-deux. Avec une seule variable dépendante, la liste par défaut des codes 0-9 sera utilisée et il n y aura pas de vérification de données manquantes. DEPVAR=numéro de variable/(liste de variables) La ou les variable(s) dépendante(s). Noter qu une liste de variables peut être fournie uniquement quand on spécifie ANALYSIS=CHI. Pas de défaut. CODES=(liste de codes) On ne peut fournir une liste de codes qu avec ANALYSIS=CHI et une seule variable dépendante. Noter que dans ce cas il n y a pas de vérification de données manquantes pour la variable dépendante et que seules sont utilisées pour l analyse les observations pour lesquelles des codes figurent dans la liste. COVAR=numéro de variable Le numéro de la covariable. Doit être fourni pour ANALYSIS=REGR. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. MINCASES=25/n Le nombre minimum d observations dans un groupe. MAXPARTITIONS=25/n Le nombre maximum de partitions. SYMMETRY=0/n Le montant maximum de la puissance explicative que l on est disposé à perdre pour obtenir la symétrie, exprimé en pourcentages. EXPL=0.8/n Minimum d accroissement de puissance explicative exigé pour une partition, exprimé en pourcentages.

305 36.7 Instructions de contrôle du programme 285 OUTDISTANCE=5/n Nombre d écarts-types à partir de la moyenne du groupe parent utilisé pour déterminer si une observation est excentrique. Noter que si l on spécifie PRINT=OUTL, le programme indique les observations excentriques, mais celles-ci ne sont pas exclues de l analyse. IDVAR=numéro de variable Variable à envoyer en sortie avec les résidus et/ou à imprimer avec chaque observation désignée comme excentrique. WRITE=RESIDUALS/CALCULATED/BOTH Envoyer en sortie sous la forme d un dataset IDAMS les valeurs résiduelles et/ou calculées. RESI Envoyer en sortie uniquement les valeurs résiduelles. CALC Envoyer en sortie uniquement les valeurs calculées. BOTH Envoyer en sortie les valeurs calculées et les valeurs résiduelles. OUTFILE=OUT/yyyy Applicable uniquement si WRITE est spécifié. Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. PRINT=(CDICT/DICT, TRACE, FULLTRACE, TABLE, FIRST, FINAL, TREE, OUTLIERS) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. TRAC Imprimer la trace des partitions pour chacun des prédicteurs de chaque partition. FULL Imprimer la trace complète des partitions de chaque prédicteur, y inclus les partitions éligibles mais sous-optimales. TABL Imprimer les tableaux récapitulatifs des prédicteurs pour tous les groupes. FIRS Imprimer les tableaux récapitulatifs des prédicteurs pour le premier groupe. FINA Imprimer les tableaux récapitulatifs des prédicteurs pour les groupes finaux. TREE Imprimer le diagramme arborescent hiérarchique. OUTL Imprimer les observations excentriques avec leur ID et les valeurs de la variable dépendante. 4. Spécifications des prédicteurs (obligatoire). Fournir un jeu de paramètres pour chaque groupe de prédicteurs, ceux-ci pouvant être décrits avec les mêmes paramètres. Les régles de codage sont les mêmes que pour les paramètres. Chaque spécification doit débuter sur une nouvelle ligne. Exemple : VARS=(V8,V9) TYPE=F VARS=(liste de variables) Variables prédicteurs auxquelles s appliquent les autres paramètres. Pas de défaut. TYPE=M/F/S Manière de traiter les prédicteurs. M Les prédicteurs sont considérés comme «monotoniques», càd que la recherche de structure doit s opérer sur des codes adjacents des prédicteurs. F La règle précédente ne s applique pas, càd que la recherche s opère librement sur les codes des prédicteurs. S Les codes des prédicteurs seront sélectionnés et séparés des autres codes lors des essais de partitions. CODES=(0-9)/maxcode/(liste de codes) La valeur du code le plus grand acceptable ou bien une liste de codes acceptables. Les codes peuvent aller de 0 à 31. Le programme ignore systématiquement les observations avec des codes en dehors de cet intervalle.

306 286 Recherche de structure (SEARCH) RANK=n Rank alloué. Si l on souhaite allouer un rang aux prédicteurs, celui-ci peut prendre une valeur de 0 à 9. La valeur 0 indique qu on demande de calculer les statistiques des prédicteurs mais que ceux-ci ne seront pas utilisés pour les partitions. 5. Spécifications de partitions prédéfinies (facultatif). Founir un jeu de paramètres pour chacune des partitions prédéfinies. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification doit débuter sur une nouvelle ligne. Exemple : GNUM=1 VAR=V18 CODES=(1-3) GNUM=n Numéro du groupe à partitionner. Spécifier les groupes en ordre ascendant en tenant compte que l échantillon entier original constitue le groupe 1. Chaque jeu de paramètres forme deux nouveaux groupes. Pas de défaut. VAR=numéro de variable Prédicteur utilisé pour produire la partition. Pas de défaut. CODES=(liste de codes) Liste des codes du prédicteur servant à définir le premier sous-groupe. Tous les autres codes appartiendront au deuxième sous-groupe. Pas de défaut Restrictions 1. Le nombre minimum d observations requis est de 2 * MINCASES. 2. Le nombre maximum de prédicteurs est La valeur maximum d un prédicteur est Le nombre maximum de codes des variables catégoricales est Le nombre maximum de partitions prédéfinies est Si la variable ID est alphabétique et que sa longueur dépasse 4 caractères, le programme n utilisera que les quatre premiers Exemples Exemple 1. Analyse de moyennes avec cinq prédicteurs; on demande un minimum de 10 observations par groupe; le programme fera un rapport sur les observations excentriques à plus de 3 écarts-types de la moyenne du groupe parent; les observations sont identifiées par la variable V1. $RUN SEARCH $FILES PRINT = SEARCH1.LST DICTIN = STUDY.DIC fichier Dictionnaire en entrée DATAIN = STUDY.DAT fichier Données en entrée $SETUP ANALYSE DE MOYENNES AVEC CINQ PRÉDICTEURS DEPV=V4 MINC=10 OUTD=3 IDVAR=V1 PRINT=(TRACE,TREE,OUTL) VARS=(V3-V5,V12) VARS=V21 TYPE=F CODES=(1-4)

307 36.9 Exemples 287 Exemple 2. Analyse de régression avec six prédicteurs; on demande les valeurs résiduelles et calculées et d envoyer celles-ci dans un dataset en sortie (les observations sont identifiées par la variable V2). $RUN SEARCH $FILES PRINT = SEARCH2.LST DICTIN = STUDY.DIC DATAIN = STUDY.DAT DICTOUT = RESID.DIC DATAOUT = RESID.DAT $SETUP ANALYSE DE RÉGRESSION AVEC SIX PRÉDICTEURS ANAL=REGR DEPV=V12 COVAR=V7 MINC=10 IDVAR=V2 - WRITE=BOTH PRINT=(TRACE,TABLE,TREE) VARS=(V3-V5,V18) VARS=V22 TYPE=F fichier Dictionnaire en entrée fichier Données en entrée fichier Dictionnaire pour les résidus fichier Données pour les résidus Exemple 3. Analyse du Chi-deux avec une variable dépendante catégoricale et des codes sélectionnés; les deux premières partitions sont prédéfinies. $RUN SEARCH $FILES DICTIN = STUDY.DIC fichier Dictionnaire en entrée DATAIN = STUDY.DAT fichier Données en entrée $SETUP ANALYSE CHI-DEUX AVEC UNE VAR. DEP. CATÉGORICALE - DEUX SCISSIONS PRÉDÉFINIES ANAL=CHI DEPV=V101 CODES=(1-5) MINC=5 PRINT=(FINAL,TREE) VARS=(V3,V8) TYPE=S GNUM=1 VAR=V8 CODES=3 GNUM=2 VAR=V3 CODES=(1,2)

308

309 Chapitre 37 Tableaux univariés et bivariés (TABLES) 37.1 Description générale L utilisation principale de TABLES est d obtenir des tableaux de fréquences univariées ou bivariées avec la possibilité d y faire figurer les pourcentages en lignes, en colonnes et en coin, ainsi que les statistiques univariées et bivariées. On peut aussi obtenir les valeurs moyennes d une variable. Les tableaux univariés/bivariés et les statistiques bivariées peuvent être envoyés dans un fichier en sortie, ce qui permet ultérieurement à de les mettre en forme à l aide d un programme d édition, ou encore de s en servir avec GraphID ou d autres logiciels comme EXCEL pour obtenir des représentations graphiques. Tableaux univariés. Le programme peut produire des fréquences univariées et des fréquences univariées cumulatives pour n importe quel nombre de variables en entrée, et il peut également les exprimer sous forme de pourcentages de la fréquence totale pondérée ou non pondérée. En outre, on peut obtenir la moyenne d une variable à l intérieur d une cellule du tableau. Tableaux bivariés. Le programme peut en produire n importe quel nombre. Les fréquences pondérées et/ou non pondérées peuvent en outre être exprimées sous forme de pourcentages basés sur les lignes, sur les colonnes ou sur l ensemble des observations, et la valeur moyenne d une variable peut être obtenue à l intérieur des cellules du tableau. On peut placer ces valeurs soit dans un seul tableau à raison de six au plus par cellule, soit une par une sous forme de tableaux séparés. Statistiques univariées. Sont disponibles les statistiques suivantes : la moyenne, le mode, la médiane, la variance (non biaisée), l écart-type, le coefficient de variation, le coefficient d asymétrie et le coefficient d aplatissement. Il y a aussi une option (NTILE) permettant d obtenir des quantiles. On peut demander une répartition allant de trois (terciles) à dix (déciles) parties. Statistiques bivariées. On peut obtenir les statistiques suivantes : - tests t de Student des moyennes (présuppose des populations indépendantes) entre paires de ligne, - Chi-deux, coefficient de contingence et V de Cramer, - Taus de Kendall, Gamma, Lambdas, - S (numérateur des statistiques tau et gamma), son écart-type, sa déviation normale et sa variance, - rho de Spearman, - statistiques utilisées dans la médecine factuelle (Evidence Based Medicine - EBM), - tests non paramétriques : Wilcoxon, Mann-Whitney et Fisher. Matrices de statistiques. On peut imprimer ou envoyer dans un fichier en sortie des matrices de n importe lesquelles des statistiques mentionnées ci-dessus, à l exception des tests t, des statistiques EBM et des statistiques impliquant S. On peut aussi produire les matrices correspondantes avec les n pondérés et/ou non pondérés. Tableaux à 3 et 4 entrées. On peut créer de tels tableaux à l aide des options de répétition et de découpage en sous-ensembles offertes par le programme. On peut imaginer la variable de répétition comme une variable

310 290 Tableaux univariés et bivariés (TABLES) de contrôle ou comme une variable de «panel». L option servant à créer des sous-ensembles peut en outre être utilisée pour la sélection d observations destinées à faire partie d un groupe particulier de tableaux. Tableaux des sommes. En spécifiant comme poids la variable dépendante, on peut obtenir des tableaux dont les cellules contiennent la somme de la variable dépendante. Par exemple, pour obtenir le revenu total de tous les répondants tombant dans une cellule du tableau, on spécifiera WEIGHT=V208, V208 représentant le revenu des répondants. Note. Le programme offre à l utilisateur les options suivantes lui permettant de contrôler la présentation des résultats : attribution d un titre à chaque série de tableaux; impression des pourcentages et des moyennes, s il sont demandés, dans des tableaux séparés; suppression du quadrillage des cellules; possibilité d imprimer les lignes n ayant pas d entrée pour une section particulière d un grand tableau de fréquences; les tableaux avec plus de dix colonnes sont imprimés par sections et l option «lignes avec uniquement des zéros» permet de s assurer que les différentes sections ont le même nombre de lignes (ce qui est important s il faut procéder à leur découpage et recollage) Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection d un sous-ensemble d observations à partir des données d entrée. En outre, pour sélectionner un sous-ensemble d observations pour un tableau particulier, on dispose des filtres locaux et des facteurs de répétition. Pour les tableaux définis individuellement, la(les) variable(s) à utiliser sont sélectionnées à l aide des paramètres R et C de spécification de tableau. Lorsqu on traite un ensemble de tableaux, les variables sont sélectionnées avec les paramètres ROWVARS et COLVARS. Transformation de données. Les instructions Recode peuvent être utilisées. On notera que le paramètre NDEC permet de spécifier le nombre de décimales à retenir pour les variables R. Pondération de données. On dispose de la possibilité de spécifier une variable poids pour chaque ensemble de tableaux. Les variable V et R avec des décimales sont multipliées par un facteur d échelle pour obtenir des valeurs entiers. Voir la section «Dataset en entrée» ci-dessous. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Traitement des données manquantes. 1. On dispose du paramètre MDVALUES pour définir quelles données considérer comme données manquantes. 2. Les fréquences univariées et bivariées sont systématiquement imprimées pour tous les codes figurant dans les données, qu ils représentent ou non des données manquantes. L élimination complète des données manquantes s obtient en utilisant un filtre ou en spécifiant un sous-ensemble. Alternativement, on peut aussi définir des valeurs minimum et/ou maximum appropriées pour les lignes et pour les colonnes. 3. À titre facultatif, on peut inclure les observations avec données manquantes dans le calcul des pourcentages et des statistiques bivariées. Ceci peut s effectuer à l aide du paramètre de tableau MDHAND- LING. 4. Les observations avec données manquantes dans la variable de cellule sont toujours exclues des tableaux univariés et bivariés. 5. Les observations avec données manquantes sont toujours exclues du calcul des statistiques univariées.

311 37.3 Résultats Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Table des matières du listage. Elle donne la liste des tableaux produits par le programme avec le numéro de la page où ils figurent. On y trouve les informations suivantes : - les numéros des variables de lignes et de colonnes (0 s il n y en a pas) - le numéro de la variable pour la valeur moyenne (0 s il n y en a pas) - le numéro de la variable poids (0 s il n y en a pas) - les valeurs minimum et maximum par ligne (0 s il n y en a pas) - les valeurs minimum et maximum par colonne (0 s il n y en a pas) - le nom du filtre et le nom du facteur de répétition - les pourcentages : par ligne, par colonne et total (T=demandé, F=non demandé) - RMD : données manquantes pour les variables de lignes (T=supprimer, F=ne pas supprimer) - CMD : données manquantes pour les variables de colonnes (T=supprimer, F=ne pas supprimer) - CHI : Chi-deux (T=demandé, F=non demandé) - TAU : tau a, b ou c (T=demandé, F=non demandé) - GAM : gamma (T=demandé, F=non demandé) - TEE : tests t (T=demandé, F=non demandé) - EXA : test non paramétrique de Fisher (T=demandé, F=non demandé) - WIL : test non paramétrique de Wilcoxon (T=demandé, F=non demandé) - MW : test non paramétrique de Mann-Whitney (T=demandé, F=non demandé) - SPM : rho de Spearman (T=demandé, F=non demandé) - EBM : statistiques utilisées dans la médecine factuelle (Evidence Based Medicine). Les tableaux demandés avec les paramètres PRINT=MATRIX ou WRITE=MATRIX ne sont pas mentionnés dans la table des matières et ils sont toujours imprimés en premier avec numéros négatifs de pages et de tableaux. Les autres tableaux sont imprimés selon l ordre spécifié, excepté les tableaux pour lesquels seules des statistiques univariées ont été demandées; ces tableaux sont toujours regroupés à la fin. Tableaux bivariés. Chacun d entre eux commence sur une nouvelle page; un grand tableau peut occuper plus d une page. L impression des tableaux s effectue avec un maximum de 10 colonnes et de 16 lignes par page, selon le nombre d items dans chaque cellule. Les colonnes et les lignes sont imprimées uniquement pour les codes figurant dans les données. Les totaux de colonnes et de lignes et les fréquences marginales cumulatives, ainsi que les pourcentages s ils sont demandés, sont imprimés autour des bords du tableau. Un tableau volumineux est imprimé morceau par morceau, par bandes verticales. Par exemple, un tableau avec 40 codes pour les lignes et 40 codes pour les colonnes sera normalement imprimé en 12 pages comme indiqué dans le diagramme ci-dessous, où les chiffres figurant dans les cellules indiquent l ordre dans lequel les pages sont imprimées : 1er 10 2e 10 3e 10 4e 10 codes 1er 16 codes e 16 codes dernier 8 codes Statistiques bivariées. (Facultatif : voir le paramètre STATS). Tests t. (Facultatif : voir le paramètre STATS). Si on a demandé les tests t, ceux-ci sont imprimés sur une page séparée avec les moyennes et les écarts-types de la variable de colonne pour chaque ligne. Matrices de statistiques bivariées. (Facultatif : voir le paramètre PRINT). Le programme imprime le coin inférieur gauche de la matrice, à raison de 8 colonnes et de 25 lignes par page.

312 292 Tableaux univariés et bivariés (TABLES) Matrice des N. (Facultatif : voir le paramètre PRINT). L impression est effectuée dans le même format que celui de la matrice de statistiques correspondante. Tableaux univariés. (Facultatif : voir le paramètre CELLS). Normalement, chaque tableau univarié commence sur une nouvelle page. S ils sont demandés, le programme imprime les fréquences, les pourcentages et les valeurs moyennes pour dix codes par ligne. Statistiques univariées. (Facultatif : voir le paramètre USTATS). Quantiles. (Facultatif : voir le paramètre NTILE). Le programme imprime N-1 points ; par ex. si l on demande des quartiles, on affecte la valeur 4 au paramètre NTILE et le programme imprimera 3 points de coupure. Numérotation des pages. Figure sous la forme : ttt.rr.ppp où ttt = le numéro du tableau rr = le numéro de répétition (00 si pas de répétition) ppp = le numéro de page à l intérieur du tableau Tableaux univariés/bivariés en sortie Les tableaux univariés/bivariés contenant les statistiques demandées par le paramètre CELLS peuvent être sauvegardés en spécifiant WRITE=TABLES. Les tableaux sont dans le format d une matrice rectangulaire d IDAMS (voir le chapitre «Les données dans IDAMS»). Le programme produit une matrice pour chaque statistique demandée. Si l on utilise un facteur de répétition, il y aura autant de matrices que de répétitions. Les colonnes de l enregistrement descripteur de la matrice contiennent les informations supplémentaires suivantes : Nom de la variable de ligne (pour les tableaux bivariés) Nom de la variable de colonne Description des valeurs dans la matrice. Les enregistrements d identification des variables (#R et #C) contiennent les valeurs et les noms de codes pour les variables de ligne et de colonne respectivement. Les statistiques sont écrites sous la forme d enregistrements de 80 caractères selon le format Fortran 7F10.0. Les colonnes contiennent l ID ci-dessous : Identification de la statistique : FREQ, UNFR, ROWP, COLP, TOTP ou MEAN Numéro du tableau. Noter que les codes de données manquantes ne sont pas inclus dans la matrice Matrices des statistiques bivariées en sortie On peut sélectionner des statistiques et les envoyer dans un fichier en sortie. Si, par exemple, on choisit des gammas et des taus b, le programme va générer séparément une matrice de gammas et une matrice de taus b. On demande au programme de produire des matrices de statistiques bivariées en spécifiant dans la liste des paramètres de tableau WRITE=MATRIX et ensuite soit ROWVARS soit ROWVARS et COLVARS paramètres servant à définir les tableaux. Dans le cas où l on utilise un facteur de répétition, le programme génère une matrice pour chaque répétition. Les matrices sont dans le format de matrices IDAMS carrées ou rectangulaires (voir le chapitre «Les données dans IDAMS»). Les valeurs à l intérieur sont écrites dans le format Fortran 6F11.5. Les colonnes contiennent l ID ci-dessous : Identification de la statistique : TAUA, TAUB, TAUC, GAMM, LSYM, LRD, LCD, CHI, CRMV, RHO Numéro du tableau. Note. Si l on spécifie ROWVARS, le programme écrit des enregistrements fictifs de moyennes et d écartstypes, à raison de 2 enregistrements pour 60 variables. Le deuxième enregistrement de format dans le dic-

313 37.6 Dataset en entrée 293 tionnaire (#F) spécifie 60I1 comme format pour ces enregistrements fictifs. Il en est ainsi pour que le format de la matrice soit conforme au format d une matrice carrée d IDAMS Dataset en entrée C est un fichier de données décrit par un dictionnaire IDAMS. À l exception des variables du filtre principal, toutes les autres variables utilisées par le programme doivent être numériques. En ce qui concerne les distributions et les poids, les variables V et R avec décimales sont multipliées par un facteur d échelle pour obtenir des valeurs entières. Ce facteur est calculé comme 10 n où n est le nombre de décimales provenant du dictionnaire pour les variables V et du paramètre NDEC pour les variables R ; il est imprimé pour chaque variable. Les statistiques univariées sans distributions sont calculées en utilisant le nombre de décimales provenant du dictionnaire pour les variables V et du paramètre NDEC pour les variables R. Les champs contenant des caractères non numériques (y compris les blancs) peuvent être mis en tableaux en fixant le paramètre BADDATA à MD1 ou MD2. Voir le chapitre «Le fichier Setup d IDAMS» Structure du setup $RUN TABLES $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres 4. Spécifications de sous-ensembles (facultatif) 5. TABLES 6. Spécifications de tableaux (répétées autant de fois que nécessaire) $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : FT02 tableaux/matrices en sortie DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) PRINT résultats (défaut IDAMS.LST)

314 294 Tableaux univariés et bivariés (TABLES) 37.8 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 et 6 ci-dessous. 1. Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V3=6 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : TABLEAUX DE FRÉQUENCES 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Les nouveaux paramètres sont précédés d un astérisque. Exemple : BADDATA=SKIP INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». * NDEC=0/n Nombre de décimales (maximum 4) à retenir pour les variables R. PRINT=(CDICT/DICT, TIME) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. TIME Imprimer après chaque tableau son temps d exécution. 4. Spécifications de sous-ensembles (facultatif). Ces instructions permettent de sélectionner un sousensemble d observations pour un tableau ou pour une série de tableaux. Exemple : CLASSE INCLUDE V8=1,2,3,-7,9 Il y a deux types de spécifications de sous-ensembles : les filtres locaux et les facteurs de répétition. Leur fonction est différente, mais leur format est très similaire. On peut utiliser une spécification comme filtre local pour un ou plusieurs tableaux et comme facteur de répétition pour d autres tableaux. Règles de codage Prototype : nom instruction nom Nom du sous-ensemble. 1-8 caractères alphanumériques commençant par une lettre. Ce nom doit correspondre exactement au nom utilisé ensuite dans les spécifications d analyse. Les blancs intercalaires ne sont pas autorisés. Il est recommandé de justifier tous les noms à gauche.

315 37.8 Instructions de contrôle du programme 295 instruction Définition du sous-ensemble qui suit la syntaxe de l instruction de filtre standard d IDAMS. Pour les facteurs de répétition, on ne peut spécifier qu une seule variable dans l expression. La manière dont opèrent les filtres locaux et les facteurs de répétition est décrite ci-dessous. Filtres locaux. Ils sont identifiés comme tels par le programme, pour un tableau ou pour une série de tableaux, lorsqu on spécifie le nom du sous-ensemble avec le paramètre FILTER. Le filtre local opère de la même façon que le filtre standard, sauf qu il s applique exclusivement à la (aux) spécification(s) de tableau(x) où il figure. Exemple : EDUCATN INCLUDE V4=0-4,9 AND V5=1 (nom du sous-ensemble) (expression) Dans l exemple ci-dessus, si EDUCATN est désigné comme filtre local dans la spécification du tableau, le programme produira un tableau contenant seulement les observations codées 0, 1, 2, 3, 4 ou 9 pour V4 et 1 pour V5. Facteurs de répétition. Ils sont identifiés comme tels par le programme pour un tableau ou pour une série de tablaux, lorsqu on spécifie le nom du sous-ensemble avec le paramètre REPE. Dans une spécification de sous-ensemble, on ne peut citer qu une seul variable à utiliser comme facteur de répétition. Les facteurs de répétition permettent de produire des tableaux à 3 entrées, dans lesquels on peut considérer la variable utilisée dans le facteur de répétition comme une variable de contrôle ou de «panel». En utilisant un facteur de répétition et un filtre, on peut obtenir des tableaux à 4 entrées. L expression INCLUDE a pour effet de produire des tableaux incluant les observations pour chaque valeur, ou intervalle de valeurs, de la variable de contrôle utilisée dans l expression. Les intervalles de valeurs sont séparés par des virgules. Donc, s il y a n virgules dans l expression, le programme produira n+1 tableaux. Exemple : EDUCATN INCLUDE V4=0-4,9 (nom du sous-ensemble) (expression) Dans l exemple ci-dessus, si EDUCATN est désigné comme facteur de répétition, le programme produira deux tableaux : l un incluant les observations codées 0-4 pour la variable 4 et l autre incluant les observations codées 9 pour la variable 4. EXCLUDE peut être utilisé pour produire des tableaux contenant toutes les valeurs à l exception de celles spécifiées dans l expression. Exemple : EDUCATN EXCLUDE V1=1,4 (nom du sous-ensemble) (expression) Dans l exemple ci-dessus, si EDUCATN est désigné comme facteur de répétition, le programme produira deux tableaux : l un incluant toutes les valeurs sauf 1, l autre toutes les valeurs sauf TABLES. Le mot TABLES sur cette ligne signale que les spécifications de tableaux vont suivre. Il doit être inclus (ceci pour séparer les spécifications de sous-ensembles de celles de tableaux) et ne peut apparaître qu une fois. 6. Spécifications de tableaux. Elles servent à décrire les caractéristiques des tableaux à produire par le programme. Les règles de codage sont les mêmes que pour les paramètres. Chaque spécification doit commencer sur une nouvelle ligne. Exemples : R=(V6,1,8) CELLS=FREQS R=(V6,1,8) C=(V9,0,4) - REPE=SEX CELLS=(ROWP,FREQS) ROWV=(V5-V9) CELLS=FREQS USTA=MEAN ROWV=(V3,V5) COLV=(V21-V31) - R=(0,1,8) C=(0,1,99) (Un tableau univarié). (Un tableau bivarié avec un facteur de répétition, càd un tableau à 3 entrées). (Un jeu de tableaux univariés). (Un jeu de tableaux bivariés).

316 296 Tableaux univariés et bivariés (TABLES) ROWVARS=(liste de variables) Liste de variables dont on demande les fréquences univariées ou qui seront utilisées comme variables de ligne dans des tableaux bivariés. COLVARS=(liste de variables) Liste de variables qui seront utilisées comme variables de colonne dans des tableaux bivariés. R=(var, rmin, rmax) var Numéro de la variable de ligne ou d une variable univariée. Si l on veut indiquer au programme les valeurs minimum et maximum pour une série de tableaux, il faut fixer le numéro de la variable à zéro, par ex. R=(0,1,5); dans ce cas, les codes minimum et maximum s appliqueront à toutes les variables dans la liste des variables de ROW- VARS. rmin Code minimum de la variable (des variables) de ligne pour les calculs de statistiques et de pourcentages. rmax Code maximum de la variable (des variables) de ligne pour les calculs de statistiques et de pourcentages. Si l on spécifie rmin ou rmax, il faut spécifier les deux. Si on spécifie seulement le numéro de la variable, les valeurs minimum et maximum ne sont pas appliquées. C=(var, cmin, cmax) var Numéro de variable de colonne quand il n y a qu un seul tableau bivarié. Si l on veut indiquer au programme les valeurs minimum et maximum pour une série de tableaux, il faut fixer le numéro de la variable à zéro, par ex. C=(0,2,5); dans ce cas, les codes minimum et maximum s appliqueront à toutes les variables dans la liste des variables de COLVARS. cmin Code minimum de la variable (des variables) de colonne pour les calculs de statistiques et de pourcentages. cmax Code maximum de la variable (des variables) de colonne pour les calculs de statistiques et de pourcentages. Si l on spécifie cmin ou cmax, il faut spécifier les deux. Si on spécifie seulement le numéro de la variable, les valeurs minimum et maximum ne sont pas appliquées. TITLE= titre du tableau Titre à imprimer par le programme en tête de chaque tableau dans cette série. Défaut : pas de titre. CELLS=(ROWPCT, COLPCT, TOTPCT, FREQS/NOFREQS, UNWFREQS, MEAN) Contenu des cellules des tableaux quand on spécifie PRINT=TABLES ou WRITE=TABLES. ROWP Pourcentages pour les tableaux univariés ou pourcentages basés sur les totaux de lignes pour les tableaux bivariés. COLP Pourcentages basés sur les totaux de colonnes dans les tableaux bivariés TOTP Pourcentages basés sur le total général dans les tableaux bivariés. FREQ Fréquences pondérées (si WEIGHT n est pas spécifié, revient au même que fréquences non pondérées). UNWF Fréquences non pondérées. MEAN Moyenne de la variable spécifiée avec VARCELL. VARCELL=numéro de variable Numéro de la variable pour laquelle on demande le calcul de la valeur moyenne pour chacune des cellules du tableau.

317 37.8 Instructions de contrôle du programme 297 MDHANDLING=ALL/R/C/NONE Indique quelles valeurs de données manquantes il faut exclure des calculs de pourcentages et des statistiques bivariées. ALL Supprimer toutes les valeurs de données manquantes. R Supprimer les valeurs de données manquantes des variables de ligne. C NONE Supprimer les valeurs de données manquantes des variables de colonne. Ne pas supprimer les données manquantes. Note : les observations avec données manquantes sont toujours exclues des statistiques univariées. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données. FILTER=xxxxxxxx Nom de 1-8 caractères attribué à la spécification du sous-ensemble que le programme utilisera comme filtre local. Placer le nom entre primes s il contient des caractères non alphanumériques. Si le nom du filtre ne correspond pas à une spécification de sous-ensemble, le tableau sera omis par le programme. Il faut utiliser des lettres majuscules afin de s aligner sur le nom du sous-ensemble que le programme convertit automatiquement en lettres majuscules. REPE=xxxxxxxx Nom de 1-8 caractères attribué à la spécification du sous-ensemble que le programme utilisera comme facteur de répétition. Placer le nom entre primes s il contient des caractères non alphanumériques. Si ce nom ne correspond pas à une spécification de sous-ensemble, le tableau sera omis par le programme. Les tableaux seront répétés pour chaque groupe d observations qui est spécifié. Il faut utiliser des lettres majuscules afin de s aligner sur le nom du sous-ensemble que le programme convertit automatiquement en lettres majuscules. USTATS=(MEANSD, MEDMOD) (Uniquement pour les tableaux univariés). MEAN Imprimer la moyenne, les valeurs minimum et maximum, la variance (non biaisée), l écart-type, le coefficient de variation, le coefficient d asymétrie, le coefficient d aplatissement, le nombre total d observations pondéré et non pondéré. MEDM Imprimer la médiane et le mode (s il y a le même nombre d observations pour deux ou plusieur codes - «liens dans les données», le programme choisit le code avec la valeur la plus petite numériquement). NTILE=n (Uniquement pour les tableaux univariés). n est le nombre de quantiles à calculer; il doit se situer dans l intervalle STATS=(CHI, CV, CC, LRD, LCD, LSYM, SPMR, GAMMA, TAUA, TAUB, TAUC, EBMSTAT, WILC, MW, FISHER, T) Si l on veut imprimer ou produire en sortie des statistiques bivariées, il faut soumettre le paramètre STAT avec chacune des statistiques désirées. Tableaux bivariés et matrices de sortie CHI Chi-deux. (Si MATRIX n est pas spécifié, le programme calcule CHI, CV et CC dès que l un d eux est demandé). CV Le V de Cramer. CC Coefficient de contingence. LRD Lambda, variable ligne est la variable dépendante. (Si MATRIX n est pas spécifié, le programme calcule les trois lambdas dès que l un d eux est demandé). LCD Lambda, variable colonne est la variable dépendante. LSYM Lambda, symétrique. SPMR Statistique rho de Spearman. GAMM Statistique Gamma. TAUA Tau a. (Si MATRIX n est pas spécifié, le programme calcule les trois taus dès que l un d eux est demandé).

318 298 Tableaux univariés et bivariés (TABLES) TAUB Tau b. TAUC Tau c. Tableaux bivariés uniquement EBMS Statistiques utilisées dans la médecine factuelle. WILC Test des rangs signés de Wilcoxon. MW Test de Mann-Whitney. FISH Test exact de Fisher. T Tests t entre toutes les combinaisons de ligne, jusqu à 50 lignes maximum. DECPCT=2/n Nombre de décimales imprimées pour les pourcentages, 4 au maximum. DECSTATS=2/n Nombre de décimales imprimées pour les statistiques suivantes : moyenne, médiane, taus, gamma, lambdas et Chi-deux. Toutes les autres statistiques seront imprimées avec 2+n décimales. WRITE=MATRIX/TABLES Si l on demande au programme de produire un fichier en sortie, il faut soumettre le paramètre WRITE et préciser le type de sortie. MATR Produire les matrices des statistiques sélectionnées. Si ROWVARS seul est spécifié, produire une matrice carrée pour chacune des statistiques demandées avec STATS en utilisant toutes les paires de variables se trouvant dans la liste. Si ROWVARS et COLVARS sont spécifiés, produire une matrice rectangulaire pour chacune des statistiques demandés avec STATS en utilisant chaque variable de la liste ROWVARS appariée avec chaque variable de la liste COLVARS. TABL Produire en sortie les tableaux de statistiques demandées avec le paramètre CELLS. PRINT=(TABLES/NOTABLES, SEPARATE, ZEROS, CUM, GRID/NOGRID, N, WTDN, MATRIX) Options valables uniquement pour les tableaux univariés/bivariés. TABL Imprimer les tableaux avec les items spécifiés par le paramètre CELLS. SEPA Imprimer chaque item spécifié par le paramètre CELLS dans un tableau séparé. ZERO Conserver les lignes avec uniquement des zéros. (Applicable seulement dans le cas où le tableau a plus de 10 colonnes et doit par conséquent être imprimé par morceau). CUM Imprimer les fréquences marginales cumulatives et les pourcentages cumulatifs de lignes et de colonnes. Si les données sont pondérées, les chiffres sont calculés uniquement sur les fréquences pondérées. GRID Imprimer une grille autour des cellules des tableaux bivariés. NOGR Supprimer la grille autour des cellules des tableaux bivariés. Options valables uniquement avec WRITE=MATRIX. N Imprimer la matrice des n pour les matrices de statistiques demandées. WTDN Imprimer la matrice des n pondérés pour les matrices de statistiques demandées. MATR Imprimer les matrices de statistiques spécifiées avec STATS Restrictions 1. Pour les fréquences univariées, le nombre maximum de variables est La combinaison des variables et des spécifications de sous-ensembles est soumise à la restriction suivante : 5NV + 107NF < 8499 où NF est le nombre de spécifications de sous-ensembles et NV est le nombre de variables.

319 37.10 Exemple Les valeurs des codes pour les tableaux univariés doivent se situer dans l intervalle de -2,147,483,648 à 2,147,483, Les valeurs des codes pour les tableaux bivariés doivent se situer dans l intervalle de -32,768 à 32,768. Toute valeur de code en dehors de cet intervalle est automatiquement recodée à une valeur située à l extrémité de l intervalle, par ex. -40,000 deviendra -32,768 et 40,000 deviendra 32,768. En conséquence, dans la spécification d un tableau bivarié, 32,768 est la «valeur maximum» la plus élevée. (On notera que sur le listage, une variable de 5 chiffres avec un code de données manquantes de aura une ligne de données manquantes nommée 32,768). 5. Pour un tableau (ainsi que pour toute cellule, ligne, colonne), la fréquence cumulative maximum pondérée ou non est 2,147,483, Taille maximum d un tableau. Bivarié : 500 codes de lignes, 500 codes de colonnes, 3000 cellules contenant des valeurs différentes de zéro. Univarié : 3000 catégories quand on demande les fréquences, la médiane/le mode ; sinon nombre illimité de catégories. Note : pour une variable telle que le revenu, s il y a plus de 3000 valeurs différentes, on ne peut obtenir la médiane ou le mode sans regrouper au préalable les valeurs de la variable. 7. Pour les distributions et les poids, les valeurs non entières des variables V sont traitées comme s il n y avait pas de point décimal; pour chaque variable, le programme imprime le facteur d échelle. 8. Les tests t des moyennes entre les lignes sont effectués seulement sur les 50 premières lignes d un tableau. 9. Pour une matrice de statistiques bivariées en sortie, on peut demander un maximum de 95 variables par ligne ou par colonne. 10. Si l on veut produire des fichiers de sortie pour les tableaux ainsi que pour les matrices de statistiques, ils sont envoyés dans le même fichier physique. 11. Quand on utilise des variables recodées, il n y a pas moyen d attribuer un nom aux lignes et aux colonnes Exemple Dans l exemple ci-dessous, on demande la production des tableaux suivants : 1. Dénombrement des fréquences pour les variables V201-V Statistiques univariées sans tableaux de fréquences pour les variables V54-V62 et V64. Les moyennes auront 1 décimale et les autres statistiques 3 décimales. 3. Dénombrement des fréquences pondérées et non pondérées et calcul des pourcentages avec les fréquences cumulatives et les pourcentages pour les variables V25-V30 et pour une version de la variable V7 regroupée. Les observations avec données manquantes ne sont pas exclues des pourcentages ni des statistiques. On veut obtenir la médiane et le mode. 4. Dénombrement des fréquences pour les catégories de la variable V201, et moyenne de la variable V tableaux bivariés (avec en lignes les variables V25-V28 et en colonnes les variables V29, V30) répétés en fonction des valeurs 1 et 2 de la variable V10 (sexe), càd en utilisant le sexe comme variable de «panel» (ou contrôle). Chaque cellule du tableau contiendra le compte des fréquences ainsi que les pourcentages en ligne, en colonne et globaux. On demande les statistiques Chi-deux et Taus. 6. Tableaux à 3 entrées en utilisant la région (V3) répartie en 3 catégories comme variable de «panel». Les tableaux sont restreints aux observations correspondant aux hommes (V10=1). Chaque cellule du tableau contiendra le compte des fréquences et la moyenne de la variable V54.

320 300 Tableaux univariés et bivariés (TABLES) 7. Un tableau pour le décompte des fréquences pondérées des variables V19 (ligne) et V52 (colonne), en excluant les observations pour lesquelles ces variables ont la valeur Calcul des matrices de statistiques Tau A et Gamma pour toutes les paires de variables V54-V62, leur impression et leur envoi dans un fichier de sortie. Le programme imprimera également un tableau donnant le nombre d observations valides pour chaque paire de variables. $RUN TABLES $FILES PRINT = TABLES.LST FT02 = TREE.MAT matrices de statistiques DICTIN = TREE.DIC fichier Dictionnaire en entrée DATAIN = TREE.DAT fichier Données en entrée $RECODE R7=BRAC(V7,0-15=1,16-25=2,26-35=3,36-45=4,46-98=5,99=9) NAME R7 V7 REGROUPÉE $SETUP EXEMPLE DU PROGRAMME TABLES BADDATA=MD1 HOMME INCLUDE V10=1 SEXE INCLUDE V10=1,2 REGION INCLUDE V3=1-2,3-4,5 MD EXCLUDE V19=9 OR V52=9 TABLES 1. ROWV=(V201-V220) TITLE= Compte des fréquences 2. ROWV=(V54-V62,V64) USTATS=MEANSD PRINT=NOTABLES DECSTAT=1 3. ROWV=(V25-V30,R7) USTATS=MEDMOD CELLS=(FREQS,UNWFREQS,ROWP) - WEIGHT=V9 PRINT=CUM MDHAND=NONE 4. R=(V201,1,3) CELLS=(FREQS,MEAN) VARCELL=V54 5. ROWV=(V25-V28) COLV=(V29-V30) - CELLS=(FREQS,ROWP,COLP,TOTP) STATS=(CHI,TAUA) REPE=SEXE 6. ROWV=(V201-V203) COLV=V206 - CELLS=(FREQS,MEAN) VARCELL=V54 REPE=REGION FILT=HOMME 7. R=V19 C=V52 WEIGHT=V9 FILT=MD 8. ROWV=(V54-V62) STATS=(TAUA,GAMMA) PRINT=(MATRIX,N) WRITE=MATRIX

321 Chapitre 38 Typologie et classification ascendante (TYPOL) 38.1 Description générale TYPOL crée une variable de classification qui résume un grand nombre de variables. En vue de constituer le noyau initial des groupes, on peut utiliser une variable de classification initiale définie «a priori» (variable clé), ou un échantillon au hasard d observations, ou un échantillon construit pas à pas. Une procédure itérative affine les résultats en stabilisant les noyaux. Les groupes finaux constituent les catégories de la variable de classification que l on recherche. On peut réduire le nombre de catégories à l aide d un algorithme de classification hiérarchique ascendante. Les variables actives sont celles utilisées par le programme pour effectuer le groupement et le regroupement des observations. On peut aussi demander les statistiques principales d autres variables à l intérieur des groupes construits en fonction des variables actives. Ces variables (qui n ont pas d influence sur la construction des groupes) sont appelées variables passives. TYPOL accepte des variables quantitatives et des variables qualitatives, ces dernières étant traitées comme quantitatives après dichotomisation complète de catégories respectives, ce qui aboutit à la construction d autant de variables dichotomisées (1/0) qu il y a de catégories dans la variable qualitative. Le programme offre la possibilité de réduire les variables actives (aussi bien les variables quantitatives que les variables qualitatives après dichotomisation de ces dernières). TYPOL travaille en deux étapes. 1. Construction d une typologie initiale. Le programme construit une typologie de n groupes selon la demande de l utilisateur, à partir d observations caractérisées par un nombre donné de variables (considérées comme étant quantitatives). L utilisateur peut choisir la manière dont sera établie la configuration initiale (voir le paramètre INITIAL) et aussi le type de distance (voir le paramètre DTYPE) dont se servira le programme pour calculer la distance entre les observations et les groupes. 2. Classification ascendante supplémentaire (facultatif). Au cas où l utilisateur veuille obtenir une typologie avec moins de groupes, le programme - au moyen d un algorithme de classification hiérarchique ascendante - réduit un par un le nombre de groupes jusqu au nombre fixé par l utilisateur Caractéristiques standard d IDAMS Sélection d observations et de variables. On dispose du filtre standard pour opérer la sélection d un sousensemble d observations à partir des données d entrée. Les variables sont spécifiées à l aide de paramètres. Transformation de données. Les instructions Recode peuvent être utilisées. Pondération de données. On peut utiliser une variable pour pondérer les données d entrée; cette variable

322 302 Typologie et classification ascendante (TYPOL) poids peut prendre une valeur entière ou une valeur décimale. Le programme ignore les observations dont les valeurs de pondération contiennent des données manquantes, des zéros, des valeurs négatives ou des valeurs non numériques, et il imprime le nombre des observations traitées de cette façon. Traitement des données manquantes. Le paramètre MDVALUES permet à l utilisateur, s il le souhaite, d indiquer au programme les valeurs de données manquantes à utiliser pour vérifier si les données d entrée en contiennent. Les observations avec données manquantes dans les variables quantitatives peuvent être exclues de l analyse (voir le paramètre MDHANDLING) Résultats Dictionnaire d entrée. (Facultatif : voir le paramètre PRINT). Enregistrements descripteurs des variables et des enregistrements C, s il y en a, et ceci uniquement pour les variables utilisées durant l exécution du programme. Typologie initiale Construction d une typologie initiale. (Facultative : voir le paramètre PRINT). Le regroupement des groupes initiaux, suivi par une table référençant les groupes par les numéros qui leur sont affectés avant et après la constitution des groupes initiaux. Tableau(x) montrant la redistribution des observations d une itération à la suivante, et donnant le pourcentage du nombre total d observations correctement classées. Evolution du pourcentage de la variance expliquée d une itération à la suivante. Caractéristiques des distances par groupe de la typologie. Le nombre d observations pour chaque groupe de la typologie initiale, avec la valeur moyenne et l écart-type des distances. Tableaux des distances. (Facultatif : voir le paramètre PRINT). Tableaux montrant à l intérieur de chaque groupe la distribution des observations au travers de quinze intervalles continus, ceux-ci étant : différents pour chaque groupe (1er tableau), identiques pour tous les groupes (2ème tableau). Caractéristiques globales des distances. Le nombre total d observations, avec la moyenne globale et l écart-type global des distances. Statistiques récapitulatives. La moyenne, l écart-type et le poids affecté à chaque variable pour les variables quantitatives et pour les catégories des variables qualitatives actives. Description de la typologie résultante. Le programme donne d abord le numéro de chaque groupe de la typologie avec le pourcentage d observations lui appartenant. Il fournit ensuite des statistiques variable par variable dans l ordre suivant : (1) variables quantitatives actives; (2) variables quantitatives passives; (3) variables qualitatives actives; (4) variables qualitatives passives. Pour chaque variable quantitative sont fournis : son pourcentage de variance expliquée, sa moyenne générale et, à l intérieur de chaque groupe, sa valeur moyenne et son écart-type pour le groupe. Pour chaque catégorie de la variable qualitative sont fournis : d abord sa quantité de variance expliquée et le pourcentage d observations lui appartenant; ensuite, à l intérieur de chaque groupe de la typologie, le pourcentage des observations : (1) verticalement au travers des catégories de la variable (1ère ligne) et (2) horizontalement au travers des groupes de la typologie (2ème ligne) (facultatif : voir le paramètre PRINT). Sommaire du montant de la variance expliquée par la typologie. Le programme fournit les pourcentages suivants de variance expliquée : le montant de la variance expliquée par les variables les plus discriminantes, càd celles qui prises toutes ensemble sont responsables de quatre vingt pour cent de la variance expliquée, le montant moyen de la variance expliquée par les variables actives,

323 38.4 Dataset en sortie 303 le montant moyen de la variance expliquée par toutes les variables prises ensemble, le montant moyen de la variance expliquée par les variables les plus discriminantes avec la proportion de ces variables. Note : lorsque des variables qualitatives apparaissent dans des tableaux, les 12 premiers caractères du nom de la variable sont imprimés avec le code identifiant la catégorie. Quand ce sont des variables quantitatives, la totalité des 24 caractères du nom de la variable est imprimée. Classification hiérarchique ascendante Tableau des racines carrées des déplacements et distances calculées pour chaque paire de groupes. (Facultatif : voir le paramètre PRINT). Tableau du regroupement No 1. Les statistiques récapitulatives pour les variables quantitatives et pour les catégories des variables qualitatives actives impliquées dans le regroupement. Description de la nouvelle typologie résultante. (Facultatif : voir le paramètre LEVELS). Mêmes informations que ci-dessus. Sommaire du montant de la variance expliquée par la nouvelle typologie. Mêmes informations que ci-dessus. Le montant moyen de la variance expliquée par les variables les plus discriminantes avant le regroupement est imprimé. Le programme produit après chaque regroupement un récapitulatif de la classification hiérarchique ascendante jusqu à ce qu il atteigne le nombre de groupes spécifié par l utilisateur. Trois diagrammes visualisant le pourcentage de la variance expliquée comme une fonction du nombre de groupes des typologies successives, et ceci tour à tour pour : toutes les variables, les variables actives, les variables expliquant quatre vingt pour cent de la variance avant que le regroupement n ait eu lieu. Profil de chaque groupe de la typologie. (Facultatif : voir le paramètre PRINT). D abord avant les regroupements, ensuite les résultats de chaque regroupement à tour de rôle. Arbre hiérarchique imprimé à la fin Dataset en sortie L utilisateur peut demander en sortie un dataset de «variable de classification» pour la première typologie résultant des calculs, dataset qui est produit par le programme sous la forme d un fichier Données décrit par un dictionnaire IDAMS (voir le paramètre WRITE et le chapitre «Les données dans IDAMS»). Il contient la variable ID des observations, les variables transférées, la variable de classification («GROUP NUMBER») et, pour chaque observation, sa distance multipliée par 1000 par rapport à chaque catégorie de la variable de classification, appelées («n GROUP DISTANCE»). Les variables sont numérotées à partir de un et incrémentées d une unité dans l ordre suivant : variable ID des observations, variables transférées, variable de classification et variables de distance Matrice de configuration en sortie A titre facultatif, on peut écrire dans un fichier en sortie une matrice de configuration sous la forme d une matrice rectangulaire IDAMS (voir le paramètre WRITE). Voir le chapitre «Les données dans IDAMS» pour une description du format. Pour chaque variable quantitative et pour chaque catégorie des variables qualitatives actives, le programme fournit ligne par ligne sa valeur moyenne au travers des groupes et son écart-type global pour la typologie initiale, càd avant que les regroupements n aient lieu. Les éléments de la matrice sont écrits dans le format 8F9.3. Les enregistrements du dictionnaire sont écrits également.

324 304 Typologie et classification ascendante (TYPOL) 38.6 Dataset en entrée C est un fichier Données décrit par un dictionnaire IDAMS. Toutes les variables d analyse doivent être numériques; elles peuvent avoir pour valeur un chiffre décimal ou entier. La variable ID des observations et les variables à transférer peuvent être alphabetiques Matrice de configuration en entrée La matrice de configuration en entrée doit avoir la forme d une matrice rectangulaire IDAMS. Voir le chapitre «Les données dans IDAMS» pour une description du format. Cette matrice est facultative et fournit une configuration initiale pour les calculs. Il faut que les statistiques qu elle contient soient des valeurs moyennes pour les variables quantitatives et des proportions (non des pourcentages) pour les catégories des variables qualitatives (par ex..180 au lieu de 18.0 pour cent). Une matrice de configuration produite par le programme lors d une exécution antérieure peut servir de configuration d entrée Structure du setup $RUN TYPOL $FILES Spécification des fichiers $RECODE (facultatif) Instructions Recode $SETUP 1. Filtre (facultatif) 2. Titre 3. Paramètres $DICT (conditionnel) Dictionnaire $DATA (conditionnel) Données Fichiers : FT02 matrice de configuration en sortie si WRITE=CONF est spécifié FT09 matrice de configuration en entrée si INIT=INCONF est spécifié (omettre si $MATRIX est utilisé) DICTxxxx dictionnaire en entrée (omettre si $DICT est utilisé) DATAxxxx données en entrée (omettre si $DATA est utilisé) DICTyyyy dictionnaire en sortie si WRITE=DATA est spécifié DATAyyyy données en sortie si WRITE=DATA est spécifié PRINT résultats (défaut IDAMS.LST) 38.9 Instructions de contrôle du programme Se référer au chapitre «Le fichier Setup d IDAMS» pour une description plus complète des instructions relatives aux items 1-3 ci-dessous.

325 38.9 Instructions de contrôle du programme Filtre (facultatif). Sélectionne un sous-ensemble d observations à utiliser avec le programme. Exemple : INCLUDE V1=10-40,50 2. Titre (obligatoire). Une ligne pouvant contenir jusqu à 80 caractères pour donner un titre aux résultats. Exemple : PREMIÈRE CONSTRUCTION D UNE VARIABLE DE CLASSIFICATION 3. Paramètres (obligatoire). Pour sélectionner des options du programme. Exemple : MDHAND=ALL AQNTV=(V12-V18) DTYP=EUCL - PRINT=(GRAP,ROWP,DIST) INIG=5 FING=3 INFILE=IN/xxxx Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en entrée. ddnames par défaut : DICTIN, DATAIN. BADDATA=STOP/SKIP/MD1/MD2 Traitement des valeurs non numériques. Voir le chapitre «Le fichier Setup d IDAMS». MAXCASES=n Le nombre maximum d observations du fichier en entrée à utiliser (après le filtre). Défaut : toutes les observations seront utilisées par le programme. AQNTVARS=(liste de variables) Liste de variables spécifiant les variables quantitatives actives. PQNTVARS=(liste de variables) Liste de variables spécifiant les variables quantitatives passives. AQLTVARS=(liste de variables) Liste de variables spécifiant les variables qualitatives actives. PQLTVARS=(liste de variables) Liste de variables spécifiant les variables qualitatives passives. MDVALUES=BOTH/MD1/MD2/NONE Valeurs de données manquantes que le programme doit utiliser pour les variables auxquelles il accède durant son exécution. Voir le chapitre «Le fichier Setup d IDAMS». MDHANDLING=ALL/QUALITATIVE/QUANTITATIVE ALL Exclure de l analyse les observations avec données manquantes dans les variables quantitatives et les codes de données manquantes dans les variables qualitatives. QUAL Exclure de l analyse les codes de données manquantes dans les variables qualitatives. QUAN Exclure de l analyse les observations avec données manquantes dans les variables quantitatives. REDUCE Réduction des variables actives, quantitatives et qualitatives. WEIGHT=numéro de variable Numéro de la variable poids si l on va pondérer les données.

326 306 Typologie et classification ascendante (TYPOL) DTYPE=CITY/EUCLIDEAN/CHI CITY Distance «City block». EUCL Distance euclidienne. CHI Distance Chi-deux. Note : en ce qui concerne le choix du type de distance, il est recommandé d utiliser : la distance City block lorsque certaines variables actives sont qualitatives et d autres sont quantitatives, la distance euclidienne quand les variables actives sont toutes quantitatives (avec réduction si elles ne sont pas mesurées sur la même échelle), le Chi-deux quand les variables actives sont toutes qualitatives. INIGROUP=n Nombre de groupes initiaux. Si c est une variable clé qui va servir de base à la typologie et que le nombre de groupes initiaux spécifié ici dépasse la valeur maximum de la variable clé, le programme effectue automatiquement la correction. Egalement, si certaines catégories contiennent zéro observations, le nombre initial de groupes sera celui des catégories non vides. Pas de défaut. FINGROUP=1/n Nombre de groupes finaux. INITIAL=STEPWISE/RANDOM/KEY/INCONF Manière dont le programme déterminera la configuration initiale. STEP Echantillon tiré pas à pas. RAND Echantillon au hasard. KEY Le profil des groupes initiaux est créé selon une variable clé. INCO Un profil «a priori» de groupes initiaux est fourni par une configuration se trouvant dans un fichier en entrée. Note : les variables de la configuration d entrée doivent correspondre exactement à celles spécifiées avec les paramètres AQNTV et/ou AQLTV. STEP=5/n Si l on a demandé un échantillon pas à pas des observations (INIT=STEP), n est la longueur du pas. NCASES=n Si l on a demandé un échantillon au hasard des observations (INIT=RAND), n est le nombre d observations (non pondérées) dans le fichier d entrée, ou une bonne sous-estimation de ce nombre. Pas de défaut; doit être spécifié si INIT=RAND. KEY=numéro de variable Si l on utilise une variable clé pour construire les groupes initiaux (INIT=KEY), ceci est le numéro de la variable clé. Pas de défaut; doit être spécifié si INIT=KEY. ITERATIONS=5/n Nombre maximum d itérations pour la convergence du profil des groupes. REGROUP=DISPLACEMENT/DISTANCE DISP Le regroupement est basé sur un déplacement minimum. DIST Le regroupement est basé sur une distance minimum.

327 38.10 Restrictions 307 WRITE=(DATA, CONFIG) DATA Créer un dataset IDAMS contenant la variable ID des observations, les variables transférées, la variable de classification et les variables de distance. CONF Envoyer la matrice de configuration dans un fichier. OUTFILE=OUT/yyyy Un suffixe de 1-4 caractères pour le ddname du fichier Dictionnaire et du fichier Données en sortie. ddnames par défaut : DICTOUT, DATAOUT. IDVAR=numéro de variable Variable à transférer dans le dataset de sortie pour l identification des observations. Obligatoire si l on spécifie WRITE=DATA. TRANSVARS=(liste de variables) Variables supplémentaires (jusqu à 99) à transférer dans le dataset de sortie. LEVELS=(n1, n2,...) Impression de la description de la typologie résultante pour le nombre de groupes spécifiés. Défaut : la description est fournie après chaque regroupement. PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, INITIAL, TABLES, GRAPHIC, ROWPCT, DISTANCES) CDIC Imprimer le dictionnaire d entrée pour les variables utilisées, avec les enregistrements C s il y en a. DICT Imprimer le dictionnaire d entrée sans les enregistrements C. OUTC Imprimer le dictionnaire de sortie, avec les enregistrements C s il y en a. OUTD Imprimer le dictionnaire de sortie sans les enregistrements C. INIT Imprimer l histoire de la construction de la typologie initiale. TABL Imprimer deux tableaux avec la classification des distances. GRAP Imprimer le graphique des profils. ROWP Imprimer les pourcentages en lignes pour les catégories des variables qualitatives. DIST Imprimer pour chaque regroupement le tableau des distances et déplacements Restrictions 1. Le nombre maximum de groupes initiaux est Le nombre total maximum de variables est 500, y inclus la variable poids, la variable clé, les variables à transférer, les variables d analyse (les variables quantitatives + le nombre de catégories des variables qualitatives) et les variables utilisées temporairement dans des instructions de Recode. 3. Si une variable ID ou une variable à transférer est alphabétique et dépasse 4 caractères, seuls les quatre premiers sont utilisés par le programme. 4. Les variables R ne peuvent pas être utilisées comme variable ID ou comme variable à transférer Exemples Exemple 1. Création d une variable de classification résumant 5 variables quantitatives et 4 variables qualitatives en utilisant comme distance le City block; la configuration initiale sera établie au moyen d une sélection au hasard des observations; la classification commencera avec 6 groupes et se terminera avec 3 ; le regroupement sera basé sur la distance minimum ; les données manquantes seront exclues de l analyse.

328 308 Typologie et classification ascendante (TYPOL) $RUN TYPOL $FILES PRINT = TYPOL1.LST DICTIN = A.DIC fichier Dictionnaire en entrée DATAIN = A.DAT fichier Données en entrée $SETUP RECHERCHE DU NOMBRE DE CATÉGORIES D UNE VARIABLE DE CLASSIFICATION AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU - INIG=6 FING=3 INIT=RAND NCAS= REGR=DIST PRINT=(GRAP,ROWP,DIST) Exemple 2. Produire, à partir de l exemple 1, une variable de classification avec 4 catégories; cette variable sera écrite dans un fichier; les variables V18 et V34 sont utilisées en tant que variables quantitatives passives et les variables V12 et V14 comme variables qualitatives passives. $RUN TYPOL $FILES PRINT = TYPOL2.LST DICTIN = A.DIC DATAIN = A.DAT DICTOUT = CLAS.DIC fichier Dictionnaire en entrée fichier Données en entrée fichier Dictionnaire en sortie fichier Données en sortie DATAOUT = CLAS.DAT $SETUP CALCUL D UNE VARIABLE DE CLASSIFICATION AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU - PQNTV=(V18,V34) PQLTV=(V12,V14) - INIG=6 FING=4 INIT=RAND NCAS= REGR=DIST PRINT=(GRAP,ROWP) WRITE=DATA IDVAR=V1

329 Cinquième partie Analyse interactive de données

330

331 Chapitre 39 Tableaux multidimensionnels et leur présentation graphique 39.1 Aperçu général Ce module interactif de WinIDAMS permet de visualiser et de personnaliser des tableaux multidimensionnels avec les fréquences, les pourcentages en ligne, en colonne et totaux, et les statistiques univariées de variables supplémentaires (somme, effectif, moyenne, maximum, minimum, variance, écart-type) ainsi que les statistiques bivariées. On peut placer les variables en lignes et/ou en colonnes de deux manières : soit variable par variable l une à la suite de l autre, soit par emboîtement des variables jusqu à un maximum de sept variables. On peut répéter la construction de tableaux pour chaque valeur de jusqu à trois variables «de page». Chaque page du tableau peut être imprimée ou bien exportée en format libre (délimité par des virgules ou par tabulation) ou en format HTML. Les datasets d IDAMS utilisés en entrée doivent porter le même nom pour les fichiers Dictionnaire et Données avec extension.dic et.dat respectivement. On ne peut utiliser qu un seul dataset à la fois : l ouverture d un autre dataset entraîne automatiquement la fermeture de celui sur lequel on travaille Préparation d une analyse Sélection des données. Le dataset sélectionné reste ouvert tant qu on ne réactive pas le module des tableaux multidimensionnels. La boîte de dialogue permet de choisir un fichier de données soit dans une liste des fichiers récemment utilisés (Récents), soit à partir d un dossier existant (Existant). Par défaut, c est le dossier Données de l application active qui sera utilisé. Si l on choisit «Fichiers Données (*.dat)» comme type de fichiers, le programme affichera seulement les fichiers Données IDAMS. Sélection des variables. Le choix d un dataset appelle une boîte de dialogue pour la définition du tableau. L écran affiche la liste des variables disponibles ainsi que quatre fenêtres permettant de spécifier leur rôle dans l analyse. Avec la technique «glisser-déplacer» on peut faire passer les variables d une fenêtre à l autre et/ou les changer de place à l intérieur d une même fenêtre. Les variables de page servent à construire les pages séparées du tableau pour chaque valeur de chaque variable, variable après variable, et pour toutes les observations prises ensemble (page Total). Les observations figurant sur une page donnée ont toutes la même valeur sur la variable de page. Les variables de page ne sont jamais emboîtées. L ordre dans lequel les variables sont spécifiées détermine l ordre des pages du tableau. Les variables de ligne sont celles dont les valeurs servent à définir les lignes du tableau. Leur ordre détermine la séquence d emboîtement des variables.

332 312 Tableaux multidimensionnels et leur présentation graphique Les variables de colonne sont celles dont les valeurs servent à définir les colonnes du tableau. Leur ordre détermine la séquence d emboîtement des variables. Les variables de cellule sont celles dont les valeurs servent à calculer les statistiques univariées (par ex. la moyenne) affichées dans les cellules du tableau. Leur ordre détermine la séquence de leur affichage dans le tableau. Il peut y avoir jusqu à dix variables de cellule. Emboîtement. Si plus d une variable de ligne et/ou de colonne sont spécifiées, elles sont par défaut emboîtées. Pour les utiliser de manière séquentielle, au même niveau, faire un double clic sur la variable dans la liste des variables de ligne ou de colonne et cocher l option relative au traitement des variables de même niveau. Note : cette option n est pas disponible pour la première variable d une liste. Pourcentages. Dans chaque cellule, les pourcentages (lignes, colonnes, total) peuvent être obtenus en faisant un double-clic, dans la fenêtre de définition du tableau, sur la dernière variable de ligne emboîtée et en sélectionnant le type de pourcentage souhaité. Statistiques univariées. Pour chacune des variables de cellule on peut obtenir différentes statistiques univariées (somme, effectif, moyenne, maximum, minimum, variance, écart-type), ceci en faisant un doubleclic sur la variable dans la fenêtre de définition du tableau et en marquant la(les) statistique(s) recherchée(s). Les formules de calcul de la moyenne, de la variance et de l écart-type figurent dans la section «Statistiques univariées» du chapitre «Tableaux univariés et bivariés». Il faut cependant les ajuster étant donné que les observations ne sont pas pondérées. Traitement des données manquantes. Leur traitement par défaut est utilisé pour la première construction d un tableau. Par la suite on peut changer le traitement par défaut via le bouton Changer de la barre de menus. L option Valeurs de données manquantes sert à indiquer quelles valeurs de données manquantes, s il y en a, utiliser pour vérifier la présence de celles-ci dans les variables de ligne et de colonne. Les deux les valeurs sont vérifiées par rapport aux codes MD1 et aux intervalles définis par MD2. MD1 les valeurs sont vérifiées uniquement par rapport aux codes MD1. MD2 les valeurs sont vérifiées uniquement par rapport aux intervalles définis par MD2. Aucune les codes MD ne sont pas utilisés. Toutes les données sont considérées valides. Par défaut les deux codes MD sont utilisés.

333 39.3 La fenêtre des tableaux multidimensionnels 313 L option Traitement des données manquantes sert à indiquer quelles valeurs de données manquantes il faut exclure des calculs de pourcentages et des statistiques bivariées. Toutes supprimer toutes les valeurs de données manquantes. Ligne supprimer les valeurs de données manquantes des variables de ligne. Colonne supprimer les valeurs de données manquantes des variables de colonne. Aucune ne pas supprimer les données manquantes. Par défaut toutes les valeurs de données manquantes sont supprimées. Note : les observations avec données manquantes pour les variables de cellule sont toujours exclues du calcul des statistiques univariées. L exclusion est effectuée cellule par cellule, séparément pour chaque variable de cellule. En conséquence, le nombre d observations valides peut ne pas être égal à la fréquence de la cellule. La statistique «Effectif» indique le nombre d observations valides. Modifier la définition du tableau. La commande Changer/Spécification appelle la boîte de dialogue avec la définition du tableau actif. On peut changer les variables entrant dans l analyse, leur emboîtement ainsi que les demandes de pourcentages et de statistiques univariées. En cliquant sur OK on remplace le tableau actif par le nouveau La fenêtre des tableaux multidimensionnels Après avoir sélectionné les variables et cliqué sur OK cette fenêtre apparaît. Par défaut sont affichées les fréquences et les moyennes pour toutes les variables de cellule. Si l on a spécifié des variables de page, le nom des codes (ou les codes) de celles-ci sont affichés sur les onglets au bas du tableau. On accède à une page en particulier en cliquant sur un code (ou sur son nom). Modifier la présentation de la page. Chaque page peut être modifiée séparément, les modifications s appliquant exclusivement à la page active. Voici les possibilités de modifications : Augmenter la taille de la police - avec la commande Zoom avant du menu Vues ou le bouton Zoom avant de la barre d outils. Diminuer la taille de la police - avec la commande Zoom arrière du menu Vues ou le bouton Zoom arrière de la barre d outils.

334 314 Tableaux multidimensionnels et leur présentation graphique Restaurer la taille par défaut de la police - avec la commande 100% du menu Vues ou le bouton 100% de la barre d outils. Augmenter/Diminuer la largeur d une colonne - placer le curseur dans l en-tête de deux colonnes sur leur ligne de séparation jusqu à ce qu il devienne une ligne verticale avec deux flèches et le déplacer vers la gauche/la droite en pressant le bouton gauche de la souris. Minimiser la largeur des colonnes - marquer la/les colonne(s) et utiliser la commande Changer la taille des colonnes du menu Format. Augmenter/Diminuer la hauteur d une ligne - placer le curseur dans l en-tête de deux lignes sur leur ligne de séparation jusqu à ce qu il devienne une ligne horizontale avec deux flèches et le déplacer vers le bas/le haut en pressant le bouton gauche de la souris. Minimiser la hauteur des lignes - marquer la/les ligne(s) et utiliser la commande Changer la taille des lignes du menu Format. Occulter les colonnes/lignes - diminuer leur largeur/hauteur jusqu à zéro. Pour les restaurer, placer le curseur dans l en-tête de la ligne/colonne sur la ligne de séparation jusqu à ce qu il devienne une ligne verticale/horizontale avec deux flèches et double-cliquer avec le bouton gauche de la souris. En outre, la commande Styles du menu Format offre plusieurs possibilités de formatage des tableaux : sélection et taille des polices, couleurs, etc. pour la cellule active ou pour toutes les cellules d une ligne active. Statistiques bivariées. Les statistiques bivariées (Chi-deux, coefficient Phi, coefficient de contingence, V de Cramer, Tau, Gamma, Lambda et D de Sormer) sont calculées pour chaque tableau (chaque page). Utiliser la commande Statistiques du menu Afficher pour les afficher à la fin du tableau. Au besoin cette opération est répétée séparément pour chaque page. Les formules de calcul des statistiques bivariées figurent dans la section «Statistiques bivariées» du chapitre «Tableaux univariés et bivariés». On notera que les statistiques sont calculées uniquement s il y a une variable de ligne et une variable de colonne. Impression d une page du tableau. On peut imprimer tout ou partie d une page active à l aide de la commande Imprimer du menu Fichier. Si l on ne souhaite imprimer que quelques colonnes et/ou lignes de la page, il faut occulter les autres. Les colonnes/lignes affichées seront imprimées. Exportation d une page du tableau. On peut exporter tout ou partie d une page en format libre (délimité par des virgules ou par des caractères de tabulation) ou en format HTML. Utiliser la commande Exporter du menu Fichier et choisir le format voulu. Si l on ne veut exporter que quelques colonnes et/ou lignes de la page, il faut occulter les autres. Les colonnes/lignes affichées seront exportées Présentation graphique des tableaux univariés/bivariés A l aide d un des 24 styles graphiques disponibles, on peut présenter graphiquement les fréquences figurant dans une page de tableaux univariés/bivariés. On démarre la construction d un graphique avec la commande Créer du menu Graphique qui appelle une boîte de dialogue permettant de choisir le style de graphique pour la page active. On peut en outre demander la transformation logarithmique des fréquences ainsi qu une légende des couleurs et symboles utilisés dans le graphique. Les graphiques projetés ne peuvent pas être manipulés. Avec les commandes du menu Fichier on peut cependant les sauvegarder dans un des deux formats suivants : le format JPEG (.jpeg) permettant de compresser les images et le format Bitmap de Windows (.bmp) permettant de stocker les images en mémoire sous forme de bits. On peut également les copier dans le Presse-papiers (avec Edition/Copier, le bouton Copier de la barre d outils ou les touches de raccourci Ctrl/C) et les passer dans n importe quel éditeur de texte. Il faut rappeler que l on utilise les fréquences des lignes et celles des colonnes qui sont affichées, càd pas des lignes et/ou colonnes qui ont été occultées.

335 39.5 Comment construire un tableau multidimensionnel Comment construire un tableau multidimensionnel On utilisera ici le dataset «rucm» («rucm.dic» est le fichier Dictionnaire et «rucm.dat» est le fichier Données) qui se trouve dans le dossier Données par défaut installé avec WinIDAMS. Il va s agir de construire un tableau à trois entrées avec deux variables de ligne emboîtées («SCIENTIFIC DEGREE» et «SEX»), une variable de colonne («CM POSITION IN UNIT») et une variable de cellule («AGE») pour laquelle on demandera la moyenne, le maximum et le minimum. Cliquer sur Interactif/Tableaux multidimensionnels. Cette commande ouvre un dialogue pour sélectionner un fichier Données IDAMS. Cliquer sur rucm.dic et sur Ouvrir. Une boîte de dialogue apparaît demandant de spécifier les variables à utiliser dans le tableau multidimensionnel.

336 316 Tableaux multidimensionnels et leur présentation graphique Sélectionner les variables «SCIENTIFIC DEGREE» et «SEX» comme variables de ligne, «CM POSITION IN UNIT» comme variable de colonne et «AGE» comme variable de cellule. Utiliser la technique «glisser-déplacer» pour déplacer les variables (presser le bouton gauche de la souris sur la variable à déplacer et pendant son déplacement jusqu à la liste de variables où on veut l insérer). On peut déplacer plusieurs variables à la fois d une liste sur une autre (appuyer sur la touche Ctrl au moment de la sélection). L ordre dans lequel sont spécifiées les VARS DE LIGNE et VARS DE COLONNE gouverne implicitement l ordre de leur emboîtement. La première variable de la liste sera la plus à l extérieur. L ordre des variables dans une liste peut être modifié avec la technique «glisser-déplacer» au sein d une même liste. Après avoir sélectionné les variables, on peut modifier leurs options par défaut avec un double-clic sur la variable. Un double-clic sur la variable «AGE» dans la liste des VARS DE CELLULE ouvre le dialogue suivant : La moyenne est cochée par défaut. Cocher Max et Min. Cliquer ensuite sur OK et aussi sur OK dans le dialogue de définition du tableau multidimensionnel.

337 39.6 Comment modifier un tableau multidimensionnel Comment modifier un tableau multidimensionnel Obtenir des tableaux séparés. Supposons que l on veuille obtenir un tableau pour les hommes et pour les femmes. Cliquer sur la commande Spécification du menu Changer : on retrouve le dialogue avec la sélection précédente des variables. Avec la technique «glisser-déplacer» déplacer la variable «SEX» de la liste des VARS DE LIGNE sur la liste des VARS DE PAGE et cliquer sur OK. On obtient le premier affichage, soit le total pour toutes les valeurs prises ensemble (hommes et femmes). Dans le bas il y a trois onglets : «Total», «MALE», et «FEMALE». «Total» est l onglet de l affichage en cours.

338 318 Tableaux multidimensionnels et leur présentation graphique Pour voir l affichage de la page relative aux hommes, cliquer sur l onglet «MALE». Pour voir l affichage de la page relative aux femmes, cliquer sur l onglet «FEMALE».

339 39.6 Comment modifier un tableau multidimensionnel 319 Obtenir les pourcentages. Alors que les effectifs sont affichées par défaut, il faut explicitement demander les pourcentages de quelque type que ce soit. Cliquer sur le commande Spécification du menu Changer : on retrouve le dialogue avec la sélection précédente des variables. Double-cliquer sur la variable de ligne «SCIENTIFIC DEGREE»: une boîte de dialogue s affiche avec des cases à cocher pour les Effectif (par défaut), % Ligne, % Colonne et % Total. Cocher toutes les cases comme indiqué ci-dessous : Cliquer sur OK pour accepter cette modification et aussi sur OK dans le dialogue de définition du tableau multidimensionnel. On obtient le tableau multidimensionnel d avant avec tous les pourcentages.

340 320 Tableaux multidimensionnels et leur présentation graphique

341 Chapitre 40 Exploration graphique des données 40.1 Aperçu général GraphID est un module de WinIDAMS destiné à l exploration interactive des données à l aide de leur visualisation graphique. Il accepte deux sortes de données d entrée : les datasets IDAMS dont les fichiers Dictionnaire et Données doivent avoir le même nom, avec comme extension respectivement.dic et.dat, les fichiers Matrice IDAMS dont l extension doit être.mat. On ne peut travailler qu avec un seul dataset ou un seul fichier de matrices à la fois, càd l ouverture d un autre fichier ferme automatiquement celui qui est en cours d utilisation Préparation d une analyse Sélection des données. Utiliser la commande Ouvrir du menu Fichier ou cliquer sur le bouton Ouvrir de la barre d outils. Dans la boîte de dialogue sélectionner le fichier. Le fait d assigner «Fichier Données (*.dat)» ou «Fichier Matrice (*.mat) à l invite «Fichiers de type :» donne la possibilité de filtrer les fichiers affichés. Sélection d un identificateur d observation. Si l on a choisi un dataset, GraphID demande que l on spécifie un identificateur d observation, lequel peut être une variable ou le numéro séquentiel des observations. On peut choisir une variable numérique ou alphabétique au sein d une liste déroulante. Sélection des variables. Si l on a choisi un dataset, GraphID demande que l on spécifie les variables entrant dans l analyse. Les variables numériques sont sélectionnées dans une «Liste source» et transférées dans l espace «Variables séléctionnées». Le transfert des variables s effectue à l aide des touches >, < (seulement les variables mises en surbrillance), >>, << (toutes les variables). Les variables alphabétiques ne sont pas disponibles pour analyse et la sélection de la variable servant d identificateur d observation n est pas autorisée. Traitement des données manquantes. Deux options sont proposées : 1) suppression par observation - dans ce cas sont retenues dans l analyse uniquement les observations ayant des données valides pour toutes les variables sélectionnées; 2)suppression par paire - sont retenues dans l analyse les observations ayant des données valides pour chaque paire de variables prise séparément La fenêtre principale de GraphID pour l analyse d un dataset Après sélection des variables et un clic sur OK, la fenêtre principale de GraphID affiche la matrice initiale des diagrammes de dispersion avec 3 variables et les propriétés par défaut de la matrice. On peut manipuler ce graphique en utilisant diverses commandes et options des menus et/ou les boutons équivalents de la barre d outils.

342 322 Exploration graphique des données Barre de menus et barre d outils Fichier Ouvrir Fermer Enregistrer sous Appelle la boîte de dialogue pour sélectionner un nouveau fichier dataset/matrice pour l analyse. Ferme toutes les fenêtres de l analyse en cours. Appelle la boîte de dialogue pour sauvegarder le graphique de la fenêtre active dans le format Bitmap de Windows (*.bmp). Enregistrer les observations masquées Sauvegarde, en vue d utilisation ultérieure, le numéro séquentiel des observations masquées durant la session, ceci selon leur séquence dans le fichier Données analysé. Imprimer Aperçu avant impression Appelle la boîte de dialogue pour imprimer le graphique de la fenêtre active. Affiche l aperçu avant impression du graphique de la fenêtre active. Configuration de l impression Appelle la boîte de dialogue pour modifier les options d impression et celles de l imprimante. Quitter Termine la session de GraphID. Le menu peut également contenir la liste des fichiers ouverts récemment, càd des fichiers utilisés dans des sessions précédentes de GraphID. Edition Ce menu dispose d une seule commande, Copier, qui sert à copier le graphique de la fenêtre active dans le Presse-papiers. Vues Configuration Échelles Barre d outils Appelle la boîte de dialogue pour sélectionner les symboles, les couleurs, les variables ainsi que le nombre de colonnes et lignes de la matrice à afficher. Affiche/occulte l échelle du graphique de la fenêtre active en gros plan. Affiche/occulte la barre d outils.

343 40.3 La fenêtre principale de GraphID pour l analyse d un dataset 323 Barre d état Info Affiche/occulte la barre d état. Affiche une fenêtre donnant des informations concernant le dataset : nombre d observations, nombre de variables, nom du fichier Données, etc. Info sur diagramme Affiche une fenêtre donnant des informations concernant le diagramme actif : nom des variables, leur valeur moyenne, leur écart-type, les coefficients de corrélation et de régression. Observ. dans brosse Police pour échelles Police pour noms Couleurs de base Enregistrer couleurs Enregistrer polices Appelle la boîte de dialogue pour choisir symboles et couleurs des observations à l intérieur de la brosse. Appelle la boîte de dialogue pour choisir la police de caractère à utiliser pour les échelles de la fenêtre active en gros plan. Appelle la boîte de dialogue pour choisir la police de caractère à utiliser pour le nom des variables. Appelle la boîte de dialogue pour choisir les couleurs de la fenêtre active en ce qui concerne les marges, les quadrillages et l arrière-plan des cases diagonales. Sauvegarde la modification des couleurs. Sauvegarde la modification des polices. Outils Ce menu offre des outils pour manipuler la matrice des diagrammes de dispersion et pour appeler d autres graphiques fournis par GraphID. Brosse Zoom Groupement Annuler groupement Histogrammes Lignes lissées Diagramme à 3D Mode dirigé Boîtes à moustaches Bruitage progressif Mettre un masque Enlever le masque Active/ferme le mode brosse. Agrandit à la taille de la fenêtre le diagramme actif ou le contenu de la brosse. Appelle la boîte de dialogue pour définir la création de groupes. Annule la création de groupes. Appelle la boîte de dialogue pour spécifier quels graphiques montrer dans les cases diagonales et leurs propriétés. Appelle la boîte de dialogue pour spécifier les types de lignes de régression (ligne lissées) et leurs propriétés. Appelle la boîte de dialogue pour choisir les variables à utiliser comme axes pour le diagramme à 3 dimensions et sa rotation. Ouvre/ferme le mode dirigé. Appelle la boîte de dialogue pour choisir les variables et les couleurs à utiliser pour les graphiques de boîtes à moustaches. Effectue une re-disperssion progressive (jittering) des observations projetées. Masque les observations qui se trouvent à l intérieur de la brosse. Restaure pas à pas les observations masquées. Mettre un masque sauvegardé Masque les observations qui ont été masquées et sauvegardées pendant la session précédente. Diagramme groupé Appelle la boîte de dialogue pour spécifier les variables de ligne et de colonne à utiliser pour créer un tableau de deux dimensions, et les variables X et Y pour projeter leur diagramme à l intérieur des cellules du tableau. Fenêtre Ce menu contient la liste des fenêtres ouvertes ainsi que la liste des commandes de Windows pour les organiser.

344 324 Exploration graphique des données Aide Manuel WinIDAMS À propos de GraphID Donne accès au Manuel de référence de WinIDAMS. Affiche des informations sur la version courante et le copyright de GraphID ainsi qu un lien vers la page Web d IDAMS au siège de l UNESCO. Icônes de la barre d outils Il y a 21 boutons dans la barre d outils qui donne accès directement aux mêmes options et commandes que celles figurant dans les menus. Ils sont énumérés ci-dessous selon l ordre dans lequel ils apparaissent de gauche à droite dans la barre d outils. Ouvrir Brosse Boîtes à moustaches Enregistrer Agrandissement Débruitage complet Copier Groupement Débruitage progressif Imprimer Histogrammes Bruitage progressif Couleurs de base Lignes lissées Masquer les observations à l intérieur de la brosse Police pour noms Diagramme à 3D Restaurer pas à pas les observations masquées Police pour échelles Mode dirigé Information sur la version courante de GraphID Manipulation de la matrice des diagrammes de dispersion Configuration de la matrice des diagrammes de dispersion. On peut la modifier avec la commande Configuration du menu Vues. Visible : permet de fixer le nombre de colonnes et de lignes à afficher sur l écran (pas nécessairement le même nombre). On peut voir d autres cases par défilement. Variables : la boîte de dialogue comporte deux listes de variables : «Liste source» et «Éléments sélectionnés». On peut déplacer les variables d une liste à l autre avec un clic sur les touches >, < (seulement les variables en surbrillance), sur les touches >>, << (toutes les variables). Symboles : dans cette boîte de dialogue on peut choisir la forme et la couleur des symboles utilisés pour représenter chaque groupe d observations dans les diagrammes. Si aucun groupe n est spécifié, toutes les observations tombent par défaut dans un même groupe et sont représentés par le même symbole (le défaut est un petit rectangle noir). On peut assigner un symbole à un seul groupe ou bien à deux ou plusieurs groupes pris comme un tout. La liste des groupes figure dans la boîte à gauche de la fenêtre. Deux autres boîtes concernent la sélection des couleurs et des symboles. Pour choisir une couleur ou un symbole il suffit de cliquer dessus. Leur image apparaît immédiatement sur le bouton qui se trouve à côté du nom du groupe en surbrillance. Mode dirigé. Cette option s avère utile lorsque l ordre des observations d une des variables de colonne est significatif, par ex. quand les valeurs d une variable de colonne indiquent des intervalles de temps. Relier les images séquentiellement par des lignes droites peut éventuellement aider à chercher des formes cycliques. Passer au mode dirigé ou revenir au diagrammes de dispersion s effectue avec le bouton Mode dirigé de la barre d outils ou avec la commande Mode dirigé du menu Outils. Mettre un masque sur les observations/l enlever. On peut mettre un masque sur les observations projetées dans des diagrammes de dispersion, ce qui peut être utile, par exemple, pour supprimer d un graphique les observations excentriques. Le masque est disponible quand la brosse est active. Pour masquer les observations à l intérieur de la brosse, cliquer sur le bouton Masque de la barre d outils. Les observations masquées sont occultées dans tous les diagrammes de dispersion. On peut répéter plusieurs fois la pose d un masque. En cliquant sur le bouton Restaurer de la barre d outils on peut enlever le masque de tout ou partie des observations masquées.

345 40.3 La fenêtre principale de GraphID pour l analyse d un dataset 325 Sauvegarde et ré-utilisation des observations masquées. La commande Fichier/Enregistrer les observations masquées permet de sauvegarder le numéro séquentiel des observations masquées. Ensuite, à l aide de la commande Outils/Mettre un masque sauvegardé, masquage peut être récupérée dans la(les) session(s) suivante(s). Groupement d observations. Cette option permet de voir la manière dont une variable répartit les observations en groupes dans tous les graphiques. La variable peut être qualitative ou quantitative. On peut contrôler la façon d effectuer le groupement des observations (utilisation des valeurs, ou des intervalles et nombre de groupes). La boîte de dialogue pour la création de groupes est activée en cliquant sur le bouton Groupement de la barre d outils ou avec la commande Groupement du menu Outils. Exploration avec la brosse. La brosse est un rectangle dont on peut modifier la taille, que l on peut mouvoir et agrandir. Pendant que la brosse balaye un diagramme de dispersion, les observations à l intérieur de celle-ci prennent sa couleur et sa forme dans tous les autres diagrammes de dispersion. Une des applications de l exploration à l aide de la brosse est de déterminer si l affichage d une agglomération d observations au sein d un diagramme de dispersion correspond bien à la réalité dans l espace multidimensionnel, ou s il n est qu une propriété de la projection. À cet effet, on place la brosse sur une agglomération d observations au sein d un diagramme de dispersion et on regarde comment ces mêmes observations sont situées dans d autres diagrammes de dispersion. Si la même agglomération apparaît, il se peut qu elle corresponde effectivement à la réalité. Bien entendu les diagrammes de dispersion doivent être choisis de telle manière que la distance entre les observations soit du même ordre dans les différents diagrammes. Une autre application de la brosse est d étudier les distributions conditionnelles. Si les 4 coins de la brosse sont donnés par x min, x max, y min, y max, alors les observations à l intérieur de la brosse sont celles qui satisfont aux conditions : x min < x < x max and y min < y < y max et les observations qui satisfont à ces conditions peuvent être étudiées dans les autres diagrammes. La brosse peut aussi servir à masquer des observations et à les rechercher. On active ou désactive la brosse en cliquant sur le bouton Brosse de la barre d outils ou avec la commande Brosse du menu Outils. Placemant de la brosse : placer le curseur sur un des bords, presser le bouton gauche de la souris, glisser et relâcher le bouton sur l autre bord. Déplacement de la brosse ou modification de ses dimensions : placer le curseur à l intérieur ou sur un des côtés, presser le bouton gauche de la souris et glisser. Note : pour la déplacer rapidement jusqu à une autre case, placer le curseur dans cette case et presser le bouton gauche de la souris. Agrandissement. Crée une nouvelle fenêtre pour faire apparaître en gros plan la case sélectionnée, ou pour agrandir la brosse si on se trouve en mode brosse. Cette fenêtre possède la plupart des propriétés d une matrice de diagrammes de dispersion avec une case; par ex. on peut utiliser la brosse pour identifier un nouveau groupe d observations et ensuite agrandir à nouveau. Si la matrice mère des diagrammes de dispersion est en mode brosse, une modification de la brosse est reflétée immédiatement dans la fenêtre agrandie; sinon celle-ci reflétera les modifications introduites dans la case sélectionnée de la matrice mère. La commande Échelles du menu Vues permet d afficher les échelles des valeurs des variables pour la fenêtre agrandie active. Bruitage progressif. Cette fonction est utile quand il y a des variables discrètes ou qualitatives dans les données à analyser. Dans ce cas, les matrices habituelles de diagrammes de dispersion peuvent ne pas fournir suffisamment d informations, -ceci parce qu une partie ou toutes les projections en 2 et 3 dimensions présentent des tableaux quadrillés en 2 ou 3 dimensions, rendant impossible la tâche de déterminer visuellement combien d observations coïncident sur le même point et à quel groupe elles appartiennent. Le bruitage est une transformation aléatoire des données. Les valeurs des données (x) sont modifiées en leur ajoutant un «bruit» (a*u ), où U est une valeur (entre -0.5, 0.5) distribuée de manière uniforme et aléatoire, et a est un facteur permettant de contrôler le niveau de bruitage.

346 326 Exploration graphique des données Pour assigner au bruitage le niveau désiré, utiliser les boutons suivants de la barre d outils : Bruitage progressif, Débruitage progressif et Débruitage complet. On notera que le bruitage peut être appliqué uniquement dans la fenêtre de la matrice des diagrammes de dispersion Histogrammes et densités Dans les cases diagonales de la matrice des diagrammes de dispersion peuvent être affichés des histogrammes, des densités normales, des graphiques de points et trois statistiques univariées. Pour les obtenir, cliquer sur le bouton Histogrammes de la barre d outils ou utiliser la commande Histogrammes du menu Outils. La boîte de dialogue qui est présentée permet de choisir les graphiques souhaités ainsi que la couleur et le nombre de barres de l histogramme. L option Statistiques fournit les statistiques suivantes : asymétrie (Skew), aplatissement (Kurt) et écart-type (Std) Ligne de régression (lignes lissées) Dans chaque diagramme de dispersion peuvent être affichées jusqu à 4 différentes lignes de régression : Régression linéaire MLE - Maximum Likelihood Estimation (régression habituelle) Régression linéaire locale Moyenne locale Médiane locale.

347 40.3 La fenêtre principale de GraphID pour l analyse d un dataset 327 On notera que ce sont les lignes de régression de Y par rapport à X, où les variables X et Y sont projetées respectivement sur l axe horizontal et sur l axe vertical. On obtient les lignes de régression en cliquant sur le bouton Lignes lissées de la barre d outils ou avec la commande Lignes lissées du menu Outils. Dans la boîte de dialogue qui suit, choisir les lignes souhaitées, leur couleur et la valeur du paramètre de lissage. Le paramètre de lissage est le nombre de «voisins» (observations voisines) et il est fixé à 7 par défaut. Il ne peut être plus grand que n/2 où n est le nombre d observations Graphiques de boîtes à moustaches Cette option se révèle particulièrement utile lorsque les observations ont été réparties en groupes (voir cidessus «Groupement d observations»). Une boîte de dialogue - appelée avec la commande Boîtes à moustaches du menu Outils ou en cliquant sur le bouton du même nom de la barre d outils - permet de spécifier le nombre de colonnes et lignes visibles ainsi que les couleurs à utiliser pour les graphiques. Dans la fenêtre qui apparaît GraphID affiche, pour chaque variable sélectionnée, un rectangle à l intérieur duquel se trouvent des boîtes correspondant chacune à un groupe d observations. On peut fixer la base des boîtes de façon à ce qu elle soit proportionnelle au nombre d observations dans le groupe. Les bords supérieurs et inférieurs des boîtes indiquent respectivement les quartiles supérieur et inférieur de la variable. Les extrémités supérieures et inférieures des lignes verticales qui sortent de ces rectangles («les moustaches») correspondent aux valeurs maximum et minimum de la variable pour le groupe. Les lignes à l intérieur des boîtes représentent la moyenne (ligne verte) et la médiane (ligne de points blue) de la variable pour le groupe. Sur le côté gauche du rectangle figure l échelle de mesure de la variable et sous sa base figurent les numéros des groupes.

348 328 Exploration graphique des données Les couleurs et les polices de caractères utilisées dans les graphiques peuvent être modifiées à l aide des boutons appropriés de la barre d outils. Les modifications peuvent être enregistrées comme nouvelles valeurs par défaut pour les fenêtres qui suivent et pour les sessions suivantes. Le bouton Couleur permet de modifier les couleurs : des boîtes de l arrière-plan des moustaches de la ligne de médiane de la ligne de moyenne des marges. Les boutons Police permettent de modifier les polices de caractères utilisées pour les échelles et pour les noms des variables. Il y a moyen d obtenir un gros plan de chacune des cases du graphique, ceci en sélectionnant la case et puis en cliquant sur le bouton Agrandissement de la barre d outils Diagramme groupé Cette option permet de projeter un diagramme bi-dimensionnel au sein de cellules d un tableau également bi-dimensionnel, càd permet une analyse visuelle en quatre dimensions. Utiliser la commande Outils/Diagramme groupé qui appelle la boîte de dialogue pour spécifier les variables de ligne et de colonne du tableau, et les variables X et Y pour leur projection. Aussi, l utilisateur est requis de spécifier la façon de calculer le nombre de lignes et de colonnes. Il y a deux possibilités : ils peuvent être égaux au nombre de valeurs distinctes de variable ou au nombre d intervalles spécifiés par l utilisateur. Les intervalles calculés sont de même longueur Affichage et rotation de diagrammes de dispersion en trois dimensions Pour obtenir un diagramme de dispersion en trois dimensions, cliquer sur le bouton Diagramme à 3D de la barre d outils ou utiliser la commande Diagramme à 3D du menu Outils. La boîte de dialogue permet de choisir trois variables à projeter sur les axes OX, OY et OZ. Après un clic sur OK, le diagramme de

349 40.4 Fenêtre de GraphID pour l analyse d une matrice 329 dispersion en trois dimensions apparaît. Si la fenêtre de la matrice mère est en mode brosse, les observations qui se trouvent à l intérieur de la brosse s y retrouveront de la même manière dans ce diagramme. Le panneau gauche de la fenêtre contient des boutons permettant de modifier le diagramme et d effectuer la rotation des axes. Le bouton situé dans le coin supérieur gauche sert à remettre le diagramme dans sa position initiale. Le bouton situé dans le coin supérieur droit sert à déterminer où placer le centre du nuage de points : soit au centre de gravité, soit au point zéro. Les boutons du groupe Tourner servent à effectuer les rotations du diagramme autour de ses axes; ceux du groupe Étendre servent à rapprocher/éloigner les points du centre. Le groupe Noms permet d afficher ou d occulter le nom des trois variables correspondant aux axes. On peut également obtenir la projection du diagramme de dispersion 3D comme trois diagrammes de dispersion 2D en demandant une visualisation en 2D Fenêtre de GraphID pour l analyse d une matrice Une fois sélectionné le fichier des matrices on peut, en cliquant sur Ouvrir ou en double-cliquant sur le nom du fichier, obtenir un histogramme 3D -avec une barre pour chaque cellule (statistique) de la première matrice du fichier. La hauteur de la barre représente la valeur de la statistique transformée en utilisant son étendue, càd h = (s val s min )/(s max s min ). Par défaut, les valeurs négatives sont montrées en bleu et les valeurs positives en rouge.

350 330 Exploration graphique des données On peut choisir les couleurs pour les noms et les échelles de mesure, pour les valeurs négatives et positives, les parois de côté et du bas et pour l arrière-plan en utilisant la même technique que pour les graphiques de boîtes à moustaches. Dans la partie droite de la fenêtre est affichée la liste des matrices incluses dans le fichier. Seuls les 16 premiers caractères de leur description sont visibles. S il n y a pas de description, GraphID affiche «Untitled-n». Pour afficher l histogramme 3D d une matrice, cliquer sur sa description. On peut manipuler l histogramme en utilisant les commandes des menus et/ou les boutons équivalents de la barre d outils Barre de menus et barre d outils Fichier et Edition A l exception de Fermer, offre les mêmes commandes que dans les menus utilisés pour l analyse des datasets. Vues Barre d outils Barre d état Couleurs Police pour échelles Police pour noms Affiche/occulte la barre d outils. Affiche/occulte la barre d état. Appelle la boîte de dialogue pour la sélection des couleurs de la fenêtre active : nom des lignes/colonnes et échelles, valeurs positives et négatives, parois de côté et du bas et arrière-plan. Appelle la boîte de dialogue pour sélectionner la police de caractères pour les échelles. Appelle la boîte de dialogue pour sélectionner la police de caractères pour les noms.

351 40.4 Fenêtre de GraphID pour l analyse d une matrice 331 Fenêtre et Aide Offre les mêmes commandes que dans les menus utilisés pour l analyse des datasets. Icônes de la barre d outils Elles donnent directement accès aux mêmes commandes et options que celles figurant dans les menus correspondants. En voici la liste telles qu elles sont présentes de gauche à droite sur la barre d outils : Ouvrir Enregistrer Copier Imprimer Couleurs Police pour noms Police pour échelles Information sur la version courante de GraphID Manipulation de la matrice affichée dans la fenêtre Comme avec les diagrammes de dispersion 3D, on peut utiliser les options de la boîte de dialogue (située dans le panneau gauche de la fenêtre) pour modifier l image de la matrice et lui faire effectuer des rotations. Le bouton du haut sert à remettre l image de la matrice dans sa position initiale. Le bouton Couleurs permet de modifier la couleur : de la barre (valeurs positives) des parois de côté et du bas de la barre (valeurs négatives) de l arrière-plan des noms de variables et de l échelle de mesure. Les boîtes du groupe Occulter/Afficher permettent d afficher ou de masquer les parois, l échelle de mesure, le nom correspondant à chacun des trois axes et -si applicable- à la diagonale. Les boutons du groupe Tourner servent aux rotations autour de l axe vertical. Les boutons des groupes Colonnes et Lignes servent à modifier la taille des colonnes et des lignes. Les boutons du groupe Centrer servent à faire bouger le graphique vers la gauche/la droite ainsi que vers le haut/le bas.

352

353 Chapitre 41 Analyse de séries chronologiques 41.1 Aperçu général TimeSID est un module de WinIDAMS pour l analyse des séries chronologiques. Il utilise en entrée les datasets IDAMS dont les fichiers Dictionnaire et Données doivent avoir le même nom, avec comme extension respectivement.dic et.dat. On ne peut travailler qu avec un seul dataset à la fois, càd l ouverture d un nouveau dataset ferme automatiquement celui qui est en cours d utilisation Préparation d une analyse Sélection des données. Utiliser la commande Ouvrir du menu Fichier ou cliquer sur le bouton Ouvrir de la barre d outils. Dans la boîte de dialogue sélectionner le fichier. Si l on assigne «Fichier Données (*.dat)» à l invite «Fichiers de type :» seuls les fichiers IDAMS seront affichés. Sélection des séries. On est prié de spécifier les séries (variables) que l on veut analyser. Les variables numériques sont sélectionnées dans la liste «Séries accessibles» et transférées dans l espace «Série sélectionnées». Le transfert des variables s effectue à l aide des touches >, < (seulement les variables mises en surbrillance), >>, << (toutes les variables). Les variables alphabétiques ne sont pas disponibles ici. Traitement des données manquantes. Les valeurs «données manquantes»sont exclues des transformations opérées sur les séries; elle sont également exclues du calcul des statistiques et des auto-corrélations. Dans les autres analyses, les valeurs de données manquantes sont remplacées par la moyenne globale La fenêtre principale de TimeSID Après sélection des séries et un clic sur OK, la fenêtre principale de TimeSID affiche le graphique de la première série de la liste des séries sélectionnées. On peut manipuler et analyser les séries en utilisant diverses commandes et options des menus et/ou les boutons équivalents de la barre d outils.

354 334 Analyse de séries chronologiques Barre de menus et barre d outils Fichier Ouvrir Fermer Enregistrer sous Imprimer Aperçu avant impression Appelle la boîte de dialogue pour sélectionner un nouveau dataset pour l analyse. Ferme toutes les fenêtres de l analyse en cours. Appelle la boîte de dialogue pour sauvegarder le contenu de la fenêtre active ou du panneau actif. Les images graphiques sont sauvegardés dans le format Bitmap de Windows (*.bmp). Les tableaux de données et de statistiques sont sauvegardés en format texte. Appelle la boîte de dialogue pour imprimer le contenu de la fenêtre active ou du panneau actif. Affiche l aperçu avant impression du contenu de la fenêtre active ou du panneau actif. Configuration de l impression Appelle la boîte de dialogue pour modifier les option d impression et celles de l imprimante. Quitter Termine la session de TimeSID. Le menu peut également contenir la liste des fichiers ouverts récemment, càd des fichiers utilisés dans des sessions précédentes de TimeSID. Edition Ce menu dispose d une seule commande, Copier, qui sert à copier le contenu de la fenêtre active ou du panneau actif dans le Presse-papiers.

355 41.3 La fenêtre principale de TimeSID 335 Vues Barre d outils Barre d état Échelle OX Police pour échelles Couleurs de base Affiche/occulte la barre d outils. Affiche/occulte la barre d état. Affiche/occulte l échelle OX pour les séries chronologiques. Appelle la boîte de dialogue pour choisir la police de caractère à utiliser pour les échelles. Appelle la boîte de dialogue pour choisir les couleurs des marges et de l arrière-plan. Fenêtre Tableau de données Appelle la fenêtre où est affiché le tableau de données. Les colonnes du tableau sont les séries chronologiques analysées (y inclus les résultats des transformations). Outre le Tableau de données, le menu contient la liste des fenêtres ouvertes ainsi que les options types de Windows pour les organiser. Aide Manuel WinIDAMS À propos de GraphID Donne accès au Manuel de référence de WinIDAMS. Affiche des informations sur la version courante et le copyright de TimeSID ainsi qu un lien vers la page Web d IDAMS au siège de l UNESCO. Les détails des deux autres menus, Transformations et Analyse, sont donnés plus bas dans les sections «Transformation de séries chronologiques» et «Analyse de séries chronologiques». Icônes de la barre d outils Il y en a 9 qui donnent directement accès aux mêmes commandes et options que celles figurant dans les menus correspondants. En voici la liste telles qu elles sont présentes de gauche à droite sur la barre d outils : Ouvrir Copier Imprimer Couleurs de base Police pour échelles Histogrammes, statistiques de base Auto-corrélations, corrélations croisées Auto-régressions Information sur la version courante de TimeSID

356 336 Analyse de séries chronologiques La fenêtre de séries chronologiques Elle est divisée en 3 panneaux : celui de gauche sert à modifier les propriétés de la fenêtre et à sélectionner les séries (variables), celui du haut à droite sert à afficher une ou plusieurs séries chronologiques accessibles, celui du bas à droite à afficher la série chronologique active. Modifier l aspect du panneau. Les deux panneaux d affichage des séries chronologiques sont synchronisés et peuvent être modifiés à l aide des boutons de contrôle situés dans le panneau gauche. Par défaut, le panneau supérieur droit est vide et sa dimension réduite. Dans le panneau inférieur droit est affichée la série temporelle active avec la barre de défilement et l échelle de mesure. La taille de l un et l autre panneaux peut être modifiée avec la souris, tandis que l échelle OX peut être masquée/affichée avec la commande Échelle OX du menu Vues. L aspect des graphiques peut en outre être modifié avec les boutons suivants : degré de compression du graphique : boutons situés sous Compression de OX, couleurs de l arrière-plan et des marges : bouton Couleurs ou la commande Vues/Couleurs, polices de caractères pour les échelles : bouton Police pour échelles ou la commande Vues/Police pour échelles. Changer le nom de la série chronologique. Pour cela, on sélectionne la série chronologique voulue, on clique sur son nom avec le bouton droit de la souris et on sélectionne l option Changer nom. La fenêtre active affiche alors le nom à changer. On notera que ces modifications sont temporaires et conservées seulement pour la durée de la session de travail. Sélection des séries chronologiques à afficher. Dans le panneau gauche de la fenêtre se trouve la liste des séries chronologiques. Un double clic sur une variable de la liste permet de choisir la couleur et la forme de la projection. Après OK, le graphique correspondant s affiche dans le panneau supérieur. L opération peut être répétée pour plusieurs variables, de sorte que l on peut obtenir simultanément plusieurs graphique dans le panneau supérieur. Quant au panneau inférieur droit il affiche toujours la série chronologique active. Supprimer une série à analyser. Pour cela, on sélectionne la série chronologique voulue, on clique sur son nom avec le bouton droit de la souris et on sélectionne l option Supprimer série.

357 41.4 Transformation de séries chronologiques Transformation de séries chronologiques Les séries chronologiques peuvent être transformées de diverses façons : par calcul des différences, par un lissage, par suppression des tendances, par transformation avec les fonctions disponibles, etc. Le menu Transformations contient les commandes servant à créer de nouvelles séries chronologiques fondées sur des valeurs de séries sélectionnées. Les variables affichées pour sélection sont renumérotées séquentiellement à partir de zéro (0). Moyenne crée une nouvelle série chronologique qui est la moyenne des séries spécifiées. Les séries destinées aux calculs sont sélectionnées dans la boîte de dialogue «Sélection de séries» (voir la section «Préparation d une analyse»). Arithmétiques par paires crée un jeu de séries chronologiques en effectuant les opérations arithmétiques sur les paires de séries chronologiques spécifiées dans la boîte de dialogue (chaque série spécifiée dans la première liste d arguments avec le second argument). Différences, MM, TDC crée un jeu de séries chronologiques fondées sur les transformations (différences séquentielles, moyenne mobile non centrée, taux de changement) des séries spécifiées dans la boîte de dialogue. Les paramètres propres à chaque transformation ainsi que le type de transformation TDC sont fixés dans la même boîte de dialogue Analyse de séries chronologiques Les différentes fonctionnalités de l analyse sont activées à l aide des commandes du menu Analyse.

358 338 Analyse de séries chronologiques Statistiques crée un tableau avec moyenne, écart-type, valeurs minimum et maximum pour la série chronologique aussi bien qu un tableau avec statistiques pour vérifier l hypothèse «distribution aléatoire versus tendance». Un histogramme de la série est également affiché. Auto-, cross-corrélations ouvre une nouvelle fenêtre avec une série de cases contenant les graphes des auto-corrélations et des corrélations croisées pour le jeu des séries chronologiques spécifiées. Tendance (paramétrique) crée une nouvelle série chronologique comme estimation d un modèle de tendance paramétrique pour la série chronologique. Le modèle et la série sont spécifiés avec une boîte de dialogue. Auto-régression estime les paramètres d un modèle d auto-régression pour une prédiction à court terme de la série chronologique spécifiée. Spectre (analyse spectrale) crée une table des valeurs du spectre (fréquence, période, densité), un graphique d estimation du spectre et, pour le spectre de type DFT (transformée de Fourier discrète), un graphique de la déviation du spectre cumulatif par rapport au spectre cumulatif d un bruit blanc. Pour l estimation de la densité spectrale, on peut utiliser la méthode de transformée rapide discrète de Fourier (DFT) et/ou la méthode d entropie maximum (MENT). Dans la procédure DFT, deux fenêtres sont utilisées pour améliorer l estimation de cette densité : la fenêtre de données de Welch pour le temps et lissage exponentiel pour la fréquence. Spectre croisé analyse deux séries chronologiques stationnaires. Il fournit les densités co-spectrales, le spectre de phase et les valeurs de cohérence ainsi que leurs graphiques. Les densités cospectrales sont estimées en utilisant la fenêtre de lissage de Parzen. Filtres de fréquence est une procédure de décomposition d une série chronologique en composantes de fréquence. Elle construit une nouvelle série en utilisant un des filtres suivants : passe-bas, passe-haut, passe-bande ou coupe-bande. Pour un filtre passe-bas ou passe-haut, sa bande est égale à la valeur du paramètre Fréquence. Pour un filtre passe-bande ou coupe-bande, les bandes de fréquence sont définies par l intervalle (Fréquence - Longueur de la fenêtre, Fréquence + Longueur de la fenêtre). Avec une option Détrender on peut retirer la tendance de la série avant filtrage (le composent tendance est ensuit ajouté aux résultats du filtrage).

359 41.5 Analyse de séries chronologiques 339 Références Farnum, N.R., Stanton, L.W., Quantitative Forecasting Methods, PWS-KENT Publishing Company, Boston, Kendall, M.G., Stuart, A., The Advanced Theory of Statistics, Volume 3 - Design and Analysis, and time series, Second edition, Griffin, London, Marple Jr, S.L., Digital Spectral Analysis with Applications, Prentice-Hall, Inc., 1987.

360

361 Sixième partie Formules statistiques et références bibliographiques

362

363 Chapitre 42 Partition et regroupement en classes Notation x = valeurs des variables h, i, j, l = indices pour les objets f, g = indices pour les variables p = nombre de variables c = indice pour la classe k = nombre de classes N j N = nombre d objets dans la classe j = nombre total d observations Statistiques univariées Si l on a un dataset IDAMS en entrée, les statistiques suivantes sont calculées pour toutes les variables utilisées dans l analyse : a) Moyenne. x f = i N x if b) Écart moyen absolu. s f = x if x f i N 42.2 Mesures normalisées Dans la même situation, le programme peut calculer les mesures normalisées, appelées aussi z-scores, données par : z if = x if x f s f pour chaque observation i et chaque variable f en utilisant la valeur moyenne et l écart moyen absolu de la variable f (voir section 1 ci-dessus).

364 344 Partition et regroupement en classes 42.3 Matrice de dissimilarité calculée à partir d un dataset IDAMS Les éléments d ij d une matrice de dissimilarité mesurent le degré de dissimilarité entre les observations i et j. Les d ij sont calculés directement à partir des données brutes, ou d après les z-scores si l on demande que les variables soient normalisées. On peut choisir l une des deux distances : euclidienne ou «City block». a) Distance euclidienne. p d ij = (x if x jf ) 2 f=1 b) Distance «City block». p d ij = x if x jf f= Matrice de dissimilarité calculée à partir d une matrice de similarité Si l entrée est une matrice de similarité avec des éléments s ij, les éléments d ij de la matrice de dissimilarité sont calculés comme suit : d ij = 1 s ij 42.5 Matrice de dissimilarité calculée à partir d une matrice de corrélation Si l entrée est une matrice de corrélation avec des éléments r ij, les éléments d ij de la matrice de dissimilarité sont calculés en utilisant l une des deux formules suivantes : SIGN ou ABSOLUTE. Quand on utilise la formule SIGN, les variables avec une corrélation positive élevée reçoivent un coefficient de dissimilarité proche de zéro, tandis que les variables avec une corrélation négative forte seront considérées comme très dissemblables. d ij = (1 r ij )/2 Quand on utilise la formule ABSOLUTE, les variables avec une corrélation positive élevée ou négative forte se verront attribuer une petite dissimilarité. d ij = 1 r ij 42.6 Partitionnement autour des médoïdes (PAM) L algorithme recherche k objets représentatifs (médoïdes) qui sont situés au centre des classes qu ils définissent. L objet représentatif d une classe, le médoïde, est l objet pour lequel la dissimilarité moyenne par rapport à tous les objets dans la classe est la plus petite. En réalité, l algorithme PAM minimise la somme des dissimilarités au lieu de la dissimilarité moyenne. La sélection des k médoïdes s effectue en deux phases. Dans la première, une classification initiale est obtenue par la sélection successive des objets représentatifs jusqu à ce que k objets soient trouvés. Le premier objet est celui pour qui la somme des dissimilarités par rapport à tous les autres est aussi petite que possible. (C est une sorte de médiane multivariée de N objets, d ù le terme «médoïde».) Ultérieurement, à chaque étape, PAM choisit l objet qui réduit autant que possible la fonction objective (somme des dissimilarités). Dans la seconde phase, on essaie d améliorer le jeu d objets représentatifs. Ceci se fait en examinant toutes

365 42.6 Partitionnement autour des médoïdes (PAM) 345 les paires d objets (i, h) pour lesquelles l objet i a été choisi et non l objet h, en vérifiant qu en sélectionnant h et non i, on peut réduire la fonction objective. A chaque étape, l échange le plus économique est effectué. a) Distance moyenne finale (dissimilarité). C est la fonction objective de PAM, qui peut être considérée comme une mesure d adéquation de la classification finale. Distance moyenne finale = N i=1 d i,m(i) où m(i) est l objet représentatif (médoïde) le plus proche de l objet i. b) Classes isolées. Il y a deux types de classes isolées : type L et type L. Une classe C est de type L si pour chaque objet i appartenant à C max j C d ij < min h C d ih Une classe C est de type L si max d ij < min d lh i,j C l C,h C N c) Diamètre d une classe. Le diamètre de la classe C est défini comme la plus grande dissimilarité entre les objets appartenant à C : Diamètre C = max i,j C d ij d) Séparation d une classe. La séparation d une classe C est définie comme la plus petite dissimilarité entre deux objets, dont l un appartient à la classe C et pas l autre. Séparation C = min l C,h C d lh e) Distance moyenne par rapport à un médoïde. Si j est le médoïde de la classe C, la distance moyenne de tous les objets appartenant à C par rapport à l objet j est calculée comme suit : Distance moyenne j = i C N j d ij f) Distance maximale par rapport à un médoïde. Si l objet j est le médoïde de la classe C, la distance maximale de tous les objets appartenant à C par rapport à l objet j est calculée comme suit : Distance maximale j = max i C d ij g) Silhouettes des classes. Chaque classe est représentée par une silhouette (Rousseeuw, 1987) qui montre quels objets sont correctement placés à l intérieur de la classe et lesquels n ont simplement qu une position intermédiaire. Pour chaque objet, les informations suivantes sont fournies : - le numéro de la classe à laquelle il appartient (CLU), - le numéro de la classe voisine (NEIG), - la valeur s i (dénommée comme S(I) dans la sortie imprimée), - l identificateur à trois caractères de l objet i, - une ligne dont la longueur est proportionnelle à s i. Pour chaque objet i, la valeur s i est calculée comme suit : s i = b i a i max(a i, b i ) où a i représente la dissimilarité moyenne de l objet i par rapport à tous les objets appartenant à la classe A à laquelle appartient l objet i, et b i représente la dissimilarité moyenne de l objet i par rapport à tous les objets appartenant à la classe B la plus proche (voisine de l objet i). Noter que l on peut considérer la classe voisine comme le second meilleur choix pour l objet i. Quand la classe A ne contient qu un objet i, le s i est fixé à zéro (s i = 0).

366 346 Partition et regroupement en classes h) Largeur moyenne de la silhouette d une classe. C est la moyenne de s i de tous les objets i dans une classe. i) Largeur moyenne de la silhouette. C est la moyenne de s i de tous les objets i dans les données, càd la largeur moyenne de la silhouette pour k classes. Ceci peut être utilisé pour sélectionner le «meilleur» nombre de classes, en choisissant le k qui donne la valeur la plus élevée de la moyenne de s i. Un autre coefficient, SC, appelé le coefficient de silhouette, peut être calculé à la main comme la largeur moyenne maximale de la silhouette pour tous les k pour lesquels les silhouettes peuvent être créées. Ce coefficient est une mesure sans dimension du montant de la structure de la classification qui a été obtenue par l algorithme. SC = max k s k Rousseeuw (1987) propose l interprétation suivante du coefficient SC : Une structure forte a été trouvée Une structure raisonnable a été trouvée Une structure est faible et pourrait être artificielle; vous pouvez essayer d autres méthodes sur ces données Aucune structure substantielle n a été trouvée Classification de LARges Applications (CLARA) Comme pour PAM, la méthode CLARA est également basée sur la recherche de k objets représentatifs. Mais l algorithme CLARA est construit spécialement pour l analyse des grands jeux de données. En conséquence, l entrée pour CLARA doit être un dataset IDAMS. A l intérieur, CLARA fonctionne en deux étapes. D abord, un échantillon est tiré du jeu d objets (observations) et partagé en k classes en utilisant le même algorithme que dans PAM. Ensuite, chaque objet n appartenant pas à l échantillon est envoyé au plus proche des k objets représentatifs. La qualité de cette classification est définie comme la distance moyenne entre chaque objet et son objet représentatif. Cinq tels échantillons sont tirés et classés chacun à leur tour, et l échantillon sélectionné est celui qui a obtenu la distance moyenne la plus petite. La classification retenue du jeu entier de données est ensuite analysée de manière plus approfondie. La distance moyenne finale et les distances moyenne et maximale par rapport à chaque médoïde sont calculées de la même façon que dans PAM (pour tous les objets, et non seulement pour ceux appartenant à l échantillon sélectionné). Les silhouettes de classes et les statistiques qui s y rapportent sont calculées comme dans PAM, mais uniquement pour les objets appartenant à l échantillon sélectionné (car le tracé de la silhouette entière serait trop grand pour être imprimé) Classification floue (FANNY) La classification floue est une généralisation du partitionnement, qui peut être appliquée au même type de données que la méthode PAM, mais l algorithme ici est de nature différente. Au lieu de placer un objet dans une classe particulière, FANNY donne son degré d appartenance (coefficient d appartenance) à chaque classe, donnant ainsi plus d informations détaillées sur la structure des données. a) Fonction objective. La technique de classification floue appliquée dans FANNY a pour but de minimiser la fonction objective. Fonction objective = k c=1 u 2 ic u 2 jc d ij i j 2 j u 2 jc

367 42.9 Classification hiérarchique ascendante (AGNES) 347 où u ic et u jc sont des fonctions d appartenance, qui sont sujettes aux contraintes u ic 0 u ic = 1 c pour i = 1, 2,..., N ; c = 1, 2,...,k pour i = 1, 2,..., N L algorithme minimisant cette fonction objective est itérative, et s arrête quand la fonction converge. b) Classification floue (appartenances). Ce sont des valeurs d appartenance (coefficients d appartenance u ic ) qui donnent la plus petite valeur de la fonction objective. Elles indiquent, pour chaque objet i, à quel point il appartient à la classe c. Noter que la somme des coefficients d appartenance est égale à 1 pour chaque objet. c) Coefficient de partition de Dunn. Ce coefficient, F k, mesure à quel point la classification floue est «dure». Il varie du minimum de 1/k pour une classification complètement floue (où tous les u ic = 1/k) jusqu à 1 pour une classification entièrement dure (où tous les u ic = 0 ou 1). F k = N i=1 c=1 k u 2 ic / N d) Coefficient de partition de Dunn normalisé. La version normalisée du coefficient de partition de Dunn varie toujours entre 0 et 1, quelle que soit la valeur choisie de k. F k = F k (1/k) 1 (1/k) = kf k 1 k 1 e) Classification dure la plus proche. On obtient cette partition (= classification «dure») en plaçant chaque objet dans la classe où son coefficient d appartenance est le plus grand. Les silhouettes de classes et les statistiques qui s y rapportent sont calculées comme dans PAM Classification hiérarchique ascendante (AGNES) Cette méthode peut être appliquée au même type de données comme les méthodes PAM et FANNY. Cependant, il n est plus nécessaire de spécifier le nombre de classes demandées. L algorithme construit une hiérarchie arborescente qui contient implicitement toutes les valeurs de k, en commençant par N classes et en procédant ensuite par fusions successives jusqu à ce qu une seule classe soit obtenue avec tous les objets. Dans la première étape, les deux objets les plus proches (càd avec la dissimilarité inter-objets la plus petite) sont fusionnés pour former une classe avec deux objets, tandis que les autres classes n en contiennent qu un. Dans chaque étape successive, les deux classes les plus proches (avec la dissimilarité inter-objets la plus petite) sont fusionnées. a) Dissimilarité entre deux classes. Dans l algorithme AGNES, on utilise la méthode de la moyenne de groupes de Sokal et Michener (par fois appelée «méthode de la moyenne non pondérée de paires de groupes») pour mesurer les dissimilarités entre les classes. Soit R et Q deux classes et R et Q leur nombre d objets. La dissimilarité d(r, Q) entre deux classes R et Q est définie comme la moyenne de toutes les dissimilarités d ij, où i est un objet de R et j est un objet de Q. d(r, Q) = 1 R Q i R j Q d ij b) Classement final des objets et dissimilarités entre eux. Sur la première ligne, on trouve les objets dans l ordre où ils apparaîtront dans la représentation graphique des résultats. Sur la seconde ligne, on trouve les dissimilarités entre classes. Noter que le nombre de dissimilarités imprimées est inférieur de 1 au nombre des objets N, parce qu il y a N 1 fusions.

368 348 Partition et regroupement en classes c) Tracé des marques de dissimilarité. C est une représentation graphique des résultats. Ce tracé se compose d étoiles et de rayures. Les étoiles indiquent les liens et les rayures sont formées des répétitions d identificateurs d objets. Il faut toujours lire le tracé de gauche à droite. Chaque ligne d étoiles commence au niveau des dissimilarités entre deux classes fusionnées. Il y des échelles fixes au-dessus et au-dessous du tracé, allant de 0.00 (dissimilarité 0) jusqu à 1.00 (dissimilarité la plus grande rencontrée). La dissimilarité la plus grande (correspondant à 1.00 dans le tracé) est imprimée juste au-dessous du tracé. d) Coefficient d agglomération. On appelle coefficient d agglomération (AC) la largeur moyenne du tracé. Ce coefficient décrit la force de la structure du classement que l on a trouvé. AC = 1 N i l i où l i est la longueur de la ligne contenant l identificateur de l objet i Classification hiérarchique descendante (DIANA) On peut utiliser la méthode DIANA pour le même type de données comme la méthode AGNES. Tandis que AGNES et DIANA produisent des résultats imprimés similaires, DIANA construit sa hiérarchie dans le sens inverse, en commençant par une grande classe contenant tous les objets. A chaque étape, elle divise une classe en deux classes plus petites jusqu à ce que toutes les classes ne contiennent qu un seul élément. Ceci veut dire que pour N objets, la hiérachie est construite en N 1 étapes. Dans la première étape, les données sont divisées en deux classes au moyen des dissimilarités. Dans chaque étape suivante, la classe avec le diamètre le plus grand (voir 6.c ci-dessus) se divise de la même façon. Après N 1 divisions, tous les objets sont bien séparés. a) Dissimilarité moyenne par rapport à tous les autres objets. Soit A une classe et A son nombre d objets. La dissimilarité moyenne entre l objet i et tous les autres objets de la classe A est définie comme dans 6.g ci-dessus. 1 d i = A 1 j A,j i d ij b) Classement final des objets et diamètres des classes. Sur la première ligne, on trouve les objets dans l ordre où ils apparaîtront dans la représentation graphique des résultats. Les diamètres des classes sont imprimés au-dessous. Ensemble, ces deux séquences de nombres caractérisent toute la hiérarchie. Le diamètre le plus grand indique le niveau où le jeu entier de données est divisé. Les objets qui se trouvent à gauche de cette valeur forment une classe, tandis que les objets situés à droite en forment une autre. Le deuxième diamètre le plus grand indique la deuxième division, et ainsi de suite. c) Tracé des marques de dissimilarité. Comme dans la méthode AGNES, ce tracé est une représentation graphique des résultats. Il est également composé d étoiles et de rayures qui répètent les identificateurs d objets. Il faut toujours lire les tracés de gauche à droite, mais maintenant les échelles fixes au-dessus et au-dessous du tracé vont de 1.00 (correspondant au diamètre du jeu entier de données) jusqu à 0.00 (correspondant au diamètre des singletons). Chaque ligne d étoiles se termine au niveau du diamètre où la classe est divisée. Le diamètre du jeu de données (correspondant à 1.00 dans le tracé) est imprimé juste au-dessous du tracé. d) Coefficient de division. On appelle coefficient de division (DC) la largeur moyenne du tracé. Ce coefficient décrit la force de la structure du classement qui a été trouvée. DC = 1 N i l i où l i est la longueur de la ligne contenant l identificateur de l objet i.

369 42.11 Analyse monothétique (MONA) Analyse monothétique (MONA) La méthode MONA a été conçue pour analyser des données consistant exclusivement de variables binaires (dichotomiques) - qui ne prennent que deux valeurs, de sorte que x if = 0 ou x if = 1. Bien que l algorithme soit du type de classification hiérarchique par division, il n utilise pas les dissimilarités entre objets et, de ce fait, une matrice de dissimilarité n est pas calculée. La division en classes s effectue en utilisant les variables directement. A chaque étape, une des variables (disons f) est utilisée pour diviser les données en séparant les objets i pour lesquels x if = 1 de ceux pour lesquels x if = 0. Dans l étape suivante, chaque classe obtenue dans l étape précédente est à nouveau divisée, en utilisant les valeurs (0 et 1) d une des variables qui restent (des variables différentes peuvent être utilisées dans des classes différentes). On continue la procédure soit jusqu à ce que chaque classe ne contienne qu un seul objet, soit jusqu à ce que les variables qui restent ne puissent plus les diviser. Pour chaque division, on choisit la variable la plus fortement associée aux autres. a) Association entre deux variables. La mesure d association entre deux variables f et g est définie comme suit : A fg = a fg d fg b fg c fg où a fg représente le nombre d objets i avec x if = x ig = 0, d fg représente le nombre d objets avec x if = x ig = 1, b fg représente le nombre d objets x if = 0 et x ig = 1, et c fg représente le nombre d objets avec x if = 1 et x ig = 0. La mesure A fg indique si les variables f et g produisent des divisions similaires du jeu d objets, et elle peut être considérée comme une sorte de similarité entre variables. Afin de choisir la variable la plus fortement associée aux autres, la mesure totale A f est calculée pour chaque variable f comme suit : A f = g f A fg b) Classement final des objets. Les objets sont imprimés dans l ordre où ils apparaissent dans la représentation graphique des résultats (tracé). Les étapes de séparation ainsi que les variables utilisées pour ce faire sont imprimées au-dessous des identificateurs d objets. c) Graphe des partitions. Cette représentation graphique est tout à fait semblable à celle imprimée par DIANA. La longueur d une ligne d étoiles est maintenant proportionnelle au numéro d étape de séparation. Les lignes d identificateurs d objets correspondent aux objets. Une ligne d identificateurs qui ne va pas jusqu au côté droit du graphe signale un objet qui est devenu une classe singleton à l étape correspondante. Les lignes d identificateurs tracées entre deux lignes d étoiles indiquent les objets appartenant à une classe qui ne peut pas être divisée Références Kaufman, L., et Rousseeuw, P.J., Finding Groups in Data: An Introduction to Cluster Analysis, John Wiley & Sons, Inc., New York, Rousseeuw, P.J., Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis, Journal of Computational and Applied Mathematics, 20, 1987.

370

371 Chapitre 43 Analyse de configuration Notation Soit A (n,t) une matrice, habituellement rectangulaire, ayant n variables (lignes) et t dimensions (colonnes). Une variable ou un point a contient t coordonnées, chacune correspondant à une dimension. a is = élément de la matrice A dans la ligne i et la colonne s i, j = indices pour les variables (lignes) n = nombre de variables s, l, m = indices pour les dimensions (colonnes) t = nombre de dimensions Configuration centrée Les variables sont centrées à l intérieur de chaque dimension en soustrayant de chaque élément la moyenne de sa colonne. a is centrées = a is i n a is Après avoir appliqué cette formule, la moyenne des coordonnées des n variables est nulle pour chaque dimension Configuration normée La somme des carrés de tous les éléments de la matrice A divisée par le nombre de variables n donne la moyenne des moments d ordre deux des variables. Chaque élément de la matrice est normé par la racine carrée de cette valeur (voir le dénominateur ci-dessous). a is normées = a is a 2 is/n i s Après normalisation, la somme des carrés des éléments a is est égale à n Solution avec les axes principaux La configuration subit une rotation de manière à ce que les dimensions successives donnent la variance maximum possible. Soit A la configuration à pivoter et B la configuration dans sa forme des axes principaux.

372 352 Analyse de configuration Calcul de la matrice B : La matrice symétrique A A de dimensions (t, t) est calculée d abord. Ensuite, on obtient la matrice T des vecteurs propres de A A en utilisant la méthode de diagonalisation de Jacobi. La matrice A est transformée en une matrice B des éléments b is, telle que B = A T, B ayant n lignes et t colonnes comme la matrice A Matrice des produits scalaires SP ij = s a is a js La matrice SP de dimensions (n, n) est une matrice carrée symétrique des produits scalaires entre variables. Le produit scalaire d une variable par elle-même représente son moment d ordre deux. Si chaque variable est centrée et normée (moyenne = 0, écart-type = 1), la matrice SP devient une matrice de corrélations Matrice des distances entre points DIST ij = (a is a js ) 2 s DIST est une matrice carrée symétrique des distances euclidiennes entre variables Configuration ayant fait l objet d une rotation La rotation peut être effectuée en deux dimensions seulement à la fois. Il appartient à l utilisateur de sélectionner les dimensions, par ex. 2 et 5 (colonne 2 et colonne 5) et l angle φ de la rotation en degrés. Les nouvelles coordonnées sont calculées de la manière suivante : a il a im = a il cosφ + a im sin φ = a il sinφ + a im cosφ Le calcul est effectué pour chaque valeur de i, et aussi longtemps qu il y a des variables. Dans la matrice A, les colonnes l et m deviennent les vecteurs des coordonnées calculées comme indiqué ci-dessus Configuration ayant fait l objet d une translation La translation peut être réalisée seulement en une dimension (une colonne) à la fois. L utilisateur spécifie la constante T à ajouter à chaque élément de la dimension et la colonne l pour laquelle on la réalise. Pour toutes les coordonnées de l (n coordonnées puisqu il y a n variables) : a il = a il + T

373 43.8 Rotation Varimax Rotation Varimax (a) Les éléments a is de A sont normés par la racine carrée de la somme des carrés des éléments correspondant à chaque variable, et on définit a is b is = s a 2 is (b) Ayant construit B = (b is ), on cherche les meilleurs axes de projection pour les variables, après égalisation de leur inertie. La maximisation de la fonction V c est réalisée par des rotations successives de deux dimensions à la fois, jusqu à ce que la convergence soit atteinte. V c = n b 4 is ( ) 2 b is i i n 2 s La matrice ainsi obtenue B d éléments b is a le même nombre de lignes et de colonnes que la matrice initiale A Configuration triée C est la configuration finale imprimée dans un format différent. Chaque dimension est imprimée horizontalement, avec des éléments triés en ordre ascendant Références Greenstadt, J., The determination of the characteristic roots of a matrix by the Jacobi method, Mathematical Methods for Digital Computers, eds. A. Ralston and H.S. Wilf, Wiley, New York, Herman, H.H., Modern Factor Analysis, University of Chicago Press, Chicago, Kaiser, H.F., Computer program for varimax rotation in factor analysis, Educational and Psychological Measurement, 3, 1959.

374

375 Chapitre 44 Analyse discriminante Notation x = valeurs des variables k = indice pour l observation i, j = indices pour les variables g = indice supérieur pour le groupe q = indice pour le pas p = nombre de variables w = valeur du poids x g k = vecteur de p éléments correspondant à l observation k dans le groupe g yq g = vecteur de moyennes des variables sélectionnées dans le pas q pour le groupe g N g = nombre d observations dans le groupe g W g = somme des poids pour le groupe g I q = sous-ensemble des indices pour les variables sélectionnées dans le pas q Statistiques univariées Ces statistiques, pondérées si le poids est spécifié, sont calculées pour chaque groupe et pour chaque variable d analyse, en utilisant l échantillon de base. La moyenne est calculée aussi pour l ensemble de l échantillon de base (moyenne globale). a) Moyenne. x g i = N g w g k xg ki k=1 W g Note : la moyenne globale est calculée selon la même formule. b) Écart-type. N g w g k s g i = (xg ki )2 k=1 W g (x g i )2

376 356 Analyse discriminante 44.2 Discrimination linéaire entre 2 groupes La procédure est basée sur la fonction discriminante de Fischer et utilise la matrice de covariance totale pour calculer les coefficients de cette fonction. Le classement des observations s effectue en utilisant les valeurs de cette fonction, et non les distances en tant que telles. Le critère utilisé pour sélectionner la variable suivante est le D 2 de Mahalanobis (distance de Mahalanobis entre 2 groupes). Après chaque pas, le programme fournit la fonction discriminante linéaire, le tableau de classement et le pourcentage d observations correctement classées pour l échantillon de base et l échantillon test. a) Fonction discriminante linéaire. Soit la fonction calculée dans le pas q, telle que f q (x) = i I q b qi x i + a q Les coefficients b qi de cette fonction pour les variables i incluses dans le pas q correspondent aux éléments du vecteur propre unique de la matrice (y 1 q y 2 q) T 1 q et le terme constant est calculé comme suit : a q = 1 2 (y1 q y2 q ) T 1 q (y 1 q + y2 q ) où T q représente la matrice de covariance totale (calculée pour les observations provenant des 2 groupes) pour les variables incluses dans le pas q, avec les éléments t ij = w k (x ki x i )(x kj x j ) k W 1 + W 2 b) Tableau de classement pour l échantillon de base. Une observation est affectée : au groupe 1 si f q (x) > 0, au groupe 2 si f q (x) < 0. Une observation n est pas affectée si f q (x) = 0. Le pourcentage des observations correctement classées est calculé comme le ratio entre le nombre d observations en diagonale et le nombre total d observations dans le tableau de classement. c) Tableau de classement pour l échantillon test. Fait de la même manière que pour l échantillon de base (voir point 2.b ci-dessus). d) Critère pour sélectionner la variable suivante. La distance de Mahalanobis entre les 2 groupes est utilisée à cette fin. La variable sélectionnée dans le pas q est celle qui maximise la valeur de D 2 q. D 2 q = (y1 q y2 q ) T 1 q (y 1 q y2 q ) e) Affectation et valeur de la fonction discriminante linéaire pour les observations. Celles-ci sont calculées et imprimées pour le dernier pas, ou lorsque le pas précède une diminution du pourcentage des observations correctement classées. La valeur de la fonction est calculée selon la formule décrite au point 2.a ci-dessus; les variables utilisées dans le calcul sont celles retenues dans le pas. L affectation des observations aux groupes est faite comme décrit au point 2.b ci-dessus. On utilise la même formule et les mêmes règles d affectation pour l échantillon de base, les moyennes de groupe, l échantillon test et l échantillon anonyme.

377 44.3 Discrimination linéaire entre plus de 2 groupes Discrimination linéaire entre plus de 2 groupes La procédure pour la discrimination dans le cas de 3 ou plusieurs groupes utilise non seulement la matrice de covariance totale, mais aussi la matrice de covariance inter-groupes. Le critère pour sélectionner la variable suivante utilisé ici est la trace d un produit de ces deux matrices (généralisation de distance de Mahalanobis pour 2 groupes). Après avoir sélectionné la nouvelle variable à entrer, l analyse factorielle discriminante est effectuée et le programme fournit le pouvoir discriminant global et le pouvoir discriminant des trois premiers facteurs. Les observations sont classées selon leurs distances par rapport aux centres des groupes. À chaque pas, le programme calcule et imprime le tableau de classement et le pourcentage des observations correctement classées pour l échantillon de base et l échantillon test. a) Tableau de classement pour l échantillon de base. La distance d une observation x par rapport au centre du groupe g au pas q est définie comme la fonction linéaire v y g q (x) = (y g q ) T 1 q (y g q 2x) où T q, comme décrit au point 2.a ci-dessus, est la matrice de covariance totale (calculée pour les observations de tous les groupes) pour les variables incluses au pas q, avec les éléments t ij = w k (x ki x i )(x kj x j ) k W Une observation est attribuée au groupe pour lequel v y g q (x) a la plus petite valeur (plus petite distance). Le pourcentage d observations correctement classées est calculé comme le ratio entre le nombre d observations en diagonale et le nombre total d observations dans le tableau de classement. b) Tableau de classement pour l échantillon test. Fait de la même manière que pour l échantillon de base (voir point 3.a ci-dessus). c) Critère pour sélectionner la variable suivante. La variable sélectionnée au pas q est celle qui maximise la valeur de la trace de la matrice Tq 1 B q, où T q est la matrice de covariance totale utilisée au pas q (voir point 3.a ci-dessus), et B q la matrice de covariance inter-groupes, avec les éléments b ij = W g (y g i x i)(y g j x j) g W La prochaine étape de l analyse (points 3.d - 3.h ci-dessous) est effectuée dans l une des trois circonstances suivantes : lorsque le pas précède une diminution du pourcentage des observations correctement classées, lorsque le pourcentage des observations correctement classées est égal à 100, lorsque le pas est le dernier. d) Affectation et distances des observations dans l échantillon de base. Les distances par rapport à chaque groupe sont calculées comme décrit au point 3.a ci-dessus; les variables utilisées dans le calcul sont celles retenues à ce pas. L affectation des observations aux groupes est faite comme décrit au point 3.a ci-dessus. e) Analyse discriminante factorielle. La matrice Tq 1 B q décrite sous 3.c ci-dessus est analysée. Les deux premiers vecteurs propres correspondant aux deux plus hautes valeurs propres de cette matrice constituent les deux axes factoriels discriminants. Le pouvoir discriminant des facteurs est mesuré par les valeurs propres correspondantes. Comme le programme fournit le pouvoir discriminant pour les trois premiers facteurs, la somme des valeurs propres permet d estimer le niveau des valeurs propres restantes, càd celles qui n ont pas été imprimées.

378 358 Analyse discriminante f) Valeurs des facteurs discriminants pour toutes les observations et les moyennes de groupe. Pour une observation, la valeur du facteur discriminant est calculée comme le produit scalaire du vecteur d observation contenant les variables retenues à ce pas et du vecteur propre correspondant au facteur. Il faut noter que ces valeurs ne sont pas imprimées, mais elles sont utilisées pour la représentation graphique des observations dans l espace des deux premiers facteurs. Pour une moyenne de groupe, la valeur du facteur discriminant est calculée de la même façon en remplaçant le vecteur d observation par le vecteur de la moyenne de groupe. g) Affectation et distances des observations dans l échantillon test. Les distances par rapport à chaque groupe sont calculées de la même façon, et l affectation des observations aux groupes est effectuée selon les mêmes règles que pour l échantillon de base (voir point 3.d ci-dessus). h) Affectation et distances des observations dans l échantillon anonyme. Les distances par rapport à chaque groupe sont calculées de la même façon, et l affectation des observations aux groupes est effectuée selon les mêmes règles que pour l échantillon de base (voir point 3.d ci-dessus) Références Romeder, J.M., Méthodes et programmes d analyse discriminante, Dunod, Paris, 1973.

379 Chapitre 45 Fonctions de distribution et de Lorenz Notation p i i s N = valeur du point i de coupure = indice pour le point de coupure = nombre d intervalles = nombre total d observations Formules pour les points de coupure Le nombre des points de coupure est un de moins que celui des intervalles, par ex. les points médians impliquent l existence de deux intervalles et d un point de coupure. p i = V (α) + β [V (α + 1) V (α)] où V est un vecteur de valeurs ordonnées, par ex. V (3) est le troisième élément dans le vecteur, et [ ] i(n + 1) α = entier s β = i(n + 1) s α et entier(x) est le plus grand nombre entier ne dépassant pas x Points de coupure pour la fonction de distribution Il y a quatre cas possibles : Si le point de coupure tombe exactement sur une valeur et si la valeur n est pas liée à une autre valeur, alors la valeur elle-même est le point de coupure. Si le point de coupure tombe entre deux valeurs et si les deux valeurs ne sont pas les mêmes, alors le point de coupure est déterminé en utilisant une interpolation linéaire ordinaire. Si le point de coupure tombe sur une valeur et si cette valeur est liée à une ou plusieurs valeurs, alors la procédure nécessite de calculer de nouveaux points-milieux. Soit k la valeur, m la fréquence avec laquelle elle apparaît et d la distance minimum entre les éléments du vecteur V. L intervalle k ± min(d, 1)/2 est divisé en m parties et les points-milieux sont calculés pour ces nouveaux intervalles. Le point de coupure est alors le point-milieu le plus approprié. Si le point coupure tombe entre deux valeurs qui sont identiques, la procédure nécessite à la fois le calcul de nouveaux points-milieux et une interpolation linéaire ordinaire. Soit k la valeur, m la fréquence

380 360 Fonctions de distribution et de Lorenz d apparition, et d la distance minimum entre les éléments du vecteur V. L intervalle k ± min(d, 1)/2 est divisé en m parties et les points-milieux sont calculés pour ces nouveaux intervalles. L interpolation linéaire est utilisée entre les deux nouveaux points-milieux appropriés Points de coupure pour la fonction de Lorenz Pour déterminer les points de coupure de la fonction de Lorenz, on considère le vecteur cumulatif des données ordonnées et, à chaque étape, le total cumulatif est divisé par le grand total. Alors les points de coupure sont obtenus de la même manière que précédemment Courbe de Lorenz La représentation de la fonction de Lorenz par rapport à la proportion de la population ordonnée donne la courbe de Lorenz, qui est toujours contenue dans le triangle inférieur du carré unité. Le programme QUANTILE utilise dix sous-intervalles pour la courbe de Lorenz. Noter que les valeurs de la fonction de Lorenz sont appelées «Part de richesse» sur la sortie imprimée Indice de Gini L indice de Gini représente le double de la surface contenue entre la fonction de Lorenz et la diagonale du carré unité. Il varie entre les valeurs 0 et 1. Zéro (0) représente une «parfaite égalité» - toutes les données sont égales. Un (1) indique une «parfaite inégalité» - il y a une donnée non nulle. Le programme utilise une approximation : Indice de Gini = 1 1 s 2 s s 1 l i i=1 où l i est le point i de coupure de la fonction de Lorenz. Cette approximation devient plus précise quand le nombre de points de coupure augmente; il est recommandé d en utiliser au moins dix Statistique D de Kolmogorov-Smirnov Le test de Kolmogorov-Smirnov permet de mesurer la distance entre deux distributions cumulatives. Si les deux distributions cumulatives sont trop éloignées en chaque point, ceci suggère que les deux échantillons proviennent de populations différentes. Le test s intéresse à la plus grande distance entre les deux distributions. Soit V 1 et V 2 les vecteurs de données ordonnées respectivement pour la première et la deuxième variable, et soit X le vecteur des codes qui apparaît dans l une ou l autre distribution. Le programme crée les deux fonctions cumulatives étagées, respectivement F 1 (x) et F 2 (x). Ensuite, il cherche la plus grande différence en valeur absolue entre les deux distributions, D = max( F 1 (x) F 2 (x) ) et il imprime : x : la valeur où la plus grande différence en valeur absolue apparaît f 1 : la valeur de F 1 associée avec x f 2 : la valeur de F 2 associée avec x.

381 45.7 Note sur les poids 361 Si les nombres N pour V 1 et V 2 sont égaux et sont plus petits que 40, le programme imprime la statistique K égale à la différence en fréquence associée à la plus grande différence. Une table des valeurs critiques de la statistique K, notée K D, peut être consultée pour déterminer la signification de la différence observée. Si les nombres N pour V 1 et V 2 ne sont pas égaux, ou sont plus grands que 40, le programme imprime les statistiques suivantes : Ecart non ajusté = D = f 1 f 2 N1 N 2 Ecart ajusté = D N 1 + N 2 où N 1 et N 2 sont égaux respectivement aux nombres d observations dans V 1 et V 2. Approximation du Chi-deux = 4D 2 N 1 N 2 N 1 + N 2 Note : la signification de la déviation directionnelle maximale peut être trouvée en comparant la valeur du Chi-deux à celle de la distribution d un Chi-deux à deux degrés de liberté Note sur les poids Pour les points de coupure de la fonction de distribution, les points de coupure de la fonction de Lorenz, et les indices de Gini, les données peuvent être pondérées par un entier. Si le poids est spécifié, chaque observation est implicitement comptée comme w observations, où w est la valeur du poids pour l observation. Le test de Kolmogorov-Smirnov est toujours effectué sur des données non pondérées.

382

383 Chapitre 46 Analyses factorielles Notation x = valeurs des variables i = indice pour l observation j, j = indices pour les variables α = indice pour le facteur m = nombre de facteurs déterminés/désirés I1 = nombre d observations actives J1 = nombre de variables actives w = valeur du poids W = somme des poids pour les observations actives Statistiques univariées Ces statistiques sont calculées pour toutes les variables utilisées dans l analyse, càd les variables actives et passives, s il y en a. Il est à noter que les variables sont renumérotées à partir de 1 (colonne RNK). Seules les observations actives entrent dans les calculs. a) Moyenne. x j = I1 i=1 w i x ij W b) Variance (estimée). I1 ( ( )[ W w i x 2 ij ŝ 2 N I1 ) 2 w i x ij ] i=1 i=1 j = N 1 W 2 c) Écart-type (estimé). 2 ŝ j = ŝ j d) Coefficient de variation (C. Var.). C j = ŝj x j

384 364 Analyses factorielles e) Total (somme pour x j ). I1 Total j = w i x ij i=1 f) Coefficient d asymétrie. g1 j = m3 j ŝ 2 j ŝ 2 j où m3 j = I1 i=1 w i (x ij x j ) 3 W g) Coefficient d aplatissement. g2 j = m4 j (ŝ 2 j )2 3 où m4 j = I1 i=1 w i (x ij x j ) 4 W h) N pondéré. Nombre d observations actives si le poids n est pas spécifié, ou nombre pondéré d observations actives (somme des poids) Données en entrée Les données sont imprimées pour les observations actives et passives. La première colonne du tableau contient les valeurs de la variable ID de l observation (jusqu à 4 chiffres). La deuxième colonne (Coef) contient la valeur du poids attribué à chaque observation (w i ). La troisième colonne (PI) est égale à la somme pondérée des valeurs des variables actives, pour chaque observation (totaux pondérés pour les lignes). J1 P i = w i x ij j=1 La première ligne contient les quatre premiers caractères du nom de chaque variable. La seconde ligne (PJ) est égale à la somme pondérée des valeurs des variables actives, pour chaque variable (totaux pondérés pour les colonnes). I1 P j = i=1 w i x ij Il est à signaler que la valeur du «Coef» au début de cette ligne est égale au nombre pondéré des observations actives, et que la valeur de «PI» est égale au Total global (P) des variables actives pour les observations actives. I1 J1 P = P i = i=1 j=1 I1 J1 P j = w i x ij i=1 j=1 Le reste du tableau des données d entrée contient les valeurs (avec une place décimale) des variables actives et passives Matrices de base (matrices de relations) Pour chaque type d analyse, une matrice de base est calculée et imprimée. C est une matrice des relations entre variables. Pour les sorties imprimées, les valeurs dans la matrice sont multipliées par un facteur dont la valeur est imprimée à côté du titre de la matrice. Ce facteur est fixé à zéro lorsqu il y a des valeurs qui

385 46.4 Trace 365 dépassent 5 chiffres (cela peut se produire dans le cas d une matrice de produits scalaires ou d une matrice de covariances). Pour l analyse des correspondances, les éléments C jj de la matrice de base sont calculés comme suit : C jj = 1 P j P j I1 i=1 (w i x ij ) (w i x ij ) P i Pour l analyse des produits scalaires, les éléments SP jj de la matrice de base sont calculés comme suit : I1 SP jj = w i x ij x ij i=1 Pour l analyse des produits scalaires normés, les éléments NSP jj de la matrice de base sont calculés comme suit : I1 i=1 NSP jj = ( I1 w i x 2 ij i=1 w i x ij x ij )( I1 ) w i x 2 ij i=1 Pour l analyse des covariances, les éléments COV jj de la matrice de base sont calculés comme suit : COV jj = I1 i=1 w i (x ij x j )(x ij x j ) W Pour l analyse des corrélations, les éléments COR jj de la matrice de base sont calculés comme suit : COR jj = I1 i=1 w i (x ij x j )(x ij x j ) I1 w i (x ij x j ) 2 I1 i=1 i=1 w i (x ij x j ) Trace La trace de la matrice de base est calculée comme la somme de ses éléments en diagonale. La trace est aussi égale au total des valeurs propres (inertie totale). Il est à remarquer que pour l analyse des corrélations et l analyse des produits scalaires normés, l inertie totale est égale au nombre de variables actives. J1 Trace = α=1 λ α 46.5 Valeurs et vecteurs propres Les valeurs propres et les vecteurs propres sont imprimés pour les facteurs retenus. Ils ont la même signification pour chaque type d analyse, mais ils ne sont guère intéressants pour l utilisateur. Pour l analyse des correspondances, le programme imprime ici une valeur propre et un vecteur propre de plus que le nombre de facteurs déterminé/désiré. Le facteur pour une valeur propre triviale (étant toujours égale à 1) est imprimé en premier et il est ignoré ensuite. Les facteurs restants sont renumérotés (à partir de 1) dans les tableaux des variables/observations actives/passives.

386 366 Analyses factorielles 46.6 Tableau des valeurs propres Le tableau contient toutes les valeurs propres, dénotées par λ α, calculées par le programme. Il faut rappeler que dans l analyse des correspondances, la première valeur propre triviale (toujours égale à 1) est imprimée seulement au-dessus du tableau, et sa valeur n est pas incluse dans la Trace lorsque l on calcule le pourcentage décrit au point 6.d ci-dessous. a) NO. Numéro séquentiel de la valeur propre, α, en ordre ascendant. b) ITER. Nombre d itérations utilisées pout calculer les vecteurs propres correspondants. La valeur zéro indique que le vecteur propre correspondant a été obtenu en même temps que le vecteur précédent (en commençant par le bas). c) Valeur propre. Cette colonne présente une suite de valeurs propres, lambdas, chacune correspondant au facteur α. d) Pourcentage. Contribution du facteur à l inertie totale (en termes de pourcentages). τ α = λ α Trace 100 e) Cumul (pourcentage cumulatif). Contribution des facteurs 1 jusqu à α à l inertie totale (en termes de pourcentages). Cumul α = τ 1 + τ τ α f) Histogramme des valeurs propres. Chaque valeur propre est représentée par une ligne d astérisques dont le nombre est proportionnel à la valeur propre. La première valeur propre dans l histogramme est toujours représentée par 60 astérisques. L histogramme permet une analyse visuelle de la diminution relative des valeurs propres pour les facteurs suivants Tableau des facteurs des variables actives Le tableau contient les coordonnées des variables actives dans l espace factoriel, leurs cosinus carrés et leurs contributions à chaque facteur. De plus, il contient la qualité de représentation de ces variables, leurs poids et leurs inerties. a) JPR. Numéro de variable pour les variables actives (principales). b) QLT. La qualité de représentation de la variable dans l espace de m facteurs est mesurée, pour tous les types d analyse, par la somme des cosinus carrés (voir point 7.f ci-dessous). Les valeurs plus proches de 1 indiquent un niveau supérieur de représentation de la variable par les facteurs. QLT j = m COS2 α j α=1 c) WEIG. Valeur du poids de la variable. Pour tous les types d analyse, elle est calculée comme le rapport entre le total de la variable et le Total global (voir point 2 ci-dessus), multiplié par f j = P j P 1000 Noter que le poids (WEIG) imprimé sur la dernière ligne du tableau est égal au : - Total global pour l analyse des correspondances, - nombre pondéré d observations pour les autres types d analyse.

387 46.7 Tableau des facteurs des variables actives 367 d) INR. Inertie correspondant à la variable. Elle indique la partie de l inertie totale relative à la variable dans l espace factoriel. Pour l analyse des correspondances, elle est calculée comme un rapport entre l inertie de la variable et l inertie totale, multiplié par Noter que l inertie de la variable dépend du poids de la variable et que la valeur de Trace utilisée ici ne contient pas de valeur propre triviale. INR j = J1 1 f j α=1 Trace F 2 α j 1000 où F α j est la coordonnée de la variable j correspondant au facteur α (voir point 7.e ci-dessous). Pour l analyse des produits scalaires et l analyse des covariances, l inertie de la variable ne dépend pas du poids de la variable. INR j = J1 Fα 2 j α=1 Trace 1000 Pour l analyse des produits scalaires normés et l analyse des corrélations, l inertie de la variable dépend seulement du nombre des variables actives. INR j = 1 J Notons que l inertie (INR) imprimée sur la dernière ligne du tableau est égale à Les trois colonnes suivantes sont répétées pour chaque facteur. e) α#f. Coordonnée de la variable dans l espace factoriel, dénotée ici par F α j. f) COS2. Cosinus carré de l angle entre la variable et le facteur. C est une mesure de «distance» entre la variable et le facteur. Des valeurs plus proches de 1 indiquent des distances plus rapprochées du facteur. Pour l analyse des correspondances, il est calculé comme suit : COS2 α j = F α 2 j J1 1 Fα 2 j α= Pour l analyse des produits scalaires et l analyse des covariances, COS2 α j = F α 2 j J1 Fα 2 j α= Pour l analyse des produits scalaires normés et l analyse des corrélations, COS2 α j = F 2 α j 1000 g) CPF. Contribution de la variable au facteur. Pour l analyse des correspondances, CPF α j = f j F 2 α j λ α 1000 Pour tous les autres types d analyse, CPF α j = F 2 α j λ α 1000 Notons que la contribution (CPF) imprimée sur la dernière ligne du tableau est égale à 1000.

388 368 Analyses factorielles 46.8 Tableau des facteurs des variables passives Le tableau contient les mêmes informations que celui décrit au point 7 ci-dessus, mais pour les variables passives. a) JSUP. Numéro de la variable pour les variables passives (supplémentaires). b) QLT. Qualité de représentation de la variable dans l espace de m facteurs (voir 7.b ci-dessus). c) WEIG. Valeur du poids de la variable (voir 7.c ci-dessus). d) INR. Inertie correspondant à la variable. Notons que les variables passives ne contribuent pas à l inertie totale. Ainsi, l inertie indique ici si la variable pourrait jouer quelque rôle dans l analyse au cas où elle était utilisée comme une variable active. Elle est calculée de la même façon que pour les variables actives dans les analyses respectives (voir 7.d ci-dessus). L inertie (INR) imprimée sur la dernière ligne du tableau est égale à l INR totale pour toutes les variables passives. Les trois colonnes suivantes sont répétées pour chaque facteur. e) α#f. Coordonnée de la variable dans l espace factoriel, dénotée ici par F α j. f) COS2. Cosinus carré de l angle entre la variable et le facteur. Il est calculé de la même manière que pour les variables actives dans les analyses respectives (voir 7.f ci-dessus). g) CPF. Contribution de la variable au facteur. Notons que les variables passives ne participent pas à la construction de l espace factoriel. Ainsi, la contribution indique seulement si la variable pourrait jouer quelque rôle dans l analyse au cas où elle était utilisée comme une variable active. CPF est calculée de la même façon que pour les variables actives dans les analyses respectives (voir 7.g ci-dessus). La contribution (CPF) imprimée sur la dernière ligne du tableau est égale au total CPF pour toutes les variables passives Tableau des facteurs des observations actives Le tableau contient les coordonnées des observations actives dans l espace factoriel, leurs cosinus carrés avec chaque facteur et leurs contributions à chaque facteur. De plus, il contient la qualité de représentation de ces observations, leurs poids et leurs inerties. a) IPR. Valeur ID de l observation pour les observations actives (principales). b) QLT. La qualité de représentation de l observation dans l espace de m facteurs est mesurée, pour tous les types d analyse, par la somme des cosinus carrés (voir point 9.f ci-dessous). Les valeurs plus proches de 1 indiquent un niveau supérieur de représentation de l observation par les facteurs. QLT i = m COS2 α i α=1 c) WEIG. Valeur du poids de l observation. Pour l analyse des correspondances, elle est calculée comme le rapport entre la somme (pondérée) des variables actives pour cette observation et le Total global (voir point 2 ci-dessus), multiplié par f i = P i P 1000 Notons que le poids (WEIG) imprimé sur la dernière ligne du tableau est égal au Total global. Pour tous les autres types d analyse, f i = w i P 1000 Notons que le poids (WEIG) imprimé sur la dernière ligne du tableau est égal au nombre pondéré d observations.

389 46.9 Tableau des facteurs des observations actives 369 d) INR. Inertie correspondant à l observation. Elle indique la part de l inertie totale relative à l observation dans l espace factoriel. Pour l analyse des correspondances, elle est calculée comme le rapport entre l inertie de l observation et l inertie totale, multiplié par Notons que l inertie de l observation dépend du poids de l observation et que la valeur de Trace utilisée ici ne contient pas la valeur propre triviale. INR i = J1 1 f i α=1 Trace F 2 α i 1000 Pour tous les autres types d analyse, ( w i J1 INR i = W Trace j=1 z 2 ij ) 1000 où z ij = x ij x ij ( I1 i=1 wi x2 ij x ij x j x ij x j s j ) / W pour l analyse des produits scalaires pour l analyse des produits scalaires normés pour l analyse des covariances pour l analyse des corrélations et s j est l écart-type de la variable j sur l échantillon. Notons que l inertie (INR) imprimée sur la dernière ligne du tableau est égale à Les trois colonnes suivantes sont répétées pour chaque facteur. e) α#f. Coordonnée de l observation dans l espace factoriel, dénotée ici par F α i. f) COS2. Cosinus carré de l angle entre l observation et le facteur. C est une mesure de «distance» entre l observation et le facteur. Des valeurs plus proches de 1 indiquent des distances plus rapprochées du facteur. Pour l analyse des correspondances, il est calculé comme suit : COS2 α i = F α 2 i J1 1 Fα 2 i α= Pour tous les autres types d analyse, F 2 α i J1 COS2 α i = α=1 F 2 α i 1000 g) CPF. Contribution de l observation au facteur. Pour l analyse des correspondances, CPF α i = f i F 2 α i λ α 1000 Pour tous les autres types d analyse, CPF α i = w i F 2 α i W λ α 1000 Notons que la contribution (CPF) imprimée sur la dernière ligne du tableau est égale à 1000.

390 370 Analyses factorielles Tableau des facteurs des observations passives Le tableau contient les mêmes informations que celui décrit au point 9 ci-dessus, mais pour les observations passives. a) ISUP. Valeur ID de l observation pour les observations passive (supplémentaires). b) QLT. Qualité de représentation de l observation dans l espace de m facteurs (voir 9.b ci-dessus). c) WEIG. Valeur du poids de l observation (voir 9.c ci-dessus). d) INR. Inertie correspondant à l observation. Notons que les observations passives ne contribuent pas à l inertie totale. Ainsi, l inertie indique ici si l observation pourrait jouer quelque rôle dans l analyse au cas où elle était utilisée comme une observation active. Elle est calculée de la même façon que pour les observations actives dans les analyses respectives (voir 9.d ci-dessus). L inertie (INR) imprimée sur la dernière ligne du tableau est égale à l INR totale pour toutes les observations passives. Les trois colonnes suivantes sont répétées pour chaque facteur. e) α#f. Coordonnée de l observation dans l espace factoriel, dénotée ici par F α i. f) COS2. Cosinus carré de l angle entre l observation et le facteur. Il est calculé de la même manière que pour les observations actives dans les analyses respectives (voir 9.f ci-dessus). g) CPF. Contribution de l observation au facteur. Notons que les observations passives ne participent pas à la construction de l espace factoriel. Ainsi, la contribution indique seulement si l observation pourrait jouer quelque rôle dans l analyse au cas où elle était utilisée comme une observation active. CPF est calculée de la même façon que pour les observations actives dans les analyses respectives (voir 9.g ci-dessus). La contribution (CPF) imprimée sur la dernière ligne du tableau est égale au total CPF pour toutes les observations passives Facteurs ayant subi une rotation Les facteurs «variable» peuvent subir une rotation une fois que l analyse factorielle est terminée. La procédure Varimax utilisée ici est la même que celle utilisée dans le programme CONFIG. Notons que les facteurs «variable» pour les variables actives peuvent être traités comme une configuration de J1 objets dans l espace de dimension α Références Benzécri, J.-P. et F., Pratique de l analyse de données, tome 1 : Analyse des correspondances, exposé élémentaire, Dunod, Paris, Iagolnitzer, E.R., Présentation des programmes MLIFxx d analyses factorielles en composantes principales, Informatique et sciences humaines, 26, 1975.

391 Chapitre 47 Régression linéaire Notation y = valeur de la variable dépendante x = valeur de la variable indépendante i, j, l, m = indices pour les variables p = nombre de prédicteurs k = indice pour l observation N = nombre d observations w = valeur du poids multiplié par N W W = somme totale des poids Statistiques univariées Ces statistiques pondérées sont calculées pour toutes les variables utilisées dans l analyse, càd les variables fictives, les variables indépendantes et la variable dépendante. a) Moyenne. x i = w k x ik k N b) Écart-type (estimé). N k ŝ i = ( ) 2 (w k x ik ) 2 w k x ik N(N 1) c) Coefficient de variation (C.var.). C i = 100 ŝ i x i k 47.2 Matrice des sommes totales des carrés et des produits croisés Elle est calculée pour toutes les variables utilisées dans l analyse comme suit : t.s.s.c.p. ij = k w k x ik x jk

392 372 Régression linéaire 47.3 Matrice des sommes résiduelles des carrés et des produits croisés Cette matrice, aussi applée une matrice des carrés et de produits croisés de déviations est calculée pour toutes les variables utilisées dans l analyse comme suit : ( )( ) w k x ik w k x jk r.s.s.c.p. ij = w k x ik x jk k k N k 47.4 Matrice de corrélation totale Les éléments de cette matrice sont calculés à partir de la matrice des sommes résiduelles des carrés et des produits croisés. Noter que si cette formule est écrite en détail, et si le numérateur et le dénominateur sont tous les deux multipliés par N, on a la formule classique du coefficient r de Pearson. r.s.s.c.p. ij r ij = r.s.s.c.p. ii r.s.s.c.p. jj 47.5 Matrice de corrélation partielle L élément ij de cette matrice est la corrélation partielle entre la variable i et la variable j, les variables spécifiées étant maintenues constantes. Les corrélations partielles décrivent le degré de corrélation qui pourrait exister entre deux variables pourvu que la variation d une ou de plusieurs autres variables soit contrôlée. Elles décrivent aussi la corrélation entre des variables indépendantes qui pourraient être sélectionnées dans la régression pas à pas. a) Corrélation entre x i et x j sachant que la variable x l est constante (coefficients de corrélation partielle d ordre un). r ij l = r ij r il r jl 1 r 2 il 1 r 2 jl où r ij, r il, r jl sont des coefficients d ordre zéro (coefficients r de Pearson). b) Corrélation entre x i et x j sachant que les variables x l et x m sont constantes (coefficients de corrélation partielle d ordre deux). r ij lm = r ij l r im l r jm l 1 r 2 im l 1 r 2 jm l où r ij l, r im l, r jm l sont les coefficients partiels d ordre un. Note : le programme calcule les corrélations partielles en travaillant étape par étape à partir des coefficients d ordre zéro, puis d ordre un, d ordre deux, etc Matrice inverse Pour une régression standard, c est l inverse de la matrice de corrélation des variables indépendantes (explicatives) et de la variable dépendante. Pour une régression pas à pas, c est l inverse de la matrice des corrélations des variables indépendantes dans l équation finale. Le programme utilise la méthode d élimination gaussienne pour inverser.

393 47.7 Statistiques générales d analyse Statistiques générales d analyse a) Erreur standard des estimés. C est l écart-type des résidus. où (y k ŷ k ) 2 k Erreur standard des estimés = dl ŷ k = valeur prédite de la variable dépendante pour l observation k dl = degrés de liberté résiduels (voir 7.f ci-dessous). b) Rapport F pour la régression. C est la statistique F pour déterminer la signification statistique du modèle considéré. Les degrés de liberté sont p et N p 1. F = R2 dl p (1 R 2 ) où R 2 est la fraction de la variance expliquée (voir 7.d ci-dessous). c) Coefficient de corrélation multiple. C est la corrélation entre la variable dépendante et le score prédit. Il indique la force de la relation entre le critère et la fonction linéaire des prédicteurs, et il est similaire à un simple coefficient de corrélation de Pearson, sauf qu il est toujours positif. R = R 2 R n est pas imprimé si le terme constant est maintenu à zéro. d) Fraction de la variance expliquée. R 2 peut être interprété comme la proportion de variation dans la variable dépendante expliquée par les variables prédicteurs. C est une mesure de l efficacité générale de la régression linéaire, parfois appelée coefficient de détermination. Plus il est grand, mieux l équation obtenue explique la variation dans les données. où R 2 = 1 (y k ŷ k ) 2 k (y k y) 2 k ŷ k = valeur prédite de la variable dépendante pour l observation k y = moyenne de la variable dépendante. Comme R, R 2 n est pas imprimé si le terme constant est maintenu à zéro. e) Déterminant de la matrice de corrélation. C est le déterminant de la matrice de corrélation des prédicteurs. Il représente en un seul chifre la variance généralisée dans un jeu de variables, et varie de 0 à 1. Des déterminants proches de zéro indiquent que quelques unes ou toutes les variables explicatives sont fortement corrélées. Un déterminant nul indique une matrice singulière, ce qui veut dire qu au moins un des prédicteurs est une fonction linéaire d un ou de plusieurs des autres. f) Degrés de liberté résiduels. Si la constante n est pas maintenue à zéro, dl = N p 1 Si la constante est maintenue à zéro, dl = N p

394 374 Régression linéaire g) Terme constant. A = y i B i x i où y = moyenne de la variable dépendante (voir 1.a ci-dessus) x i = moyenne de la variable prédicteur i (voir 1.a ci-dessus) B i = coefficient B pour la variable prédicteur i (voir 8.a ci-dessous) Statistiques relatives aux prédicteurs a) B. Ce sont les coefficients de régression partiels non standardisés qu il est approprié d utiliser dans une équation (plutôt que les betas) pour prédire les données brutes. Ils sont sensibles à l échelle de mesure de la variable prédicteur et à la variance de cette variable. où B i = β i ŝ y ŝ i β i ŝ y ŝ i = poids beta pour le prédicteur i (voir 8.c ci-dessous) = écart-type de la variable dépendante (voir 1.b ci-dessus) = écart-type de la variable prédicteur i (voir 1.b ci-dessus). b) Sigma B. C est l erreur standard de B, une mesure de la validité du coefficient. cii Sigma B i = (erreur standard des estimés) r.s.s.c.p. ii où c ii est l élément diagonal i de l inverse de la matrice de corrélation des prédicteurs dans l équation de régression (voir 6 ci-dessus). c) Beta. Ces coefficients de régression sont aussi appelés «coefficients de régression partiels standardisés» ou «coefficients B standardisés». Ils sont indépendants de l échelle de mesure. Les grandeurs des carrés des betas indiquent les contributions relatives des variables à la prédiction. où β i = R 1 11 R yi R 11 = matrice de corrélations des prédicteurs dans l équation R yi = vecteur colonne des corrélations de la variable dépendante et des prédicteurs indiqué par le prédicteur i. d) Sigma Beta. C est l erreur standard du coefficient beta, une mesure de la validité de ce coefficient. Sigmaβ i = sigmab i ŝ i ŝ y e) R carré partiel. Ce sont les corrélations partielles, carrées, entre le prédicteur i et la variable dépendante, y, sans l influence des autres variables dans l équation de régression. Le coefficient de corrélation carré partiel est une mesure de la partie de la variation dans la variable dépendante, qui n est pas expliquée par les autres prédicteurs, et qui est expliquée par le prédicteur i. r 2 yi jl... = R2 y ijl... R2 y jl... 1 R 2 y jl...

395 47.9 Résidus 375 où R 2 y ijl... = R multiple carré avec le prédicteur i R 2 y jl... = R multiple carré sans le prédicteur i. f) R carré marginal. C est l augmentation de la variance expliquée obtenue en ajoutant le prédicteur i aux autres prédicteurs dans l équation de régression. marginalr 2 i = R 2 y ijl... R 2 y jl... g) Rapport t. Il peut être utilisé pour tester l hypothèse que β, ou B, est égal à zéro; càd, que le prédicteur i n a pas d influence linéaire sur la variable dépendante. Sa signification peut être déterminée d après le tableau t, avec N p 1 degrés de liberté. t = β i sigmaβ i = B i sigmab i h) Rapport de covariance. Le rapport de covariance de x i est le carré du coefficient de corrélation multiple, R 2, de x i avec les p 1 autres variables indépendantes dans l équation. C est une mesure de l intercorrélation de x i avec les autres prédicteurs. Rapport de covariance i = 1 1 c ii où c ii est le i ième élément diagonal de l inverse de la matrice de corrélation des prédicteurs dans l équation (voir 6 ci-dessus) Résidus Les résidus sont les différences entre la valeur observée de la variable dépendante et la valeur prédite par l équation de régression. e k = y k ŷ k La statistique d de Durbin-Watson pour l auto-corrélation d ordre un des résidus est calculée de la manière suivante : N (e k e k 1 ) 2 d = k=2 N k=1 e 2 k Note sur la régression pas à pas ascendante La régression pas à pas ascendante introduit les prédicteurs étape par étape dans le modèle, en commençant avec la variable indépendante la plus corrélée avec y. Après la première étape, l algorithme sélectionne parmi les variables indépendantes restantes celle qui fournit la plus grande réduction dans la variance résiduelle (non expliquée) de la variable dépendante, càd la variable dont la corrélation partielle avec y est la plus grande. Le programme produit alors un F-test partiel pour voir si les variables ont une quantité de variation significative par rapport aux variables restantes dans la régression. L utilisateur peut spécifier une F-valeur minimum pour l inclusion de toute variable; le programme évalue si oui ou non la F-valeur obtenue à une étape donnée satisfait le minimum, et s il le satisfait, il entre la variable. De même, le programme décide à chaque étape si, oui ou non, chaque variable précédemment incluse satisfait encore un minimum (spécifié aussi par l utilisateur), et dans le cas contraire, il la supprime. F-valeur partielle pour variable i = (R2 y Pi R2 y P )(dl) 1 R 2 y Pi

396 376 Régression linéaire où R 2 y Pi = R multiple carré pour l ensemble des prédicteurs (P) déjà dans la régression, avec le prédicteur i R 2 y P = R multiple carré pour l ensemble des prédicteurs (P) déjà dans la régression dl = degrés de liberté résiduels. A n importe quelle étape de la procédure, les résultats sont les mêmes que ceux que l on obtiendrait dans une régression standard utilisant l ensemble de variables particulier; alors, l étape finale de la régression pas à pas ascendante donne les mêmes coefficients qu une procédure normale utilisant les variables qui subsistaient dans la procédure pas à pas Note sur la régression pas à pas descendante La régression pas à pas descendante est comme la régression pas à pas ascendante, sauf que l algorithme commence avec toutes les variables indépendantes et supprime ou ajoute des variables lors des étapes Note sur la régression avec interception de zéros Il est possible, quand on utilise le programme REGRESSN, de requérir une régression avec interception de zéros, càd que la variable dépendante est zéro quand toutes les variables indépendantes sont zéro. Si une régression passant par le point d origine est spécifiée, toutes les statistiques, exceptées 1 à 4 cidessus, sont basées sur une moyenne de zéros. Le coefficient de corrélation multiple et la fraction de variance expliquée (points 7.c et 7.d) ne sont pas imprimés. Les statistiques qui ne sont pas centrées autour de la moyenne peuvent être très différentes de ce qu elles seraient si elles étaient centrées; ainsi, dans une solution pas à pas les variables peuvent très bien intervenir dans l équation dans un ordre différent suivant qu une constante est estimée ou non. Dans le programme REGRESSN, la matrice avec les éléments w k x ik x jk k k a ij = w k x 2 ik w k x 2 jk k est analysée plutôt que R, la matrice de corrélation. Les coefficients partiels non standardisés B de régression sont obtenus par B i = β i k w k x 2 ik w k x 2 jk k

397 Chapitre 48 Analyse multidimensionnelle des proximités Notation x = élément de la configuration i, j, l, m = indices pour les variables n = nombre de variables s = indice pour la dimension t = nombre de dimensions Ordre des calculs Pour un nombre donné de dimensions, t, MDSCAL fournit la configuration avec contrainte («stress») minimale en utilisant une procédure itérative. Le programme commence avec une configuration initiale (fournie par l utilisateur ou par le programme) et la modifie jusqu à ce qu il converge vers la configuration de contrainte minimale Configuration initiale Si l utilisateur ne fournit pas une configuration initiale, le programme génère une configuration arbitraire en prenant les n premiers points dans la liste suivante (chaque expression entre parenthèse représente un point) : (1, 0, 0,..., 0), (0, 2, 0,..., 0), (0, 0, 3,..., 0),. (0, 0, 0,..., t), (t + 1, 0, 0,..., 0), (0, t + 2, 0,...,0), Centrage et normalisation de la configuration Au départ de chaque itération, la configuration est centrée et normée.

398 378 Analyse multidimensionnelle des proximités Si x is représente l élément dans la ligne i et la colonne s de la configuration, alors où x is centré = x is x s x is normé = x is x s n.f. x s = i n x is est la moyenne de dimension s et n n.f. = i s x 2 is est le facteur de normalisation. Noter que la somme totale des carrés des éléments de la configuration centrée normée est égale à n, le nombre de variables Historique du calcul A la fin de chaque itération, les points 4.a à 4.h ci-dessous sont imprimés. Ceci donne un historique, en général intéressant quand la convergence n est pas complète. Cependant, à la fin de l historique, la raison pour laquelle on s arrête est imprimée. Quand le programme s arrête même si le minimum n est pas atteint, la solution obtenue peut être néanmoins aussi proche que la solution minimale qui serait obtenue après quelques itérations supplémentaires - en particulier, quand la contrainte est très petite, c est en général le cas. a) Contrainte («Stress»). La mesure de la contrainte a deux fonctions. Tout d abord, elle permet de mesurer l adéquation de la configuration dérivée avec les données d entrée. D autre part, elle est utilisée pour décider comment les points doivent être déplacés dans l itération suivante. On dispose de deux formules pour calculer la contrainte : SQDIST et SQDEV. où (d ij d ij ) 2 i j Contrainte SQDIST = i j d 2 ij (d ij d ij ) 2 i j Contrainte SQDEV = (d ij d ) 2 i j d ij = distance entre les variables i et j dans la configuration (voir 8.c ci-dessous) d ij = nombres minimisant la contrainte, sous réserve que les d ij aient le même rang que les données d entrée (voir 8.d ci-dessous) d = moyenne de tous les d ij. b) SRAT. Ratio de contrainte. L utilisateur peut stopper la procédure d ajustement en spécifiant le ratio de contrainte à atteindre. Pour la première itération (départ à 0), sa valeur est SRAT = Contrainte actuel Contrainte précédent

399 48.4 Historique du calcul 379 c) SRATAV. Ratio moyen de contrainte. Pour la première itération, sa valeur est égale à SRATAV actuel = (SRAT actuel ) (SRATAV précédent ) d) CAGRGL. C est le cosinus de l angle entre le gradient actuel et le gradient précédent. g is g is où CAGRGL = cosθ = g = gradient actuel g = gradient précédent. i s i g 2 is Le gradient initial est égal à une constante : 1 g is initial = t s i s (g is )2 e) COSAV. Cosinus moyen de l angle entre des gradients successifs. C est une moyenne pondérée. Pour la première itération, sa valeur est mise à 0. COSAV actuel = CAGRGL actuel COSAVW + COSAV précédent (1.0 COSAVW) où COSAVW est un facteur de pondération dépendant de l utilisateur. f) ACSAV. Valeur moyenne absolue du cosinus de l angle entre des gradients successifs. C est une moyenne pondérée. Pour la première itération, sa valeur est mise à 0. ACSAV actuel = CAGRGL actuel ACSAVW + ACSAV précédent (1.0 ACSAVW) où ACSAVW est un facteur de pondération dépendant de l utilisateur. g) SFGR. Facteur d échelle du gradient. Au fur et à mesure des calculs, le facteur d échelle des gradients successifs décroit. Un moyen pour que la procédure d ajustement se termine est d atteindre le facteur minimum spécifié par l utilisateur. 1 SFGR = gis 2 n où g est le gradient actuel. i s h) STEP. Taille du pas. Dans la formule de la taille du pas, les deux points déterminants pour le choix de la nouvelle taille du pas sont la taille du pas précédent et le facteur d angle. Les tailles des pas ne doivent pas affecter la solution finale mais elles affectent le nombre d itérations nécessaires pour atteindre la solution. où STEP actuel = STEP précédent f d angle f de relâchement f good luck facteur (f) d angle = 4.0 COSAV facteur (f) de relâchement = 1.4 AB A = 1 + (min(1, SRATAV)) 5 B = 1 + ACSAV COSAV facteur (f) good luck = min(1, SRAT) La taille du premier pas est calculée de la manière suivante : STEP = 50. Contrainte SFGR

400 380 Analyse multidimensionnelle des proximités 48.5 Contrainte pour la configuration finale C est la réitération de la dernière valeur de la colonne de contrainte dans l historique du calcul (voir 4.a ci-dessous). La contrainte est une mesure qui permet de connaitre l adéquation de la configuration avec les données d entrée. L interprétation de la contrainte pour la configuration finale dépend de la formule utilisée dans les calculs. Notons que l utilisation de la Contrainte SQDEV fournit des valeurs de la contrainte nettement plus grandes pour le même degré d ajustement sur les données. Pour une utilisation classique de MDSCAL, Kruskal et Carmone fournissent le tableau suivant pour le choix usuel des valeurs de N (entre 10 et 30) et pour le choix usuel des dimensions (entre 2 et 5) : Contrainte SQDIST Contrainte SQDEV Faible 20.0 % 40.0 % Moyen 10.0 % 20.0 % Bon 5.0 % 10.0 % Excellent 2.5 % 5.0 % «Parfait» 0.0 % 0.0 % 48.6 Configuration finale A chaque itération, la configuration est formée en commençant par l ancienne configuration et en la déplaçant le long des gradients (négatifs) de la contrainte d une distance égale à la taille du pas. Configuration nouvelle = configuration ancienne + STEP SFGR (gradient) Chaque ligne de la matrice de configuration finale fournit les coordonnées d une variable de la configuration. L orientation des axes de référence est arbitraire et donc on cherche les axes après une rotation ou les axes obliques qui peuvent être facilement interprétables. Si on utilise la distance euclidienne ordinaire, il est possible de faire subir une rotation à la configuration de telle manière que les axes principaux coïncident avec les axes de coordonnées. Le programme CONFIG peut être utilisé dans ce but Configuration finale triée C est la configuration finale présentée avec chaque dimension triée - les coordonnées sont triées de la plus petite à la plus grande valeur Résumé a) IPOINT, JPOINT. Ce sont des indices des variables, (i, j), indiquant à quelle paire de variables se réfèrent les trois statistiques ci-dessous. b) DATA. Pour chaque paire de variables, c est l index d entrée de similarité ou de dissimilarité fourni par l utilisateur dans la matrice des données d entrée. c) DIST. C est la distance entre les points dans la configuration finale. Pour la métrique r de Minkowski, [ ] 1/r d ij = x is x js r s Dans le cas où r = 2, c est la distance euclidienne ordinaire d ij = (x is x js ) 2 s

401 48.9 Notes sur les liens dans les données d entrée 381 Dans le cas où r = 1, c est la distance «City block» d ij = s x is x js d) DHAT. Les D-chapeaux sont les nombres qui minimisent la contrainte en utilisant le fait que les d-chapeaux ont le même rang que les données d entrée; ce sont les distances «appropriées», estimées à partir des données d entrée. Ils sont obtenus à partir de d ij = d ij et dij d lm si p ij p lm i j i j ou (similarités) p ij p lm (dissimilarités) où d ij = distance entre les variables i et j dans la configuration d ij = transformation monotone des p ij p ij = index d entrée de similarité ou de dissimilarité entre les variables i et j Notes sur les liens dans les données d entrée Les liens dans les données d entrée, càd les valeurs identiques dans la matrice des données d entrée, peuvent être traités de deux manières : le choix est laissé à l utilisateur. La première approche, DIFFER, traite les liens dans la matrice d entrée comme une relation d ordre indéterminé, qui peut être résolue arbitrairement pour diminuer la dimension ou la contrainte. La seconde approche, EQUAL, traite les liens comme impliquant une relation d équivalence qui (autant que possible) doit être maintenue (même si la contrainte augmente). S il y a peu de liens, le choix de l approche a peu d importance Note sur les poids Le programme fournit une possibilité de pondération, mais ce n est pas la pondération dans le sens usuel du logiciel IDAMS. La pondération de MDSCAL peut être utilisée pour donner une importance différente à des valeurs différentes, càd que l on assigne des poids à des valeurs dans la matrice d entrée. Cette sorte de pondération peut être utilisée, par exemple, pour diminuer la grande variabilité dans les données dues à des différences de mesure. Si les poids sont utilisés, w ij (d ij d ij ) 2 i j Contrainte SQDIST = w ij d 2 ij w ij (d ij d ij ) 2 i j Contrainte SQDEV = w ij (d ij d ) 2 i j i j où d = w ij d ij i j i j w ij

402 382 Analyse multidimensionnelle des proximités et w ij dénote la valeur dans la cellule ij de la matrice de poids Références Kruskal, J.B., Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis, Psychometrica, 3, Kruskal, J.B., Nonmetric multidimensional scaling: a numerical method, Psychometrica, 29, 1964.

403 Chapitre 49 Analyse de classification multiple Notation y = valeur de la variable dépendante w = valeur du poids k = indice pour l observation i = indice pour le prédicteur j = indice pour la catégorie du prédicteur p = nombre de prédicteurs c = nombre de catégories non vides parmi tous les prédicteurs a ij = écart ajusté de la catégorie j du prédicteur i (voir 2.c ci-dessous) N ij = nombre d observations dans la catégorie j du prédicteur i N = nombre total d observations W = somme totale des poids l indice ijk indique que l observation k appartient à la catégorie j du prédicteur i Statistiques de la variable dépendante a) Moyenne. Moyenne globale de y. w k y k y = k W b) Écart-type de y (estimé). ( )[ W ŝ y = N k N 1 ( ) 2 w k yk 2 w k y k ] k W 2 c) Coefficient de variation. C y = 100 ŝ y y d) Somme des y. Somme des y = k w k y k

404 384 Analyse de classification multiple e) Somme des y carrés. Somme de y 2 = k w k y 2 k f) Somme totale des carrés. TSS = k w k (y k y) 2 g) Somme des carrés expliquée. ESS = i ( ) a ij w ijk y ijk j k h) Somme des carrés résiduelle. RSS = TSS ESS 49.2 Statistiques des prédicteurs dans l analyse de classification multiple a) Classe moyenne. Moyenne de la variable dépendante pour les observations dans la catégorie j du prédicteur i. y ij = w ijk y ijk k k w ijk b) Écart non ajusté par rapport à la moyenne globale. a ij non ajusté = y ij y c) Coefficient. Écart ajusté a ij par rapport à la moyenne globale. C est le coefficient de régression pour chaque catégorie de chaque prédicteur. y k prédite = y + i a ijk Les valeurs de a ij sont obtenues par une procédure itérative qui s arrête quand k (y k y k prédite) 2 atteint son minimum. d) Classe moyenne ajustée. C est un estimateur de ce qu aurait été la moyenne si le groupe avait eu exactement la distribution de la population totale pour toutes les classifications possibles des autres prédicteurs. S il n y a pas de corrélations entre les prédicteurs, la moyenne ajustée sera la classe moyenne. y ij ajustée = y + a ij e) Écart-type (estimé) de la variable dépendante pour la catégorie j du prédicteur i. ( ) 2/ w ijk yijk 2 w ijk y ijk ŝ ij = k k k ( ) w ijk w ijk / N ij k k w ijk

405 49.2 Statistiques des prédicteurs dans l analyse de classification multiple 385 f) Coefficient de variation (C.var.). C ij = 100 ŝ ij y ij g) Somme des carrés non ajustée. C est la somme des carrés (Sum of Squares) des écarts non ajustés pour le prédicteur i. U i = j ( ) (yij w ijk y ) 2 k h) Somme des carrés ajustée. C est la somme des carrés (Sum of Squares) des écarts ajustés pour le prédicteur i. D i = j ( ) (a ) 2 w ijk ij k i) Eta carré pour le prédicteur i. Eta carré peut être interprété comme le pourcentage de variance de la variable dépendante, qui peut être expliquée par le prédicteur i. η 2 i = U i TSS j) Eta pour le prédicteur i. Il indique la capacité pour le prédicteur, en utilisant les catégories données, d expliquer la variation de la variable dépendante. η i = η 2 i k) Eta carré pour le prédicteur i, ajusté en fonction des degrés de liberté. η 2 i ajusté = 1 A(1 η2 i ) où A est l ajustement pour le nombre de degrés de liberté (voir 3.b ci-dessous). l) Eta pour le prédicteur i, ajusté. η i ajusté = 1 A(1 η 2 i ) m) Beta carré pour le prédicteur i. Beta carré est la somme des carrés attribuables au prédicteur, après «avoir maintenu constant les autres prédicteurs», relative à la somme totale des carrés. Ceci ne s exprime pas en terme de pourcentage de la variance expliquée. β 2 i = D i TSS n) Beta pour le prédicteur i. Beta fournit une mesure de la capacité du prédicteur d expliquer les variations de la variable dépendante après ajustement dû aux effets des autres prédicteurs. Les coefficients Beta indiquent l importance relative des différents prédicteurs (plus la valeur est élevée, plus de variation est expliquée par le beta correspondant). β i = β 2 i

406 386 Analyse de classification multiple 49.3 Statistiques récapitulatives de l analyse de classification multiple a) R carré multiple non ajusté. C est le coefficient de corrélation multiple au carré. Il indique la proportion actuelle de la variance expliquée par les prédicteurs utilisés dans l analyse. R 2 = ESS TSS b) Ajustement pour des degrés de liberté. A = N 1 N p c 1 c) R multiple carré ajusté. Il fournit un estimateur de la corrélation multiple dans la population d où l échantillon est tiré. Notons que c est un estimateur de la corrélation multiple qui pourrait être obtenue si les mêmes prédicteurs, mais pas nécessairement les mêmes coefficients, étaient utilisés pour la population. R 2 ajusté = 1 A(1 R 2 ) d) R multiple ajusté. C est le coefficient de corrélation multiple ajusté pour des degrés de liberté. C est un estimateur de R qui pourrait être obtenu si les mêmes prédicteurs étaient appliqués à la population. R ajusté = 1 A(1 R 2 ) 49.4 Statistiques générales des résidus Le résidu pour une observation k est r k = y k y k prédite. a) Moyenne. w k r k r = k W b) Variance (estimée). ( )[ W ŝ 2 N k r = N 1 ( ) 2 w k rk 2 w k r k ] k W 2 c) Asymétrie. Le coefficient d asymétrie de la distribution des résidus est mesurée par ( )( ) N m 3 g 1 = ŝ2 N 2 r où m 3 = ŝ 2 r w k (r k r) 3 k W d) Aplatissement. Le coefficient d aplatissement de la distribution des résidus est mesurée par ( )( ) N m 4 g 2 = N 3 (ŝ 2 3 r )2 où m 4 = w k (r k r) 4 k W

407 49.5 Statistiques des catégories de prédicteurs dans une analyse de variance à un facteur Statistiques des catégories de prédicteurs dans une analyse de variance à un facteur Voir le chapitre «Analyse de variance à un facteur» pour les détails Statistiques récapitulatives de l analyse de variance à un facteur Voir le chapitre «Analyse de variance à un facteur» pour des détails. Noter que le facteur d ajustement A utilisé dans le programme MCA pour une analyse de variance à un facteur est calculé différemment que dans le programme ONEWAY, à savoir : A = N 1 N c 49.7 Références Andrews, F.M., Morgan, J.N., Sonquist, J.A., et Klem, L., Multiple Classification Analysis, 2nd ed., Institute for Social Research, The University of Michigan, Ann Arbor, 1973.

408

409 Chapitre 50 Analyse de la variance multivariée Notation y = valeur de la variable dépendante ou de la covariable i, j = indices des modalités des prédicteurs k = indice pour l observation p = nombre de variables dépendantes df h = degré de liberté de l hypothèse df e = degré de liberté de l erreur Statistiques générales a) Moyennes des cellules. y ijk représente la kème observation d une variable dépendante ou d une covariable dans le i, jème sous-groupe d un modèle à deux dimensions (two-way). y ij = N ij y ijk k=1 N ij où N ij est égal au nombre d observations dans le i, jème sous-groupe. b) Base du plan. La matrice d expériences est générée en développant d abord pour chaque facteur une matrice de plan à une dimension ou one-way (une matrice K f ) en accord avec le type de contraste spécifié par l utilisateur pour ce facteur. La matrice d expériences complète K est obtenue à partir des matrices à une dimension K f en prenant le produit de Kronecker de ces matrices. La matrice d expériences est toujours imprimée avec les équations des effets en colonnes et l effet de la moyenne générale dans la première colonne. c) Intercorrélations entre les coefficients des équations normales. La base du plan est pondérée par les effectifs des cellules. Si les effectifs sont différents dans chaque cellule, on a des corrélations entre les colonnes de la matrice d expériences. Lorsque les effectifs par cellule sont les mêmes, on a des 1 sur la diagonale et des 0 partout ailleurs. d) Solution des équations normales. Les paramètres sont estimés par les moindres carrés : où LX = (K DK) 1 K DY L = la matrice des contrastes dont les lignes i sont les contrastes indépendants

410 390 Analyse de la variance multivariée pour les paramètres qui doivent être estimés et testés X = les paramètres à estimer K = la matrice d expériences D = une matrice diagonale avec le nombre d observations par cellule Y = une matrice des moyennes de cellule avec des colonnes correspondant aux variables. Quand on travaille avec un plan orthogonal et des contrastes orthogonaux, les contrastes ont des estimateurs indépendants. Cependant, dans le cas d effectifs de cellule inégaux, le K approprié pour les plans orthogonaux n est plus orthogonal. Pour rendre K orthogonal, on le transforme en D de la façon suivante : T = SK D 1/2 avec TT = T T = I = SK DKS donc K D 1/2 = S 1 T et (K DK) 1 = S S et, en remplaçant dans la première équation ci-dessus, (S ) 1 LX = SK DY Cette dernière équation définit un nouvel ensemble de paramètres, fonctions linéaires des contrastes, avec la matrice SK remplaçant K. Ces paramètres sont orthogonaux. S est la matrice de Gram-Schmidt qui transforme K en D orthogonale et qui normalise ses lignes (orthonormalisation). S, et donc (S ) 1, sont triangulaires. e) Partitionnement des matrices. Dans une analyse de la variance univariée, on a une variable dépendante pour chaque observation. Dans une analyse de la variance multivariée, on a un vecteur de variables dépendantes pour chaque observation. L analogue multivarié de y 2 est le produit de matrices y y et l analogue multivarié d une somme de carrés est une somme de produits de matrices. Dans une analyse multivariée, il y a une matrice correspondant à chaque somme de carrés d un plan univarié. Les tests multivariés dépendent des partitions de la somme totale des produits de matrices exactement comme les tests univariés dépendent des partitions de la somme totale des carrés. Les formules pour la somme totale des produits, la somme des produits inter et la somme des produits intra sont S t = Y Y S b = Y. DY. S w = Y Y Y. DY. où Y = la matrice originale N p (N observations, p variables dépendantes) Y. = la matrice n p des moyennes de cellules (n cellules, p variables dépendantes) D = une matrice diagonale avec le nombre d observations par cellule. La somme des produits inter est partitionnée dépendant des effets dans le modèle.

411 50.2 Calculs pour un test en analyse multivariée 391 f) Matrice des corrélations de l erreur. Dans une analyse de la variance multivariée, le terme d erreur est une matrice des variances-covariances. La matrice des corrélations de l erreur est la matrice précédente réduite pour obtenir une matrice des corrélations. La matrice des corrélations est calculée en utilisant S w, l erreur intra ou la somme des produits intra. où R e = s 1 e S w s 1 e S w = la somme des produits intra s 2 e = les termes diagonaux de S w. R e est la matrice des coefficients de corrélation entre les variables : ce sont les estimés des valeurs dans la population. Si l utilisateur a spécifié que les sommes de carrés intra devaient être augmentées pour constituer le terme d erreur, l augmentation a lieu avant que la matrice soit réduite en matrice des corrélations. g) Composantes principales de la matrice des corrélations de l erreur. C est l analyse en composantes principales standard de la matrice R e. Elle indique la structure des facteurs dans la population étudiée. Les valeurs propres (ou leurs racines) sont imprimes sous les composantes. h) Matrice de dispersion de l erreur. Il s agit du terme d erreur, une matrice des variances-covariances, de l analyse. La matrice est ajustée pour les covariables s il y en a. Chaque élément diagonal de la matrice est égal exactement à ce qui apparaîtrait dans une analyse classique de la variance comme le carré moyen de l erreur intra du facteur. où M e = S w df e S w = la somme des produits intra sous-groupe df e = les degrés de liberté de l erreur, ajustés pour l augmentation si demandé. Si on ne demande pas d augmentation, le degré de liberté pour l erreur est égal au nombre d observations moins le nombre de cellules dans le plan. i) Erreurs standards des estimations. Ils correspondent aux racines carrées des éléments diagonaux de la matrice M e Calculs pour un test en analyse multivariée Les calculs sont répétés pour chaque test demandé par l utilisateur. Les résultats des calculs internes décrits dans la suite de a) à d) ne sont pas imprimés. a) Matrice des sommes de carrés dues à l hypothèse. La somme de carrés inter sous-groupe est partitionnée selon les différents effets du modèle. Pour tester une hypothèse donnée, le programme détermine les estimés orthogonaux qui doivent être testés et calcule la somme des carrés due à l hypothèse (S h ). b) S w et S h réduites à des carrés moyens et normés dans l espace des corrélations. La matrice des carrés moyens pour l hypothèse, M h, est calculée de façon analogue aux carrés moyens de l erreur. où M h = S h df h S h = la matrice des sommes de carrés due à l hypothèse (voir ci-dessus).

412 392 Analyse de la variance multivariée Les degrés de liberté pour l hypothèse dépendent du test demandé; pour un test sur un effet principal A où le facteur A a a niveaux, les degrés de liberté seront a 1. M h est une matrice des produits moyens inter associé à une hypothèse concernant un effet principal ou un effet d interaction. M e and M h sont normés dans l espace des corrélations : où R e = 1 e M e e 1 C h = 1 e M h e 1 R e = la matrice des coefficients de corrélation estimés entre les variables C h = une matrice, qui n est pas une matrice des corrélations, et qui fournit des variances et covariances des variables affectées par le traitement M e = les carrés moyens pour l erreur M h = les carrés moyens pour l hypothèse e = une matrice diagonale contenant les erreurs standards des estimations. La matrice R e est calculée deux fois, une première fois comme décrit dans la section Matrice des corrélations de l erreur et une seconde fois comme décrit ici. Si aucune covariable n est spécifiée, les résultats sont identiques et la seconde matrice R e n est pas imprimée. Si une ou plusieurs covariables est spécifiée, la seconde matrice R e intègre les ajustements pour la (les) covariable(s). c) Solution de l équation déterminantale. La méthode habituelle pour calculer le critère du rapport de vraisemblance de Wilks utilise l équation déterminantale M h λm e = 0 L équation précédente est pré et post multipliée par une matrice diagonale 1 e Soit où 1 e M h 1 e λr e = 0 R e = FF F = la matrice des coefficients des composantes principales satisfaisant F F = ω, la matrice diagonale des valeurs propres de R e. La seconde équation déterminantale est pré multipliée par F 1 et post multipliée par sa transposée sachant que ou ( e F) 1 M h (( e F) 1 ) λf 1 (FF )(F 1 ) = 0 ( e F) 1 M h (( e F) 1 ) λi = 0 On résout la dernière équation pour les valeurs de λ. d) Critère du rapport de vraisemblance. où Λ = s q=1 ( 1 + df ) 1 h λ q df e λ q = les valeurs non-nulles de la dernière équation dans la section précédente.

413 50.2 Calculs pour un test en analyse multivariée 393 e) Statistique F de Fisher pour le critère du rapport de vraisemblance. Le programme utilise l approximation du F de Fisher pour le calcul des risques sous l hypothèse nulle pour Λ. F = 1 Λ1/k k(2df e + df h p 1) p(df h ) + 2 Λ 1/k 2p(df h ) où p k = 2 (df h ) 2 4 p 2 + (df h ) 2 5 C est un test multivarié des effets pour toutes les variables dépendantes simultanément. f) Degrés de liberté du rapport des variances F. p(df h ) et k(2df e + df h p 1) p(df h ) Si p = 1 ou 2 et df h = 1 ou 2, k est mis à 1 dans les observations quand p(df h ) = 2. g) Variances canoniques des composantes principales de l hypothèse. Ce sont les lambdas calculés comme décrit dans la section Solution de l équation déterminantale ci-dessus. Ils sont ordonnés par valeurs décroissantes. Le nombre de lambdas non nuls pour une équation donnée est égal à la plus petite des deux valeurs suivantes, df h (nombre de degrés de liberté associés à M h ), ou p, (nombre de variables dépendantes). h) Coefficients des composantes principales de l hypothèse. On résout l équation ( e F) 1 M h (( e F) 1 ) λi = 0 et on obtient T, pour lequel F 1 1 e Ceci peut aussi s écrire T F 1 1 e M h 1 e (F 1 ) = T λ T X h X h 1 e (F 1 ) T = λ L équation précédente est considérée comme où T F 1 1 e S h (S h) = λ X h = S h et exprimée sous la forme habituelle des équations pour les facteurs, X = FS. 1 e X h = FTS h Les coefficients des composantes principales de l hypothèse, FT, sont imprimés par le programme. i) Scores des composants de contrastes pour les effets estimés. Les lignes de Sh sont les ensembles des scores de facteurs qu on peut attribuer à l hypothèse ayant les λ i comme variances maximales.

414 394 Analyse de la variance multivariée j) Tests de Bartlett cumulés sur les racines. Les tests peuvent être utilisés pour déterminer la dimensionalité de la configuration. Les lambdas, ou racines, sont ordonnés par valeur croisante. Dans les tests de Bartlett, on teste d abord toutes les racines, puis toutes les racines sauf la première, puis toutes sauf les deux premières et ainsi de suite. Le test du Chi-deux est un test de signification des variances expliquées par les n k racines après acceptation des k premières. On commence par normer les lambdas λ i normé = df h df e λ i puis on calcule le Chi-deux où χ 2 k+1 = ( df e + df h df ) ( h + p + 1 s 2 i=k+1 ln(λ i normé + 1) k = le nombre de racines acceptées (k = 0, 1,..., s 1) s = le nombre de racines. Les degrés de liberté sont DF = (p k)(g k 1) où g est égal au nombre de niveaux de l hypothèse. k) Rapports F de Fisher pour les tests univariés. Ce sont les éléments diagonaux de 1 e M h 1 e. Le rapport F de Fisher pour la variable y est exactement le rapport F de Fisher qui serait obtenu pour un effet donné si on faisait une analyse univariée avec la variable y comme seule variable dépendante. ) 50.3 Analyse univariée Si on a une seule variable dépendante, les calculs sont quand même effectués comme décrits précédemment. On simplifie cependant les calculs, càd la composante principale de la matrice des corrélations de l erreur est mise égale à 1 et on ne fait aucun calcul. Le résultat d une analyse de la variance univariée est un tableau ANOVA classique avec de petites différences. Il contient une ligne pour la moyenne générale mais pas pour le total. La moyenne générale n est pas interprétable en général. Pour obtenir la somme des carrés totale, il faut faire la somme de toutes les sommes de carrés sauf la somme pour la moyenne générale Analyse de la covariance Les formules et la discussion ci-dessus ne tiennent pas compte, la plupart du temps, des covariables. Si on a spécifié des covariables, ce sont les matrices des sommes de produits S e et S h qui sont ajustées. S il y a q covariables, le programme commence par les associer à p variables dépendantes. Il y a une matrice (p q) (p q) de somme de produits de l erreur, S e, et une matrice (p q) (p q) S h pour chaque hypothèse. On calcule la matrice totale S t. S e et S h sont partitionnées en sections correspondant aux variables dépendantes et aux covariables. La matrice de l erreur réduite (p p) et la matrice totale sont calculées et on obtient une matrice réduite pour chaque hypothèse par soustraction. La matrice de corrélation de l erreur et ses composantes principales sont calculées après ajustement de S e pour les covariables.

415 Chapitre 51 Analyse de variance à un facteur Notation y = valeur de la variable dépendante w = valeur du poids k = indice pour l observation i = indice pour la catégorie de la variable de contrôle N i W i N W c = nombre d observations pour la catégorie i = somme des poids pour la catégorie i = nombre total d observations = somme totale des poids = nombre de catégories de la variable de contrôle avec un nombre de degrés de liberté non nul Statistiques pour chaque catégorie de la variable de contrôle a) Moyenne. y i = w ik y ik k W i b) Écart-type (estimé). ( ) 2 ( )[ W i w ik yik 2 w ik y ik ] ŝ i = N i k k N i 1 W 2 i c) Coefficient de variation (C.var.). C i = 100 ŝ i y i d) Somme des y. Somme y i = k w ik y ik

416 396 Analyse de variance à un facteur e) Pourcentage. Pourcentage i = Somme y i Somme y i f) Somme des y carrés. i Somme y 2 i = k w ik y 2 ik g) Total. La ligne «Total» donne les statistiques 1.a à 1.e ci-dessus calculées pour toutes les observations, sauf celles avec des catégories ayant zéro degré de liberté. h) Degrés de liberté pour la catégorie i. dl i = W i (N i 1)/N i Les catégories avec zéro degré de liberté ne sont pas incluses dans le calcul des statistiques récapitulatives Statistiques de l analyse de variance a) Somme totale des carrés. TSS = i w ik yik 2 k ( ) 2 w ik y ik i k W b) Somme des carrés entre les moyennes. Cette quantité est parfois appelée somme des carrés inter-groupes. BSS = i ( ) 2 [ w ik y ik ] k k w ik c) Somme des carrés intra-groupes. WSS = TSS BSS ( ) 2 w ik y ik i k W d) Eta carré. Cette mesure peut être interprétée comme le pourcentage de variance de la variable dépendante expliquée par la variable de contrôle. Elle varie de 0 à 1. η 2 = BSS TSS e) Eta. C est la mesure de la force de l association qui existe entre la variable dépendante et la variable de contrôle. Elle varie de 0 à 1. BSS η = TSS f) Eta carré ajusté. C est le Eta carré ajusté pour le nombre de degrés de liberté. η 2 ajusté = 1 A (1 η 2 ) avec comme facteur d ajustement A = W 1 W c

417 51.2 Statistiques de l analyse de variance 397 g) Eta ajusté. η ajusté = η 2 ajusté h) Valeur de F. Le ratio F peut se référer à la distribution de Fisher avec c 1 et N c degrés de liberté. Un ratio F significatif indique que des différences en moyenne, ou des effets, existent probablement parmi les groupes. F = BSS/(c 1) WSS/(N c) Le ratio F n est pas calculé si une variable de poids est specifiée.

418

419 Chapitre 52 Scores fondés sur l ordre partiel des observations 52.1 Terminologie spéciale et définitions Soit l ensemble V = {a, b, c,..., } et une relation binaire R définie sur lui. a) Relation binaire. Une relation binaire R en V est une association arb de deux éléments a, b V. Pour une relation R en V, il existe une relation réciproque R + en V telle que br + a b) Relation réflexive et anti-réflexive. Une relation R est réflexive si ara pour tout a V et R est anti-réflexive si not(ara) pour tout a V c) Relation symétrique et anti-symétrique. Une relation R est symétrique si R = R +, c est-à-dire si arb bra pour tout a, b V et R est anti-symétrique s il n y a pas de symétrie pour tout a b. d) Relation transitive. Une relation R est transitive si arb brc = arc pour tout a, b, c V e) Relation d équivalence. Une relation R définie sur un ensemble V est une relation d équivalence si elle est : réflexive, symétrique, et transitive. Noter que la relation usuelle d «égalité», (=), définie sur l ensemble des nombres réels, est une relation d équivalence.

420 400 Scores fondés sur l ordre partiel des observations f) Relation d ordre partiel strict. Une relation R est d ordre partiel strict si elle satisfait les conditions : arb et bra ne peuvent pas avoir lieu simultanément, et R est transitive. Une relation d ordre partiel strict sera notée par la suite. g) Ensemble partiellement ordonné. Un ensemble V est appelé ensemble partiellement ordonné si une relation d ordre partiel strict est définie sur lui. Les propriétés fondamentales de l ensemble partiellement ordonné sont : a b b c = a c pour tout a, b, c V a b et b a ne peuvent pas avoir lieu simultanément. h) Ensemble ordonné. Un ensemble V est appelé ensemble ordonné s il existe deux relations définies sur lui, et, qui satisfont les axiomes d une relation d ordre : pour tout élément a, b V, une et une seule des relations a b, a b, b a a lieu, est une relation d équivalence, et est une relation transitive. En d autres termes, un ensemble ordonné est un ensemble partiellement ordonné avec une relation d équivalence supplémentaire définie sur lui, et où les conditions «ni a b ni b a» et «a b» sont équivalentes. i) Sous-ensemble d éléments dominant un élément a. { } G(a) = g g V; a g j) Sous-ensemble d éléments dominés par un élément a. { } L(a) = l l V; l a k) Sous-ensemble d éléments comparables. C(a) = G(a) L(a) Noter que G(a) L(a) =. l) Domination stricte. Un élément b domine strictement un élément a si a b et non(b a) On peut dire aussi que «b est strictement meilleur que a», ou que «a est strictement plus mauvais que b» Calcul des scores On considère une liste de variables utilisées dans l analyse {x 1, x 2,..., x i,...,x v } et une liste de priorités associée à celle-ci {p 1, p 2,...,p i,...,p v }. La relation d ordre partielle construite sur la base de cette collection de variables, a b pour les observations a et b

421 52.2 Calcul des scores 401 est équivalente à la condition x 1 (a) x 1 (b), x 2 (a) x 2 (b),..., x v (a) x v (b) où x i (a) et x i (b) représentent les valeurs de la i ième variable respectivement pour les observations a et b. Quand on compare deux observations, les variables de plus haute priorité (variables ayant le niveau (level) le plus bas) sont considérées en premier. Si elles déterminent la relation sans ambiguïté, la procédure de comparaison s arrête. S il y a égalité, la comparaison continue en utilisant des variables ayant le niveau de priorité suivant. Cette procédure est répétée jusqu à ce que la relation ait atteint l un des niveaux de priorité, ou bien si la fin de la liste des variables est atteinte. Pour chaque observation a de l ensemble analysé, le programme calcule : N(a) = N(a) = N(a) = le nombre d observations dominant strictement l observation a le nombre d observations équivalentes à l observation a le nombre d observations strictement dominées par l observation a et ensuite un (ou deux) des scores suivants : où s 1 (a) = S r 1 (a) = S s 1 (a) N(a) N(a) + N(a) + N(a) N(a) + N(a) s 2 (a) = S N(a) + N(a) + N(a) r 2 (a) = S s 2 (a) s 3 (a) = S N(a) N r 3 (a) = S s 4 (a) = S r 4 (a) = S N(a) N N(a) + N(a) N N(a) + N(a) N N S = nombre total d observations dans l ensemble analysé = valeur du facteur d échelle (voir le paramètre SCALE). Le paramètre ORDER sélectionne le(s) score(s) de la manière suivante : ASEA : r 3 (a) DEEA : s 4 (a) ASCA : r 4 (a) DESA : s 3 (a) ASER : s 1 (a), r 1 (a) DESR : s 1 (a), r 1 (a) ASCR : s 2 (a), r 2 (a) DEER : s 2 (a), r 2 (a).

422 402 Scores fondés sur l ordre partiel des observations 52.3 Références Debreu, G., Representation of a preference ordering by a numerical function, Decision Process, eds. R.M. Thrall, C.A. Coombs and R.L. Davis, New York, Hunya, P., A Ranking Procedure Based on Partially Ordered Sets, Internal paper, JATE, Szeged, 1976.

423 Chapitre 53 Corrélation de Pearson Notation x, y = valeurs des variables w = valeur du poids k = indice pour l observation N = nombre d observations valides à la fois pour x et y W = somme totale des poids Statistiques par paires Elles sont calculées pour les variables (x, y) prises par paires sur l ensemble des observations ayant des données valides à la fois en x et en y. a) Somme pondérée ajustée. Nombre d observations, pondérées, pour des observations valides à la fois en x et en y. b) Moyenne de x. x = w k x k k W Note : la formule pour la moyenne d y est identique. c) Écart-type de x (estimé). ( )[ W ŝ x = N k N 1 ( ) 2 w k x 2 k w k x k ] k W 2 Note : la formule pour l écart-type d y est identique. d) Coefficient de corrélation. Moment produit r de Pearson. W ( )( ) w k x k y k w k x k w k y k k k k r xy = [ W ][ ( ) 2 w k x 2 k w k x k W ] ( ) 2 w k yk 2 w k y k k k k k

424 404 Corrélation de Pearson e) Test t. Cette statistique est utilisée pour tester l hypothèse que le coefficient de corrélation de la population est nul. t = r N 2 1 r Moyennes et écarts-types non appariés Ils sont calculés variable par variable pour toutes les variables intervenant dans l analyse en utilisant les formules données respectivement en 1.a, 1.b et 1.c, la différence potentielle dans les résultats étant due au nombre différent d observations valides. a) Somme pondérée ajustée. Nombre d observations, pondérées, avec les données valides en x. b) Moyenne de x. Moyenne de la variable x pour toutes les observations avec les données valides en x. c) Écart-type de x (estimé). Écart-type de la variable x pour toutes les observations avec des données valides en x Coefficients de régression pour les données brutes Ils sont calculés à partir de toutes les observations valides pour les paires (x, y). a) Coefficient de régression. C est le coefficient de régression non standardisé de y (variable dépendante) sur x (variable indépendante). ) (ŝy B yx = r xy ŝ x b) Terme constant. A = y B yx x équation de régression : y = B yx x + A 53.4 Matrice de corrélation Les éléments de cette matrice sont calculés sur la base de la formule donnée en 1.d ci-dessus. Noter que les écarts-types sauvegardés avec la matrice de corrélation sont calculés selon la formule citée au point 1.c ci-dessus (écarts-types estimés) Matrice des produits croisés C est une matrice carrée avec les éléments suivants : CP xy = k w k x k y k 53.6 Matrice de covariance C est une matrice contenant les éléments suivants : COV xy = r xy s x s y

425 53.6 Matrice de covariance 405 où W k s x = ( ) 2 w k x 2 k w k x k W 2 et s y est calculé selon la formule analogue. k Noter que la matrice de covariance sauvegardée dans un fichier par PEARSON ne contient pas d éléments diagonaux. Afin de permettre de les recalculer, les écarts-types produits en sortie avec cette matrice sont calculés selon la formule ci-dessus (écarts-types non estimés).

426

427 Chapitre 54 Classement d alternatives Notation i, j, l = indices pour les alternatives m = nombre d alternatives k = indice pour l observation n = nombre d observations w = valeur du poids Gestion des données d entrée Soit un ensemble d alternatives noté A = {a 1, a 2,...,a i,...,a m } et soit l ensemble des informations (appelées par la suite evaluations) noté E = {e 1, e 2,...,e k,...,e n }. En pratique, les données fournissent une première information sur les relations de préférence qui peuvent apparaître sous diverses formes. Le programme accepte, cependant, deux types de données de base : des données représentant une sélection d alternatives, et des données représentant un rangement d alternatives. Tout autre forme de données doit être transformée par l utilisateur avant l exécution du programme RANK. a) Données représentant une sélection d alternatives. Dans ce cas, les évaluations représentent le choix des alternatives les plus préférables et optionnellement leur ordre de préférence. En d autres termes, toutes les évaluations e k sélectionnent un sous-ensemble A k de A et optionnellement ordonnent ses éléments. Pour cette raison, A k est un sous-ensemble d alternatives (ordonnées ou non), et les éléments de A k représentent les premières données individuelles : } A k = {a ki1, a ki2,...,a kipk où p = nombre maximum d alternatives pouvant être sélectionnées dans une évaluation p k = nombre d alternatives actuellement sélectionnées dans l évaluation e k et p k p < m. b) Données représentant un rangement d alternatives. Ici les évaluations représentent le rangement des alternatives à l intérieur de tout l ensemble A, et l attribution à chacune d entre elles de son numéro d ordre. Formellement, toutes les évaluations e k donnent un numéro d ordre ρ k (a i ) = ρ ki à toutes les alternatives. Dans ce cas, les données sont représentées sous la forme suivante : P k = {ρ k (a 1 ), ρ k (a 2 ),..., ρ k (a m )}

428 408 Classement d alternatives Noter qu une alternative a ki1 «est strictement préférée à» ou «domine strictement» une autre alternative a ki2 si la première alternative a un rang plus élevé que la deuxième, selon les données provenant de l évaluation e k. De même, une alternative a ki1 «est préférée à» ou «domine» une autre alternative a ki2 si le rang de a ki1 est au moins aussi grand que le rang de a ki2, pour les données provenant de l évaluation e k. La valeur 1 est prise pour le rang le plus élevé. Seules les données décrites dans le paragraphe b) ont la forme nécessaire pour la suite de la procédure. Les données obtenues en a) seront transformées sous la forme b). Cette transformation fait la différence entre la préférence stricte et la préférence faible. La règle de transformation, quand on travaille avec des données représentant une sélection d alternatives complètement ordonnée (préférence stricte), est la suivante : pour a i A k pour a i A k ρ k (a i1 ) = 1, ρ k (a i2 ) = 2,..., ρ k (a ipk ) = p k ρ k (a i ) = p k m 2 Quand on travaille avec une sélection d alternatives non ordonnée (préférence faible), on suppose que toutes les alternatives sélectionnées ont le même niveau de préférence. A partir de cette hypothèse, la règle de transformation est la suivante : pour a i A k ρ k (a i ) = p k pour a i A k ρ k (a i ) = p k m 2 Comme résultats des transformations définies ci-dessus, les données représentant les préférences (ou choix de priorités) sont sous la forme suivante, pour les étapes suivantes de l analyse : ρ 11 ρ 12 ρ 1i ρ 1m ρ 21 ρ 22 ρ 2i ρ 2m P (n,m) =.... ρ k1 ρ k2 ρ ki ρ km.... ρ n1 ρ n2 ρ ni ρ nm 54.2 Méthode de classement fondée sur la logique classique Dans cette méthode, la matrice P est utilisée comme donnée initiale pour l analyse. En ce qui concerne le caractère strict ou faible de la relation de préférence, on peut noter qu il joue un rôle seulement dans les étapes conduisant à la création de la matrice P parce que dans les étapes futures de l analyse, la procédure est contrôlée par d autres paramètres, tels que la différence de rangs pour la concordance ou la différence de rangs pour la discordance (voir ci-dessous). La procédure de classement fondée sur la logique classique consiste en deux étapes principales, à savoir : a) la construction des relations, et b) l identification des noyaux. a) Construction des relations. Dans cette étape, deux relations de «travail» (la relation de concordance et la relation de discordance) sont construites en premier. Ensuite, elles sont utilisées pour construire une relation finale de dominance. i) Les relations de concordance et de discordance sont construites à partir de la matrice P (n,m), et les règles appliquées dans ce processus sont essentiellement les mêmes pour les deux relations. Relation de concordance. Deux paramètres sont utilisés pour créer une relation qui reflète la concordance de l opinion collective que «a i est préférée à a j»: d c = différence de rangs pour la concordance (0 d c m 1)

429 54.2 Méthode de classement fondée sur la logique classique 409 p c = proportion minimum pour la concordance (0 p c < 1). La différence de rang pour la concordance permet à l utilisateur d influer sur l évaluation des données quand on construit les matrices de préférence individuelle [ ] RC k (d c ) = rc k ij(d c ) où i, j = 1, 2,..., m. Les éléments de RC k (d c ), qui mesurent la dominance de a i sur a j à partir de l évaluation k, sont définis de la manière suivante : { rc k 1 si ij (d ρkj ρ c) = ki d c 0 sinon. L agrégation de ces matrices mesure la dominance moyenne de a i sur a j et a la forme d une relation floue décrite par la matrice [ ] RC(d c ) = rc ij (d c ) où rc ij (d c ) = w k rc k ij (d c) k k w k Noter que les valeurs d c les plus grandes conduisent à des règles de construction plus rigoureuses, à partir du moment où d 1 c < d 2 c implique rc k ij (d1 c ) rck ij (d2 c ) et rc ij(d 1 c ) rc ij(d 2 c ) La proportion minimum pour la concordance rend possible la transformation de la relation floue RC(d c ) en une relation non floue, appelée la relation de concordance, décrite par la matrice [ ] RC(d c, p c ) = rc ij (d c, p c ) dont les éléments sont définis de la manière suivante : { 1 si rcij (d rc ij (d c, p c ) = c ) p c 0 sinon. La condition rc ij (d c, p c ) = 1 signifie que l opinion collective est en concordance avec l affirmation que «a i est préférée à a j» au niveau (d c, p c ). Il est clair que plus la valeur p c augmente, plus on obtient des conditions strictes pour la concordance. Relation de discordance. La construction de la relation de discordance suit le même cheminement que celui expliqué pour la relation de concordance. Les deux paramètres contrôlant la construction sont : d d = différence de rangs pour la discordance (0 d d m 1) p d = proportion maximum pour la discordance (0 p d 1). Les relations de discordance individuelle sont déterminées en premier dans les matrices [ ] RD k (d d ) = rd k ij (d d) où i, j = 1, 2,..., m. Les éléments de RD k (d d ), qui mesurent la dominance de a j sur a i selon l évaluation k, sont définis de la manière suivante : { rd k 1 si ρki ρ ij(d d ) = kj d d 0 sinon. L agrégation de ces matrices mesure la dominance moyenne de a j sur a i et a la forme de la relation floue décrite par la matrice [ ] RD(d d ) = rd ij (d d )

430 410 Classement d alternatives où rd ij (d d ) = w k rd k ij (d d) k k w k Comme pour la concordance, le deuxième paramètre (proportion maximum pour la discordance), permet à l utilisateur de transformer la relation floue RD(d d ) en une relation non floue, appelée relation de discordance, décrite par la matrice [ ] RD(d d, p d ) = rd ij (d d, p d ) dont les éléments sont définis de la manière suivante : { 1 si rdij (d rd ij (d d, p d ) = d ) > p d 0 sinon. La condition rd ij (d d, p d ) = 1 signifie que l opinion collective est en discordance avec l affirmation que «a i est préférée à a j», càd reconnaît l affirmation opposée «a j est préférée à a i», au niveau (d d, p d ). Ceci peut être interprété comme un «veto collectif» contre l affirmation que «a i est préférée à a j». Noter que les valeurs plus grandes de d d et p d conduisent à des règles de construction moins rigoureuses et donc à des conditions plus faibles de discordance. ii) La relation de dominance est composée des relations de concordance et de discordance. L idée de base est que l affirmation «a i est préférée à a j» peut être acceptée si l opinion collective est en concordance avec elle, càd rc ij (d c, p c ) = 1, et n est pas en discordance avec elle, càd rd ij (d d, p d ) = 0 ; sinon cette affirmation doit être rejetée. Ainsi la relation de dominance, étant une fonction de quatre paramètres, est décrite par la matrice R de dimension m m [ ] R = r ij (d c, p c, d d, p d ) où les éléments sont obtenus à partir de l expression r ij (d c, p c, d d, p d ) = min [ rc ij (d c, p c ), 1 rd ij (d d, p d ) ] Le r ij est une fonction monotonement décroissante des deux premiers paramètres, et est une fonction monotonement croissante des deux derniers. Ceci implique que : en augmentant d c, p c et/ou en diminuant d d, p d, on peut diminuer le nombre de connexions dans la relation de dominance, et en changeant les paramètres dans la direction opposée, on peut créer plus de connexions. b) Identification des noyaux. Les noyaux sont des sous-ensembles de A (ensemble d alternatives) consistant en alternatives non dominées. Une alternative a j est non dominée si et seulement si r ij = 0 pour tout i = 1, 2,..., m. i) Selon ce critère, le noyau de l ensemble A (noyau de plus haut niveau) est le sous-ensemble { } C(A) = a j a j A; r ij = 0, i = 1, 2,..., m Si C(A) = alors toutes les alternatives sont dominées. Si C(A) = A alors toutes les alternatives ne sont pas dominées. ii) Afin de trouver le noyau suivant, les éléments du noyau précédent sont d abord retirés de la relation de dominance. Ceci signifie que les lignes et les colonnes correspondantes sont enlevées de la matrice relationnelle. Alors, la recherche d un nouveau noyau se refait avec une structure réduite. L application successive de i) et de ii) donne une série de noyaux A c 1, A c 2,..., A c q. Ces noyaux représentent des couches consécutives d alternatives avec des rangs décroissants dans la structure de préférence, tandis que les alternatives appartenant au même noyau doivent avoir le même rang.

431 54.3 Méthodes de classement fondées sur la logique floue : la relation d entrée Méthodes de classement fondées sur la logique floue : la relation d entrée Dans les méthodes fondées sur la logique floue, la matrice P (n,m) est utilisée pour construire : a) des relations de préférence individuelles, et b) la relation d entrée (appelée aussi «relation floue») sur l ensemble des alternatives A. Ici le caractère strict ou faible de la relation de préférence joue un rôle important. a) Construction des relations de préférence individuelles. Pour chaque évaluation e k, une relation de préférence individuelle, qui est donnée implicitement dans P, est transformée dans la matrice de dimensions m m : R k = [ ] rij k où i, j = 1, 2,..., m dans laquelle { rij k 1 si l affirmation «ai est préférée à a = j dans l évaluation e k» est vraie; 0 si l affirmation est fausse. Suivant le type de préférence utilisé, l affirmation «a i est préférée à a j dans l évaluation e k» est équivalente à l inégalité ρ ki < ρ kj ρ ki ρ kj (préférence stricte), ou (préférence faible). b) Construction de la relation d entrée (relation floue). L agrégation des matrices de la relation de préférence individuelle fournit la matrice représentant la relation floue sur l ensemble des alternatives A : [ ] R = r ij où r ij = w k rij k k k w k Chaque composante r ij de R peut être interprétée comme la crédibilité de l affirmation «a i est préférée à a j» dans un sens global, et sans se référer à une seule évaluation. Ainsi, l interprétation générale suivante est possible : r ij = 1 «a i est préférée à a j» pour toutes les évaluations, r ij = 0 «a i est préférée à a j» pour aucune évaluation, 0 < r ij < 1 «a i est préférée à a j» pour une certaine proportion d évaluations. c) Caractéristiques de la relation d entrée. i) Floue ii) Symétrie non floue : si r ij = 0 ou r ij = 1 pour tout i, j = 1, 2,..., m ; floue : sinon. symétrique : si r ij = r ji pour tout i, j = 1, 2,..., m ; antisymétrique : si r ij 0 implique r ji = 0 pour tout i j ; asymétrique : sinon.

432 412 Classement d alternatives iii) Réflexivite iv) Trichotomie réflexive : si r ii = 1 pour tout i = 1, 2,...,m; antiréflexive : si r ii = 0 pour tout i = 1, 2,...,m; irréflexive : sinon. trichotomique : si r ij + r ji = 1 pour tout i, j = 1, 2,..., m et i j ; (normée) non trichotomique : sinon. (non normée) v) Indice de cohérence. Sa valeur dépend de l ordre des lignes et des colonnes dans R, càd de l ordre des alternatives dans A, et 1 C 1. (r ij r ji ) i<j C = (r ij + r ji ) i<j L indice de cohérence absolue est une modification de C, indépendant de l ordre. Sa valeur, C a, est une borne supérieure pour C et 0 C a 1. r ij r ji i<j C a = (r ij + r ji ) i<j Les indices C et C a sont des indicateurs de l unanimité dans des données de préférence. Une cohérence complète est obtenue quand C = 1, tandis que C a = 0 indique un manque total de cohérence. La valeur 1 de l index C peut être interprétée comme un ordre des alternatives opposé à l ordre défini par la relation floue. vi) Indice d intensite. En général, sa valeur est 1 I 2, tandis que dans le cas d une préférence stricte, on a 0 I 1. Ici, I = 1 implique une relation normée et signifie que dans toutes les données de préférence, l une des affirmations «a i est préférée à a j» ou «a j est préférée à a i» est vraie pour toutes les paires d alternatives. L indice I peut être interprété comme un niveau de crédibilité moyen des affirmations mentionnées ci-dessus. (r ij + r ji ) I = i<j m(m 1)/2 vii) Indice de dominance (puissance). C est aussi un indice dépendant de l ordre, et 1 D 1. (r ij r ji ) D = i<j m(m 1)/2 L indice de dominance (puissance) absolue, de même que pour l indice de cohérence, est défini comme un indice de dominance indépendant de l ordre. Sa valeur, D a, est une borne supérieure pour D et 0 D a 1. r ij r ji D a = i<j m(m 1)/2 Les indices D et D a indiquent la différence moyenne entre les crédibilités des affirmations «a i est préférée à a j» et des affirmations opposées «a j est préférée à a i». Noter que C, I, D et C a, I, D a ne sont pas indépendants les uns des autres, à savoir : C I = D et C a I = D a d) Matrice normalisée. Une matrice normalisée est obtenue à partir de la matrice R en utilisant la transformation suivante : { r ij r ij = r ij + r si i j et r ij + r ji 0 ji r ij sinon.

433 54.4 Méthode floue 1 : couches non dominées Méthode floue 1 : couches non dominées Les méthodes de classement à partir de la logique floue supposent une relation de préférence floue avec la fonction µ : A A [0, 1] sur un ensemble A d alternatives. Cette fonction est représentée par la matrice R (voir la section 3 ci-dessus). Les valeurs r ij = µ(a i, a j ) sont interprétées comme les degrés pour lesquels les préférences définies par les affirmations «a i est préférée à a j» sont vraies. Une autre supposition est que : dans le cas de préférence faible, µ est réflexive, càd µ(a i, a i ) = r ii = 1 pour tout a i A dans le cas de préférence stricte, µ est antiréflexive, càd µ(a i, a i ) = r ii = 0 pour tout a i A La procédure de méthode floue 1 recherche un ensemble d alternatives non dominées (noté alternatives ND), en considérant un tel ensemble comme le noyau de plus haut niveau des alternatives. La raison en est que les alternatives ND soit sont equivalentes entre elles, soit ne sont pas comparables sur la base de la relation de préférence considérée, et ne sont pas dominées, au sens strict, par d autres. En vue de déterminer un ensemble flou d alternatives ND, deux relations floues correspondant à la relation de préférence R sont définies : une relation floue de quasi-équivalence et une relation floue de préférence stricte. Formellement, elles sont définies de la manière suivante : relation floue de quasi-équivalence R e : R e = R R 1 relation floue de préférence stricte R s : R s = R \ R e = R \ (R R 1 ) = R \ R 1 où R 1 est une relation opposée à la relation R. D autre part, les fonctions suivantes sont définies respectivement pour R e et R s : µ e (a i, a j ) = min(r ij, r ji ) { µ s rij r (a i, a j ) = ji quand r ij > r ji 0 sinon. Pour chaque alternative fixée a j A, la fonction µ s (a j, a i ) décrit un ensemble flou d alternatives qui sont strictement dominées par a j. Le complémentaire de cet ensemble flou, décrit par la fonction 1 µ s (a j, a i ), est, pour tout a j fixé, l ensemble flou de toutes les alternatives qui ne sont pas strictement dominées par a j. Alors l intersection de tous les ensembles flous complémentaires (pour tous les a j A) représente l ensemble flou des alternatives a i A qui ne sont pas strictement dominées par l une des alternatives A. Cet ensemble est appelé l ensemble flou µ ND des alternatives ND de l ensemble A. Ainsi, à partir de la définition de l intersection µ ND (a i ) = min a j A (1 µs (a j, a i )) = 1 max a j A µs (a j, a i ) La valeur µ ND (a i ) représente le degré pour lequel l alternative a i n est pas strictement dominée par chaque alternative de l ensemble A. Le noyau de plus haut niveau des alternatives contient les alternatives a i qui ont le plus grand degré de non-dominance ou, en d autres termes, qui donne une valeur pour µ ND (a i ) qui est égale à la valeur : M ND = max a i A µnd (a i ) La valeur de M ND est appelée le niveau de certitude correspondant au noyau défini par : C(A) = {a i a i A; µ ND (a i ) = M ND} Les noyaux suivants sont construits en répétant la procédure décrite ci-dessus. Les éléments du noyau précédent sont d abord retirés de la relation floue, càd les lignes et les colonnes correspondantes sont enlevées

434 414 Classement d alternatives de la matrice de la relation floue. Ensuite, les calculs sont répétés à partir d une structure réduite Méthode floue 2 : rangs La relation d entrée pour cette méthode est la même que celle de la méthode floue 1, à savoir: la matrice R doit être réflexive ou antiréflexive. Cependant, la question posée ici est tout à fait différente. La procédure de la méthode floue 2 cherche un niveau de crédibilité, noté c jp, d affirmations «a j est exactement à la p ième place dans la suite ordonnée des alternatives dans A», noté T jp. Les valeurs c jp forment une matrice M de dimensions m m représentant une fonction floue, dans laquelle les lignes correspondent aux alternatives et les colonnes aux positions possibles dans la suite 1, 2,...,m. En vue de rendre possible le calcul des c jp, celles-ci doivent être décomposées en niveaux de crédibilité déjà connus r ij, et alors les affirmations T jp peuvent être décomposées en affirmations élémentaires avec des niveaux de crédibilité connus r ij. Pour cela, on introduit d autres notations. Noter que pour qu une alternative a j soit exactement à la p ième place, ceci signifie qu elle est préférée aux m p alternatives et précédée par les p 1 alternatives restantes. Quand un sous-ensemble d alternatives après a j est fixé, alors A j m p = sous-ensemble des alternatives pour lesquelles a j est préférée, A j p 1 = sous-ensemble des alternatives qui sont préférées à a j, A j = sous-ensemble A \ {a j }. Evidemment, A j p 1 Aj m p = Aj A j p 1 Aj m p = et l affirmation T jp est équivalente à une suite d affirmations «a j est préférée à tous les éléments de A j m p et tous les éléments de A j p 1 sont préférés à a j», qui sont liées par l opérateur logique disjonctif. D autre part, l affirmation «a j est préférée à tous les éléments de A j m p» est une conjonction d affirmations déjà connues «a j est préférée à a l», avec le niveau de crédibilité égal à r jl, pour tous les éléments a l de A j m p. De même, l affirmation «tous les éléments de A j p 1 sont préférés à a j» est une conjonction d affirmations déjà connues «a i est préférée à a j», avec le niveau de crédibilité égal à r ij, pour tous les éléments a i de A j m p. En appliquant les opérateurs flous correspondants, les éléments de la matrice M peuvent être obtenus de la manière suivante : [ ( ) ] c jp = max min min r jl, min r ij A j m p Aj a l A j a m p i A j p 1 Le calcul des valeurs c jp est amélioré en utilisant une procédure d optimisation qui fournit une série de sous-ensembles A j m p (en gardant j et p fixés) avec des valeurs croissantes strictement monotonement, de la fonction à maximiser dans les étapes successives. Le programme fournit deux moyens d interpréter la matrice M. Ensembles flous de rangs par alternatives. Pour chaque alternative a j, une fonction floue montre la crédibilité d avoir cette alternative à la p ième place (p = 1, 2,..., m). Aussi, les rangs (places) les plus crédibles pour chaque alternative sont listés. Sous-ensembles flous d alternatives par rangs. Pour chaque rang (place) p, une fonction floue donne la crédibilité de l alternative a j (j = 1, 2,...,m) d être à cette place. Aussi, les alternatives les plus crédibles, candidates pour cette place, sont listées.

435 54.6 Références Références Dussaix, A.-M., Deux méthodes de détermination de priorités ou de choix, Partie 1 : Fondements mathématiques, Document UNESCO/NS/ROU/624, UNESCO, Paris, Jacquet-Lagrèze, E., Analyse d opinions valuées et graphes de préférence, Mathématiques et sciences humaines, 33, Jacquet-Lagrèze, E., L agrégation des opinions individuelles, Informatique et sciences humaines, 4, Kaufmann, A., Introduction à la théorie des sous-ensembles flous, Masson, Paris, Orlovski, S.A., Decision-making with a fuzzy preference relation, Fuzzy Sets and Systems, Vol. 1, No 3, 1978.

436

437 Chapitre 55 Diagrammes de dispersion Notation x = valeur de la variable représentée horizontalement y = valeur de la variable représentée verticalement w = valeur du poids k = indice pour l observation N = nombre total d observations W = somme totale des poids Statistiques univariées Les statistiques non pondérées sont calculées pour toutes les variables utilisées dans l analyse. a) Moyenne. x = k N x k b) Écart-type. k s x = N x 2 k x Statistiques univariées pour les paires de variables Elles sont calculées sur l ensemble des observations ayant des données valides à la fois en x et en y. Ce sont des statistiques pondérées si la variable poids est spécifiée. a) Moyenne. w k x k x = k W Note : la formule pour la moyenne d y est identique.

438 418 Diagrammes de dispersion b) Écart-type. w k x 2 k k s x = x 2 W Note : la formule pour l écart-type d y est identique. c) N. Nombre d observations, pondérées, avec données valides à la fois en x et en y Statistiques bivariées Elles sont calculées pour l ensemble des observations ayant des données valides à la fois en x et en y. a) Moment produit r de Pearson. r xy = [ W k W k ( )( ) w k x k y k w k x k w k y k ][ ( ) 2 w k x 2 k w k x k W k k k k ] ( ) 2 w k yk 2 w k y k b) Statistiques de régression : constante A et coefficient B. w k y k k k A = W w k x k B où B est le coefficient de régression non standardisé. B = W k ( )( ) w k x k y k w k x k w k y k W k k ( ) 2 w k x 2 k w k x k k k La constante A et le coefficient B peuvent être utilisés dans l équation de régression y = Bx + A pour prédire y à partir de x. k

439 Chapitre 56 Recherche de structure Notations y x z w k j m g i t N g W g N i W i N W = valeur de la variable dépendante = fréquence (pondérée) de la variable dépendante catégoricale ou valeurs (pondérées) des variables dépendantes dichotomiques = valeur de la covariable = valeur du poids = indice pour l observation = indice pour la catégorie de la variable dépendante ou indice pour les variables dépendantes dichotomiques = nombre de codes de la variable dépendante ou nombre des variables dépendantes dichotomiques = indice pour le groupe; g = 1 indique l échantillon entier = indice pour les groupes finaux = nombre de groupes finaux = nombre d observations dans le groupe g = somme des poids dans le groupe g = nombre d observations dans le groupe final i = somme des poids dans le groupe final i = nombre total d observations = somme totale des poids Analyse des moyennes On peut utiliser cette méthode pour analyser une variable dépendante (intervalle ou dichotomique) et plusieurs prédicteurs. Son but est de créer des groupes qui rendraient possible d obtenir la meilleure prédiction des valeurs de la variable dépendante à partir de la moyenne de groupe. Autrement dit, les groupes créés devraient fournir les différences les plus grandes entre les moyennes de groupes. Le critère de découpage (variation expliquée) est donc basé sur les moyennes de groupes. a) Statistiques de trace. Ce sont des statistiques calculées sur l échantillon entier (pour g = 1), et sur les partitions essayées pour les groupes-parents ainsi que pour chaque groupe résultant de la meilleure partition. i) Som (pond). Nombre d observations (N g ) si la variable poids n est pas spécifiée, ou nombre pondéré d observations (W g ) dans le groupe g.

440 420 Recherche de structure ii) Moyenne y. Valeur moyenne de la variable dépendante y dans le groupe g. y g = N g w k y gk k=1 W g iii) Var y. Variance de la variable dépendante y dans le groupe g. σ 2 y g = N g w k (y gk y g ) 2 k=1 W g Wg N g iv) Variation. Somme des carrés de la variable dépendante (comme dans l analyse de variance à un facteur) dans le groupe g. N g V g = w k (y gk y g ) 2 k=1 v) Var expl. On mesure la variation expliquée par la différence entre la variation dans le groupeparents et la somme des variations dans les deux groupes-enfants. Ceci donne, pour chaque prédicteur, le montant de la variation expliquée par la meilleure partition de ce prédicteur, càd la valeur la plus grande parmi toutes les partitions possibles pour ce prédicteur. Soit g 1 et g 2 deux sous-groupes (groupes-enfants) obtenus lors d une partition du groupe-parents g, et V g1 et V g2 leur variation respective. On calcule la variation expliquée par une telle partition du groupe g comme suit : V E g = V g (V g1 + V g2 ) Ensuite, on choisit la valeur maximum parmi toutes les partitions possibles pour ce prédicteur. vi) Variation expliquée. C est le pourcentage de la variation totale expliquée par les groupes finaux. Pourcentage = 100 V E V T où V E et V T représentent, respectivement, la variation expliquée par les groupes finaux ainsi que la variation totale (voir 1.b ci-dessous). b) Analyse à un facteur pour les groupes finaux. Ce sont des statistiques de l analyse de variance à un facteur calculées pour les groupes finaux. i) Variation expliquée et DL. C est le montant de la variation expliquée par les groupes finaux et les degrés de liberté correspondants. t V E = V T V I = V T DL = t 1 i=1 V i ii) Variation totale et DL. Variation calculée pour l échantillon entier, càd pour le groupe 1, et les degrés de liberté correspondants. V T = V 1 DL = W 1 iii) Error et DL. C est le montant de la variation inexpliquée et les degrés de liberté correspondants. V I = t i=1 V i DL = W t c) Tableau récapitulatif des partitions. Ce tableau fournit la valeur moyenne pour le groupe, la variance et la variation de la variable dépendante à chaque partition, ainsi que la variation expliquée par cette partition (voir 1.a ci-dessus).

441 56.2 Analyse de régression 421 d) Tableau récapitulatif des groupes finaux. Ce tableau fournit la valeur moyenne, la variance et la variation de la variable dépendante pour les groupes finaux (voir 1.a ci-dessus). e) Pourcentage de la variation expliquée. On calcule comme suit le pourcentage de la variation totale expliquée par la meilleure partition de chaque groupe : Pourcentage g = 100 V E g V T Noter que cette valeur est égale à zéro pour les groupes finaux (indiqués par un astérisque). f) Résidus. Les résidus sont les différences entre la valeur observée et la valeur prédite de la variable dépendante. e k = y k ŷ k On donne à une observation, comme valeur prédite, la valeur moyenne de la variable dépendante du groupe auquel elle appartient, càd : ŷ ik = y i 56.2 Analyse de régression On peut utiliser cette méthode pour analyser une variable dépendante (intervalle ou dichotomique) avec une covariable et plusieurs prédicteurs. Son but est de créer des groupes qui rendraient possible d obtenir la meilleure prédiction des valeurs de la variable dépendante à partir de l équation de régression pour le groupe et de la valeur de la covariable. Autrement dit, les groupes créés devraient fournir les différences les plus grandes entre les lignes de régression des groupes. Le critère de découpage (variation expliquée) est donc basé sur la régression de la variable dépendante sur la covariable à l intérieur des groupes. a) Statistiques de trace. Ce sont des statistiques calculées sur l échantillon entier (pour g=1), et sur les partitions essayées pour les groupes-parents ainsi que pour chaque groupe résultant de la meilleure partition. i) Som (pond). Nombre d observations (N g ) si la variable poids n est pas spécifiée, ou nombre pondéré d observations (W g ) dans le groupe g. ii) Moyenne y,z. Valeur moyenne de la variable dépendante y et de la covariable z dans le groupe g (voir 1.a.ii ci-dessus). iii) Var y,z. Variance de la variable dépendante y et de la covariable z dans le groupe g (voir 1.a.iii ci-dessus). iv) Pente. C est la pente de la variable dépendante y sur la covariable z dans le groupe g. b g = N g w k (y gk y g )(z gk z g ) k=1 N g w k (z gk z g ) 2 k=1 v) Variation. C est l erreur ou la somme résiduelle des carrés par rapport à l estimation de la variable y par sa régression sur la covariable z dans le groupe g, càd une mesure de déviation autour de la ligne de régression. N g V g = w k (y gk y g ) 2 b g w k (y gk y g )(z gk z g ) k=1 N g k=1 où b g est la pente de la ligne de régression dans le groupe g. vi) Var expl. Variation expliquée (V E). Voir 1.a.v ci-dessus pour une information générale, et 2.a.v ci-dessus pour des détails sur V (variation) utilisée dans l analyse de régression.

442 422 Recherche de structure vii) Variation expliquée. C est le pourcentage de la variation totale expliquée par les groupes finaux. Voir 1.a.vi ci-dessus et 2.b ci-dessous. b) Analyse à un facteur pour les groupes finaux. Ce sont les statistiques récapitulatives pour les groupes finaux. Voir 1.b ci-dessus pour une information générale, et 2.a.v et 2.a.vi ci-dessus pour des détails sur les mesures V et V E utilisées dans l analyse de régression. c) Tableau récapitulatif des partitions. Ce tableau fournit la valeur moyenne pour le groupe, la variance et la variation de la variable dépendante à chaque partition, ainsi que la variation expliquée par cette partition. Il donne aussi la valeur moyenne et la variance de la covariable. Voir 2.a ci-dessus pour les formules. De plus, les statistiques de régression suivantes sont calculées pour chaque partition : i) Pente. C est la pente de la variable dépendante y sur la covariable z dans le groupe g (voir 2.a.iv ci-dessus). ii) Intercept. C est le terme constant dans l équation de régression. a g = y g b g z g où b g est la pente dans le groupe g. iii) Corr. Coefficient de corrélation r de Pearson entre la variable dépendante y et la covariable z dans le groupe g. r g = N g w k (y gk y g )(z gk z g ) k=1 σ 2 y g σ 2 z g d) Tableau récapitulatif de groupes finaux. Ce tableau fournit les mêmes informations (à l exception de la variation expliquée) que dans le «Tableau récapitulatif des partitions», mais pour les groupes finaux. e) Pourcentage de la variation expliquée. Le pourcentage de la variation totale expliquée par la meilleure partition de chaque groupe (voir 1.e et 2.a.vi ci-dessus). f) Résidus. Les résidus sont les différences entre la valeur observée et la valeur prédite de la variable dépendante. e k = y k ŷ k Les valeurs prédites sont calculées comme suit : ŷ ik = a i + b i z ik où a i et b i sont des coefficients de régression pour le groupe final i Analyse du Chi-deux On peut utiliser cette méthode pour analyser une variable dépendante (nominale ou ordinale) ou un jeu de variables dépendantes dichotomiques avec plusieurs prédicteurs. Son but est de créer des groupes qui rendraient possible d obtenir la meilleure prédiction de la catégorie de la variable dépendante à partir de sa distribution parmi les groupes. Autrement dit, les groupes créés devraient fournir les différences les plus grandes entre les distributions de la variable dépendante. Le critère de découpage (variation expliquée) est basé sur les distributions de fréquences de la variable dépendante. Noter que les variables dépendantes dichotomiques multiples sont traitées comme des catégories d une variable à modalités. a) Statistiques de trace. Ce sont des statistiques calculées sur l échantillon entier (pour g=1), et sur les partitions essayées pour les groupes-parents ainsi que pour chaque groupe résultant de la meilleure partition. i) Som (pond). Nombre d observations (N g ) si la variable poids n est pas spécifiée, ou nombre pondéré d observations (W g ) dans le groupe g.

443 56.3 Analyse du Chi-deux 423 ii) Variation. C est l entropie du groupe g, càd une mesure de désordre dans la distribution de la variable dépendante. m V g = 2 x jg ln x jg où k=1 j=1 x g N g m x jg = x jgk x g = j=1 x jg et x jgk est la «fréquence» (codée 0 ou 1) du code j (ou la valeur de la variable j) de l observation k dans le groupe g. iii) Var expl. Variation expliquée (V E). Voir 1.a.v ci-dessus pour une information générale, et 3.a.ii ci-dessus pour des détails sur V (variation) utilisée dans l analyse du Chi-deux. iv) Variation expliquée. C est le pourcentage de la variation totale expliquée par les groupes finaux. Voir 1.a.vi ci-dessus et 3.b dessous. b) Analyse à un facteur pour les groupes finaux. Ce sont des statistiques récapitulatives pour les groupes finaux. Voir 1.b ci-dessus pour une information générale, et 3.a.ii et 3.a.iii ci-dessus pour des détails sur les mesures V et V E utilisées dans l analyse du Chi-deux. c) Tableau récapitulatif des partitions. Ce tableau fournit la variation de la variable dépendante pour chaque partition, ainsi que la variation expliquée par cette partition. Voir 3.a.ii et 3.a.iii ci-dessus pour les formules. d) Tableau récapitulatif des groupes finaux. Ce tableau fournit la variation de la variable dépendante pour les groupes finaux. e) Pourcentage de la variance expliquée. Pourcentage de la variation totale expliquée par la meilleure partition de chaque groupe (voir 1.e et 3.a.iii ci-dessus). f) Distributions en pourcentage. Tableau bivarié qui montre les distributions en pourcentage de la variable dépendante pour tous les groupes (P jg ). g) Résidus. Les résidus sont les différences entre la valeur observée et la valeur prédite de la variable dépendante. Pour une analyse avec une variable dépendante catégoricale, les résidus sont calculés pour chaque catégorie de la variable. Ainsi, le nombre de résidus est égal au nombre de catégories. e jk = x jk x jik Les valeurs observées, x jk, sont construites comme une série de «variables fictives», codées 0 ou 1. On donne à une observation, comme valeur prédite pour la catégorie j, la proportion d observations se trouvant dans cette catégorie pour le groupe auquel elle appartient, càd : x jik = P ji /100 Pour une analyse avec plusieurs variables dépendantes dichotomiques, les résidus sont calculés pour chaque variable. Ainsi, le nombre de résidus est égal au nombre de variables dépendantes. e jk = x jk x jik Les valeurs observées sont calculées comme suit : x jk = x jk m j=1 x jk On donne à une observation, comme valeur prédite pour la variable j, la proportion d observations ayant la valeur 1 de cette variable dans le groupe auquel elle appartient, càd : x jik = P ji /100

444 424 Recherche de structure 56.4 Références Morgan, J.N., Messenger, R.C., THAID A Sequential Analysis Program for the Analysis of Nominal Scale Dependent Variables, Institute for Social Research, The University of Michigan, Ann Arbor, Sonquist, J.A., Baker, E.L., Morgan, J.N., Searching for Structure, Revised ed., Institute for Social Research, The University of Michigan, Ann Arbor, 1974.

445 Chapitre 57 Tableaux univariés et bivariés Notation x = valeur de la variable de ligne dans les tableaux bivariés, ou valeur de la variable dans les tableaux univariés y = valeur de la variable de colonne dans les tableaux bivariés w = valeur du poids k = indice pour l observation i = indice pour la ligne dans les tableaux bivariés j = indice pour la colonne dans les tableaux bivariés r = nombre de lignes dans les tableaux bivariés c = nombre de colonnes dans les tableaux bivariés f i = fréquence marginale dans la ligne i du tableau bivarié f j = fréquence marginale dans la colonne j du tableau bivarié N = nombre total d observations Statistiques univariées a) Poids. C est le numéro de la variable poids, ou zéro si la variable poids n est pas spécifiée. b) SomPoids. C est le nombre d observations si la variable poids n est pas spécifiée, ou le nombre pondéré d observations (somme des poids). c) Mode. La première catégorie qui contient la fréquence maximum. d) Médiane. La médiane est calculée comme un quantile sur deux intervalles. Voir le chapitre «Fonctions de distribution et de Lorenz» pour des détails. e) Moyenne. x = w k x k k k w k f) Variance. C est une estimation non biaisée de la variance de la population. ( ) ŝ 2 N k x = N 1 w k (x k x) 2 k w k

446 426 Tableaux univariés et bivariés g) Écart-type. On peut noter que cet écart-type n est pas un estimateur non biaisé de l écart-type de la population. ŝ x = ŝ 2 x h) Coefficient de variation (C.var.). C x = 100 ŝ x x i) Asymétrie. Le coefficient d asymétrie de la distribution de x est mesuré par ( )( N g 1 = N 2 ŝ 2 x ) m 3 ŝ2 x où m 3 = w k (x k x) 3 k k C est une mesure d asymétrie. Les distributions qui ont une distribution asymétrique vers la droite, càd pour lesquelles la queue plus importante de distribution se trouve à droite, ont une asymétrie positive; les distributions qui sont asymétriques sur la gauche ont une asymétrie négative; une distribution normale a une asymétrie égale à 0.0. j) Aplatissement. Le coefficient d aplatissement de la distribution de x est mesuré par ( )( ) w k (x k x) 4 N m 4 k g 2 = N 3 (ŝ 2 x) 2 3 où m 4 = L aplatissement mesure l épaisseur de la distribution. Une distribution normale a un aplatissement égale à 0.0. Une courbe avec une forme pointue a un aplatissement positive; les distributions moins pointues que la distribution normale ont un aplatissement négative. k) Quantiles. Les quantiles sont calculés de la même façon que dans QUANTILE. w k k w k 57.2 Statistiques bivariées a) Chi-deux. Le Chi-deux est approprié pour tester la validité des différences des distributions parmi des groupes indépendants. χ 2 = i (f ij E ij ) 2 E j ij où f ij = fréquence observée dans la case ij E ij = fréquence espérée (calculée) dans la case ij ; c est le produit des fréquences de la ligne i par la fréquence de la colonne j, divisé par le total N. Pour les tableaux 2 x 2, le χ 2 est calculé à l aide de la formule suivante : χ 2 = N( ad bc N/2) 2 (a + b)(c + d)(a + c)(b + d) où a, b, c, d représentent les fréquences dans les quatre cases.

447 57.2 Statistiques bivariées 427 b) V de Cramer. Le V de Cramer décrit la force d une association dans un échantillon. Sa valeur varie entre 0.0, ce qui décrit une complète indépendance, et 1.0 qui représente une complète dépendance entre les données. χ V = 2 N(L 1) où L = min(r, c). c) Coefficient de contingence. Comme le coefficient V de Cramer, le coefficient de contingence est utilisé pour décrire la force d une association dans l échantillon. Sa limite supérieure est une fonction du nombre de catégories. L index ne peut pas atteindre 1.0. χ CC = 2 χ 2 + N d) Degrés de liberté. dl = (r 1)(c 1) e) N ajusté. C est le N utilisé dans les calculs statistiques, càd le nombre d observations avec des codes valides. Il est pondéré si la variable poids est spécifiée. f) S. S est égal au nombre d accords moins le nombre de désaccords pour le choix de l ordre. Pour une case donnée dans le tableau, toutes les observations dans les cases à droite et en dessous sont en accord, toutes les observations à gauche et en dessous sont en désaccord. S est le numérateur des statistiques tau et gamma. S = r 1 c i=1 j=1 f ij r c h=i+1 l=j+1 f hl r j 1 m=i+1 n=1 où f ij, f hl et f mn sont les fréquences observées dans les cases ij, hl et mn respectivement. g) Variance de S. C est la variance de S quand des liens existent. (Un lien est présent dans les données si plus d une observation apparaît dans une ligne ou une colonne donnée.) f mn σ 2 s = + + N(N 1)(2N + 5) f j (f j 1)(2f j + 5) f i (f i 1)(2f i + 5) j i + [ ][ 18 ] f j (f j 1)(f j 2) f i (f i 1)(f i 2) j i 9N(N 1)(N 2) [ ][ ] f j (f j 1) f i (f i 1) j i 2N(N 1) + h) Écart-type de S. σ s = σ 2 s i) Écart normal de S. Elle fournit un test de signification pour un grand échantillon pour le tau ou gamma avec liens. Le moins un dans le numérateur est une correction pour la continuité (si S est négatif, l unité est ajoutée). La valeur peut être comparée à une table de la loi normale. Le test est conditionnel à la distribution des liens. Z = S 1 σ s

448 428 Tableaux univariés et bivariés j) Tau a. Le τ de Kendall est une mesure d association pour des données ordinales. Tau a suppose qu il n y a pas de liens dans les données, ou que ces liens, s ils existent, représentent un «échec de mesure» qui est reflété par une réduction de la force de la relation. Tau a peut varier entre 1.0 et τ a = S N(N 1) 2 k) Tau b. Tau b est défini comme tau a sauf que les liens sont permis, càd qu il peut y avoir plus d une observation dans une ligne ou une colonne donnée du tableau bivarié. Tau b peut atteindre un seulement quand le nombre de lignes est égal au nombre de colonnes. τ b = [N(N 1) 2 S T 1 ] [ N(N 1) 2 T 2 ] où T 1 = T 2 = [ i [ j ] f i (f i 1) / 2 ] f j (f j 1) / 2 l) Tau c. Tau c est défini comme tau b sauf que si le nombre de lignes n est pas égal au nombre de colonnes, tau b ne peut pas atteindre les valeurs ± 1.0 tandis que tau c peut les atteindre. τ c = où L = min(r, c). S 1/2 N 2 [(L 1)/L] m) Gamma. Le γ de Goodman-Kruskal est une autre mesure d association fréquemment utilisée qui est très proche du τ de Kendall. Il peut varier de 1.0 à +1.0 et peut être calculé même quand des liens apparaissent dans les données. γ = S S + + S où S S + S = S + S = nombre total de paires dans le bon ordre = nombre total de paires dans le mauvais ordre. n) Rho de Spearman. C est le coefficient ordinaire de corrélation des moments produits de Pearson calculés sur les données ordonnées. Il varie de 1.0 à Le rho de Spearman calculé dans TABLES incorpore une correction pour les liens. Le facteur de correction, T, pour un seul groupe d observations liées est : T = t3 t 12 où t est égal au nombre d observations liées pour un rang donné, càd au nombre d observations dans une ligne ou une colonne donnée. Le rho de Spearman est calculé de la manière suivante : ρ s = x 2 + y 2 d 2 2 x 2 y 2

449 57.2 Statistiques bivariées 429 où x 2 = N3 N T x 12 y 2 = N3 N T y 12 d 2 = (X k Y k ) 2 k Tx = somme des T pour toutes les lignes qui ont plus d 1 observation Ty = somme des T pour toutes les colonnes qui ont plus d 1 observation X k = rang de l observation k pour la variable ligne Y k = rang de l observation k pour la variable colonne. Noter que lorsque plus d une observation se trouve dans une ligne donnée (ou colonne), la valeur des X k (ou des Y k ) pour les observations liées est la moyenne des rangs qui auraient été assignés s il n y avait pas eu de liens. Par exemple, s il y a 15 observations dans la première ligne du tableau, alors à ces 15 observations on aura assigné un rang, càd une valeur X, soit 8. o) Lambda symétrique. Ce lambda est une mesure symétrique de la puissance à prédire; il est particulièrement approprié quand ni les lignes ni les colonnes ne sont spécialement désignées comme la chose à prédire, ou connue, a priori. Lambda varie dans l intervalle où λ sym = f ij max f ij j max f ij i maxf j j max i i maxf ij + j j max i 2N max j f ij max j f j maxf i i = fréquence observée dans la case ij f j maxf i i = fréquence la plus grande dans la ligne i = fréquence la plus grande dans la colonne j = fréquence marginale la plus grande parmi les colonnes j f i = fréquence marginale la plus grande parmi les lignes i. p) Lambda A, variable ligne est la variable dépendante. Ce lambda est approprié quand la variable ligne est la variable dépendante. C est une mesure de la réduction proportionnelle dans la probabilité d erreur, pour prédire la variable ligne, quand on a les moyens de spécifier la catégorie de la colonne. Ce lambda ligne dépendant prend ses valeurs dans l intervalle λ rd = j max i f ij maxf i i N maxf i i Voir ci-dessus pour la définition des termes dans la formule. q) Lambda B, variable colonne est la variable dépendante. Ce lambda est approprié quand la variable colonne est la variable dépendante. Il varie dans l intervalle maxf ij maxf j j j λ cd = i N max f j j Voir ci-dessus pour la définition des termes dans la formule. r) Statistiques utilisées dans la médecine factuelle (Evidence-based medicine - EBM). Ces statistiques sont calculées pour des tableaux 2 x 2 où la première ligne représente les effectifs des événements présents (a) et absents (b) dans le groupe expérimental et la seconde ligne représente les effectifs des événements présents (c) et absents (d) dans le groupe témoin.

450 430 Tableaux univariés et bivariés On calcule les statistiques suivantes : Taux d événements dans le groupe expérimental TEE = a/(a + b) Taux d événements dans le groupe témoin TET = c/(c + d) Réduction absolue du risque RAR = TET TEE Réduction relative du risque RRR = RAR/TET Nombre de sujets à traiter NST = 1/RAR Risque relatif RR = TEE/TET et son intervalle de confiance de 95% [ IC RR = exp ln(rrestimé) ± 1.96 T ] où la variance estimée de ln(rrestimé) est T = b/a a + b + d/c c + d Rapport des cotes (odds ratio) RC = ad/bc et son intervalle de confiance de 95% [ IC RC = exp ln(rc estimé) ± 1.96 V ] où la variance estimée de ln(rc estimé) est V = 1 a + 1 b + 1 c + 1 d s) Test exact de Fisher. Le test de probabilité exacte de Fisher est une technique non paramétrique extrêmement utile pour analyser des données discrètes (nominales ou ordinales) à partir de deux échantillons indépendants. Il est utilisé quand toutes les observations des deux échantillons aléatoires indépendants tombent dans l une ou l autre des deux catégories mutuellement exclusives. Ce test détermine si les deux groupes diffèrent en fonction de la proportion avec laquelle ils tombent dans les deux classifications. La probabilité est calculée de la manière suivante : p = (a + b)! (c + d)! (a + c)! (b + d)! N! a! b! c! d! où a, b, c, d représentent les fréquences dans les quatre cases. Le programme TABLES donne aussi les probabilités exactes pour deux types de distribution, à savoir : «les probabilités que les observations soient égales ou plus grandes que le nombre observé» et «les probabilités que les observations soient aussi grandes que celles observées dans chaque direction».

451 57.2 Statistiques bivariées 431 t) Test de Mann-Whitney. Le test U de Mann-Whitney peut être utilisé pour tester si deux groupes indépendants ont été tirés de la même population. C est une alternative utile au test-t paramétrique quand les variables sont mesurées avec une échelle plus faible que l échelle continue (intervalle). Dans le programme TABLES, on demande que la variable ligne représente la variable groupe dichotomique. Soit n 1 n 2 R 1 R 2 = nombre d observations dans le plus petit des deux groupes = nombre d observations dans le seconde groupe = somme des rangs assignés au groupe avec n 1 observations = somme des rangs assignés au groupe avec n 2 observations. Alors et U 1 = n 1 n 2 + n 1(n 1 + 1) 2 U 2 = n 1 n 2 + n 2(n 2 + 1) 2 U = min(u 1, U 2 ) R 1 R 2 S il y a plus de dix observations dans chaque groupe, le programme TABLES fournit l approximation Z (approximation normale de U) calculée de la manière suivante : Z = U n 1 n 2 /2 n 1 n 2 (n 1 + n 2 + 1) 12 u) Test des rangs signés de Wilcoxon. Le test de Wilcoxon est un test statistique pour deux échantillons en relation et il utilise l information concernant à la fois la direction et la grandeur relative des différences dans les paires de variables. La somme des rangs positifs, T +, est obtenue de la manière suivante : Les différences signées d k = x k y k sont calculées pour toutes les observations. Les différences d k sont rangées sans tenir compte de leurs signes. Les observations ayant des d k nuls sont supprimées. Les d k liés sont assignés la moyenne des rangs liés. À chaque rang, on assigne le signe (+ ou ) du d qu il représente. N est le nombre de d k non nuls. T + est la somme des d k positifs. Si N > 15, le programme calcule l approximation Z (approximation normale de T + ) de la manière suivante : où et Z = T + µ T + σ T + µ T + = N (N + 1) 4 σ 2 T + = N (N + 1)(2N + 1) 24 1 g n t (n t 1)(n t 2) 2 t=1 g = nombre de groupements de différents rangs liés n t = nombre de rangs liés dans le groupement t. Noter que l approximation Z est aussi ajustée pour les rangs liés. L utilisation de celle-ci, cependant, ne produit pas de changement dans la variance quand il n y a pas de liens.

452 432 Tableaux univariés et bivariés v) Test t. Ce t-ratio est approprié pour tester la différence entre deux moyennes indépendantes, càd entre deux échantillons indépendants. La variance est regroupée. où y t = i y h (ni s 2 i + n hs 2 ) ( ) h ni + n h n i + n h 2 n i n h y i = moyenne de la variable colonne pour les observations dans la ligne i y h = moyenne de la variable colonne pour les observations dans la ligne h s 2 i = variance empirique de la variable colonne pour les observations dans la ligne i s 2 h = variance empirique de la variable colonne pour les observations dans la ligne h. Si les t-tests sont demandés, les écarts-types empiriques sont calculés pour les observations dans chaque ligne de la manière suivante : y 2 s i = n i y 2 i 57.3 Note sur les poids Si les statistiques bivariées sont demandées et si une variable poids est spécifée, alors un signal apparaît et les statistiques sont calculées en utilisant des valeurs pondérées : x k = w k x k x 2 k = w k x 2 k y k = w k y k yk 2 = w k yk 2 N = k w k f ij = fréquence pondérée dans la case ij.

453 Chapitre 58 Typologie et classification ascendante Notation x = valeurs des variables k = indice pour l observation v = indice pour la variable g, i, j = indices pour les groupes a = nombre de variables actives (quantitatives et qualitatives dichotomisées) p = nombre de variables passives (quantitatives et qualitatives dichotomisées) t = nombre de groupes initiaux N i N j α w W = nombre d observations dans le groupe i (ponderé si le poids de l observation est utilisé) = nombre d observations dans le groupe j (ponderé si le poids de l observation est utilisé) = valeur du poids de la variable = valeur du poids de l observation = somme totale des poids d observations Types de variables utilisées Le programme accepte à la fois des variables quantitatives et qualitatives (catégorielles), ces dernières pouvant être traitées comme variables quantitatives après complète dichotomisation de leurs catégories respectives, càd après la construction d autant de variables dichotomiques (1/0) que de nombre de catégories. Les variables utilisées par le programme peuvent être soit actives soit passives. Les variables actives sont celles sur lesquelles la typologie est construite. Les variables passives n interviennent pas dans la construction de la typologie, mais le programme imprime pour elles les principales statistiques dans les groupes de typologie. Un ensemble de variables actives est noté ici X a, et un ensemble de variables passives X p Profil de l observation Le profil de l observation k est un vecteur P k tel que P k = (x k1, x k2,..., x kv,..., x ka ) = (x kv ) où tout x v X a. Si les variables actives doivent être réduites, le profil de l observation k devient ( xkv ) P k = s v

454 434 Typologie et classification ascendante où s v est l écart-type de la variable x v (voir 7.b ci-dessous) Profil d un groupe Le profil d un groupe i, appelé aussi barycentre du groupe, est un vecteur P i tel que P i = (x i1, x i2,...,x iv,...,x ia ) = (x iv ) et dans le cas de données réduites, il devient ( xiv ) P i = s v où numérateur est la moyenne de la variable x v pour les observations appartenant au groupe i et où dénominateur est l écart-type global de cette variable Distances utilisées Il y a trois distances de base utilisées dans le programme, à savoir : la distance «City block», la distance euclidienne et la distance du Chi-deux de Benzécri. Elles peuvent être utilisées pour calculer des distances entre deux observations, entre une observation et un groupe d observations et entre deux groupes d observations. Ci-dessous, ces distances sont définies comme distances entre deux groupes d observations (entre deux profils de groupes), mais les autres distances peuvent facilement être obtenues en adaptant les formules respectives. a) La distance «City block». d ij = d(p i, P j ) = a α v x iv x jv v=1 a v=1 α v b) La distance euclidienne. a α v (x iv x jv ) 2 v=1 d ij = d(p i, P j ) = a c) La distance du Chi-deux. où v=1 v=1 α v d ij = d(p i, P j ) = a 1 ( piv p ) 2 jv p v p i p j p v = t x gv, p i = g=1 a x iv, p j = v=1 a v=1 x jv p iv = t x iv g=1 v=1, p jv = a x gv t x jv a g=1 v=1 x gv

455 58.5 Construction de la typologie initiale 435 D autre part, le programme fournit la possibilité d utiliser des distances «pondérées», appelées déplacements («displacement»), qui sont définies de la manière suivante : D ij = D(P i, P j ) = 2N in j N i + N j d ij Noter que le déplacement entre deux profils d observations est égal à leur distance puisque N i = N j = Construction de la typologie initiale a) Sélection d une configuration initiale. Avant de commencer le processus d agrégation des observations, le programme sélectionne la configuration initiale, càd t profils de groupes initiaux, suivant l une des manières suivantes : les profils des t observations sélectionnées de manière aléatoire constituent la configuration de départ; pour obtenir la configuration initiale, le programme distribue le reste des observations en t groupes selon la procédure décrite ci-dessous; les profils des t observations sélectionnées par étape constituent la configuration de départ; pour obtenir la configuration initiale, le programme distribue le reste des observations en t groupes selon la procedure décrites ci-dessous; la configuration initiale est un ensemble de profils de groupes calculés pour des observations distribuées parmi les catégories d une variable clef; la configuration initiale est un ensemble de profils de groupes «a priori» fournis par l utilisateur. Quand la construction commence à partir des profils de t observations, le programme considère cet ensemble de t vecteurs comme un ensemble de t «observations de départ» et distribue le reste des observations selon leur distance à chacune des observations de départ. On définit l ensemble des t observations de départ par } P départ = {P k1, P k2,..., P kt et la distance entre les groupes et/ou observations i et j par D(P i, P j ). Noter que D(P i, P j ) peut être toute distance définie dans la section 4 ci-dessus. Pour chaque observation i P départ, le programme calcule [ ] β = min D(P i, P kj ) 1 j t [ ] γ = min D(P k1, P k2 ), D(P k1, P k3 ),..., D(P kt 1, P kt ) Il y a deux possibilités : β γ : l observation i est assignée au groupe le plus proche, et le profil P kj est recalculé : ) P kj = (P kj + P i /2 β > γ : l observation i forme un nouveau groupe qui est ajouté à l ensemble P départ, et les deux plus proches profils P kj et P kj sont agrégés, formant ainsi un groupe avec le nouveau profil : P kj = ( P kj + P kj ) /2 A la fin de cette procédure, la configuration initiale est un ensemble de t profils } P initial = {P 1, P 2,..., P j,..., P t où P j est un profil moyen de toutes les observations appartenant au groupe j. A cette étape, le programme ne prend pas en compte le fait que les observations sont pondérées.

456 436 Typologie et classification ascendante b) Stabilisation de la configuration initiale. La configuration initiale est stabilisée par un processus itératif. Pendant chaque itération, le programme redistribue les observations parmi les groupes initiaux en prenant en compte leur distance par rapport à chaque profil de groupe. Ici, à nouveau, il y a deux possibilités : quand l observation i P j et [ ] D(P i, P j ) = min D(P i, P g ) 1 g t alors cette observation reste dans le groupe P j ; quand l observation i P j mais [ ] D(P i, P j ) = min D(P i, P g ) 1 g t alors l observation i va du groupe P j vers le groupe P j, et les profils de ces deux groupes sont recalculés de la manière suivante : P j = (N j P j P i ) /(N j 1) P j = (N j P j + P i )/(N j + 1) Après cette opération, le groupe P j contient N j 1 observations et le groupe P j contient N j + 1 observations. Noter que si les observations sont pondérées, alors N j = N j w i N j = N j + w i P i = w i P i où w i est le poids de l observation i, et N j et N j sont le nombre pondéré d observations dans les groupes P j et P j respectivement. La stabilité des groupes est mesurée par le pourcentage d observations restantes dans les mêmes groupes entre deux itérations successives. La procédure est répétée jusqu à ce que les groupes soient stabilisés ou quand le nombre d itérations fixé par l utilisateur est atteint Caractéristiques des distances par groupe a) Effectif. Nombre d observations dans chaque groupe pour la typologie initiale. b) Moyenne. Distance moyenne pour chaque groupe, càd la moyenne des distances provenant du profil de groupe sur toutes les observations appartenant à ce groupe. c) Éc-type. Écart-type de la distance pour chaque groupe. d) Classification des distances. Distribution des observations, à la fois en termes de fréquences et de pourcentages, parmi 15 intervalles continus, qui sont différents pour chaque groupe. e) Effectif total. Nombre total d observations participant à la construction de la typologie initiale. f) Moyenne. Distance moyenne globale. g) Éc-type. Écart-type global de la distance. h) Classification des distances (mêmes limites pour chaque groupe). Comme en 6.d ci-dessus sauf que les 15 intervalles ont la même étendue pour tous les groupes.

457 58.7 Statistiques récapitulatives Statistiques récapitulatives Elles sont calculées pour les variables quantitatives et pour les variables qualitatives actives. a) Moyenne. Moyenne de la variable quantitative x v (X a X p ). Pour les catégories de variables qualitatives, c est une proportion d observations dans cette catégorie. x v = w k x kv k W b) Écart-type. W k s v = ( ) 2 w k x 2 kv w k x kv k W 2 c) Poids. La valeur du poids de la variable est calculée pour chaque variable de la manière suivante : α v = 0 pour des variables quantitatives passives 1 pour des variables quantitatives actives (c+1)/3 c pour les catégories d une variable qualitative active, où c = nombre de catégories non vides de cette variable 1 pour les catégories d une variable qualitative active quand la distance Chi-deux est utilisée Description de la typologie résultante A la fin de la construction de la typologie initiale, et aussi à la fin de chaque étape de classification ascendante, toutes les variables, càd actives et passives, sont évaluées à travers la quantité de la variance expliquée. C est une mesure de la puissance discriminante de chaque variable quantitative et de chaque catégorie de variables qualitatives. Ceci est suivi par une description individuelle de tous les groupes de la typologie. a) Proportion d observations. Pourcentage, multiplié par 1000, d observations appartenant à chaque groupe de la typologie. b) Variance expliquée. où t g i=1 N i (x iv x v ) 2 VE(x v ) = w k (x kv x v ) t g x iv k = nombre de groupes dans la typologie = moyenne de la variable v dans le groupe i x v = moyenne globale de la variable v. c) Moyenne globale. Pour des variables quantitatives, les valeurs moyennes comme décrites en 7.a ci-dessus. Pour chaque catégorie de variables qualitatives, pourcentage d observations dans cette catégorie. d) Statistiques pour chaque groupe de la typologie.

458 438 Typologie et classification ascendante Pour les variables quantitatives : première ligne : les valeurs moyennes comme décrites en 7.a ci-dessus; second ligne : les écarts-types comme décrits en 7.b ci-dessus. Pour chaque catégorie de variables qualitatives : première ligne : pourcentage en colonne des observations; seconde ligne : pourcentage en ligne des observations Récapitulation du montant de la variance expliquée par la typologie De la même façon que pour la typologie résultante, un tableau récapitulatif est imprimé à la fin de la construction de la typologie initiale et à la fin de chaque étape de la classification ascendante. a) Variables expliquant 80% de la variance. La liste des variables les plus discriminatives, càd celles qui prises toutes ensemble sont responsables pour au moins de 80% de la variance expliquée avec, pour chacune individuellement, la quantité de la variance expliquée (voir 8.b ci-dessus). b) VE moyenne sur les variables actives. Variance moyenne expliquée par les variables actives. VE actives = a α v VE(x v ) v=1 a v=1 α v c) VE moyenne sur l ensemble des variables. Variance moyenne expliquée par toutes les variables. VE toutes = a+p α v VE(x v ) v=1 a+p α v v=1 d) VE moyenne sur les variables qui expliquent 80% de la variance totale. Après chaque regroupement, le programme cherche les variables qui expliquent au moins 80% de la variance totale (voir 9.a ci-dessus) et imprime la variance moyenne expliquée par ces variables avant et après regroupement, et le pourcentage de telles variables Classification hiérarchique ascendante Après création de la typologie initiale, le programme propose une série de regroupements, réduisant un à un le nombre initial de groupes jusqu au nombre spécifié par l utilisateur. A chaque regroupement, le programme sélectionne les deux groupes les plus proches, càd deux groupes avec la plus petite distance ou déplacement (voir 4 ci-dessus), et calcule le profil pour le nouveau groupe. a) Groupe i + j. Le profil du nouveau groupe, imprimé pour 15 variables actives en ordre décroissant par rapport à leur déviation (voir 10.d ci-dessous). Noter que s il y a moins de 15 variables actives, ou moins de 15 variables avec des observations valides dans les groupes agrégés, le programme complète la liste en utilisant des variables passives. b) Groupe i. Profil du groupe i, imprimé pour les mêmes variables que ci-dessus. c) Groupe j. Profil du groupe j, imprimé pour les mêmes variables que ci-dessus. d) Écart. Valeur absolue de la différence entre les profils des groupes i et j, imprimée pour les mêmes variables que ci-dessus. Dev(x v ) = x iv x jv

459 58.11 Références 439 e) Écart pondéré. Ecart pondéré par le poids et l écart-type de la variable, imprimée pour les mêmes variables que ci-dessus. WDev(x v ) = Dev(x v ) α v s v Références Aimetti, J.P., SYSTIT : Programme de classification automatique, GSIE-CFRO, Paris, Diday, E., Optimisation en classification automatique, RAIRO, Vol. 3, Hall & Ball, A clustering technique for summarizing multivariate data, Behavioral Sciences, Vol. 12, No 2, 1967.

460

461 Annexe Messages d erreurs des programmes d IDAMS Aperçu général Un effort a été fait pour rendre les messages d erreurs auto-explicites. Par conséquent, cet Appendice se limitera à décrire le schéma de codification utilisé pour les messages d erreurs. Erreurs et avertissements Les erreurs (E) provoquent toujours la terminaison de l exécution de programme d IDAMS, tandis que les avertissements (W, de «warnings» qui signifie avertissements en anglais) alerte l utilisateur sur la présence de possibles anomalies dans les données et/ou dans les instructions de contrôle, ainsi que sur la possibilité d interpéter erronément les résultats. Les messages d erreurs et d avertissement ont le format suivant : ***E* aaannn texte du message d erreur ***W* aaannn texte du message d avertissement où nnn est un nombre à trois chiffres, commençant à 001 pour les avertissements et à 101 pour les erreurs; aaa indique la provenance du message, conformément aux règles ci-dessous : Messages venant des programmes : la première lettre du nom du programme suivie par les deux consonnes qui suivent dans ce nom. Messages venant des sous-routines : SYN RCD DTM erreurs de syntaxe générale; erreurs et avertissements concernant la syntaxe dans RECODE; erreurs dans les données et le dictionnaire, et avertissements concernant les fichiers données et dictionnaire; SYS erreurs et avertissements en provenance du Moniteur ; FLM erreurs et avertissements concernant la gestion des fichiers.

462 442 Messages d erreurs des programmes d IDAMS Messages d erreurs Fortran survenues pendant l exécution Pour chaque erreur survenant durant l exécution d un programme, Visual Fortran RTL envoie un diagnostic. Les messages d erreurs ont le format suivant : forrtl: sévérité (numéro): texte forrtl sévérité numéro text Identifie l erreur comme une erreur Visual Fortran RTL. Les niveaux de sévérité sont : sévère (doit être corrigée), erreur (devrait être corrigée), avertissement (devrait être examinée), ou info (pour information seulement). Numéro du message; également la valeur IOSTAT pour les instructions d entrée/sortie (I/O). Explication de la cause de l erreur. Les messages s expliquent d eux-même et ne sont pas reproduits ici.

463 Index écart-type, 355, 363, 371, 383, 384, 395, 403, 404, 417, 418, 426, 437 agrégation de données, 59, 99 analyse basée sur l ordre partiel des observations, 253, 399 de classification, 177, 301, 343, 433 de configuration, 183, 351 de préférences, 267, 407 de régression, 211, 229, 371, 383 de segmentation binaire, 281, 419 de variance, 229, 247, 383, 389, 395 des correspondances, 201, 363 des proximités, 221, 377 discriminante, 189, 355 en composantes principales, 201, 363 factorielle, 201, 363 analyse de la variance multivariée, 239 auto corrélation, 338 régression, 338 blancs identification, 114 recodage par BUILD, 105 centrage de configuration, 183, 351 Chi-deux (test), 289, 426 classement d alternatives, 267, 407 basé sur la logique classique, 267, 408 basé sur la logique floue, 267, 411 classification d objets basée sur la logique floue, 178, 346 basée sur le partitionnement, 177, 178, 344, 346 hiérarchique, 177, 178, 347, 348 classification d observations basée sur la logique floue, 178, 346 basée sur le partitionnement, 177, 178, 344, 346 hiérarchique, 177, 178, classification hiérarchique ascendante, 178, 181, 301, 347, 433 basé sur de variables dichotomiques, 178, 181, 349 d observations, 301, 433 descendante, 178, 181, 348 par agglomération, 178, 181, 347 par division, 178, 181, 348 codes incorrects/invalides, spécification des, 111 nom de, 16 vérification de, 111 coefficients beta, 213, 231, 374, 385 de contingence, 289, 427 de corrélation multiple, 213, 231, 373, 386 partielle, 213, 372 r de Pearson, 212, 261, 372, 403, 418 de régression, 213, 262, 275, 374, 404, 418 de variation, 213, 231, 248, 371, 383, 385, 395, 426 eta, 231, 248, 385, 396 commandes d IDAMS $CHECK, 22 $COMMENT, 22 $DATA, 22 $DICT, 22 $FILES, 22 $MATRIX, 22 $PRINT, 22 $RECODE, 23 $RUN, 23 $SETUP, 23 commentaires dans le setup, 22 configuration analyse, 183, 351 centrage, 183, 351 matrice de configuration, 183, 221, 303, 304, 377 en entrée dans CONFIG, 184 en entrée dans MDSCAL, 224 en entrée dans TYPOL, 304 en sortie de CONFIG, 184 en sortie de MDSCAL, 223 en sortie de TYPOL, 303 normalisation, 184, 351 projection, 186 rotation varimax, 184, 353 transformation, 184, 352 contrainte dans l analyse des proximités, 222, 378, 380 correction de données, 57, 59, 131 courbe de Lorenz, 197, 360 Cramer (V de), 289, 427 détermination de priorités, 267, 407 dataset, définition dans IDAMS, 11 datasets construction, 58, 105 copie, 165 fusion, 59, 60, 151

464 444 INDEX de même niveau, 59, 151 de niveau différent, 60, 151 préparation, 58 subdivision, 60, 165 ddname, 23 modification, 31 nom par défaut, 31 diagrammes de dispersion, 202, 206, 275, 417 dictionnaire construction, 105 dans setup, 22 description, 14 enregistrements de type C, 16 de type T, 15 des codes et noms de catégories, 16 descripteur du dictionnaire, 15 descripteurs de variables, 15 fichiers de, 5 listage avec LIST, 147 distance Chi-deux, 306, 434 City block, 180, 226, 306, 344, 381, 434 de Mahalanobis, 189, 356 euclidienne, 180, 226, 306, 344, 380, 434 données agrégation, 59, 99 conversion en mode binaire, 13 correction, 57, 59, 131 dans IDAMS, 5 dans setup, 22 exportation, 137 format DIF, 138 format libre, 139 fichiers de, 5 format, 11 importation, 20, 137 format DIF, 139 format libre, 139 listage, 60, 147 mise-à-jour, 131 non numériques, mise-en-forme, 105 numériques mise-en-forme, 105 traitement des champs non numériques, 13 recodage, 32, 59 regroupement (voir agrégation), 99 sauvegarde de données recodées, 169 stockage, 11 transformation, 59, 169 par recodage, 32 sauvegarde avec TRANS, 59 vérification de cohérence logique, 57, 59, 117 de l ordre de tri, 123, 165, 167 de la fusion des enregistrements, 57 de valeurs, 57, 59, 111 validation, 57, 58 données exprimant des préférences sélection d alternatives, 269 types de, 267, 407 données manquantes attribution des codes par Recode, 51 codes de, 13 déclaration dans le setup, 30 définition, 13 spécification dans le dictionnaire, 15 suppression par observations dans PEARSON, 262 dans REGRESSN, 212 suppression par paires dans PEARSON, 261 traitement par Recode, 34 Durbin-Watson (statistique de), 213, 375 ELECTRE (méthode de classement d alternatives), 267, 408 enregistrements en double, identification et correction, 124 identification dans MERCHECK, 123 invalides, identification et correction, 124 manquants, détection et remplissage, 124 supprimés, traitement, 124 exploration graphique interactive, 4 exportation de données, 137 de matrices, 137 facteur de répétition dans TABLES, 295 fichiers de matrices, 5, 17 Dictionnaire, 5, 14 Données, 5, 12 fusion, 161 hiérarchiques, 12 nom, 79 rectangulaires, création de, 57 spécification des, 23 tri, 161 filtre, 25 emplacement, 25 local, 25 dans ONEWAY, 250 dans QUANTILE, 199 dans SCAT, 278 dans TABLES, 295 principal, 25 règles de codage, 26 variables à utiliser, 26 variables alphabétiques, 26 variables numériques, 26 variables R, 26 filtres de fréquence, 338 Fisher test exact de, 289, 430 test F de, 213, 231, 248, 373, 397 fonction de distribution, 197, 359

465 INDEX 445 de Lorenz, 197, 360 discriminante linéaire, 189, 356 fonctions de Recode arithmétiques, 37 logiques, 45 fréquences bivariées, 289 univariées, 289 univariées cumulatives, 289 fusion de datasets, 59, 60, 151 de même niveau, 151 de niveau différent, 151 de fichiers, 161 attribution, 46 conditionnelles, 50 contrôle, 48 initialisation/définition, 51 vérification des, 35, 169 instructions, exemple de setup, 60 interactions construction d une variable combinée, 230 définition, 229 détection et traitement, 229 Kaiser (critère de), 205 Kendall (taus de), 289, 428 Kolmogorov-Smirnov (test de), 197, 360 gamma (statistique), 289, 428 gestion de données agrégation de données, 2, 99 construction d un dataset IDAMS, 2, 105 correction de données, 2, 131 fusion de datasets, 2, 151 importation ou exportation de données, 2, 137 listage de datasets, 2, 147 subdivision de datasets, 3, 165 transformation de données, 3, 169 tri et fusion de fichiers, 3, 161 vérification de cohérence logique, 2, 117 vérification de la fusion des enregistrements, 2, 123 vérification des codes, 2, 111 Gini (indice de), 197, 360 ID d observation dans LIST, 148 dans MERGE (variables d appariement), 157 IDAMS caractéristiques standard, 6 commandes, 21 dataset, 11, 105 construction, 58, 105 dictionnaire, construction, 105 instructions de contrôle, 25, 61 instructions de recodage, 32, 61 matrices, 17 exportation, 137 importation, 137 messages d erreurs des programmes, 441 setup, 61 spécification des fichiers, 23 importation de données, 20, 137 de matrices, 137 impression des résultats, 93 indice de Gini, 197, 360 instructions de contrôle filtre, 25 paramètres, 27 règles de codage, 25 titre, 27 instructions de Recode, 32 lambda (statistiques), 289, 429 listage d observations avec CORRECT, 131 avec LIST, 147 avec TRANS, 169 de dictionnaires avec LIST, 147 de données avec LIST, 60, 147 liste de variables, règles de codage, 31 logique floue classement d alternatives, 267, 411 classification d objets, 178, 346 Lorenz courbe de, 197, 360 fonction de, 197, 360 Mahalanobis (distance de), 189, 356 Man-Whitney (test de), 289, 431 matrice carrée, 17 descripteur, 17 format, 17 dans setup, 22 de configuration, 183, 221, 303, 304, 377 en entrée dans CONFIG, 184 en entrée dans MDSCAL, 224 en entrée dans TYPOL, 304 en sortie de CONFIG, 184 en sortie de MDSCAL, 223 en sortie de TYPOL, 303 de corrélation, 212, 262, 372, 404 en entrée dans CLUSFIND, 179 en entrée dans REGRESSN, 215 en sortie de PEARSON, 263 en sortie de REGRESSN, 214 de corrélation partielle, 213, 372 de covariance, 262, 404 en sortie de PEARSON, 263 de distances, 184, 352 en sortie de CONFIG, 184 de mesures de similarité/dissimilarité, 178, 221, 344 en entrée dans CLUSFIND, 179 en entrée dans MDSCAL, 223 de produits croisés, 213, 262, 371, 404

466 446 INDEX de produits scalaires, 184, 352 de relations, 201, 202, 268, 364, 410, 411 de statistiques, 289 de statistiques bivariées en sortie de TABLES, 292 exportation, 137 format libre, 139 fichiers de, 5, 17 importation, 20, 137 format libre, 139 inverse, 213, 372 programmes acceptant, 17, 19 programmes produisant, 17, 19 rectangulaire, 18 descripteur, 19 format, 19 messages d erreurs des programmes envoyés par IDAMS, 441 mots-clés, 27 règles de codage, 29 types de, 28 moyenne, 343, 355, 363, 371, 383, 384, 389, 395, 403, 404, 417, 425, 437 règles de codage, 29 valeurs par défaut, 28 partitionnement autour de médoïdes, 178, 181, 344, 346 basé sur la logique floue, 178, 181, 346 Pearson (coefficient r de), 212, 261, 372, 403, 418 poids, 31 pondération de données, 31 pourcentages en coin, 289, 425 en colonnes, 289, 425 en lignes, 289, 425 prédicteurs, 229, 247, 281 préférence faible, 267, 268 stricte, 267, 268 programmes exemple de setup, 60 projection d observations, 202, 275, 417 de variables, 202 quantiles, 199, 292, 359, 426 nom de codes, 16 de fichiers, 79 de variables, 15 normalisation de configurations, 184, 351 de la matrice de relations, 272, 412 nuages de points, 202, 275, 417 observations en double suppression avec SUBSET, 167 traitement par MERGE, 153 excentriques traitement par MCA, 234 traitement par SEARCH, 285 fixation du nombre à traiter, 30 identification dans MERCHECK, 123 listage, 131, 147, 169 manquantes, traitement par MERGE, 153 ordonnancement partiel, 253, 399 sélection d, 25 suppression, 131, 165, 169 paramètres communs, 30 BADDATA, 30 INFILE, 31 MAXCASES, 30 MDVALUES, 30 OUTFILE, 31 VARS, 31 WEIGHT, 31 emplacement, 27 formats de spécification, 27 présentation dans le Manuel, 27 régression, 211, 371 avec variables catégoricales, 211, 229 avec variables fictives, 211, 229 linéaire multiple, 211 pas à pas, 211, 375 pas à pas descendante, 211, 376 résidus, 212, 229, 281, 375, 386, en sortie de MCA, 232 en sortie de REGRESSN, 214 en sortie de SEARCH, 282 ratio F (rapport F), 231, 248, 397 recodage de blancs par BUILD, 105 de données, 32, 59 sauvegarde de variables recodées, 169 Recode comparaison de TABLE, IF et RECODE, 56 constantes (types de), 35 exemples d utilisation, 52 expressions, 36 arithmétiques, 36 logiques, 36 fonctions arithmétiques, 37 fonctions logiques, 45 forme des instructions, 33 initialisation de valeurs de variables, 34 instructions, 46 langage, éléments de, 35 opérandes de base, 35 opérateurs arithmétiques, 36 logiques, 36 relationnels, 36 règles de codage, 33 restrictions, 55 traitement des données manquantes, 34

467 INDEX 447 variables V et R, 35 Recode, fonctions arithmétiques ABS, 37 BRAC, 37 COMBINE, 38 COUNT, 39 LOG, 40 MAX, 40 MD1, MD2, 40 MEAN, 40 MIN, 41 NMISS, 41 NVALID, 41 RAND, 41 RECODE, 42 SELECT, 43 SQRT, 43 STD, 43 SUM, 43 TABLE, 44 TRUNC, 44 VAR, 45 Recode, fonctions logiques EOF, 45 INLIST, 45 MDATA, 46 Recode, instructions BRANCH, 48 CARRY, 51 CONTINUE, 49 DUMMY, 47 ENDFILE, 49 ERROR, 49 GO TO, 49 IF, 50 MDCODES, 51 NAME, 51 REJECT, 49 RELEASE, 50 RETURN, 50 SELECT, 48 regroupement de données avec AGGREG, 99 rho de Spearman, 289, 428 rotation varimax de configurations, 184, 353 de facteurs, 202, 370 sélection d observations, 25 de variables, 31 sauvegarde de données recodées, 169 de variables recodées, 169 scores produits par FACTOR, 203 produits par POSCOR, 254 segmentation binaire, 281, 419 setup commentaires, 22 fichiers de, 5 sommes des carrés, 213, 231, 248, 371, 385, 396 Spearman (rho de), 289, 428 spectre, 338 spectre croisé, 338 statistiques, calcul de bivariées par TABLES, 289, 426 EBM, 289 univariées, 338 par AGGREG, 99, 100 par FACTOR, 202, 363 par TABLES, 289, 425 sur les résidus par MCA, 231, 386 stress dans l analyse des proximités, 222, 378, 380 Student (test t de), 213, 289, 375, 432 subdivision de datasets, 60, 165 suppression d observations avec CORRECT, 131 avec SUBSET, 165 avec TRANS, 169 en double avec SUBSET, 167 de variables avec SUBSET, 165 avec TRANS, 169 tableaux à 3 et 4 entrées, 289 bivariés, 289, 425 de contingence, 289, 425 de fréquences bivariées, 289 de fréquences univariées, 289 de fréquences univariées cumulatives, 289 de statistiques en sortie de TABLES, 292 des facteurs, 202, 366, 368, 370 univariés, 289, 425 tau (statistiques), 289, 428 techniques d analyse analyse de configuration, 3, 183, 351 analyse de la variance multivariée, 389 analyse de régression, 3, 229, 383 analyse de variance, 3, 229, 383 analyse de variance à un facteur, 4, 247, 395 analyse de variance multivariée, 4 analyse des correspondances, 3, 201, 363 analyse discriminante, 3, 189, 355 analyse en composantes principales, 3, 201, 363 analyse multidimensionnelle des proximités, 3, 221, 377 analyses factorielles, 3, 201, 363 classement d alternatives, 4, 267, 407 classification hiérarchique ascendante, 4, 301, 433 construction de scores fondés sur l ordre partiel des observations, 4, 253, 399 corrélation de Pearson, 4, 261, 403 diagrammes de dispersion, 4, 275, 417 fonctions de distribution, 3, 197, 359 fonctions de Lorenz, 3, 197, 359 nuages de points, 4, 275, 417 partition et regroupement en classes, 3, 177, 343 régression linéaire, 3, 211, 371

468 448 INDEX recherche de structure, 4, 281, 419 segmentation binaire, 4, 281, 419 tableaux univariés et bivariés, 4, 289, 425 typologie itérative, 4, 301, 433 tendance, 338 test Chi-deux, 289, 426 de Durbin-Watson, 213, 375 de Kolmogorov-Smirnov, 197, 360 de Man-Whitney, 289, 431 de Wilcoxon, 289, 431 exact de Fisher, 289, 430 F de Fisher, 231, 248, 397 t de Student, 289, 375, 432 titre emplacement, 27 règles de codage, 27 transformation de configurations, 184, 352 de données, 59, 169 par recodage, 32 sauvegarde avec TRANS, 59 tri de fichiers, 161 typologie itérative, 301, 433 V de Cramer, 289, 427 vérification de codes à l aide des enregistrements C, 111 de cohérence logique, 57, 59, 117 de l ordre de tri de données, 123, 165, 167 de la fusion des enregistrements, 57 de valeurs de données, 57, 59, 111 des instructions Recode, 35, 169 valeurs extrêmes traitement par MCA, 234 traitement par SEARCH, 285 valeurs non numériques, traitement, 30 valeurs résiduelles, 212, 229, 281, 386, en sortie de MCA, 232 en sortie de REGRESSN, 214 en sortie de SEARCH, 282 validation de données, 57, 58 variable combinée, 230 d échantillon, 191 de classification créée par TYPOL, 303 de groupe, 191 variables actives, 201, 301 agrégées, 99 alphabétiques, 13 avec décimales, 12 catégoricales dans MCA, 229 dans REGRESSN, 211, 217 nom de codes, 16 construites par POSCOR, 254 de contrôle, 99, 229, 247 fictives dans MCA, 229 dans REGRESSN, 211, 217 liste de, 31 emplacement, 31 règles de codage, 31 nom de, 15 attribution par Recode, 51 numériques, 12 correction, 131 mise-en-forme, 14, 105, 107 traitement des champs non numériques, 13 traitement par BUILD, règles de, 105 passives, 201, 301 position dans les enregistrements, 15 qualitatives, nom de codes, 16 référence aux, 12 sélection de, 31 sauvegarde de variables recodées, 169 supplémentaires, 201 suppression, 165, 169 variance, analyse de, 229, 247, 383, 389, 395 varimax rotation de configurations, 184, 353 rotation de facteurs, 202, 370 Wilcoxon (test de), 289, 431

Montrer encore