IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD



Documents pareils
Traitement des données avec Microsoft EXCEL 2010

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

S y m M a i l i n g. S o l u t i o n d e - m a i l i n g. SymMailing est un outil professionnel de création et de gestion de campagnes d ing.

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

CREG : versailles.fr/spip.php?article803

Localisation des fonctions

Logiciel XLSTAT version rue Damrémont PARIS

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Avant-propos FICHES PRATIQUES EXERCICES DE PRISE EN MAIN CAS PRATIQUES

LIMESURVEY. LimeSurvey est une application permettant de créer des questionnaires d enquête en ligne et d en suivre le dépouillement.

Organiser le disque dur Dossiers Fichiers

FEN FICHE EMPLOIS NUISANCES

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Utilisation du logiciel ModellingSpace

GUIDE DE L UTILISATEUR. Interface Projets Diagrammes Imports / Exports Data Management Industrialisation

TABLEAU CROISE DYNAMIQUE

INTRODUCTION AU DATA MINING

Installation d un manuel numérique 2.0

GUIDE D UTILISATION DU BROWSER DE BEYOND 20/20

Le cas «BOURSE» annexe

Business Intelligence simple et efficace

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

SPHINX Logiciel de dépouillement d enquêtes

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Le cas «BOURSE» annexe

Ecran principal à l ouverture du logiciel

COURS WINDEV NUMERO 3

Polypoint/PEP. Gestion des prestations et planification d horaire. Les nouveautés de la version g2.8.3

Manuel d utilisation de la plate-forme de gestion de parc UCOPIA. La mobilité à la hauteur des exigences professionnelles

Service On Line : Gestion des Incidents

EXCEL et base de données

données en connaissance et en actions?

Access 2007 FF Access FR FR Base

Université de Picardie - Jules Verne UFR d'economie et de Gestion

MUNIA Manuel de l'utilisateur

Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2)

Guide d utilisation des fichiers bonus accompagnant le guide «L Argent est une science exacte»

C RÉATION DE PDF (1) Cours SEM 205 Mieux utiliser le format PDF

Synoptique des icônes Interwrite Workspace

ANNEXE 8 : Le Mailing

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

CAPTURE DES PROFESSIONNELS

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

1. Introduction Création d'une requête...2

26 Centre de Sécurité et de

Guide d usage pour Word 2007

Manuel d utilisation du site web de l ONRN

Guide de l'utilisateur : Surveillance MédiaSource Analytique

Comptabilité - USR. Logiciel : Comptabilité USR - Version 2,16 Documentation réalisée par JJ Gorge Trésorier Tir à l'arc le 04/04/ / 15

Utilisation du client de messagerie Thunderbird

Créer un tableau avec LibreOffice / Calc

Formation. Module WEB 4.1. Support de cours

Archivage des pièces comptables

4. Personnalisation du site web de la conférence

Manuel d utilisation. Anne RACINE. A. Racine Référence: Manuel MS Project.doc 03/03/2003 Page 1

1 Modélisation d être mauvais payeur

IUT BREST UN LOGICIEL SCADA : PC VUE 2010 DEP.GMP

Manuel d utilisation TS Evaluation. Version 5 Màj 07/

A C T I V I T É S CE QUE JE CONNAIS CONTEXTE PROFESSIONNEL. Quel est l élément essentiel du poste informatique? ...

Initiation à la bureautique

Access 2010 Entraînement 1 Garage Renault Dossier 24 MCD

Utilisation de l outil lié à MBKSTR 9

COURS DE MS EXCEL 2010

Cette fonctionnalité est paramétrable et accessible dans le module administration via le menu "Dossier / Administration".

La Clé informatique. Formation Excel XP Aide-mémoire

Manuel d utilisation du logiciel

Modes Opératoires WinTrans Mai 13 ~ 1 ~

Infolettre #18 : Les graphiques avec Excel 2010

Guide d Utilisation du logiciel Diagnostic Commerce

Mode Opératoire Ciel Gestion commerciale V 12 et s (2006)

MESSAGERIE BUREAU AGENDA VIRTUEL. Votre nouvelle messagerie COLLABORATIVE GUIDE PRATIQUE. Membre de

MGV Location immobilière est un produit de la société

SUGARCRM MODULE RAPPORTS

PRISE EN MAIN D ILLUSTRATOR

Guide de l utilisateur Auteurs

MEGA ITSM Accelerator. Guide de démarrage

Utilisation avancée de SugarCRM Version Professional 6.5

FAIRE SES COMPTES AVEC GRISBI

Comment réaliser une capture d écran dans Word. Alors comment ouvrir une page Word?

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

_ PARAMETRE DU COMPTE _ ACCEUIL. 1 ere Etape «Créer un compte principal» Créer un compte secondaire. Ouvrir un compte principal

NOTICE D UTILISATION

EXCEL Les tableaux croisés dynamiques

Sommaire. 2. Utiliser la télécommande Télécommande Administrateur Télécommande Utilisateur Échanger une télécommande...

1. Installation de COMPTINE

Guide Utilisateur Transnet

Gérer les règles de prix catalogue sur Magento

But du papier : Paramétrer WSUS pour récupérer les mises à jour et administrer le serveur WSUS

The Grid 2: Manuel d utilisation

Excel 2010 Intermediaire

Se repérer dans l écran de Foxmail

Mise à jour n 17 : Nouveautés

Le logiciel de création de site internet IZISPOT est un outil très puissant et qui est assez simple après quelques temps d utilisation.

My Poker Manager Guide Utilisateur. Guide Utilisateur

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

Transcription:

Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/ 1 Présentation du logiciel Le logiciel SPAD (Système Pour l Analyse des Données) est développé par le CISIA (Centre International de Statistique et d Informatique Appliquées). Il s agit d un logiciel essentiellement tourné vers l analyse des données et le data mining. A cet effet, SPAD dispose d une panoplie d outils assez large : Des outils de description des données : Des outils d analyses factorielles Des outils de classification Caractérisation des données qualitatives, quantitatives Description statistique des variables Caractérisation des axes factoriels Tableaux croisés Analyse en composantes principales Analyse des correspondances binaires Analyse des correspondances multiples Classification hiérarchique directe Partition par coupure de l arbre de classification Optimisation des partitions Calcul des " parangons " caractéristiques des classes 2 Principes généraux de fonctionnement En outre, le programme est enrichi par des interfaces avec les logiciels Excel pour l entrée des données et l édition des résultats, SPSS et SAS pour les données. SPAD est un logiciel modulaire : c est à dire qu il intègre différents sous-programmes (ou modules) spécifiques. On retrouve l existence de ces modules dans l interface du logiciel. Dans SPAD, on distinguera trois ensembles du logiciel, chargés des taches respectives suivantes : La gestion des fichiers (données). La gestion de l analyse. La gestion des résultats. SPAD différencie les données externes qu apporte l utilisateur (qui peuvent être dans un format libre) des données internes, une fois importées, que l on appelle la base numérique ou plus simplement la base. Une analyse est considérée comme une suite de procédures à mettre en œuvre, laquelle suite est appelée filière. Les résultats sont sous la forme de texte (caractérisation des axes, résultats de la procédure, par ex.), ou de graphiques, qui sont gérés en format interne ou image. 1

3 Gestion des données : les bases 3.1 Principes de la base Une base est le nom donné à un ensemble de fichiers correspondants à un jeu de données que l on veut traiter avec SPAD. Une base se divise en trois éléments : Un fichier pour les données en elles-mêmes, regroupant toutes les valeurs numériques des variables observées sur les individus. Un tel fichier porte le nom de la base et l extension SBA (nom.sba). A cela on rajoute un élément servant de dictionnaire pour les variables. Sur les individus, on observe différentes variables, lesquelles sont soit numériques (continues) soit nominales (qualitatives). Pour faciliter l analyse, chaque variable pourra être nommé par assignation de libellés. Le dictionnaire des variables regroupe tous les libellés des variables ainsi que le type de variable. Et un élément servant de dictionnaire pour les individus, et regroupant tous les libellés que l on affectera aux individus. L existence de ces trois ensembles disctincts est transparente pour l utilisateur, puisque l on manipule l ensemble sous la forme de la base. 3.2 Illustration de l utilisation de la base 5 individus dont on mesure la taille répondent à une question. Par convention, on place toujours les individus en ligne et les variables en colonne. On codera : Sexe=1 pour un homme, Sexe=2 pour une femme. Les réponses à la question sont codées 1 pour "Oui", 2 pour "Non" et 3 pour "Ne se prononce pas". On regroupe alors les données dans le tableau suivant : Le dictionnaire des variables regroupe les 3 libellés (sexe, Taille, Question 1), et le type de chaque variable : la variable Sexe est nominale (à deux modalités), la variable Taille est numérique, et la variable Question 1 est nominale (3 réponse possibles). Le dictionnaire des individus regroupe les 5 prénoms, libellés des individus (au sens statistique) sur lesquels portent l enquête (aussi appelés identificateurs). Il s agit de la description de la première colonne du tableau. 2

Enfin, le fichier des données en lui-même regroupe l ensemble des informations numériques. Il est à noter que tout tableau de données doit respecter ce format rectangulaire, que SPAD ne travaille en interne qu avec des valeurs numériques (et n accepte pas des lettres ou autres codages). De plus, idéalement, il ne doit pas y avoir de " trou " dans le tableau, lesquels seraient des données manquantes. Au format interne, SPAD remplace les valeurs manquantes par une valeur numérique particulière (0 pour les variables nominales, "TEST" pour les continues). 3.3 Création d une base L utilisateur a plusieurs possibilités pour créer une base : soit il entre les données directement dans SPAD, ce qui assure le bon format des données, soit il importe ces dernières dans SPAD. L importation de données venant de SAS est intégrée en automatique dans SPAD. Si le fichier de données est dans un format libre (texte avec séparateur, par exemple), il faudra passer par le module intégré d importation des données (menu Base... Importer è Importation texte... ). L étape d importation des données sert en fait à créer les trois fichiers de la base, et nécessite de créer le dictionnaire des variables. Il faudra donc spécifier le type de chacune des variables. Si l on reprend l exemple du questionnaire, la phase d importation des données au format texte aura la forme : Des données au format texte (bas de l écran), on va créer une base interne (exécuter) avec les conditions apparaissant en haut (variable question nominale etc.) 4 Gestion des analyses : les filières 4.1 L origine des filières Dans SPAD, tout traitement à effectuer sur une base est réalisé par procédures. Une analyse des correspondances fera appel à la suite de procédures suivantes : on commence par un appel à la procédure TABLE, qui sert à croiser deux variables nominales pour créer un tableau de contingence. Une fois ce tableau créé, le résultat est utilisé par la procédure SELEC 3

qui sert à sélectionner les lignes et colonnes actives ou illustratives du tableau. Cette sélection est une phase obligatoire pour faire un appel à la procédure CORBI, qui est la commande qui effectue réellement l analyse des correspondances. Enfin, le résultat de cette dernière peut être exploité sous la forme d un graphique grâce à la procédure GRAPH. Une analyse des correspondances nécessite un minimum de 4 procédures. Cependant, chaque procédure doit elle-même faire appel à deux procédures servant à lire les données d entrée et à créer les données de sortie. Et le nombre de procédures à enchaîner devient très vite assez grand. C est la suite ordonnée des procédures à utiliser lors de l analyse que l on appelle filière. L utilisateur peut manipuler les filières depuis une interface graphique. L éditeur de filières est une fenêtre de SPAD où chaque procédure apparaît comme un carré, et où l on détermine l enchaînement des procédures en empilant les carrés : A la base nommée «exemple», on appliquera deux procédures : une analyse des correspondances simples, ainsi qu une description des axes factoriels engendrés par cette analyse. Cette filière est sauvegardée sous le nom COR_BI.FIL (extension FIL pour les filières) et porte l intitulé "Exemple : analyse des correspondances". Dès que l on effectue une analyse des correspondances, on doit indiquer les variables qui seront actives, celles qui seront illustratives, les individus actifs, éventuellement la pondération utilisée etc. Dans les anciennes versions de SPAD, l utilisateur devait régler ces paramètres en utilisant la procédure SELEC. Maintenant, ces réglages se font en réglant les paramètres de la procédure CORBI. L accès aux paramètres d une procédure, quand il y en a, se fait par un double-clic sur le carré correspondant dans la filière (ou un clic du bouton droit). Certaines procédures nécessitent des paramètres. C est le cas notamment de la procédure CORBI. Une procédure qui a été paramétrée apparaît en jaune dans la filière, alors qu elle est en gris lorsque l utilisateur n a pas encore fourni les paramètres nécessaires. 4

4.2 Les filières prédéfinies Bien souvent, l utilisateur a à effectuer la même suite d opérations sur plusieurs jeux de données différentes. Soit dans SPAD : utiliser la même filière, appliquée à des bases différentes. C est le rôle des filières prédéfinies (ou modèle de filière). Il est ainsi possible de créer une filière et de la sauvegarder en modèle, de telle sorte que l on puisse la réutiliser plus tard sur n importe quelle base. De plus, le logiciel dispose d un ensemble de filières prédéfinies correspondant aux grandes méthodes statistiques les plus utilisées : tableaux croisés, analyse en composantes principales suivie d une classification,... A titre indicatif, voici une filière entière paramétrée, qui a été exécutée : 5 Gestion des résultats Une fois la filière exécutée, chaque procédure constituant la filière fournit un ou des résultats. Ces derniers sont représentés par des icônes qui se rajoutent sur la droite de l icône représentant la procédure dans la filière. On distingue plusieurs icônes différentes : Icône correspondant à un résultat sous forme de texte Il s agit du compte-rendu de la procédure (SPAD signale à l utilisateur si l appel à la procédure a échoué) et des résultats mis sous forme de tableaux en mode texte. Graphique issu d une analyse factorielle Les graphiques sont visualisés et édités dans le module éditeur de graphique intégré à SPAD. Graphiques hiérarchiques d une classification Ces graphiques sont visualisés et édités dans l éditeur de graphique hiérarchique. Galerie de graphiques Il s agit d un module particulièrement puissant de SPAD, qui propose un accès instantané à n importe quel graphique factoriel (visualisation des aperçus des croisements de chaque axe factoriel). Liaison avec une application externe (Excel) SPAD dispose d un lien avec une application externe (le tableur EXCEL par défaut), ce qui permet de récupérer dans cette application les résultats des tris à plats et d autres procédures. 5

5.1 Les résultats sous forme de texte La plupart des procédures sous SPAD ont une sortie sous forme texte. Les sorties en mode texte sont principalement de deux type : les résultats et les comptes rendus. On peut les visualiser en cliquant du bouton droit sur l icône appropriée et en choisissant dans le menu déroulant l item à visualiser. Le texte correspondant est alors chargé dans l éditeur de résultat incorporé dans SPAD. Le compte rendu donne l enchaînement des procédures internes appelées, de telle sorte que l on sait où précisément se situe le problème si la filière ne s exécute pas correctement. Pour une demande d A.C.P., par exemple, le compte rendu intégrera les procédures LBASE (lecture du fichier de base), SELEC (sélection des individus et variables actifs), COPRI (analyse en composantes principales) et ECGUS (écriture du fichier graphique factoriel). Les sorties plus classiques sont rassemblées dans le rapport des résultats. Toujours pour une analyse en composantes principales, on trouvera dans les résultats la matrice de corrélation, un rappel des statistiques de base de chaque variable (moyenne, minimum, maximum, effectif), le diagramme des valeurs propres ainsi que les coordonnées sur les 5 premiers axes. 5.2 La liaison Excel Il est possible de récupérer les tris à plats et tris croisés effectués sous SPAD directement dans le tableur EXCEL. Pour tout résultat ainsi incorporable dans EXCEL, SPAD fait apparaître à la suite de la ligne des résultat une icône EXCEL. Un double-clic sur cette dernière lance alors le programme EXCEL et/ou charge une nouvelle feuille avec le résultat. 6 L éditeur de graphique interne Le logiciel SPAD intégre un éditeur de graphique extrêmement puissant pour la manipulation de grosses données. Ce dernier est doté d un menu ainsi que d une barre d icônes où figurent les fonctions les plus souvent utilisées. Ces dernières sont : D autre part, le logiciel SPAD est bien pourvu en outils de sélection des points (menu Sélection). Il permet ainsi de sélectionner les points : par catégories : individus actifs, illustratifs, variables actives, illustratives, continues, nominales des individus 6

par liste : on sélectionne un par un ou par intervalle les individus des individus par filtre logique : filtre à établir en fonction des variables. On peut ainsi avoir par exemple rapidement tous les individus de sexe masculin, ou de plus de 1,8 m. point par point : il s agit de le même option que dans la barre d outil. de tous les points de points par cadrage : utile pour suivre sur les plans une zone précise de points. filtrage statistique de la sélection : il s agit là d un outil très pratique. Une fois une sélection effectuée (par exemple tous les points), SPAD peut filtrer cette dernière en ne gardant que les points ayant un certain seuil de contribution au plan, ou un certain cos 2 cumulé sur des axes au choix. Enfin, les options d affichage des points (menu affichage) qui s appliquent sur une sélection, sont elles aussi nombreuses : couleur symbole : on peut changer la forme (9 symboles de base disponibles) et la couleur (15 couleurs de base) des points. L option la plus intéressant est la taille proportionnelle : SPAD peut affecter chaque point de son symbole correspondant, avec une taille proportionnelle soit à son poids, soit à sa contribution au plan, soit à son cos 2 pour le plan. libellés : identique à la barre d icônes. points fantômes : idem. Pratique pour masquer les points qui ne sont pas intéressant. informations sur les points : pour les 5 premiers axes : coordonnées, contributions, cosinus carré, distance à l origine et poids. 7