VII- 42 CONCLUSION...

Documents pareils

GUIDE Excel (version débutante) Version 2013

TD d économétrie appliquée : Introduction à STATA

Manuel du gestionnaire

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

Traitement des données avec Microsoft EXCEL 2010

Les ateliers du Resclin. Préparation des données issues d Epi-Info en utilisant le tableur Excel

CONNECTEUR PRESTASHOP VTIGER CRM

Le module Supply Chain pour un fonctionnement en réseau

à l édition de textes

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

Date : juin 2009 AIDE SUR LES CERTIFICATS. Comment sauvegarder et installer son certificat

Méthode de préparation du fichier texte d import depuis Excel, via Access jusqu à Drupal.

EXCEL TUTORIEL 2012/2013

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

Utilisation du logiciel ModellingSpace

SOMMAIRE. Travailler avec les requêtes... 3

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

Manuel d utilisation du web mail Zimbra 7.1

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

BADPLUS V5 MANUEL D'UTILISATION. Imports de données joueurs à partir de la base fédérale en ligne Poona. Stéphan KIEFFER - Dominique BOSSERT

Plateforme PAYZEN. Intégration du module de paiement pour la plateforme Magento version 1.3.x.x. Paiement en plusieurs fois. Version 1.

Formation. Module WEB 4.1. Support de cours

EXCEL et base de données

Installation et utilisation du client FirstClass 11

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

On trouvera sur le site du CCDMD un exemple d album construit avec Cantare. (

Si vous décidez d utiliser un autre chemin, c est ce nouveau chemin qu il faudra prendre en compte pour la sauvegarde. Cf. : Chapitre 9 Sauvegarde

Diigo : fonctions avancées

Création WEB avec DreamweaverMX

Premiers Pas avec OneNote 2013

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

claroline classroom online

Créer le schéma relationnel d une base de données ACCESS

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10

Installation du logiciel Windows Suivant Démarrer Tous les programmes Démarrer Tous les programmes Marketing Manager Marketing Manager Linux ici Mac

Chapitre 3 : outil «Documents»

12 Tableaux croisés dynamiques

MODE OPERATOIRE CIEL GESTION COMMERCIALE VERSION EVOLUTION BTS PME PMI

Préparation à l installation d Active Directory

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

Créer un tableau avec LibreOffice / Calc

CREATION D UNE EVALUATION AVEC JADE par Patrick RUER (

La Clé informatique. Formation Excel XP Aide-mémoire

Module Communication - Messagerie V6. Infostance. Messagerie

F0RMAT I0N BUREAUTIQUE

Créer une base de données

Procédures d'utilisation de Maitre'D

Excel 2007 Niveau 3 Page 1

Débuter avec Excel. Excel

NETWORK & SOFTWARE ENGINEERING MANUEL D UTILISATEUR. Logiciel TIJARA. NETWORK AND SOFTWARE ENGINEERING Manuel d'utilisateur "TIJARA" 1

Manuel de mise en page de l intérieur de votre ouvrage

Access 2010 Entraînement 1 Garage Renault Dossier 24 MCD

1. Introduction Création d'une macro autonome Exécuter la macro pas à pas Modifier une macro... 5

Formation Comptabilité SAGE L 100 FORMATION SAARI SAGE LIGNE 100 COMPTABILITE

RECOPLUS LOGICIEL DE GESTION DES RECOMMANDES NOTICE D UTILISATION DE RECOPLUS RESEAU. N de série

Traitement de texte : Quelques rappels de quelques notions de base

Licence de Biologie, 1ère année. Aide. [Aide 1] Comment utiliser l'explorateur Windows? Comment créer des dossiers?

Formation Word/Excel. Présentateur: Christian Desrochers Baccalauréat en informatique Clé Informatique, 15 février 2007

COMPTABILITE SAGE LIGNE 30

Mon aide mémoire traitement de texte (Microsoft Word)

LIMESURVEY. LimeSurvey est une application permettant de créer des questionnaires d enquête en ligne et d en suivre le dépouillement.

Manuel d utilisation du site web de l ONRN

Localisation des fonctions

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

Zotero est une extension du navigateur Firefox. Il est possible de télécharger Firefox gratuitement sur le site:

Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2)

Excel avancé. Frédéric Gava (MCF)

Le Service de Télétransmission par Internet des banques du Réseau OCÉOR GUIDE UTILISATEURS. Version V1.0

TIC INFORMATIQUE Ce que je dois retenir

Tutoriel. Votre site web en 30 minutes

Le modèle de données

Installation et lancement d ETHNOS Configuration requise... 5 Installation... 5 Lancement Les modules d ETHNOS... 7

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

SOFI Gestion+ Version 5.4. Echanges de données informatiques Spicers Sofi gestion+ Groupements. SOFI Informatique. Actualisé le

Introduction : présentation de la Business Intelligence

COURS AUTOCAD. Création et utilisation des blocs. b leclerc. ERP Jean Moulin METZ

Leçon N 5 PICASA Généralités

Analyse tarifaire en ligne (TAO) de l'omc

Rapports d activités et financiers par Internet. Manuel Utilisateur

Afin d accéder à votre messagerie personnelle, vous devez vous identifier par votre adresse mail et votre mot de passe :

Styler un document sous OpenOffice 4.0

Cyberclasse L'interface web pas à pas

MEDIAplus elearning. version 6.6

HighPush. document /06/2009 Révision pour version /11/2008 Revision pour la /10/2008 Documentation initiale.

Comment Utiliser les Versions, les Modification, les Comparaisons, Dans les Documents

Créer et partager des fichiers

Pégase 3 Echanges avec Compt heures

Initiation à la programmation en Python

Vtiger CRM - Prestashop Connector

Voyez clair dans vos finances avec AccèsD Affaires

Note technique AbiFire5.2 Export/Import des codes incidents dans AbiDispatch

SUPPORT DE COURS LOGICIEL SAGE SAARI COMPTABILITE 100

Manuel d utilisation du logiciel Signexpert Paraph

Comment utiliser FileMaker Pro avec Microsoft Office

Database Manager Guide de l utilisateur DMAN-FR-01/01/12

PORTAIL INTERNET DE LA GESTION PUBLIQUE Guide d'utilisation du Portail Internet de la Gestion Publique

ESPACE COLLABORATIF SHAREPOINT

Transcription:

1

SOMMAIRE INTRODUCTION... 3 I- Les logiciels intervenants dans le traitement des données... 4 I.1- Le logiciel ACCESS... 4 I.2- Le logiciel STATA... 6 I.2.1- Les types de fichiers sous STATA... 6 I.2.2- Les fenêtres de travail... 6 I.2.3- La ligne de commande de STATA... 7 I.2.4- Quelques opérateurs logiques et arithmétiques sous STATA... 8 I.2.5- Les programmes STATA et la création d un fichier de résultat... 8 II- Présentation du diagramme de traitement des données... 10 III- Phase 1 : Exportation des données des tables de ACCESS vers un fichier texte... 14 IV- Phase 2 : Contrôle qualité de l administration des questionnaires, de la saisie des données et création de nouvelles variables... 16 IV.1- Etape 1 : Traitement des données de niveau élève 2 ème année... 17 IV.1.1- Calcul des scores des élèves aux différents tests... 17 IV.1.2- Importation du fichier des caractéristiques élèves... 25 IV.1.3- Fusion des caractéristiques élèves avec les scores... 26 IV.1.4- Création des variables d analyse de niveau élève... 27 IV.2- Etape 2 : Traitement des données de niveau élève 5 ème année... 29 IV.3- Etape 3 : Création des variables de niveau maître... 29 IV.3.1- Importation des variables du questionnaire maître... 29 IV.3.2- Construction des variables d analyse de niveau maître... 33 IV.4- Etape 4 : Création des variables de niveau directeur... 33 IV.4.1- Importation des variables du questionnaire directeur... 34 IV.4.2- Construction des variables d analyse de niveau directeur... 35 V- Phase 3 : Fusion des différents fichiers pour obtention du fichier d analyse... 36 VI- Que faire en présence de données manquantes ou d erreur de saisie?... 38 VI.1- Affectation de la modalité la plus fréquente ou de la moyenne... 38 VI.2- Examen des questionnaires... 38 VI.3- Utilisation de la logique interne des questionnaires... 39 VI.4- Utilisation des corrélations et la commande impute de STATA... 40 VI.4.1- Les corrélations linéaires... 40 VI.4.2- La commande impute de STATA... 40 VII- Exécution des programmes, contrôle et rédaction du dictionnaire... 42 CONCLUSION... 43 2

INTRODUCTION En vue de déterminer les facteurs qui concourent à la progression des élèves du cycle primaire, le PASEC mène des enquêtes qui sont réalisées à plusieurs niveaux : élève, classe, école. Dans les écoles choisies (par échantillonnage), un test de français et un test de mathématiques sont administrés en début et en fin d année scolaire aux élèves de deuxième et de cinquième année. Etant donné que les conditions de scolarisation d un élève déterminent ses apprentissages, un questionnaire est administré aux maîtres et aux directeurs des élèves testés. Le but de ces questionnaires est de relever des éléments sur l environnement scolaire des élèves, les conditions dans lesquels ils ont suivi les cours durant l année scolaire, l organisation pédagogique qui a régnée au sein de l école, etc. Cependant, la connaissance du contexte scolaire ne suffit pas pour expliquer la progression d un élève. L environnement dans lequel se trouve ce dernier en dehors de l école, les conditions socio-économiques de sa famille sont autant de facteurs qui concourent et qui déterminent les apprentissages. Afin de prendre en compte ces aspects qui dépendent du milieu extrascolaire, un questionnaire sur les caractéristiques des élèves est administré à ceux qui ont passé les tests. Une fois les données de l enquête PASEC collectées et saisies, il importe de les traiter efficacement pour mener des analyses correctes. Le présent document se propose de présenter les différentes étapes du processus de traitement des données des enquêtes standard du PASEC. Il s articule de la façon suivante : dans un premier temps, il sera présenté les logiciels utilisés pour cette tâche ; ensuite, un diagramme des différentes phases du traitement sera décrit, suivi de paragraphes qui préciseront les travaux de chacune des phases. Enfin, des mesures à prendre face aux données manquantes ou aux données incohérentes seront présentées. 3

I- Les logiciels intervenants dans le traitement des données Plusieurs logiciels peuvent aider au traitement des données. Au niveau du PASEC, les logiciels utilisés pour cette tâche sont ACCESS et STATA. I.1- Le logiciel ACCESS A l origine, le fichier de données des enquêtes PASEC est sous format ACCESS (d extension.mdb. Par exemple, Base données finale Niger.mdb). Ce logiciel a été choisi pour la saisie des données parce qu il offre de nombreuses possibilités de contrôle de saisie. En effet, il possède des fonctions qui peuvent empêcher la saisie de valeurs en dehors des plages autorisées, les erreurs de saisie dues à des sauts de champs etc. Un des avantages majeurs de ACCESS est qu il offre la possibilité de concevoir un masque de saisi convivial et conforme au questionnaire (cf document sur la confection d un masque de saisi). En outre, le fait que ACCESS soit un logiciel de MS OFFICE assure sa disponibilité à presque tous les utilisateurs de l outil informatique. Sous ACCESS, les informations sont stockées dans des tables. (mieux présenter une table) Le graphique 1 montre une interface de ACCESS dans laquelle toutes les tables sont visibles. Graphique 1 : Interface de ACCESS Bouton de création des tables Icône représentant une table Les trois premières icônes de la fenêtre sont des boutons de commande de ACCESS qui permettent de créer des tables. Toutes les autres icônes représentent des tables. Le nom de chaque table se trouve juste à côté de son icône. Pour peu qu on les regarde de près, on s aperçoit que les noms donnés aux tables sont assez parlants. 4

2F1 : Table des résultats des élèves de 2 ème année aux items du pré test en français. 5M2 : Table des résultats des élèves de 5 ème année aux items du post test en mathématiques. 2QE : Tables contenant les informations du questionnaire des élèves de 2 ème année. 5QE : Tables contenant les informations du questionnaire des élèves de 5 ème année. QM2_1_22 : Table contenant les informations relatives aux variables 1 à 22 du questionnaire des maîtres de 2 ème année. QM5_23_46 : Table contenant les informations relatives aux variables 23 à 46 du questionnaire des maîtres de 5 ème année. QD_1-22 : Tables contenant les informations relatives aux variables 1 à 22 du questionnaire des directeurs. Etc. Pour voir ou modifier le contenu d une table, on fait un double clic sur l icône de la table en question ; une fenêtre se présente à l écran sous la forme d un tableau contenant les informations de la table. On peut alors directement les modifier. Le graphique suivant présente une table sous ACCESS Graphique 2 : Une table de ACCESS ACCESS est un logiciel spécialisé dans la gestion des bases de données. Il ne permet pas un traitement des données de façon aisée ; c est pourquoi il est fait appel au logiciel STATA pour cette tâche. 5

I.2- Le logiciel STATA 1 STATA est un logiciel réputé pour ses multiples fonctions de traitement des données et d analyse statistique. Il dispose également d un langage de programmation aisé et convivial. I.2.1- Les types de fichiers sous STATA Nous distinguons ici trois types de fichiers : ce sont les fichiers de données, les fichiers programmes et les fichiers de résultats. L extension des fichiers dépend du type. S il s agit d un fichier de données, il porte l extension.dta ; les fichiers programmes 2 ont l extension.do et les fichiers de résultat ont l extension.log. I.2.2- Les fenêtres de travail Au démarrage, l interface de STATA laisse apparaître quatre fenêtres. A partir de ces fenêtres, on peut exécuter les travaux désirés. Si on veut automatiser le travail par un programme, il faut faire appel à la fenêtre d édition des programmes encore appelée STATA do-file editor. Le graphiques 3 suivant présente l interface de STATA et la fenêtre d édition des programmes. Graphique 3 : Interface de STATA Interface de STATA Vers STATA Do-file Editor Editeur de programmes STATA 1 3 4 2 La fenêtre 1 (Variable) est celle dans laquelle s affichent les noms des variables lorsqu on charge un fichier de données. La fenêtre 2 (Stata command) est celle dans laquelle on tape les 1 Les commandes et les procédés de traitement des données présentés dans ce document sont ceux disponibles sous STATA version 7.0. 2 Sous STATA, il existe des fichiers de programme d'extension.ado, mais le traitement des données tel que mené au PASEC peut se passer de ce type de fichier. 6

lignes de commandes que STATA doit exécuter. Si une commande est demandée, le résultat de son exécution s affiche dans la fenêtre 3 (Stata results). La fenêtre 4 (Review) garde en rappel les dernières commandes exécutées. En plus de certaines icônes existant déjà sous office, STATA possède d autres icônes dont les fonctionnalités sont présentées dans le tableau suivant : Icônes Fonctions Visualiser les données chargées en mémoire Modifier les données chargées en mémoire Ouvrir la fenêtre d édition des programmes (Stata Do-file Editor) Exécuter le programme courant ou la partie de programme sélectionnée Interrompre l exécution d un programme en cours I.2.3- La ligne de commande de STATA Pour une bonne utilisation de STATA, il convient de connaître la syntaxe de son langage de programmation. La syntaxe de base sous STATA a la configuration suivante : Nom de la commande liste des variables à traiter [sélection des observations sur lesquelles doivent s effectuer la commande] [, les options de la commande] Comme on peut le voir, toute ligne de commande de STATA peut être divisée en quatre parties : Le nom de la commande : il s agit de la commande qui doit être effectuer. Voici quelques exemples : tabulate : permet de faire des tableaux de fréquences ou des tableaux croisés, generate : permet de créer des variables, drop : supprime des variables ou des observations, replace : remplace la valeur d une variable oui d une observation, merge : permet de fusionner des fichiers, summarize : calcul la moyenne, l écart type, le minimum et le maximum d une variable. Nota Béné : Toutes les commandes de STATA s écrivent en lettres minuscules La liste des variables à traiter : Il s agit des variables sur lesquelles la commande doit s exécuter. il peut y en avoir plusieurs. Sélection des observations : On peut choisir d exécuter une commande seulement sur une partie des observations. Dans ce cas, c est à ce niveau de la ligne de commande de STATA qu il faut indiquer les observations concernées par la commande. En général, cette indication se fait selon un critère logique introduit par le mot if. 7

Les options de la commande : Plusieurs commande de STATA sont munies d options permettant de faire des traitements spécifiques ou des traitement complémentaires. Si on désire effectuer de tels traitement, il faut le préciser à STATA en indiquant l option en question. Toutes les option se situent à la fin de la ligne de commande, après la liste de variables et les sélection, et séparées de ces derniers par une virgule. Nota Béné : Les deux premières parties de la ligne de commande (celles qui sont soulignées) sont absolument nécessaires pour qu une commande s exécute. Les deux autres parties (entre crochets) répondent à des préoccupations particulières ; ainsi, une commande peut s exécuter même si elles ces parties sont omises. I.2.4- Quelques opérateurs logiques et arithmétiques sous STATA Les paragraphes précédents ont présenté l interface de STATA. Le tableau suivant rend compte de quelques opérateurs logiques et arithmétiques qui peuvent être utilisés. Opérateurs Rôle = Opérateur d égalité d expression. Il est surtout utilisé lors des calculs ou lors de la création de variables. = = Test d égalité entre une expression et une valeur. Il est utilisé lors des comparaisons ~= Différence!= Différence + Addition - Soustraction * Multiplication / Division < Inférieur > Supérieur <= Inférieur ou égal >= Supérieur ou égal & Et Ou bien I.2.5- Les programmes STATA et la création d un fichier de résultat Il est souhaitable de commencer chaque programme STATA par un commentaire de ce que fait le programme. Sous STATA, les commentaires sont insérés entre les symboles /* et */. Par exemple, ainsi : /* Ceci est un commentaire */ ou /*--- Ceci est un commentaire ---*/ Tout ce qui apparaît entre les symboles /* et */ n est pas considéré comme une commande par STATA, mais comme un commentaire. 8

Il est possible de demander à STATA de sauvegarder les résultats d exécution d un programme dans un fichier d extension.log que l on pourra ensuite lire avec les logiciels Bloc note, Worpad ou Word. Pour cela, il faut insérer la ligne de commande suivante à l endroit à partir duquel on voudrait que les résultats soient sauvegardés (de préférence au tout début du programme) : log using C:\nomfichier 3.log, replace A la fin de la partie du programme dont on souhaite sauvegarder les résultats (généralement en fin de programme), taper la ligne de commande suivante qui permet à STATA de créer le fichier : log close Une fois la prise en main des logiciels effectuée, le traitement des données peut commencer. 3 Il s agit ici de spécifier le chemin où STATA doit sauvegarder le fichier et le nom de ce fichier. 9

II- Présentation du diagramme de traitement des données Le processus de traitement des données du PASEC peut se résumer en 3 grandes phases à savoir : La phase 1 : Exportation des données des tables ACCESS vers des fichiers de format texte, La phase 2 : Contrôle de la qualité de l administration des questionnaires, de la saisie des données et la création des variables d analyse, Fusions des différents fichiers pour obtenir les fichiers d analyse. Ces différentes phases sont résumées dans les diagrammes 4 suivants : 4 A partir de la phase 2, les deux premières lettres des noms de fichiers indiquent le pays traité. On aura par exemple CI pour la Côte d ivoire, ML pour Mali, SN pour le Sénégal etc. 10

2F1 2F1.txt Diagramme du traitement des données PASEC 2F2 2M1 2M2 2F2.txt 2M1.txt 2M2.txt ML2SCOR.do ML2SCOR.dta ML2EL.do ML2EL.dta 2QE 2QE.txt ML2QEL.do ML2QEL.dta 5F1 5F1.txt 5F2 5F2.txt ML5SCOR.do ML5SCOR.dta 5M1 5M1.txt 5M2 5M2.txt 5QE 5QE.txt ML5QEL.do ML5QEL.dta ML5EL.do ML5EL.dta ML2.do ML2.dta QM2_1_22 QM2_1_22.txt QM5_1_22 QM5_1_22.txt QM2_23_46 QM5_23_46 QM2_47_54 QM2_23_46.txt QM5_23_46.txt QM2_47_54.txt MLQM.do MLQM.dta MLMT.do MLMT.dta ML5.do ML5.dta QM5_47_54 QM5_47_54.txt QM2_55_61 QM2_55_61.txt QM5_55_61 QM5_55_61.txt QD_1_22 QD_1_22.txt QD_23_48 QD_23_48.txt MLQD.do MLQD.dta MLDT.do MLDT.dta 11

PHASE 1 PHASE 2 PHASE 3 2F1 2F1.txt 2F2 2M1 2M2 2F2.txt 2M1.txt 2M2.txt ML2SCOR.do Etape 1 ML2SCOR.dta ML2EL.do ML2EL.dta 2QE 2QE.txt ML2QEL.do ML2QEL.dta 5F1 5F1.txt 5F2 5F2.txt ML5SCOR.do ML5SCOR.dta 5M1 5M1.txt 5M2 5M2.txt Etape 2 5QE 5QE.txt ML5QEL.do ML5QEL.dta ML5EL.do ML5EL.dta ML2.do ML2.dta QM2_1_22 QM2_1_22.txt QM5_1_22 QM2_23_46 QM5_23_46 QM2_47_54 QM5_1_22.txt QM2_23_46.txt QM5_23_46.txt QM2_47_54.txt Etape 3 MLQM.do MLQM.dta MLMT.do MLMT.dta ML5.do ML5.dta QM5_47_54 QM5_47_54.txt QM2_55_61 QM2_55_61.txt QM5_55_61 QM5_55_61.txt Etape 4 QD_1_22 QD_1_22.txt QD_23_48 QD_23_48.txt MLQD.do MLQD.dta MLDT.do MLDT.dta 12

Phase 1 : Elle consiste à exporter les données des tables ACCESS vers des fichiers de format texte. L exportation signifie faire passer toutes les informations contenues dans la table en question vers un fichier texte. Phase 2 : Elle concerne le contrôle de la qualité de l administration des questionnaires, de la saisie des données et la création des nouvelles variables. Elle se subdivise en 4 étapes à savoir : Etape 1 : Traitement des données des élèves de 2 ème année : i) calcul des scores à partir du fichier programme ML2SCOR.do qui importe les items du fichier texte vers un fichier de données STATA et crée en sortie le fichier ML2SCOR.dta contenant le score des élèves aux différents tests, ii) importation des variables de niveau élève à l aide du programme ML2QEL.do, d un fichier texte vers un fichier de données STATA (ML2QEL.dta), iii) fusion des caractéristiques des élèves avec leurs scores, à l aide du fichier ML2EL.do ; à la suite de cette fusion, le programme créée le fichier de données ML2EL.dta et procède à la construction des variables d analyse de niveau élève, Etape 2 : Traitement des données des élèves de 5 ème année : i) calcul des scores à partir du fichier programme ML5SCOR.do qui importe les items du fichier texte vers un fichier de données STATA et crée en sortie le fichier ML5SCOR.dta contenant le score des élèves aux différents tests, ii) importation des variables de niveau élève à l aide du programme ML5QEL.do, d un fichier texte vers un fichier de données STATA (ML5QEL.dta), iii) fusion des caractéristiques des élèves avec leurs scores, à l aide du fichier ML5EL.do ; à la suite de cette fusion, le programme créée le fichier de données ML5EL.dta et procède à la construction des variables d analyse de niveau élève, Etape 3 : Traitement des données des maîtres à partir du fichier MLQM.do qui importe les caractéristiques des maîtres du fichier texte vers un fichier de données STATA (MLQM.dta), et du fichier MLMT.do qui procède à la création des variables d analyse de niveau maître (produisant en sortie le fichier MLMT.dta), Etape 4 : Traitement des données des directeurs à partir du fichier MLQD.do qui importe les caractéristiques des directeurs du fichier texte vers un fichier de données STATA (MLQD.dta) et du fichier MLDT.do qui procède à la création des variables d analyse de niveau directeur (produisant en sortie le fichier MLDT.dta). Phase 3 : A ce niveau, le fichier ML2.do (respectivement le fichier ML5.do) fusionne les fichiers élèves de 2 ème, maîtres 2 ème année et directeurs (respectivement les fichiers élèves de 5 ème, maîtres 5 ème année et directeurs) pour obtenir les fichiers d analyse des élèves de 2 ème année (respectivement de 5 ème année). 13

Les paragraphes qui suivent abordent plus en détail les différentes phases du traitement des données. III- Phase 1 : Exportation des données des tables de ACCESS vers un fichier texte Le traitement des données commence par l exportation des données des différentes tables de ACCESS vers un fichier texte (d extension.txt). Ce format a été choisi parce qu il constitue un excellent moyen de partage de données entre plusieurs logiciels. A partir du fichier texte, les données peuvent être exportées vers d autres logiciels. Ceci permet aux personnes qui ne travaillent pas sous l environnement de STATA, mais avec d autres logiciels de traitement et d analyse à l exemple de SPSS, SAS, GAUSS, etc, de pouvoir utiliser les données des enquêtes PASEC. Une précaution à prendre avant l'exportation des données vers un fichier texte est de supprimer toutes les ponctuations qui figurent dans les modalités des variables de caractère alphanumérique. Pour cela, ouvrir la table à exporter, vérifier si elle contient des variables alphanumériques et si c est le cas, parcourir les différentes modalités de la variable en supprimant les ponctuation (il s agit précisément ici des apostrophes, des points, des virgules, des point-virgules, des guillemets, etc). Cette suppression est nécessaire car si cela n est pas fait, alors, au moment de l exportation, certaines variables se verront attribuer les modalités d autres variables, il y aura un mélange d information dans le fichier et le traitement ne pourra pas être fait. La procédure d exportation des données d une table ACCESS vers un fichier texte est la suivante : démarrer ACCESS et ouvrir la base de données ; une fois dans l interface de ACCESS que présente le graphique 5, cliquer à droite sur la table de données à exporter ; dans le menu déroulant qui s affiche, choisir exporter La boite de dialogue de la figure cidessous suivante apparaît en proposant d enregistrer le fichier ; 14

Dans la ligne Type de fichier, choisir le type fichier texte et dans la ligne Nom de fichier, donner un nom au fichier texte à créer, de préférence accepter celui qui s affiche par défaut (c est le nom que porte la table à exportée qui est proposée par défaut) ; choisir le dossier de destination du fichier et cliquer sur Enregistrer. Une boite de dialogue s affiche à nouveau ; cliquer sur Avancé La boite suivante apparaît. Dans la case Délimiteur de champs : taper une virgule (,) et dans la case Symbole décimal, taper un point virgule (;) puis cliquer sur OK. La boite précédente réapparaît et là, cliquer sur Terminer. Le fichier texte est alors crée et placé dans le répertoire spécifié. Recommencer cette procédure pour exporter les données de toutes les tables vers un fichier texte. 15

IV- Phase 2 : Contrôle qualité de l administration des questionnaires, de la saisie des données et création de nouvelles variables Après l exportation des données de ACCESS vers le format texte, le travaille du traitement des données se poursuit entièrement sous STATA. La présente phase 2 est la plus centrale en ce qui concerne le traitement des données car c est le lieu du contrôle de la qualité des données (est-ce que les variables ont été bien renseignées ou est-ce qu il y a de forts taux de valeurs manquantes?), du contrôle de la qualité de la saisie des données (est-ce que les informations sont cohérentes entre elles?), de la création de nouvelles variables. Bien souvent, les questions posées lors de l enquête servent à créer des variables plus importantes. C est au cours du traitement des données que ces variables importantes sont crées. Pour illustrer les propos, prenons deux exemples : i) Lorsqu on administre le test de français et de mathématiques aux élèves, les questions sont posées sous forme d items. Ce n est pas tellement la réponse à un item qui nous intéresse, mais le niveau de l élève en français et en mathématiques. Pour cerner ce niveau, on fait appel à plusieurs items et lors du traitement des données, on les utilise pour créer une nouvelle variable, «le score de l élève» qui reflète son niveau. ii) De même, lorsqu on demande l ancienneté d un maître, il peut être intéressant de regrouper les années de sorte à séparer ceux qui ont une expérience professionnelle jugée plus longue de ceux qui ont une expérience professionnelle jugée courte, en vue d opérer des comparaisons. Etant donné la structure hiérarchique des données du PASEC (enquête au niveau des élèves de 2 ème et de 5 ème année, enquête au niveau des maîtres et enquête au niveau des directeurs), la deuxième phase se divise en quatre étapes. La première est celle qui concerne le traitement des données des élèves de la 2 ème année. Elle prend en compte le calcul des scores, la construction de nouvelles variables et la fusion du score des élèves avec leurs caractéristiques. La deuxième étape est identique à la première, mais concerne plutôt les élèves de la 5 ème année. La troisième et la quatrième étape concernent le traitement des informations des maîtres et des directeurs ; il s agit du contrôle qualité des données et de la construction de nouvelles variables. 16

IV.1- Etape 1 : Traitement des données de niveau élève 2 ème année Cette se divise en trois parties que sont le calcul des scores, la fusion de ces scores avec les caractéristiques des élèves et la construction des nouvelles variables de niveau élèves. Elle est analogue à l étape 2. La seule différence réside dans le fait que l étape 1 traite des élèves de la 2 ème année tandis que l étape 2 traite de ceux de la 5 ème année. Pour cette raison, nous présentons seulement l étape 1. IV.1.1- Calcul des scores des élèves aux différents tests Le calcul des scores des élèves aux différents tests se fait dans le même esprit aussi bien au niveau 2 qu'au niveau 5, tout en tenant compte de la différence du nombre d'items pour les deux niveaux. Nous présentons ici le calcul des scores de niveau 2. Au niveau 2, le programme de traitement des scores des élèves porte le nom ML2SCOR.do. Pour le rédiger, on ouvre l'éditeur de programme; un document vierge s'affiche. Comme précisé plus haut, ce programme commence par un commentaire qui présente les tâches qui seront exécutées. Dans le cas du Mali, ce commentaire est le, suivant: /* ***************************************************************************** CE PROGRAMME C:\PASEC\ML\PRO\ML2SCOR.do CREE UN FICHIER ML2SCOR.dta A PARTIR DES FICHIERS ASCII SUIVANTS : C:\PASEC\ML\DAT\TXT\2F1.txt Items du pre-test de francais de 2eme annee C:\PASEC\ML\DAT\TXT\2M1.txt Items du pre-test de maths de 2eme annee C:\PASEC\ML\DAT\TXT\2F2.txt Items du post-test de francais de 2eme annee C:\PASEC\ML\DAT\TXT\2M2.txt Items du post-test de maths de 2eme annee CES FICHIERS ASCII SONT LE RESULTAT D'UNE EXPORTATION A PARTIR DU FICHIER ACCESS : C:\PASEC\ML\SOURCE\Mali 2002 base finale.mdb (Le format d'exportation spécifié est 'texte'; le séparateur utilise est ',') LE FICHIER DE DONNEES PRODUIT EN SORTIE DE CE PROGRAMME EST : C:\PASEC\ML\DAT\ML2SCOR.dta (format STATA) IL COMPREND LE RESULTAT A L'ENSEMBLE DES ITEMS AINSI QUE LE CALCUL DES SCORES POUR CHACUN DES QUATRE TESTS ****************************************************************************** */ Après le commentaire, il faut demander à STATA de créer un fichier.log pour sauvegarder les résultats d'exécution du programme. Il est pratique de choisir comme nom du fichier de résultat le nom associé au fichier programme. Cette demande se fait à travers la commande: capture log close log using C:\PASEC\ML\LOG\ML2SCOR.log, replace 17

Il peut arriver que l'on ressente le besoin de modifier les options par défaut de STATA en vue d'accélérer les traitements. Cela dépend surtout de la version utilisée. Nous laissons ces paramétrages à l'appréciation de chaque utilisateur. Après ouverture du fichier des résultats, on procède au calcul des scores aux différents tests. Rappelons que pour une évaluation standard, il y a au total quatre tests (deux en début d années français et mathématiques -, et deux en fin d années français et mathématiques -) Le calcul des scores des élèves à un test donné se fait en cinq étapes: i) importation des items du test du fichier texte à un fichier de données au format STATA, ii) vérification du fait que les modalités des items sont dans la plage des valeurs admises, iii) suppression des élèves absents aux tests, iv) détermination des fréquences de non réponse par item et v) calcul de la note des élèves au test. Calcul du score au pré test de français. i) Importation des items Pour calculer le score au pré test de français, il convient d'importer dans STATA les items du test de français. Cela se fait par la commande: infile [Nom des variables à importer] using [Chemin + Nom du fichier de données] Exemple 5 : infile NUMECOLE NUMCLASS NUMELEVE /* */ I2F1_A I2F1_B I2F1_C I2F1_D I2F1_E I2F1_F I2F1_G I2F1_H I2F1_I /* */ I2F1_J I2F1_K I2F1_L I2F1_M I2F1_N I2F1_O I2F1_P I2F1_Q I2F1_R /* */ I2F1_S I2F1_T I2F1_U I2F1_V I2F1_W I2F1_X I2F1_Y I2F1_Z I2F1_Y /* */ using C:\PASEC\ML\DAT\TXT\2F1.txt La précaution à prendre lors de l'importe des données d'un fichier texte vers STATA est de saisir les noms de variable (après la commande infile) exactement dans l'ordre dans lequel ils apparaissent dans le fichier texte. Il faut vérifier qu'on n'a pas sauté ou oublier de variable. ii) Vérification du fait que les modalités des items sont dans la plage de valeurs admises Les modalités attendues pour un item sont 1 lorsque l'élève a trouvé, 0 lorsque l'élève a raté et 9 si l'élève n'a pas répondu. En principe, un contrôle est fait au niveau de ACCESS de sorte qu'on ne peut avoir que ces valeurs. On peut tout de même s'en assurer au niveau de STATA en faisant un codebook sur l'ensemble des items importés. 5 Rappelons que "/*" permet d ouvrir une page commentaire dans un programme STATA et que "*/" permet de fermer le commentaire. Tous les caractères à l intérieur de ces symboles n ont rien à voir avec les lignes de commandes. 18

La commande codebook [Nom de variable] donne la plage des valeurs que prend la variable et compte le nombre de ses valeurs manquantes. Pour savoir si les items ont été "bien saisis", taper la commande codebook sur l'ensemble des items: codebook I2F1_A-I2F1_Y 6 Exemple pour la vaiarble I2F1 A codebook I2F1_A I2F1_A ------------------------------------------------------------ (unlabeled) type: numeric (float) range: [0,9] units: 1 unique values: 3 coded missing: 0 / 2042 tabulation: Freq. Value 704 0 590 1 748 9 Valeurs prises par la variable S'il arrive qu'une variable (par exemple I2F1_B) possède des valeurs manquantes ou ait des valeurs autres que 0, 1 et 9, il faut consulter le questionnaire concerné pour rectifier. La commande qui permet d'identifier ces questionnaires est la commande list, suivi de la précision des conditions que doivent remplir les observations que STATA doit lister. Il s agit en l occurrence des observations pour lesquelles l items a une valeur autre que 0, 1 et 9. list NUMECOLE NUMCLASS NUMELEVE if I2F1_B~=0 & I2F1_B~=1 & I2F1_B~=9 iii) Suppression des absents au test En principe, au pré test, il ne devrait pas avoir d élève absent dans la mesure où les élèves enquêtés sont choisis parmi ceux qui sont présents. Par contre, au post test, on enquête uniquement les élèves qui avaient été tirés en début d année. De ce fait, il est fort probable qu il y ait des absences (pour des raisons de maladie, de transfert, d abandon, etc). Si un élève est absent à un test, c'est qu'il ne peut répondre à aucun item. De ce fait, soit l enregistrement de l élève n apparaît pas dans le fichier, soit l'enregistrement de l'élève ne possède que des valeurs 9 par rapport à tous les items. Dans le cas où il y aurait encore des valeurs manquantes pour certains items après vérification des questionnaires, alors ces valeurs manquantes sont considérées comme des non réponses. On transforme ces valeurs manquantes en non réponse par l application successive des commandes : 6 Lorsque dans un ligne de commande il y a un trait d union entre deux variables, STATA exécute la commande en question sur l ensemble des variables de la fenêtre "Variables" comprise entre ces deux variables. 19

mvdecode I2F1_A-I2F1_Y, mv(9) /* Transforme les 9 en (.) */ mvencode I2F1_A-I2F1_Y, mv(9) /* Transforme tous les (.) en 9 */ On ne peut pas appliquer directement la deuxième commande parce que STATA identifierai 9 comme une valeur déjà utilisée pour une modalité et refusera de faire la transformation. Le va et vient opéré permet d affranchir STATA de cette contrainte. A ce niveau, un enregistrement qui compte autant de 9 que le nombre d'items représente un élève absent. Dans le cas du Mali, il y a 25 items au pré test de français deuxième année. On peut supprimer les absents au test en appliquant le programme suivant: egen ABST2F1=rsum(I2F1_A-I2F1_Y) /* Cette commande crée la variable ABST2F1 égale à la somme de tous les items */ list NUMECOLE NUMCLASS NUMELEVE I2F1_A-I2F1_F if ABST2F1==9*27 /* Cette commande identifie les élèves absents */ drop if ABST2F1==9*27 /* Cette commande supprime les élèves absents */ drop ABST2F1 /* Cette commande supprime la variable qui permet d'identifier les élèves absents, puisqu ils sont déjà supprimés, on n en a plus besoin */ iv) Fréquence de non réponses par item A ce niveau, le fichier contient uniquement les élèves qui ont effectivement subis les tests et les résultats que ces élèves ont eus aux différents items. On peut alors calculer les fréquences de non réponses, de bonnes réponses et de mauvaises réponses par items en faisant: tab1 I2F1_A-I2F1_Y Ce calcul permet d identifier les items qui sont bien maîtrisés et ceux qui sont peu maîtrisés. Ce qui renseigne sur les points du programme que les maîtres enseignent bien et ceux qu ils enseignent mal. Si on considère le cas du premier item de français au Mali, pré test CP2, on a le tableau suivant: 20

. tab I2F1_A I2F1_A Freq. Percent Cum. ------------+----------------------------------- 0 704 34.48 34.48 1 590 28.89 63.37 9 748 36.63 100.00 ------------+----------------------------------- Total 2042 100.00 On constate qu'il y a eu 36,6% de non réponses, 28,9% de bonnes réponses et 34,5% de mauvaises réponses. Le calcul des non réponses permet d'identifier les items où les élèves ont eu le plus de difficultés (items représentés par des pourcentages de non réponses élevés). v) Calcul de la note des élèves aux tests Dans le calcul de la note obtenue par un élève à un item donné, on considère que les non réponses sont de fautes. Elles sont donc notées zéro. Cette transformation des 9 en 0 se fait par exécution du programme: /* --------------------------------------------------------------------- RECODAGE DES REPONSES EN VRAI (1) OU FAUX (0) --------------------------------------------------------------------- */ gen INI2F A=I2F1_A==1 gen INI2F B=I2F1_B==1 gen INI2F C=I2F1_C==1 gen INI2F Z=I2F1_Z==1 gen INI2F_Y=I2F1_Y==1 Lorsqu'on exécute la ligne de commande gen INI2F A=I2F1_A==1, STATA crée la variable INI2F A qui prend la valeur 1 si la variable I2F1_A vaut 1 et 0 dans le cas contraire. La variable score des élèves est enfin obtenu en faisant la somme des notes de tous les items. gen SINI2F=INI2F A+INI2F B+INI2F C+INI2F D+INI2F E+INI2F F+INI2F G+ /* */ INI2F H+INI2F I+INI2F J+INI2F K+INI2F L+INI2F M+INI2F N+ /* */ INI2F O+INI2F P+INI2F Q+INI2F R+INI2F S+INI2F T+INI2F U+ /* */ INI2F V+INI2F W+INI2F X+INI2F Y Dans un soucis de présentation et d'allègement du fichier (en terme de mémoire), on ordonne les variables suivant leur apparition dans la fenêtre Variable (commande order), on supprime 21

les items pour ne conserver que la note à chaque items (commande drop), on modifie le format des variables de sorte qu'elles occupent moins de place mémoire (commande compress), on trie les enregistrements (commande sort) et on sauvegarde le fichier (commande save). Tout ceci est fait à travers le programme: order NUMECOLE NUMCLASS NUMELEVE SINI2F /* */ INI2F A INI2F B INI2F C INI2F D INI2F E INI2F F INI2F G /* */ INI2F H INI2F I INI2F J INI2F K INI2F L INI2F M INI2F N /* */ INI2F O INI2F P INI2F Q INI2F R INI2F S INI2F T INI2F U /* */ INI2F V INI2F W INI2F X INI2F Y INI2F Z INI2F_Y drop I2F* compress sort NUMECOLE NUMCLASS NUMELEVE save C:\PASEC\ML\DAT\ML2F1.dta, replace A ce niveau, on dispose du fichier des items du pré test de français deuxième année, appelé ML2F1.dta. On recommence la procédure de calcul du score présentée ci-dessus pour chacun des tests de niveau deux. A la fin, on a les fichiers suivants: - ML2F1.dta: résultat au pré test de français deuxième année - ML2F2.dta: résultat au post test de français deuxième année - ML2M1.dta: résultat au pré test de mathématiques deuxième année - ML2M2.dta: résultat au post test de mathématiques deuxième année On procède à la fusion de tous ces fichiers en vue de calculer le score de début d'année et le score de fin d'année. La précaution à prendre lors de la fusion est de trier les fichiers suivant le numéro d école, le numéro de la classe (niveau d étude), et le numéro de l élève dans la classe (sort NUMECOLE NUMCLASS NUMELEVE). Remarque Lorsqu'on fusionne des données avec la commande merge, STATA crée la variable _merge qui peut prendre les valeurs 1, 2 ou 3. La valeur 1 est prise par les observations du fichier en mémoire qui ne figurent pas dans le fichier appelé pour la fusion. La valeur 2 est prise par les observations du fichier appelé qui ne figurent pas dans le fichier qui était déjà chargé en mémoire. La valeur 3 est prise par les observations communes aux deux fichiers. Le programme de fusion de ces fichiers est le suivant: 22

Clear use C:\PASEC\ML\DAT\ML2F1.dta /* Chargement du pré test de français CP2 */ sort NUMECOLE NUMCLASS NUMELEVE /* Tri des enregistrements pour assurer l'appariement lors de la fusion */ merge NUMECOLE NUMCLASS NUMELEVE using C:\PASEC\ML\DAT\ML2F2.dta /* Fusion avec le fichier du post test de français CP2 */ tab _merge drop if _merge~=3 drop _merge /* Permet de garder uniquement les élèves ayant effectivement subis les deux tests */ sort NUMECOLE NUMCLASS NUMELEVE merge NUMECOLE NUMCLASS NUMELEVE using C:\PASEC\ML\DAT\ML2M1.dta tab _merge drop if _merge~=3 drop _merge /* Fusion avec le pré test de mathématiques */ sort NUMECOLE NUMCLASS NUMELEVE merge NUMECOLE NUMCLASS NUMELEVE using C:\PASEC\ML\DAT\ML2M2.dta tab _merge drop if _merge~=3 drop _merge /* Fusion avec le post test de mathématiques */ sort NUMECOLE NUMCLASS NUMELEVE Calcul des scores de début et de fin d'année Une fois les items de français et de mathématiques réunis dans un même fichier, on calcule le score moyen de début et de fin d'année pour chaque élève, en français et en mathématiques. Etant donné que les tests de français et de mathématiques n'ont pas le même nombre d'items, on les ramène sur une base comparable grâce à un coefficient correctif, rapport entre le plus grand et le plus petit nombre d'items. 23

gen SINI2FM=SINI2F+SINI2M*25/18 gen SFIN2FM=SFIN2F*39/37+SFIN2M Au pré test, il y a 25 items de français et 18 items de mathématiques. Au post test, on dénombre 37 items de français et 39 items de mathématiques. Statistique de fiabilité des tests : l Alpha de Cronbach Dans toute activité de mesure, il est nécessaire de vérifier si les instruments utilisés sont fiables. La fiabilité désigne la cohérence interne de l instrument de mesure. Un indicateur de mesure de cette cohérence interne est l Alpha de Cronbach. C est un coefficient qui décrit comment un groupe d'items s'accordent à mesurer une même idée ou un même phénomène. Il est de valeur inférieure à 1. En général, on considère qu un instrument est fiable lorsque la valeur de l Alpha de Cronbach est élevée (par exemple supérieure à 0,70). Etant donné que les tests PASEC sont un instrument de mesure du niveau des élèves, il est nécessaire d en mesurer la fiabilité. Pour chacune de ses enquêtes, le PASEC procède au calcul de l Alpha de Cronbach aux différents tests. La commande qui permet de calculer cette statistique de fiabilité est la commande alpha. Au pré test de français de deuxième année, l alpha de Cronbach est obtenue par la ligne de commande suivante : use C:\PASEC\ML\DAT\ML2SCOR.dta /* -------------------------------------------------------------------- STATISTIQUES POUR LE PRE-TEST DE FRANCAIS CALCUL DU KR20 (=Alpha de Cronbach dans le cas d'items dichotomiques) CALCUL DU POINT BISERIAL POUR CHAQUE ITEM -------------------------------------------------------------------- */ summarize SINI2F summarize INI2F* alpha /* */ INI2F A INI2F B INI2F C INI2F D INI2F E INI2F F INI2F G /* */ INI2F H INI2F I INI2F J INI2F K INI2F L INI2F M INI2F N /* */ INI2F O INI2F P INI2F Q INI2F R INI2F S INI2F T INI2F U /* */ INI2F V INI2F W INI2F X INI2F Y INI2F Z INI2F_AA, /* */ std item A la suite de cette ligne de commande, on calcule l Alpha de Cronbach pour les autres tests. Il est préférable de rédiger les différents programmes traités ci-haut dans un même fichier car ils sont tous relatifs au calcul des scores de 2 ème année, et de l enregistrer sous le nom ML2SCOR.dta. 24

A la fin des traitements, fermer le fichier ML2SCOR.log ouvert en début de programme en tapant la commande log close. save C:\PASEC\ML\DAT\ML2SCOR.dta, replace outfile using C:\PASEC\ML\DAT\TXT\ML2SCOR.txt, dictionary replace log close Le calcul des scores de niveau 5 se fait de la même façon que précédemment. Le chiffre 2 dans les noms de fichiers ainsi que dans les noms des variables représentant la deuxième année est remplacé par le chiffre 5 qui représente la cinquième année. Le nombre d items intervenant dans le calcul des scores moyen est le nombre d items des test de 5 ème année. C est ainsi que l on obtient à la fin des traitements les fichiers suivants : - ML5F1.dta: résultat au pré test de français cinquième année - ML5F2.dta: résultat au post test de français cinquième année - ML5M1.dta: résultat au pré test de mathématiques cinquième année - ML5M2.dta: résultat au post test de mathématiques cinquième année - ML5SCOR.dta : contenant l ensemble des items et les scores de début et de fin d année. A ce niveau, on fusionne le fichier obtenu avec le fichier des caractéristiques des élèves dont on a pris le soin d importer sous format STATA au préalable. IV.1.2- Importation du fichier des caractéristiques élèves Le fichier contenant les informations sur les caractéristiques des élèves est nommé 2QE.txt (respectivement 5QE.txt) pour les élèves de niveau 2 (respectivement pour les élèves de niveau 5). Pour traiter ces variables, on importe les informations de ce fichier dans STATA par la commande : /* ---------------------------------------------------------------------- IMPORTATION DU QUESTIONNAIRE ELEVES ----------------------------------------------------------------------*/ capture log close log using C:\PASEC\ML\LOG\ML2QEL.log, replace infile NUMECOLE NUMCLASS NUMELEVE /* */ ML2QE A ML2QE B ML2QE C ML2QE D ML2QE E ML2QE F ML2QE G /* 25

*/ ML2QE H ML2QE I ML2QE J ML2QE K ML2QE L ML2QE M ML2QE N /* */ ML2QE O ML2QE P ML2QE Q ML2QE R ML2QE S ML2QE T ML2QE U /* */ ML2QE V ML2QE W ML2QE X ML2QE Y ML2QE Z ML2QE_AA ML2QE_AB /* */ ML2QE_AC ML2QE_AD ML2QE_AE ML2QE_AF ML2QE_AG ML2QE_AH ML2QE_AI /* */ ML2QE_AJ ML2QE_AK ML2QE_AL ML2QE_AM ML2QE_AN ML2QE_AO ML2QE_AP /* */ ML2QE_AQ ML2QE_AR ML2QE_AS ML2QE_AT ML2QE_AU ML2QE_AV ML2QE_AW /* */ ML2QE_AX ML2QE_AY ML2QE_AZ ML2QE_BA ML2QE_BB ML2QE_BC ML2QE_BD /* */ ML2QE_BE /* */ using C:\PASEC\ML\DAT\TXT\2QE.txt sort NUMECOLE NUMCLASS NUMELEVE compress save C:\PASEC\ML\DAT\ML2QEL.dta, replace outfile using C:\PASEC\ML\DAT\TXT\ML2QEL.txt, dictionary replace log close En pratique, au PASEC, le programme d importation de ces données est rédigé dans un fichier à part nommé ML2QEL.do. Il produit en sortit le fichier ML2QEL.dta. C est un fichier brut car contenant les informations sur les caractéristiques des élèves telles que figurant sur les questionnaires. Aucune nouvelle variable n a été crée. Ce choix a été fait pour permettre à d autres utilisateurs des données du PASEC de construire de nouvelles variables à leur guise, sans se limiter uniquement à celles que créent le PASEC pour ses analyses. IV.1.3- Fusion des caractéristiques élèves avec les scores Après obtention du fichier ML2SCOR.dta à l aide du fichier ML2SCOR.do et importation des caractéristiques des élèves dans un fichier STATA (ML2QEL.dta), on procède à la fusion des deux fichiers. Dans un premier temps, on ouvre le fichier ML2SCOR.dta et on supprime tous les items de sorte à ne conserver que les variables permettant d identifier les élèves et les variables scores. Pour cela, la commande exécutée est : keep NUMECOLE NUMCLASS NUMELEVE SINI2F SFIN2F SINI2M SFIN2M SINI2FM SFIN2FM La deuxième phase consiste en la fusion. On fait appel aux informations du fichier ML2QEL.dta et on supprime les informations qui ne sont pas communes aux deux fichiers. L encardré suivant présente le programme complet de cette fusion. use C:\PASEC\ML\DAT\ML2SCOR.dta keep NUMECOLE NUMCLASS NUMELEVE SINI2F SFIN2F SINI2M SFIN2M SINI2FM SFIN2FM sort NUMECOLE NUMCLASS NUMELEVE merge NUMECOLE NUMCLASS NUMELEVE using C:\PASEC\ML\DAT\ML2QEL.dta 26

tab _merge drop if _merge~=3 /* ---------------------------------------------- Permet de garder uniquement les élèves dont les scores et les caractéristiques existent ; c est à dire ceux qui ont subi les tests et ont été enquêtés ; c'est-à-dire les informations communes aux deux fichiers. ----------------------------------------------- */ drop _merge IV.1.4- Création des variables d analyse de niveau élève Les variables du questionnaire élèves sont transformées en vue de créer de nouvelles variables. Ces nouvelles variables sont celles qu utilise le PASEC pour ses analyses. C est pour cette raison qu on les appelle les variables d analyse. La précaution à prendre avant de créer une variable est de s assurer que celles qui vont intervenir dans sa création sont bien renseignées ; c est-à-dire qu elles ne possèdent pas de valeurs manquantes, de non réponses, ni de valeurs en dehors des modalités admises par ces questions. Ceci se fait par une tabulation ou un codebook des chacune des variables intervenant dans la construction de la nouvelle, une examination des résultats pour voir si le nombre d observation pris en compte à chaque fois et les modalités de chacune des variables sont les bonnes. Pour illustrer les propos, prenons le cas du traitement de la variable age de l élève. Elle est représentée par la variable ML2QE B qui est numérique. On veut la transformer en une variable à trois modalités à savoir : AGEMOINS : représentant les élèves en avance sur l âge normal d entrée au CP2, AGENORM : représentant les élèves ayant l âge normal d entrée au CP2 (7 ou 8 ans), AGEPLUS : représentant les élèves en retard sur l âge normal d entrée au CP2. La première chose à faire est de tabuler la variable ML2QE B. Cela permet de voir les problèmes existant sur cette variable. Dans le cas du Mali, il y a 6 observations dont l âge n est pas renseigné (ce sont soit des non réponses, soit des valeurs manquantes). En plus, il y a trois élèves de 1 an et un autre de 4 ans. Nous jugeons que ces âges ne sont pas vraisemblables pour un élève de CP2 (il s agit probablement d erreur de saisie). Au total, il y a 10 observations à problème par rapport à la variable âge. Si on dispose des questionnaires élèves, on peut les fouiller pour retrouver les informations manquantes. Si non, 27

il faut trouver des techniques d imputation pour ces 10 valeurs. Une façon de faire consiste à leur affecter la moyenne d âge des autres élèves. Ce faisant, la variable ML2QE B est bien renseignée et on peut alors s en servir pour créer AGEMOINS, AGENORM et AGEPLUS. Après création d une variable, il faut la tabuler 7 pour connaître sa répartition. La partie de programme qui crée ces variables est la suivante : /* --------------------------------------------------------------------- AGE DE L'ELEVE --------------------------------------------------------------------- */ tab ML2QE B /* --------------------------------------- Permet de vérifier si la variable est bien renseignée --------------------------------------- */ sum ML2QE B /* ----------------------------------------- Permet de calculer l âge moye qui sera utilisé pour rectifier les erreurs de saisi et les non réponses ----------------------------------------- */ replace ML2QE B=8 if ML2QE B==99 /* ------------------------------------------- Affectation de la moyenne aux valeurs manquantes: 6 observations ------------------------------------------- */ replace ML2QE B=8 if ML2QE B==1 ML2QE B==4 /* -------------------------------------------------- Affectation de la moyenne aux valeurs extrêmes: Il y a erreur de saisie: 4 observations -------------------------------------------------- */ gen AGE=ML2QE B tab AGE /* ------------------------------------------------- Vérifie que la variable AGE est bien renseignée ------------------------------------------------- */ gen AGEMOINS=AGE<7 gen AGENORM=AGE==7 AGE==8 gen AGEPLUS=AGE>8 /* ------------------------------------------------ Crée les variables d analyse relatives à l âge ------------------------------------------------ */ tab1 AGEMOINS AGENORM AGEPLUS 7 Il est souhaitable de tabuler une variable à chaque fois qu'on la crée pour avoir une idée de sa distribution. 28

/* ----------------------------------------------- Donne le répartition des nouvelles variables ----------------------------------------------- */ Plusieurs variables de niveau élève ont été crées à partir des variables du questionnaire élève tout en respectant le principe illustré ci-haut. Pour prendre connaissance de ces programmes, consulter le fichier programme en question et le dictionnaire des variables qui décrit chacune des variables créées. A la fin de cette première étape, on dispose de trois fichiers de données à savoir le fichier ML2SCOR.dta relatif au score des élèves, le fichier ML2QEL.dta relatif aux informations sur les caractéristiques des élèves et le fichier ML2EL.dta contenant aussi bien les scores des élèves que leurs caractéristiques et les nouvelles variables de niveau élève. IV.2- Etape 2 : Traitement des données de niveau élève 5 ème année La logique de cette étape est la même que celle de l étape précédente. Pour tous les fichiers programmes et les fichiers de données crées au niveau des élèves de deuxième année, un fichier équivalent est crée en cinquième année. Les principes de création sont les mêmes ; il suffit d adapter à chaque fois les noms de variables. Une fois les données des élèves traités, on passe au traitement des fichiers des maîtres et ensuite celui des directeurs. IV.3- Etape 3 : Création des variables de niveau maître Cette étape concerne essentiellement l importation des information sur les maîtres du format texte au format de données STATA et la création des variables d analyse de niveau maître. IV.3.1- Importation des variables du questionnaire maître Au départ, les informations sur les maîtres enquêtés se trouvent dans des fichiers textes. Une distinction est faite entre les maîtres de CP2 et ceux de CM1. Pour chaque niveau, il existe quatre fichiers 8 texte qu il faut regrouper en un seul pour avoir l ensemble des informations relatives aux maîtres. 8 Le fichier est scindé en plusieurs morceaux parce que le nombre de variables admises par une table ACCESS est limité. 29

Etant donné que le fichier des maîtres se traite de la même façon que l on soit au CP2 ou au CM1, il est préférable de fusionner les fichiers maîtres des deux niveaux avant de procéder à la construction des variables d analyse. Ce travail est effectué lors de l importation des données des fichiers texte vers STATA. Le programme de cette importation est nommé MLQM.do. Il produit en sortie le fichier MLQM.dta. Afin de mieux comprendre les étapes de cette importation, nous présentons le programme dans le cas des données du Mali. De la même façon que les autres fichiers.do, le programme MLQM.do commence par un commentaire qui le présente : /* ******************************************************************** CE PROGRAMME MLQM.do IMPORTE AU FORMAT STATA LES FICHIERS ASCII SUIVANTS : C:\PASEC\ML\DAT\TXT\QM_1_22.txt questions 1 22 du questionnaire maître C:\PASEC\ML\DAT\TXT\QM_23_46.txt questions 23 46 du questionnaire maître C:\PASEC\ML\DAT\TXT\QM_47_54.txt questions 47 54 du questionnaire maître C:\PASEC\ML\DAT\TXT\QM_55_61.txt questions 55 61 du questionnaire maître CES FICHIERS ASCII SONT LE RESULTAT D'UNE EXPORTATION A PARTIR DES TABLES CORRESPONDANTES DE LA BASE DE DONNEES ACCESS : LE FICHIER DE DONNEES PRODUIT EN SORTIE DE CE PROGRAMME EST : C:\PASEC\ML\DAT\MLQM.dta (format STATA) ********************************************************************* */ On procède ensuite à l initialisation du fichier marqué par l ouverture du fichier MLQM.log afin de sauvegarder les résultats de traitement. Après cela, on importe les informations contenues dans le premier fichier texte pour le niveau 2 que l on sauvegarde dans un fichier temporaire d extension.dta, puis on importe les informations contenues dans le premier fichier texte pour le niveau 5. On fusionne enfin ces deux parties pour obtenir la première partie des informations maîtres et on supprime les fichiers temporaires créés. On recommence ce processus pour les trois autres parties du questionnaire maître et à la fin ; on fusionne ces quatre parties en un fichier unique nommé MLQM.dta. Remarque Lorsqu on applique la commande infile, STATA considère par défaut les variables spécifiées comme étant numériques. Si on a affaire à une variable de caractères alphanumérique, il faut le spécifier à STATA en précédant le nom de la variable en question par strxx, XX étant le nombre de caractères autorisés pour les modalités de la variable. La valeur maximum de XX dans la version 7.0 de STATA est 80. 30

Les lignes suivantes présentent brièvement le programme MLQM.do. /* ---------------------------------------------------------------------- IMPORTATION DES QUESTIONS 1 a 22 ---------------------------------------------------------------------- */ /* ---------- NIVEAU 2 ---------- */ infile /* */ NUMECOLE /* */ NUMCLASS /* */ QM1A /* */ QM1B /* */ QM2 /* */ QM3A /* */ QM3B /* */ str40 QM3C /* */ QM22D /* */ str30 QM22E /* */ using C:\PASEC\ML\DAT\TXT\QM2_1_22.txt compress sort NUMECOLE NUMCLASS save C:\PASEC\ML\DAT\QM20122.dta, replace /* ---------- NIVEAU 5 ---------- */ clear infile /* */ NUMECOLE /* */ NUMCLASS /* */ QM1A /* */ QM1B /* */ QM2 /* */ QM3A /* */ QM3B /* */ str40 QM3C /* */ QM22D /* */ str30 QM22E /* */ using C:\PASEC\ML\DAT\TXT\QM5_1_22.txt compress /*------------------------------------ Fusion des deux premières parties ------------------------------------ */ sort NUMECOLE NUMCLASS merge NUMECOLE NUMCLASS using C:\PASEC\ML\DAT\QM20122.dta tab _merge drop _merge compress sort NUMECOLE NUMCLASS save C:\PASEC\ML\DAT\QM0122.dta, replace!del C:\PASEC\ML\DAT\QM20122.dta /* Supprime le fichier temporaire créé */ /* ---------------------------------------------------------------------- 31

IMPORTATION DES QUESTIONS 23 a 46 ---------------------------------------------------------------------- */ Une fois qu on a importé les 4 parties du questionnaire maître, on dispose des fichiers QM0122.dta, QM2346.dta, QM4754.dta et QM5561.dta. On fusionne ces 4 fichiers pour obtenir le fichier des données des maîtres appelé MLQM.dta. En réalité, les 4 fichiers composant le fichier des maîtres sont des fichiers temporaires. Il faut les supprimer, après obtention du fichier de maîtres. Le programme qui opère cette fusion est le suivant. /* ---------------------------------------------------------------------- FUSION DES 4 FICHIERS EN UN SEUL FICHIER ---------------------------------------------------------------------- */ clear use C:\PASEC\ML\DAT\QM0122.dta sort NUMECOLE NUMCLASS merge NUMECOLE NUMCLASS using C:\PASEC\ML\DAT\QM2346.dta tab _merge drop if _merge~=3 drop _merge sort NUMECOLE NUMCLASS merge NUMECOLE NUMCLASS using C:\PASEC\ML\DAT\QM4754.dta tab _merge drop if _merge~=3 drop _merge sort NUMECOLE NUMCLASS merge NUMECOLE NUMCLASS using C:\PASEC\ML\DAT\QM5561.dta tab _merge drop if _merge~=3 drop _merge compress count sort NUMECOLE NUMCLASS save C:\PASEC\ML\DAT\MLQM.dta, replace!del C:\PASEC\ML\DAT\QM0122.dta!del C:\PASEC\ML\DAT\QM2346.dta!del C:\PASEC\ML\DAT\QM4754.dta!del C:\PASEC\ML\DAT\QM5561.dta Une fois le fichier MLQM.dta créé, on procède à la construction des variables d analyse de niveau maître. 32

IV.3.2- Construction des variables d analyse de niveau maître De la même façon qu au niveau des élèves, pour construire une variable au niveau maître, il faut s assurer que les variables qui interviennent dans cette construction sont bien renseignées. Si ce n est pas le cas, il faut imputer les variables "à problème" avant de les employer (cf paragraphe VI). Le fichier de traitement des variables de niveau maître est nommé MLMT.do et il produit en sortie le fichier MLMT.dta. L encadré suivant illustre la construction de la variable statut de l enseignant. /* ------------------------------------------------------------------- STATUT DU MAITRE ------------------------------------------------------------------- */ tab QM8 /* ---------------------------------------------------------------- Permet de vérifier si la variable est bien renseignée. Si ce n est pas le cas, il faut "l imputer". (Cf paragraphe xx). Apres imputation, on obtient la variable QM8BIS qui est bien renseignée. On construit alors les variables de statut. ---------------------------------------------------------------- */ gen FONCTIONAIR=QM8ABIS==1 gen CONTRACTUEL=QM8BBIS==1 gen AUTRESTATU=FONCTIONAIR==0&CONTRACTUEL==0 /* ------------------------------------------------ Crée les variables d analyse relatives au statut ------------------------------------------------ */ tab1 FONCTIONAIR CONTRACTUEL AUTRESTATU /* ----------------------------------------------- Donne le répartition des nouvelles variables ----------------------------------------------- */ IV.4- Etape 4 : Création des variables de niveau directeur La logique de cette étape est la même que celle de l étape précédente. Pour tous les fichiers programmes et les fichiers de données créées au niveau des maîtres, un fichier équivalent est au niveau des directeurs. Cette étape concerne essentiellement l importation des informations sur les directeurs du format texte au format de données STATA et la création des variables d analyse de niveau directeur 9. 9 On parle de niveau directeur puisque les informations traitées proviennent du questionnaire directeur. En réalité, on retrouve ici des informations relatives à l école telles que sa situation géographique, son statut, etc. 33

IV.4.1- Importation des variables du questionnaire directeur Au niveau des directeurs, les informations sont contenues dans deux fichiers texte. On les importe de façon similaire à celui des maîtres. Le programme d importation est MLQD.do et produit le fichier MLQD.dta. Voici une brève présentation de ce programme : /* ---------------------------------------------------------------------- IMPORTATION DES QUESTIONS 1 A 22 ---------------------------------------------------------------------- */ infile /* */ NUMECOLE /* */ QD1A /* */ QD1B /* */ QD2 /* */ QD21F2 /* */ QD22 /* */ using C:\PASEC\ML\DAT\TXT\QD_1_22.txt compress sort NUMECOLE save C:\PASEC\ML\DAT\MLQD0122.dta, replace /* ---------------------------------------------------------------------- IMPORTATION DES QUESTIONS 23 A 48 ---------------------------------------------------------------------- */ clear infile /* */ NUMECOLE /* */ QD23A /* */ QD23B1 /* */ QD23B2 /* */ str20 QD23B3 /* */ QD48I /* */ using C:\PASEC\ML\DAT\TXT\QD_23_48.txt compress sort NUMECOLE save C:\PASEC\ML\DAT\MLQD2348.dta, replace count /* ---------------------------------------------------------- FUSION DES DEUX FICHIERS PROVISOIRES SAUVEGARDE D'UN FICHIER UNIQUE DE SORTIE AU FORMAT STATA : C:\PASEC\ML\DAT\MLQD.dta ---------------------------------------------------------- */ clear use C:\PASEC\ML\DAT\MLQD0122.dta, clear sort NUMECOLE merge NUMECOLE using C:\PASEC\ML\DAT\MLQD2348.dta tab _merge drop if _merge~=3 drop _merge sort NUMECOLE save C:\PASEC\ML\DAT\MLQD.dta, replace outfile using C:\PASEC\ML\DAT\TXT\MLQD.txt, dictionary replace!del C:\PASEC\ML\DAT\MLQD0122.dta /* Supprime le fichier temporaire créé */ 34

!del C:\PASEC\ML\DAT\MLQD2348.dta /* Supprime le fichier temporaire créé */ IV.4.2- Construction des variables d analyse de niveau directeur De la même façon qu au niveau des maîtres, pour construire une variable au niveau directeur, il faut s assurer que les variables qui interviennent dans cette construction sont bien renseignées. Si ce n est pas le cas, il faut imputer les variables "à problème" avant de les employer. Le fichier de traitement des variables de niveau directeur est nommé MLDT.do et il produit en sortie le fichier MLDT.dta. L étape 4 met fin à la deuxième phase du traitement des données. A ce niveau, on dispose de 4 fichiers à savoir : le fichier des élèves de 2 ème année (ML2EL.dta), le fichier des élèves de 5 ème année (ML5EL.dta), le fichier des maîtres de 2 ème et de 5 ème année (MLMT.dta), et le fichier des directeurs (MLDT.dat). Etant donné que les analyses sont menées en 2 ème et en 5 ème année, il convient de créer pour chacun de ces niveaux un fichier d analyse contenant les informations sur les élèves de ce niveau, sur leur maîtres ainsi que leurs directeurs. Cela se fait par des fusions de fichiers de façon appropriée. 35

V- Phase 3 : Fusion des différents fichiers pour obtention du fichier d analyse En deuxième année, on associe à chaque élève les informations contenues dans l enregistrement de son maître, et de son directeur. On fait de même pour les élèves de 5 ème année. Le fichier programme de cette fusion en deuxième année est ML2.do et il produit en sortie le fichier ML2.dta. Lors de cette fusion, on procède à la création des scores standardisés. Le fichier obtenu à la suite de cette fusion est le fichier d analyse. Comme nous l avons dit plus haut, il est utile que ce fichier existe aussi en format texte (ASCII,.txt) pour que les chercheurs et évaluateurs qui travaillent sous un environnement différent de celui de STATA puissent les exploiter. Ce fichier texte est crée par une simple ligne de commande qui demande à STATA de créer automatiquement le fichier texte. C est la commande : outfile using C:\PASEC\TG\DAT\TG2.txt, dictionary replace Voici une partie de ce programme de fusion. /* ************************************************************************* PROGRAMME DE FUSION ET DE SELECTION DES DONNEES D'ANALYSE NIVEAU D'AGREGATION : ELEVE FUSION DES DONNEES : - FICHIER NIVEAU ELEVE : C:\PASEC\ML\DAT\ML2EL.dta - FICHIER NIVEAU MAITRE : C:\PASEC\ML\DAT\MLMT.dta - FICHIER NIVEAU DIRECTEUR : C:\PASEC\ML\DAT\MLDT.dta ELABORATION ET TEST DES MODELES SAUVEGARDE DES DONNEES EN FORMAT ASCII POUR EXPLOITATION AVEC LOGICIEL MULTINIVEAU MLN *********************************************************************** */ /* ---------------------------------------------------------------------- FUSION DES DONNEES ---------------------------------------------------------------------- */ use C:\PASEC\ML\DAT\ML2EL.dta sort NUMECOLE NUMCLASS NUMELEVE merge NUMECOLE NUMCLASS using C:\PASEC\ML\DAT\MLMT.dta tab _merge drop if _merge~=3 drop _merge sort NUMECOLE NUMCLASS NUMELEVE merge NUMECOLE using C:\PASEC\ML\DAT\MLDT.dta tab _merge drop if _merge~=1&_merge~=3 36

tab _merge drop _merge describe /* ---------------------------------------------------------------------- CREATION DE VARIABLES STANDARDISEES NOTE : LE CALCUL DES SCORES STANDARDISES S'EFFECTUE APRES LA FUSION (ET NON DANS ML2EL.do) POUR NE PAS PRENDRE EN COMPTE LES SCORES DES ELEVES ELIMINES LORS DE LA FUSION POUR CAUSE DE MAITRE OU DE DIRECTEUR NON REPERTORIE ---------------------------------------------------------------------- */ egen STINI2F=std(SINI2F) egen STFIN2F=std(SFIN2F) egen STINI2M=std(SINI2M) egen STFIN2M=std(SFIN2M) egen STINI2FM=std(SINI2FM) egen STFIN2FM=std(SFIN2FM) codebook reg STFIN2FM STINI2FM sort NUMECOLE by NUMECOLE: reg STFIN2FM STINI2FM order NUMECOLE NUMCLASS NUMELEVE STINI2F STFIN2F STINI2M STFIN2M STINI2FM STFIN2FM sort NUMECOLE NUMCLASS NUMELEVE save C:\PASEC\ML\DAT\ML2.dta, replace outfile using C:\PASEC\TG\DAT\ML2.txt, dictionary replace En cinquième année, on adapte les noms et le programme. 37

VI- Que faire en présence de données manquantes ou d erreur de saisie? Il arrive que lors de l enquête, certaines variables ne soient pas bien renseignées. Une variable est dite mal renseignée si elle contient des non réponses, des valeurs manquantes ou des valeurs incohérentes. Il y a non réponse lorsque l enquêté n a pas répondu (par exemple, à une question où il faut répondre par 0 ou 1, il apparaît la valeur 9, signifiant que l enquêté n a pas répondu). Il y a valeur manquante lorsque l agent de saisie n a tapé aucune valeur (c est le cas lorsqu un point apparaît au lieu d une valeur. En principe, si le masque de saisi est bien fait, ce cas ne peut pas arriver). Il y a valeur incohérente lorsqu une observation possède une modalité et son contraire (par exemple lorsque dans les données il apparaît qu un enseignant est à la fois homme et femme) ou une valeur en dehors de la plage attendu (par exemple lorsque l'âge est trop petit ou trop élevé). Les paragraphes suivant indiquent l attitude à adopter en présence des situations précitées. VI.1- Affectation de la modalité la plus fréquente ou de la moyenne L examen des données PASEC existantes montre qu au niveau des élèves, le problème de variables mal renseignées n est pas crucial. On dénombre au plus 2% de valeurs mal renseignées par variables sur un total de plus de 1500 élèves. Dans ce cas, l imputation peut se faire simplement en affectant aux données à problèmes la modalité la plus fréquente ou la moyenne des autres valeurs. VI.2- Examen des questionnaires Au niveau des maîtres et des directeurs où il y a respectivement 240 et 120 enregistrements, le problème de variables mal renseignées mérite une plus grande attention. Etant donnée que ces problèmes peuvent provenir des erreurs de saisie, il faut identifier les maîtres ou les directeurs concernés afin de vérifier si l information existe bel et bien dans leur questionnaire. L identification des données manquantes se fait de la façon suivante ; dans le fichier MLQM (respectivement MLQD), si la variable est par exemple QM2 (respectivement QD2), taper : list NUMECOLE NUMCLASS if QM2==. ou respectivement list NUMECOLE if QD2==. 38

L identifiant des questionnaires concernés s affichent à l écran et on procède à la fouille des questionnaires. Pour les variables à modalités exclusives, les observations concernées sont identifiées lorsque la somme des modalités est différente de 1. Par exemple, si la variable QM3 possède trois modalités exclusives, les observations à problèmes sont identifiées à travers le programme suivant : tab1 QM3A QM3B QM3C gen PB=QM3A+QM3B+QM3C~=1 tab PB list NUMECOLE NUMCLASS if PB==1 drop PB L identifiant des questionnaires concernés s affichent à l écran et on procède à la fouille des questionnaires. VI.3- Utilisation de la logique interne des questionnaires Certaines questions des instruments PASEC sont liées de sorte que la réponse à l une permet parfois de conclure quant à la réponse à l autre. Considérons un cas où la variable de formation professionnelle initiale est à valeur manquante. Si par ailleurs l observation en question a indiquée qu il n a jamais suivi de formation dans une école d instituteurs, il est logique de remplacer la valeur manquante de la variable formation professionnelle initiale par aucune formation initiale. Une autre logique réside dans la relation entre les questionnaires. Prenons le cas du questionnaire maître et du questionnaire directeur ; il y a des questions qui sont communes aux deux questionnaires. Par exemple, "A quelle fréquence tenez-vous des réunions entre maîtres et directeur?" Si cette question n est pas bien renseignée au niveau du maître, il n est pas tout à fait erroné de prendre cette information dans le questionnaire du directeur correspondant. 39

VI.4- Utilisation des corrélations et la commande impute de STATA VI.4.1- Les corrélations linéaires On peut employer les liaisons entre variables continues pour compléter une variable mal renseignée. Prenons par exemple le cas de l ancienneté. Il est fréquent que l ancienneté soit liée à l âge. Ainsi, si la variable ancienneté du maître possède des valeurs manquantes, on peut calculer le coefficient de corrélation linéaire sur les données renseignées entre les deux variables. S il est assez élevé (supérieur à 0,80), on peut estimer une relation linéaire entre les deux variable et l utiliser pour prédire les valeurs manquantes de l ancienneté. Le programme suivant illustre ce type d opération /* -------------------------------------------------- QM5 AGE DU MAITRE -------------------------------------------------- */ tab QM12 corr QM5 QM12 /* --------------------------------------------------------- Vérifie que QM12 possède des valeurs manquantes et est liée à QM5. --------------------------------------------------------- */ reg QM12 QM5 predict QM12BIS gen SERVICE=QM12 replace SERVICE=round(QM12BIS,1) if QM12==. /* --------------------------------------------- Utilise la liaison entre QM5 et QM12 pour remplacer les valeurs manquantes de QM12 --------------------------------------------- */ VI.4.2- La commande impute de STATA Si après l examen des questionnaires et épuisement des possibilités d application des méthodes précédentes on se rend compte qu il y a toujours des valeurs à problème, alors on peut recourir à la commande impute de STATA. Cette commande est basée sur une technique qui utilise les corrélations entre des variables spécifiées à STATA pour prédire les valeurs manquantes d une autres. 40

Pour appliquer impute, on remplace toutes les valeurs à problèmes par des valeurs manquantes (.). On spécifie à la suite de la commande la variable à imputer, puis les variables dont on pense avoir un lien avec la variable à imputer. STATA fait une régression de la première variable sur les autres et crée une nouvelle variable dans laquelle les données qui existaient déjà sont reprises et les valeurs manquantes sont remplacées par des prédictions. Pour les variables à modalités exclusives, une stratégie est appliquée après la commande impute pour affecter la valeur 1 à la modalité dont la prédiction est plus proche de 1 et la valeur 0 aux autres modalités. Une précaution à prendre avant d employer la commande impute est de s assurer que la régression est faite sur des observations bien renseignées par rapport aux variables spécifiées. Les programmes de traitement des données des maîtres et des directeurs peut être présenté en trois parties ; la première s assure que les imputations se font sur des variables bien renseignées, la seconde procède aux imputations et la troisième crée les variables d analyse. Le programme suivant présente cette stratégie pour une variable nommée QM5 dont les modalités A, B et C sont exclusives (3 modalités exclusives): impute QM5A QM1A QM2 QM4A QM19 QM20 QM8B QM8C /* */ QM12B QM12C QM12D QM12E QM12F QM12G QM12H QM12I QM12J, /* */ gen (QM5ABIS) impute QM5B QM1A QM2 QM4A QM19 QM20 QM8A QM8B /* */ QM12B QM12C QM12D QM12E QM12F QM12G QM12H QM12I QM12J, /* */ gen (QM5BBIS) impute QM5C QM1A QM2 QM4A QM19 QM20 QM8B QM8C /* */ QM12B QM12C QM12D QM12E QM12F QM12G QM12H QM12I QM12J, /* */ gen (QM5CBIS) gen QM5ADIF=abs(QM5ABIS-1) gen QM5BDIF=abs(QM5BBIS-1) gen QM5CDIF=abs(QM5CBIS-1) gen MINDIF=min(QM5ADIF,QM5BDIF,QM5CDIF) replace QM5ABIS=1 if (QM5ADIF==MINDIF & QM5A==.) replace QM5BBIS=1 if (QM5BDIF==MINDIF & QM5B==.) replace QM5CBIS=1 if (QM5CDIF==MINDIF & QM5C==.) replace QM5ABIS=0 if QM5ABIS~=1 replace QM5BBIS=0 if QM5BBIS~=1 replace QM5CBIS=0 if QM5CBIS~=1 drop QM5ADIF QM5BDIF QM5CDIF MINDIF 41

VII- Exécution des programmes, contrôle et rédaction du dictionnaire Une fois tous les programmes rédigés, on peut les exécuter en série en rédigeant un fichier.do qui les reprend. L encadré suivant présente ce programme nommé "Batch.do". do "C:\PASEC\ML\pro\ML2SCOR.do" do "C:\PASEC\ML\pro\ML5SCOR.do" do "C:\PASEC\ML\pro\ML2QEL.do" do "C:\PASEC\ML\pro\ML5QEL.do" do "C:\PASEC\ML\pro\ML2EL.do" do "C:\PASEC\ML\pro\ML5EL.do" do "C:\PASEC\ML\pro\MLQD.do" do "C:\PASEC\ML\pro\MLQM.do" do "C:\PASEC\ML\pro\MLMT.do" do "C:\PASEC\ML\pro\MLDT.do" do "C:\PASEC\ML\pro\ML2.do" do "C:\PASEC\ML\pro\ML5.do" display " LES FCHIERS DE DONNEES CREES AU FORMAT STATA SE TROUVENT DANS LE REPERTOIRE C:\PASEC\ML\DAT" clear Lorsque tous les programmes sont exécutés, on procède à la lecture des fichiers des résultats d exécution (log files). Cette lecture est un contrôle pour s assurer qu il n y a pas d erreurs dans les programmes et que les tâches demandées sont bien exécutées. Plusieurs techniques peuvent servir au contrôle de la qualité des données traitées. L'une des plus efficaces est le tri à plat (statistique descriptive et distribution) de toutes les variables. Si la distribution d'une variable s'écarte assez fortement des attentes, on doit se poser des questions. Si par exemple dans un pays, 90% des enseignants ont un niveau supérieur au baccalauréat, alors il faut faire des vérifications pour s'assurer que cette distribution est exacte. Le travail de traitement des données s achève par la rédaction d un dictionnaire des variables d analyse. C est un document qui présente toutes les variables contenues dans les fichiers ML2.dta et ML5.dta, avec une explication claire de leur signification. 42

CONCLUSION L avantage qu offre la stratégie de traitement des données telle qu employée au PASEC est de s adapter à plusieurs pays et aussi à d éventuelles modifications de la base de données de départ. Un autre avantage majeur est de se rendre immédiatement compte d éventuelles erreurs à travers les do-files et les log-files 10. Cependant, cette méthode de traitement peut présenter des imperfections. Le PASEC reste ouvert à toute remarque et suggestions pouvant lui permettre de mener de meilleurs traitements. 10 Pour plus de détails sur les programmes présentés dans ce document, consulter le Cd_rom du PASEC. 43