AMÉLIORATIONS RÉCENTES AU PROCESSUS DE CODAGE AUTOMATISÉ DE L'ACTIVITÉ INDUSTRIELLE POUR LE REGISTRE DES ENTREPRISES DE STATISTIQUE CANADA



Documents pareils
Bulletin de service Bureaux d agents, de courtiers en immeubles et d évaluateurs de biens immobiliersetdes autres activités liées à l immobilier

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

ONe Key ID Compte InfoCentre pour les entreprises Compte auprès du ministère de l Environnement (MEO)

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

Internet & la recherche marketing : état des lieux. Présenté par Raymond Cyr Fondateur VOXCO

Tendances récentes dans les industries automobiles canadiennes

RÉGIMES D ASSURANCE SALAIRE (RAS) MISE À JOUR DE

CREODEV technical auditors of international projects training session 2013

Apport des petites et moyennes entreprises au produit intérieur brut : comparaison entre le Canada et les États-Unis

Mémoire de la Corporation des associations de détaillants d automobiles présenté dans le cadre du processus prébudgétaire 2014

If the corporation is or intends to become a registered charity as defined in the Income Tax Act, a copy of these documents must be sent to:

Initiative socialiste pour des impôts équitables Commentaires Bernard Dafflon 1

Guide de déclaration

L ASSURANCE PRÊT HYPOTHÉCAIRE POUR FACILITER LA PRODUCTION D ENSEMBLES DE LOGEMENTS LOCATIFS À COÛT ABORDABLE

1.The pronouns me, te, nous, and vous are object pronouns.

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

RAPPORT FINAL. Étude sur la littératie financière chez les jeunes POR #

Énoncé de position sur les pénuries de médicaments d ordonnance au Canada

PRÉSENTATION SOMMAIRE

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

COMPTABILITÉ DE GESTION

Brochure. Programme de prêts REE LA BANQUE AU SERVICE DES CONSEILLERS. Réservé aux conseillers à titre d information

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Unité D : Placements. Demi-cours VI

Info-commerce : Incertitude économique mondiale

Discours de Eric Lemieux Sommet Aéro Financement Palais des congrès, 4 décembre 2013

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Développer votre plan et votre stratégie Intranet

Foire aux questions Généralités

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

MODALITÉS ET CONDITIONS DU PROGRAMME DE RÉCOMPENSES MASTERCARD DE LA BANQUE WALMART DU CANADA

d. Tendances du marché...22 e. Une vision européenne...22 III. La distribution en France... 23

Ce que l on doit savoir sur la conversion salariale durant un congé sabbatique

Sources de revenu et autonomie des immigrants âgés au Canada SOMMAIRE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Mémoire de l ACP pour le budget 2013 de l Ontario Le propane comme solution énergétique pour l Ontario

La trousse financière pour les nouveaux arrivants. Feuilles de travail

Pourquoi le Canada a besoin de services bancaires postaux

Réseau sur. Médicaments. l Innocuité et l Efficacité des. Document d orientation pour la présentation de requêtes au RIEM

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.

Le statut des coopératives au Canada

Dictionnaire de données de la Base de données du Système national d information sur l utilisation des médicaments prescrits, octobre 2013

Programme de prêts REE

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Conditions Générales du RME

Étude des tendances en matière de soins de santé au Canada

Toronto (Ontario) Le vendredi 26 octobre 2007 L ÉNONCÉ FAIT FOI. Pour de plus amples renseignements, s adresser à :

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

RÉSUMÉ DES BAISSES D IMPÔTS ET DES CHANGEMENTS FISCAUX

COMPTE DU RÉGIME DE PENSION DE LA GENDARMERIE ROYALE DU CANADA. Comptables agréés Toronto (Ontario) Le 29 avril 2005

Comment évaluer des initiatives web 2.0 visant le changement des normes sociales? JASP, Hôtel Fairmont Le Reine Elizabeth, 27 novembre 2012

Les marchés à terme, plus d une raison de s y intéresser

Introduction à l évaluation des besoins en compétences essentielles

Travailler avec les télécommunications

CESSATION DES OPÉRATIONS D ASSURANCE AU CANADA DES SOCIÉTÉS D ASSURANCES ÉTRANGÈRES

QUESTIONS D IMPÔT SUCCESSORAL AMÉRICAIN POUR LES CANADIENS

Déclin des groupes visés par l équité en matière d emploi lors du recrutement. Étude de la Commission de la fonction publique du Canada

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Étude de référence sur la satisfaction de la clientèle : consommateurs à domicile

Allocution de Mme Françoise Bertrand Présidente directrice générale Fédération des chambres de commerce du Québec

CONVENTION DE REPRÉSENTATION sur la protection des adultes et la prise de décisions les concernant, Partie 2

Téléphone : Télécopieur : ATS : info@ipc.on.ca

Estimation des coûts d un crédit d impôt pour la condition physique des adultes. Ottawa, Canada Le 25 septembre

Modèle de budget mensuel

Investissement immobilier: la fin des SCPI?

Demande de contrat de concession Volkswagen Group Canada Inc.

Document d information n o 4 sur les pensions

Mesure de la population économiquement active lors de recensements de la population : Manuel. asdf. Bureau International du Travail.

Évaluation de l admissibilité financière aux certificats d aide juridique

SERVICE FISCALITÉ, RETRAITE ET PLANIFICATION SUCCESSORALE. Guide d utilisation du calculateur des sommes récupérables

Article. Bien-être économique. par Cara Williams. Décembre 2010

RESPONSABILITÉ CIVILE DE L OCCUPANT LES GLISSEMENTS, TRÉBUCHEMENTS ET CHUTES

L Agence du revenu du Canada protège l accès au système pour utilisateurs

Négociations commerciales entre le Canada et l Union européenne 7. Les obstacles techniques au commerce et la coopération en matière de réglementation

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe


3.11 Instauration d un crédit d impôt remboursable pour l acquisition ou la location d un véhicule neuf écoénergétique

Forthcoming Database

Votre guide 2015 Régime enregistré d épargne-retraite (REER)

SOS! Parent Teens Acculturation Conflict in Immigrant Families

Appel d offres pour l élaboration des tables de mortalité de l industrie canadienne

Note d orientation : La simulation de crise Établissements de catégorie 2. Novembre This document is also available in English.

Notes d allocution au Comité permanent des banques et commerce du Sénat

FICHE PRATIQUE SCPI QU EST-CE QU UNE SCPI? AVANTAGES DE L INVESTISSEMENT IMMOBILIER CONTRAINTES DE LA GESTION «EN DIRECT» LES ATOUTS DES SCPI

Taxes indirectes. Concepts de base. Premières Nations du Québec

Trousse des nouveaux arrivants. Impôt sur le revenu. Feuilles de travail

L endettement chez les jeunes Rapport final

Quelle est la meilleure solution :

CPG marchés boursiers non enregistrés Conditions générales

INTRODUCTION Événements importants survenus au cours de l année

Instaurer un dialogue entre chercheurs et CÉR: pourquoi? Me Emmanuelle Lévesque Centre de génomique et politiques Université McGill

Ad-exchanges & RTB (avec la participation de Fabien Magalon, La place

Surveillance consolidée des banques et des négociants en valeurs mobilières

Brock. Rapport supérieur

Vérification des contrats et processus propres au Service du parc automobile. Déposé devant le Comité de la vérification le 12 mars 2015

ENQUÊTE SUR LES ENTREPRISES DE L INDUSTRIE DE LA LANGUE AU CANADA

NOTE D INFORMATION : LA FISCALITE DES FRANÇAIS ETABLIS HORS DE FRANCE ETAT ACTUEL ET EVOLUTIONS EN COURS

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

Étude comparative sur les salaires et les échelles salariales des professeurs d université. Version finale. Présentée au

Transcription:

Assemblée annuelle de la SSC, juin 2009 Recueil de la Section des méthodes d enquête AMÉLIORATIONS RÉCENTES AU PROCESSUS DE CODAGE AUTOMATISÉ DE L'ACTIVITÉ INDUSTRIELLE POUR LE REGISTRE DES ENTREPRISES DE STATISTIQUE CANADA José Gaudet 1 RÉSUMÉ Le Registre des entreprises (RE) est utilisé comme base de sondage par la vaste majorité des enquêtes auprès des entreprises de Statistique Canada. Une des principales informations que fournit le RE est le code d activité industrielle. Dernièrement, des efforts ont été déployés pour améliorer le codage de cette information. Dans cet article, nous donnerons un bref aperçu du processus de codage de l activité industrielle sur le RE et des améliorations qui ont récemment été apportées à ce processus. Nous discuterons également de l environnement de test qui a été mis en place pour évaluer l impact de ces améliorations. MOTS CLÉS : Activité industrielle; Codage automatisé; Registre des entreprises ABSTRACT The Business Register (BR) is used as the survey frame for most of Statistics Canada s business surveys. One of the most important pieces of information available on the BR is the industry code. Recently, efforts were made to improve the quality of the industry coding. In this article, we will give a brief overview of the industry coding process on the BR and of the improvements that were recently implemented. We will also discuss the testing environment that we implemented to assess the impact of those improvements. KEY WORDS: Automated Coding, Business Register, Industrial Activity 1.1 Le Registre des entreprises 1. INTRODUCTION Le Registre des entreprises (RE) est la base de sondage utilisée par la vaste majorité des enquêtes auprès des entreprises de Statistique Canada. On y retrouve de l information utile pour l échantillonnage comme le code d activité industrielle à six chiffres selon le Système de classification des industries de l Amérique du Nord (SCIAN), la situation géographique de l unité, plusieurs variables indiquant la taille de l unité (revenus, dépenses, nombre d employés, etc.) et bien d autres informations. L activité industrielle est l une des informations les plus utilisées par les enquêtes puisqu elle permet de définir les souspopulations d intérêt spécifiques à chacun des programmes d enquêtes. Il est donc primordial d avoir un code SCIAN d un niveau de qualité acceptable disponible pour le plus grand nombre d unités possible sur le RE. En effet, les unités sans SCIAN ou sans variables de taille ne sont généralement pas enquêtées, ce qui génère une sous couverture pour les industries auxquelles ces unités appartiennent dans les faits à laquelle s ajoute une combinaison de sous couverture et de sur couverture causées par les unités classées dans le mauvais SCIAN. Dans le contexte du remaniement du Registre des entreprises de Statistique Canada (Beaucage et Yung 2008), un projet a donc été mis sur pied pour étudier la stratégie de codage de l activité industrielle qui était déjà en place depuis plusieurs années en visant à améliorer le taux de codage automatisé pour permettre de réduire les efforts de codage manuel nécessaires par la suite et de rendre les unités disponibles aux enquêtes plus rapidement. 1 José Gaudet, Division des méthodes d enquêtes auprès des entreprises, Statistique Canada, Immeuble R. H. Coats 11 J, 100, promenade Tunney s Pasture, Ottawa, Ontario, Canada, K1A 0T6, jose.gaudet@statcan.gc.ca 1

1.2 Le processus de codage de l activité industrielle Dans cette section, nous discuterons tout d abord de la façon dont la description de l activité industrielle est obtenue puis des deux étapes du processus de codage de cette description, soit le codage automatisé et le codage manuel. Obtention de la description de l activité industrielle Le codage de l activité industrielle se fait à partir de la description de l activité principale fournie par le répondant lorsqu il fait la demande pour un numéro d entreprise auprès de l Agence du revenu du Canada (ARC). Le format de cette description varie selon la façon dont la demande est soumise à l ARC. Si le répondant soumet sa demande par la poste, la description sera écrite en toute lettre par celui ci et ne sera soumise à aucune validation. S il choisit de se déplacer à un bureau de l ARC ou de téléphoner à l un de ses bureaux, l agent de l ARC utilisera l arbre de décision développé conjointement par l ARC et Statistique Canada pour lui poser une série de questions permettant de préciser la description de l activité industrielle principale de l entreprise. Les réponses à ces questions permettront d obtenir une description assez détaillée pour permettre d y associer ultérieurement et précisément un code SCIAN à six chiffres. Si le répondant choisit de faire sa demande par Internet, le même outil sera utilisé que s il avait contacté l ARC en personne ou par téléphone. Toutefois, il ne bénéficiera pas du support de l employé de l ARC qui possède une certaine expérience. La description finale est donc plus sujette à erreur dans ces cas. Codage automatisé de la description La description ainsi obtenue est par la suite utilisée à Statistique Canada afin d obtenir le code d activité industrielle. En premier lieu, on tente de coder la description automatiquement. Le codage s effectue en utilisant le système de Codage automatisé par reconnaissance de texte (CART) de Statistique Canada. Ce système utilise une série de fichiers de référence, dans les deux langues officielles, contenant des descriptions pour lesquelles on connaît le code SCIAN à six chiffres qui doit être assigné. Pour effectuer le codage, le système effectue un parsage visant à standardiser les descriptions des fichiers de référence et celles à coder. Par exemple, dans la stratégie de parsage, on pourrait décider de mettre tous les caractères en majuscules, de remplacer les caractères accentués par leurs équivalents sans accents, d éliminer certains préfixes ou suffixes, d éliminer les articles et les autres parties de la description qui ne fournissent pas d information supplémentaire le tout dans le but de rendre les descriptions plus facilement comparables. Ainsi, si on élimine les mots et caractères triviaux (d, ), qu on supprime des suffixes de reven (te, deur, deuse) et qu on ordonne les mots, les descriptions suivantes deviennent toutes équivalentes et il sera plus facile de les coder : revente d ordinateurs, revendeur d ordinateurs, revendeuse d ordinateurs et ordinateurs revente deviennent ordinateurs reven. Une fois le parsage appliqué, les descriptions à coder sont comparées à celles des fichiers de référence selon deux approches successives d appariement (direct et indirect) et un score est calculé pour chaque paire. Le score indique dans quelle mesure les descriptions sont semblables. Pour plus de détails sur CART et sur le parsage, voir Wenzowski (1996). Codage manuel de la description Des 40 000 nouvelles descriptions à coder reçues à chaque mois, en moyenne, environ 40% sont codées de façon automatisée. Ceci inclut les descriptions provenant de l outil utilisé par l ARC pour lesquelles on sait d avance qu elles pourront être codées automatiquement par appariement direct aux fichiers de référence. Les descriptions restantes doivent être codées de façon manuelle. C est donc en moyenne 24 000 nouvelles descriptions qui doivent être codées manuellement pour un volume annuel d environ 290 000 descriptions. Le nombre élevé de nouvelles descriptions à coder manuellement fait en sorte qu il est impossible de toutes les coder dès leur arrivée et qu on se retrouve avec une liste de descriptions en attente de codage. Pour s assurer de coder rapidement les unités économiquement importantes, on sélectionne donc un échantillon des descriptions à coder manuellement. En plus de permettre de prioriser les unités importantes et de réduire la charge de travail des codeurs, le fait d utiliser un échantillon nous permet également d estimer la sous couverture causée par les unités qui ne sont pas classées selon le SCIAN. L échantillonnage est fait selon un plan aléatoire simple stratifié avec une strate à tirage complet et deux strates à tirage partiel. La stratification est déterminée en utilisant une fonction de score basée sur la taille des unités, le temps écoulé 2

depuis que l unité est sur le RE, l année où on a reçu la plus récente variable de taille pour ces unités et le nombre de variables de taille disponibles pour ces unités. La fonction de score prend la forme suivante : Où p cuvée taille Équation 1 Fonction de score pour l échantillonnage servant au codage manuel p p Taxe sur les produits et services + p cuvéetaill e impôt + p emploi + p profil w = 33 100 est le rang percentile associé à une combinaison linéaire de la cuvée de l information la plus récente disponible pour chaque unité et les autres p sont les maxima des rangs percentiles calculés pour chaque unité sur chaque variable disponible pour nos quatre sources (taxe sur les produits et services; revenus, actifs et dépenses des données d impôts; nombre d employés et salaires et traitements des données administratives sur l emploi; et finalement revenus, actifs, dépenses, nombre d employés et salaires et traitements des données obtenues de l entreprise lors du profilage). Pour le codage manuel, les unités pour lesquelles aucune variable de taille n est disponible sur le RE sont exclues de la population cible puisque nous n avons aucune indication qu elles sont actives économiquement. L échantillon est réparti entre une strate à tirage complet et deux strates à tirage partiel. La strate à tirage complet représente 50% de l échantillon et est constituée des unités ayant les valeurs les plus élevées pour la fonction de score. Le reste des unités de la population sont réparties entre les deux strates à tirage partiel de façon égale en utilisant la médiane de la fonction de score. On sélectionne 80% du reste de l échantillon dans la strate à tirage partiel constituée des unités avec les valeurs de la fonction de score les plus élevées et 20% dans l autre strate à tirage partiel. Pour plus de détails sur le plan d échantillonnage pour le codage manuel, voir Hunsberger (2007). 2. AMÉLIORATIONS RÉCENTES L entrée en fonction du nouveau RE remanié constituait un bon moment pour revoir la stratégie de codage automatisé de l activité industrielle qui était déjà utilisée depuis plusieurs années. Chacun des aspects de la stratégie de codage a été considéré et des modifications ont été apportées à plusieurs d entre eux. Dans cette section, nous décrirons les améliorations apportées à la stratégie, les outils qui ont été développés et nous présenterons des résultats montrant l impact de ces améliorations sur les taux et la précision du codage. 2.1 Améliorations au codage automatisé Même si le parsage a pour but de faciliter l appariement entre les descriptions des fichiers de référence et celles à coder, il arrive qu il devienne un obstacle au codage. Par exemple, si le parsage élimine les formes plurielles, les descriptions agent immobilier et agents immobiliers deviendront équivalentes. Toutefois, ces deux descriptions correspondent à deux codes SCIAN différents. Pour faire en sorte que ces descriptions soient codées automatiquement et correctement, nous avons développé une stratégie de pré appariement caractère à caractère. Cette stratégie applique, dans un premier temps, un parsage très minimal aux descriptions (mise en majuscules, élimination de la ponctuation et tri des mots) et compare ensuite les descriptions. Si le codage est possible, on conserve le code SCIAN trouvé. Sinon, on passe à la stratégie habituelle de codage avec un parsage plus élaboré. Lors de la revue de la stratégie de codage, un nettoyage des descriptions des fichiers de référence a aussi été effectué. Par exemple, des titres de classes du SCIAN ont été ajoutés pour assurer le codage dans les cas où la description utilisée par le répondant serait un titre de classe. Les descriptions ont également été revues pour refléter le passage au SCIAN 2007 (voir Statistique Canada (2007)). Certaines descriptions ont été ajoutées après avoir été validées par un expert codeur, des corrections ont été apportées au SCIAN associé à certaines descriptions et des descriptions imprécises ont été éliminées des fichiers de référence. La stratégie de parsage utilisée pour le codage automatisé de l activité industrielle a également été revue dans le but d améliorer les résultats de codage. Toutes les expressions de la forme (excepté ) ou (sauf ) sont maintenant éliminées par le parsage. L information contenue dans ces expressions n est pas utile pour le codage et peut même être nuisible. Il est donc préférable de les éliminer. Par exemple, la description Accessoires d'automobile, commerce de gros (sauf pneus et chambres à air) serait parsée à ACCESS AIR AUTOMOBIL CHAMBR COMMERC GROS PNEUS SAUF selon la 3

stratégie actuelle, ce qui pourrait donner un appariement à une description contenant les expressions pneus ou chambre(s) à air qu on tentait d éviter avec le (sauf ). Certaines expressions couramment mal orthographiées ont aussi été identifiées pour être remplacées systématiquement par leur forme correctement orthographiée de même que certaines abréviations courantes qui sont maintenant systématiquement remplacées par les expressions correspondantes. Par exemple, un répondant pourrait fournir la description suivante pour son activité industrielle principale : Fabricant de TV. Bien qu il soit évident pour tous que TV signifie ici téléviseur, le système de codage automatisé ne pourra trouver d appariement pour faire le codage que si on a déjà une description contenant TV dans les fichiers de référence. En remplaçant systématiquement TV par téléviseur, le système pourra apparier directement la description fournie avec celles contenant téléviseur permettant ainsi de coder la description. 2.2 Développement d un environnement de test Dans le cadre de la revue de la stratégie de codage automatisé de l activité industrielle pour le RE, nous avons développé un environnement de test pour permettre d évaluer l impact des modifications proposées à la stratégie de codage. Ce nouvel environnement consiste en un ensemble de programmes SAS qui effectue le codage automatisé de descriptions selon deux stratégies (actuelle et améliorée) et compare les résultats. Les tests ont été effectués principalement sur deux fichiers : un fichier test qui contient une série d un peu plus de 13 000 descriptions auxquelles un expert codeur a manuellement associé le bon code SCIAN et un autre qui contient l ensemble des descriptions qui n ont pas pu être codées automatiquement jusqu à maintenant. Le premier fichier permet de mesurer l impact de la stratégie améliorée sur le taux de codage ainsi que sur la qualité du codage puisque le code qui devrait être associé à ces descriptions est connu. Le deuxième fichier permet de mesurer plus précisément l impact des modifications sur le taux de codage puisqu il contient un plus grand volume de descriptions. 2.3 Développement de programmes pour l analyse des descriptions utilisées Dans le but de faciliter le nettoyage des fichiers de référence sur une base continue, nous avons développé des programmes pour faire l analyse des descriptions utilisées sur le RE. Ces programmes nous permettent d identifier les cas où une description utilisée sur le RE est associée à plus d un SCIAN à 6 chiffres et d obtenir des comptes du nombre d unités associées à chacun de ces codes SCIAN ainsi que le revenu total et le nombre total d employés associés à ces unités. Ceci pourrait survenir dû à des sources différentes de codage (manuel/automatisé ou différents codeurs manuels) ou à cause d une mise à jour du SCIAN au cours de laquelle la description n aurait pas également été mise à jour. Les programmes nous permettent également d évaluer quel impact aurait la décision d utiliser un seul de ces codes SCIAN pour toutes les unités ayant la même description d activité. On peut également faire le même genre d analyse pour les unités ayant le même SCIAN mais ayant été codées à partir de différentes descriptions. Il est aussi possible d analyser l impact de l ajout d une description aux fichiers de référence grâce à des résultats similaires à ceux des tableaux de la section suivante. 2.4 Résultats des améliorations Voici quelques résultats basés sur le fichier test donnant un aperçu de l impact des modifications apportées à la stratégie de codage de l activité industrielle du Registre des entreprises : 4

Tableau 1 Codage par résultat d appariement Stratégie initiale Nouvelle stratégie Différence # % # % # % Correct 2 362 17,4 2 788 20,5 426 3,13 Incorrect 22 0,2 21 0,2 1 0,01 Non codé 11 207 82,4 10 782 79,3 425 3,12 Total 13 591 100,0 13 591 100,0 0 0,00 Comme on peut le voir au tableau 1, la nouvelle stratégie permet de coder correctement 426 descriptions de plus que la stratégie initiale (3,13%) et ce tout en maintenant à peu près le nombre de descriptions codées de façon erronée. On remarque au tableau 2 que la vaste majorité des améliorations des résultats de codage proviennent des changements apportés au parsage. Ces améliorations se font au détriment d un très petit nombre de descriptions pour lesquelles il y a une détérioration. Tableau 2 Source des changements Amélioration Détérioration % Total % Succès Pré appariement caractère à caractère 7 0 1,5 100 Fichiers de référence 111 2 23,5 98,2 Parsage 342 19 75,0 94,7 Total 460 21 100 95,6 Des tableaux semblables ont été produits à partir du deuxième fichier de test en excluant, bien sûr, la dimension du codage correct ou incorrect. Nous ne présenterons pas ici, mais nous pouvons quand même mentionner qu ils montrent une amélioration d environ 10% du taux de codage sur un volume d environ 165 000 descriptions. 3. TRAVAUX FUTURS Pour continuer à améliorer le codage automatisé et ainsi réduire la quantité de codage manuel à effectuer, certaines idées seront considérées au cours des prochains mois. Une autre idée permettant de mieux outiller les codeurs effectuant le codage manuel sera aussi analysée. 3.1 Changement du seuil minimal pour le codage Actuellement, le système pour le codage automatisé ne considère que les descriptions du fichier de référence ayant un score d au moins 9,5 (Wenzowski (1996)). En comparaison avec ce qui est utilisé dans d autres agences statistiques qui utilisent aussi le CART pour le codage de l activité industrielle, ce seuil est relativement élevé. Ceci assure dans une certaine mesure la qualité du code obtenu, mais possiblement au détriment du volume de codage qui pourrait être obtenu avec un seuil moins élevé. Nous sommes donc actuellement à travailler sur l analyse de l impact de la réduction du seuil de codage. Des résultats préliminaires démontrent qu on pourrait obtenir une augmentation d environ 6% du taux de codage en réduisant le seuil à 8,5. Cette baisse du seuil aurait, bien sûr, un impact sur la qualité du codage. On estime que le taux d erreur pourrait atteindre 10% pour le SCIAN à 6 chiffres et environ 3% pour le secteur industriel (qui correspond à peu près au SCIAN à deux chiffres). Ceci est en fait inférieur à ce qu on observe actuellement selon les estimations de l Enquête sur l assurance de la qualité (EAQ) du Registre des entreprises (voir Kirkland et al. (2007)), soit un taux d erreur moyen d environ 16% au niveau du secteur. Il semble donc que la réduction du seuil de codage soit une option viable pour nous permettre d augmenter le taux de codage automatisé sur le RE. L étude est toujours en cours et d autres seuils seront étudiés. 5

3.2 Utilisation du nom de l entreprise Dans certains cas, le nom de l entreprise contient de l information qui pourrait être utile pour le codage automatisé. Certaines agences statistiques dont le U.S. Census Bureau (voir Kornbau et al. (2007)) utilisent déjà cette information. Nous aimerions évaluer l impact que pourrait avoir l ajout d un appariement en utilisant cette information pour les descriptions qui n auraient pas pu être codées par la nouvelle stratégie de codage automatisé. 3.3 Codage automatisé à un niveau inférieur du SCIAN Dans bien des cas, la description reçue pour le codage ne donne pas suffisamment de détails pour permettre de coder au niveau le plus détaillé du SCIAN. Il est toutefois possible qu elle fournisse assez d information pour permettre le codage à un niveau plus agrégé du SCIAN. Dans ces cas, le code SCIAN à deux ou trois chiffres qui pourrait être obtenu en effectuant une passe de codage sur les descriptions pour lesquelles le codage au niveau du SCIAN à 6 chiffres a échoué permettrait de fournir des outils supplémentaires aux codeurs effectuant le travail manuel. Toutefois, ceci impliquerait le développement d une nouvelle stratégie de codage et plus spécifiquement de nouveaux fichiers de référence. 4. CONCLUSION Le code d activité industrielle est l une des informations les plus importantes sur le Registre des entreprises de Statistique Canada. Pour cette raison, il est crucial d obtenir un code SCIAN de qualité pour le plus d unités possible. Dû au volume de nouvelles descriptions à coder à chaque mois sur le Registre des entreprises et au coût élevé associé au codage manuel de ces descriptions, il est important d augmenter le taux de codage automatisé en évitant de sacrifier la qualité de l information obtenue. Nous avons déjà développé et mis en place des améliorations à la stratégie de codage automatisé du Registre et avons encore certaines pistes à explorer. Nous avons profité du remaniement du Registre des entreprises pour faire cet exercice de revue, mais il est aussi important de se rappeler que l amélioration du codage automatisé devrait être un processus continu. Les descriptions des fichiers de référence, la stratégie de parsage et les paramètres du système devraient être revus périodiquement à la lumière des résultats récents de codage. Cette revue devrait avoir lieu au minimum tous les cinq ans lors de la révision du SCIAN. REMERCIEMENTS Je tiens à remercier mes collègues Sébastien Labelle Blanchet, Amanda Smith, Connie Xi et George Sampson pour leurs contributions au codage automatisé sur le Registre des entreprises de Statistique Canada. REFERENCES Beaucage, Yanick et Wesley Yung, (2008) Frame Improvements to Statistics Canada Business Register, Joint Statistical Meetings. Hunsberger, Paul (2007), Backlog Priority Sampling Specifications, Statistique Canada, Document interne. Kirkland, Tyler, Zeeshan Mahmood et Caroline Pelletier (2008), L Enquête sur l assurance de la qualité (EAQ) et ses effets sur le Registre des entreprises de Statistique Canada, Statistique Canada, document interne. Statistique Canada (2007), Système de classification des industries de l'amérique du Nord (SCIAN) Canada, 12 501 XPF. Wenzowski, M. J., (1996) Progrès en matière de logiciel de codage automatisé et assisté par ordinateur à Statistique Canada, Statistique Canada, document interne. Kornbau, Michael, Julie Bouffard et Michelle Vile (2007), Making Quality Improvements to an Automated Industry Coding Application for U.S.Business Establishments, International Conference on Establishment Surveys III. 6