COMPARAISON DE MÉTHODES POUR LA CORRECTION DE LA NON-RÉPONSE TOTALE : MÉTHODE DES SCORES ET SEGMENTATION Émle Dequdt, Benoît Busson 2 & Ncolas Sgler 3 Insee, Drecton régonale des Pays de la Lore, Servce Études Dffuson, 05 rue des Franças Lbres, BP 6740, 44274 NANTES CEDEX 2 ; emle.dequdt@nsee.fr 2 DGFIP, Servce des Retrates de l'état, 0 boulevard Gaston Doumergue, 44964 NANTES CEDEX 9 ; benot.busson@dgfp.fnances.gouv.fr 3 Insee, Drecton régonale des Pays de la Lore, Pôle Ingénere statstque Entreprses, 05 rue des Franças Lbres, BP 6740, 44274 NANTES CEDEX 2 ; ncolas.sgler@nsee.fr Résumé. L obet de cet artcle est de comparer deux méthodes de formaton des classes de repondératon utlsées pour corrger la non-réponse totale : la méthode des scores, fondée sur la modélsaton de la probablté de réponse à l ade de procédures logstques, et la segmentaton. Cette comparason a été mse en œuvre à partr de smulatons sur l enquête concernant les technologes de l nformaton et de la communcaton et le commerce électronque (TIC) 20. Ont été utlsés 2 scénar de non-réponse, ssus de 7 mécansmes de réponse calés sur 3 taux de réponse (70 %, 80 % et 90 %). La segmentaton semble présenter de nombreux avantages. En termes de formaton des classes de repondératon, son ntérêt essentel est de fournr des groupes de réponse homogènes ayant un sens du pont de vue économque. La méthode, descrptve, permet de les caractérser faclement. Elle est également plus lsble, le nombre de groupes reflétant l homogénété des untés en termes de comportement de réponse. En revanche, la qualté des estmateurs obtenus ne donne pas d avantage net à la segmentaton par rapport à la méthode des scores. Les résultats fourns par les deux méthodes sont en effet très proches.
Sommare. Éléments de contexte... 3. Pourquo corrger la non-réponse?... 3.2 Correcton de la non-réponse totale par repondératon... 3.3 Les méthodes de formaton des classes de repondératon... 4.4 Comparason des deux méthodes... 5 2. Étapes prélmnares... 6 2. Stuaton de référence... 6 2.. La populaton fctve... 6 2..2 Les estmateurs cbles... 6 2.2 Génératon des échantllons... 7 2.3 Génératon de la non-réponse... 7 3. Premère méthode : la méthode des scores... 8 3. Descrpton... 8 3.2 Intérêt de la méthode... 8 3.3 Mse en œuvre... 9 4. Deuxème méthode : la segmentaton par arbre... 0 4. Présentaton de la segmentaton par arbre... 0 4.2 Intérêt de la méthode... 2 4.3 Mse en œuvre... 2 5. Analyse des résultats... 3 5. Analyse des «modèles» trouvés... 3 5.. Les varables retenues dans le modèle... 3 5..2 Le nombre de groupes de réponse homogènes... 5 5.2 Analyse des estmateurs... 5 6. Comparason des méthodes... 6 6. La «modélsaton»... 6 6.2 Les ndcateurs de Monte-Carlo... 7 6.3 Synthèse et pstes d approfondssement... 7 Bblographe... 9 Annexes... 20 2
L obet de cette contrbuton est de comparer deux méthodes de formaton des classes de repondératon utlsées pour corrger la non-réponse totale : la méthode des scores, fondée sur la modélsaton de la probablté de réponse à l ade de procédures logstques, et la segmentaton. Cette comparason a été mse en œuvre à partr de smulatons sur l enquête concernant les technologes de l nformaton et de la communcaton et le commerce électronque (TIC) 20.. Éléments de contexte. Pourquo corrger la non-réponse? L absence de réponse, pour tout ou parte d un questonnare, a un mpact sur les estmateurs produts. La conséquence prncpale est de baser les estmateurs ponctuels (proportons pour les varables qualtatves, total ou moyenne par exemple pour les varables quanttatves), s les nonrépondants ont un comportement dfférent des répondants. En effet, dans ce cas, observer les estmateurs sur les seuls répondants ne reflète pas la stuaton qu aurat été observée sur l ensemble de l échantllon. La non-réponse a également pour effet d augmenter la varance des estmateurs : les estmateurs sont mons précs, dans la mesure où ls sont calculés sur un échantllon plus pett, en l absence de réponse sur une parte de l échantllon. Enfn, la non-réponse entraîne un bas des estmateurs de varance standard, ce qu peut avor un mpact lors de la réalsaton de tests par exemple..2 Correcton de la non-réponse totale par repondératon Usuellement, pour les enquêtes thématques entreprses, la non-réponse totale est corrgée par repondératon, qu consste à augmenter le pods de sondage des untés répondantes pour compenser l absence des untés non répondantes. Introdusons quelques notatons pour explcter les effets de la non-réponse. Sot une populaton U de talle N. Supposons que l on veulle estmer le total Y = pour une varable d ntérêt y. y U Pour estmer y, on tre un échantllon aléatore s, de talle n selon un plan de sondage p (.). Sot Yˆ NR l estmateur de Y obtenu après correcton de la non-réponse totale. L erreur totale de Yˆ NR, Yˆ NR Y, peut être décomposée comme la somme de deux termes d erreur : Yˆ NR Y = ( Yˆ Y ) + ( Yˆ Yˆ ) à l HT 4243 erreur due ' échantllonage NR HT, 4243 erreur due à la non réponse où Yˆ HT est l estmateur de Horvtz-Thompson que l on aurat obtenu en l absence de non-réponse, lequel est un estmateur sans bas de Y sous p (s). Le bas de l estmateur s écrt alors de la manère suvante : Bas ( Yˆ ) = E( Yˆ Y ) = E E ( Yˆ Y s) = E ( Yˆ Y s) + E E ( Yˆ Yˆ s) NR NR = E p Er ( Yˆ NR Yˆ HT s) = E p ( Br ) où B E ( Yˆ Yˆ s) p r NR p HT r = r NR HT est le bas de non-réponse condtonnel étant donné l échantllon s, E p (.) l espérance par rapport au plan de sondage et E (.) l espérance par rapport au mécansme de réponse. r p r NR HT 3
Le bas de non-réponse condtonnel est nul lorsque le mécansme de réponse est unforme, c està-dre que pour toutes les untés de la populaton, la probablté de réponse est ndépendante des varables auxlares comme des varables d ntérêt. L hypothèse d un mécansme de réponse unforme n est pas réalste en pratque. Pour s en approcher, l dée est de découper l échantllon en classes, telles que le mécansme de réponse sot homogène à l ntéreur de chacune d entre elles. La dffculté est que les probabltés de réponse p de chaque unté ne sont pas connues. Dès lors, l faudra modélser cette probablté de réponse et utlser sa valeur estmée pour repondérer au sen de chaque classe. S l échantllon s est dvsé en C classes, * w pour l unté dans la classe c est donné par classe c.,..., s c sc telles que U C s s c c= w * = w / pˆ c, où c s,..., L estmateur par repondératon est alors donné par Yˆ = Nˆ y, où Nˆ c = w et rc = w a y s c s c s c RC C c= c rc =, alors le pods austé pˆ est le taux de réponse dans la y w a, sot la moyenne des répondants dans la classe c. Le bas de non-réponse condtonnel s écrt sous la forme : C ( Y s) = E ( Yˆ Yˆ s) = w ( p p )( y y ) Bas ˆ RC R RC c c, p où c= c p c = w p w et c = w y s c s c y w. s s c c s c Ans, pour que le bas sot nul, l sufft que le mécansme de réponse sot unforme au sen de chaque classe, c est-à-dre pˆ = pˆ c s l unté sc. Dans la pratque, lorsque les classes - ou «groupes de réponse homogènes» (GRH) - sont consttuées, l reste alors à repondérer les observatons. On calcule tout d abord le taux de réponse observé à l ntéreur des classes, comme le rapport entre le nombre de répondants et l effectf total du groupe (sot c le nombre d entreprses en tenant compte de leur pondératon détermnée à l échantllonnage). Le taux de réponse pour la classe c est ans donné par : Taux de réponse = w répondantes w ensemble de l ' échantllon = pˆ. c Enfn, les pods détermnés sute à la correcton de la non-réponse sont calculés à l ntéreur de chaque classe en dvsant le pods de départ des répondants par ce taux de réponse observé (estmaton de la probablté de réponse) : w * = w / pˆ. Notons que cette étape de repondératon est menée de manère dentque, quelle que sot la méthode de formaton des classes utlsée..3 Les méthodes de formaton des classes de repondératon Dfférentes méthodes peuvent être moblsées pour former les classes homogènes (ou GRH) par rapport aux probabltés de réponse. Elles sont fondées sur de la modélsaton ou de la segmentaton, mas reposent toutes sur la sélecton au préalable d un ensemble de varables auxlares (dsponbles pour toutes les untés de l échantllon, qu elles soent répondantes ou non répondantes) lées au comportement de réponse. c 4
La mse en œuvre de ces méthodes peut être résumée de la manère suvante : - Technques de modélsaton : Méthode des crosements : Cette méthode consste à modélser les probabltés de réponse p à partr d un modèle contenant au départ toutes les nteractons possbles entre les varables auxlares préalablement sélectonnées et catégorsées s beson. Les crosements de varables sont ensute regroupés de manère tératve usqu à former les classes de repondératon. Des contrantes sont mposées sur le nombre et la proporton d untés répondantes dans chaque classe, afn d évter les classes à fable effectf, qu pourraent rendre les estmateurs nstables. La méthode des crosements est celle qu s approche le plus de celle mse en œuvre usqu à présent au pôle Ingénere statstque Entreprses de l Insee. Elle nécesste néanmons une étape d expertse dans la défnton du modèle, afn d obtenr des groupes de réponse ayant un sens d un pont de vue économque, ou tout au mons qu soent nterprétables selon dfférentes varables. Pour cette rason, nous avons pour nos smulatons chos d utlser une méthode alternatve, plus faclement automatsable : la méthode des scores. Méthode des scores : La méthode des scores s appue également sur de la modélsaton, mas sans ntrodure les nteractons entre les varables auxlares. La probablté de réponse est estmée pour toutes les untés de l échantllon, répondantes ou non, et sert de crtère d homogénété pour la formaton des classes. Sot les estmateurs pˆ sont ordonnés pour dvser l échantllon en classes de talles égales (méthode des «quantles égaux»), sot les untés smlares sont regroupées à l ade d une classfcaton. - Technques de segmentaton : Dans l approche par segmentaton, la populaton de départ est découpée de manère successve selon les modaltés des varables détermnées comme les plus dscrmnantes à chaque tératon. Dfférents algorthmes de segmentaton exstent, tel que l algorthme CHAID (Kass, 980)..4 Comparason des deux méthodes Notre obectf est c de comparer les deux méthodes de correcton de la non-réponse : la méthode tradtonnelle, par régresson logstque, et la méthode par segmentaton. La comparason est effectuée à partr de smulatons sur l enquête concernant les technologes de l nformaton et de la communcaton et le commerce électronque (enquête TIC, cf. annexe 4), en combnant dfférents scénar de non-réponse sur 000 échantllons ssus de l enquête 20. Le protocole suv se déroulera suvant les dfférentes étapes décrtes c-dessous : - consttuton d une populaton fctve à partr de l enquête TIC 20 - calcul des estmateurs cbles - échantllonnage - génératon de la non-réponse - correcton de la non-réponse selon les deux méthodes - analyse des estmateurs obtenus (bas, varance) Les estmateurs sont comparés au regard du bas relatf ( RB MC ) et de l erreur quadratque moyenne ( MSE MC ) de Monte-Carlo. On compare ans : ˆ R seg Y ( ˆ Y R score seg Y RB Y ) 00 (en %) et ( ˆ Y score Y ) 00 MC = R = Y ˆ RB MC = (en %), R Y = 5
MSE MC R R seg seg 2 ( Yˆ ) = ( Yˆ score score Y ) et MSE ( Yˆ ) = ( Yˆ Y ) R = seg MSEMC ( Yˆ ) (on compare en fat score MSE ( Yˆ ) MC à ) où R est le nombre d échantllons ( 000 dans notre cas), MC R = seg Yˆ segmentaton et scores calculés sur l échantllon, et Y l estmateur cble. et 2 score Yˆ les estmateurs des méthodes 2. Étapes prélmnares 2. Stuaton de référence Avant de procéder aux smulatons, comprenant une phase d échantllonnage et la génératon de la non-réponse, la premère étape consste à créer une populaton fctve à partr du fcher TIC 20 de fn d enquête, dans lequel les non-réponses partelle et totale ont été corrgées. 2.. La populaton fctve La populaton fctve est créée à partr de l échantllon de TIC 20. Les entreprses conservées pour créer cette populaton artfcelle, après redressement de la non-réponse totale et partelle sur le fcher d orgne, sont les entreprses répondantes ou consdérées comme telles. Ce derner cas concerne les entreprses non substtuables : ce sont de très grandes entreprses et/ou des entreprses très partculères par rapport aux thèmes tratés, pour lesquelles des tratements partculers sont effectués. Au total, 0 062 entreprses sont retenues, qu représentent 8 % de l échantllon d orgne. Ces untés sont duplquées selon leur pods de calage, pour obtenr une populaton de départ proche de la populaton d orgne. Au fnal, la populaton fctve est composée de 82 46 entreprses. 2..2 Les estmateurs cbles Pour comparer les deux méthodes, ont été choses 4 varables test : 5 varables quanttatves et 9 varables qualtatves (ou/non). Les estmateurs cbles calculés correspondent au total pour les varables quanttatves et à la proporton de «ou» pour les varables qualtatves. Varables test et estmateurs cbles : Varables numérques Cble A2 Nombre de personnes utlsant un ordnateur 5 890 389 B4 Nombre de personnes utlsant Internet 4 679 980 G2 Montant du CA généré va le web (en mllers d euros) 70 092 907 G5 Montant du CA généré va EDI* (en mllers d euros) 304 706 250 G8 Montant des achats électronques (en mllers d euros) 266 397 8 Varables qualtatves (proporton de ou, en %) B Présence d'un accès Internet 98,3 B6 Présence d'un ste web ou d'une page d'accuel 62,7 C Présence d'un système d'échange électronque traté automatquement 48, Da Factures électronques aux clents par tratement automatque 9,6 Db Factures électronques aux clents par courrer ou pèces ontes pdf 34,8 G Récepton de commandes de bens ou servces sur le ste web 9,3 G4 Récepton de commandes de bens ou servces va EDI* 5,3 G7 Achat de bens et servces par voe électronque 27,4 H Utlsaton d'outls fondés sur la RFID* 2,5 * EDI = Echange de données nformatsées, RFID = Identfcaton par rado-fréquence 6
2.2 Génératon des échantllons Avant de smuler la non-réponse, nous procédons à une phase d échantllonnage, l dée étant de cumuler les mécansmes aléatores comme en pratque dans les enquêtes. Après avor créé la populaton fctve, la seconde étape consste à trer 000 échantllons à partr de cette populaton servant de base de sondage, le nombre d échantllons étant suffsamment mportant pour que les dfférences observées par la sute ne soent pas le fat du hasard. On reprodut l échantllonnage stratfé par secteur et talle de l enquête TIC 20. Les entreprses d au mons 500 personnes occupées sont nterrogées exhaustvement. Pour les autre strates, les taux de sondage provennent d une allocaton proportonnelle au nombre de personnes occupées. Cette étape a été réalsée à l ade de la procédure Surveyselect de SAS, en entrant le nombre d untés à trer dans chaque strate. Chacun des 000 échantllons content n fne 2 028 entreprses. 2.3 Génératon de la non-réponse Après avor réalsé l échantllonnage, l étape suvante consste à générer la non-réponse. Nous avons smulé 2 scénar de non-réponse, générés à partr de 7 mécansmes de réponse calés sur 3 taux de réponse dfférents (70 %, 80 % et 90 %). Les mécansmes de réponse ont été construts selon dfférentes logques. Nous avons eu recours au secteur et à la talle des untés, deux varables clés des enquêtes thématques entreprse. Nous avons également testé un mécansme fondé sur les groupes de réponse homogènes, tels qu ls ont été détermnés lors du tratement effectf de l enquête TIC 20. Nous avons par alleurs souhaté tester des mécansmes plus proches de la réalté en ntrodusant des «varables cachées», au sens où celles-c ne seront pas utlsées ensute pour corrger la non-réponse. Les 7 mécansmes de réponse sont les suvants : - Aléatore smple sans remse - ZAU : localsaton de l unté selon la typologe des communes en ares urbanes ; l s agt d une varable cachée - Taux d endettement : taux d endettement de l entreprse catégorsé en décles ; l s agt d une varable cachée - GRH : les GRH retenus lors du redressement de l enquête TIC 20, au nombre de 8 ; les varables composantes sont la régon (DOM/TOM, Pars et pette couronne, provnce), le comportement de réponse à l enquête précédente, le secteur (0 postes) et la talle (5 tranches) - GRH x taux d endettement : crosement des varables précédentes (taux d endettement en varable cachée) - Secteur x talle : crosement du secteur (regroupé en 23 postes de la nomenclature agrégée A38) et de la talle en 5 tranches (0 à 9, 20 à 49, 50 à 249, 250 à 499, 500 salarés et plus) - Secteur x talle x taux d endettement : crosement des varables précédentes (taux d endettement en varable cachée). Ces mécansmes de réponse ont été générés en fxant une probablté de réponse pour chaque modalté des varables (ou crosement de varables) consdérées, en reprodusant le taux de réponse observé sur l enquête TIC 20. Cette premère phase a été réalsée sous SAS à l ade de la procédure Surveyselect. La macro Calmar a ensute été utlsée pour caler les taux de répondants à 70 %, 80 % et 90 %. 7
3. Premère méthode : la méthode des scores La premère méthode de correcton proposée, la méthode des scores, est mse en œuvre avec la méthode des quantles égaux, qu permet d automatser les tratements et d être plus «obectf», par rapport à la pratque usuelle dans le tratement des enquêtes, où une expertse est menée au cas par cas pour amender les classes de repondératon. 3. Descrpton La méthode des scores, permettant de construre les classes de repondératon, procède suvant les deux phases décrtes c-dessous. Étape : Modélsaton du score La ère étape consste à modélser la probablté de réponse Rappelons que nous sommes dans la stuaton d un mécansme de réponse défn par une ndcatrce de réponse a qu vaut s l ndvdu répond et 0 snon, telle que : avec une probablté p. p. a = 0 avec une probablté p À partr de varables auxlares dsponbles pour toutes les untés dans l échantllon (répondantes et non répondantes), on estme la probablté de réponse p pour toutes les untés, qu elles soent répondantes ou non répondantes, à l ade d un modèle logstque de la forme : p log = z β p, où z est un vecteur de varables auxlares dsponbles pour toutes les untés dans l échantllon et β un vecteur de paramètres nconnus. On obtent alors la prédcton pˆ log pˆ βˆ étant obtenu par la méthode du maxmum de vrasemblance. = z βˆ pour toutes les untés dans l échantllon, le vecteur On en dédut le score pˆ, qu servra de crtère d homogénété des classes. Notons que lors de cette étape, est également détermné l ensemble des varables auxlares qu explquent le comportement de réponse. Étape 2 : Formaton des classes En se fondant sur les probabltés de réponse estmées pˆ, on forme les classes suvant la méthode des quantles égaux, en répartssant les untés en un certan nombre de groupes, défn a pror. Pour ce fare, on ordonne les valeurs de pˆ en ordre crossant, pus on dvse l échantllon en classes de talles approxmatvement égales. L dée est que s les probabltés de réponse p sont ben estmées, alors pˆ p, et les classes, homogènes par rapport à pˆ, le seront également par rapport aux p, de sorte que le bas sera proche de 0. 3.2 Intérêt de la méthode Cette méthode, automatque, présente des avantages : - L nformaton des varables auxlares est résumée dans l estmaton de la probablté p ; dès lors, le problème de la présélecton de varables auxlares pertnentes ne se pose pas. - La modélsaton par groupes amène une certane robustesse s le modèle est mal spécfé. - On maîtrse a pror le nombre de classes, ce qu permet d assurer d un nombre suffsant d ndvdus par classe, même s, en théore, le chox du nombre de classes peut s avérer 8
délcat. En effet, l résulte d un comproms entre, d une part, augmenter le nombre de classes pour rédure le bas en assurant une plus grande homogénété à l ntéreur des classes, et, d autre part, dmnuer le nombre de classes pour avor davantage de répondants dans chacune et donc une melleure précson pour des estmateurs plus stables. Les nconvénents sont les suvants : - Le prncpal est que la répartton par quantles égaux peut amener à regrouper des untés très dfférentes (secteur, talle, etc.). Auss, les classes peuvent ne pas avor de cohérence économque, ce qu peut, en pratque, dérouter quelque peu les maîtrses d ouvrage des enquêtes. - En théore, l faudrat également accorder une mportance partculère, en amont de la procédure Logstc, à la structure des données en termes de découpage et de regroupement des modaltés. Cette phase préalable n a toutefos pas été réalsée c, de manère à comparer les deux méthodes de correcton de la non-réponse à partr de varables dentques en entrée. - Il faut également sgnaler que la méthode ne permet pas de détecter les nteractons entre varables, sauf à les ntégrer explctement en entrée de la modélsaton. 3.3 Mse en œuvre La modélsaton des ndcatrces de réponse et l estmaton des probabltés de réponse sont réalsées sous SAS à l ade d une procédure Logstc non pondérée. Les varables en entrée du modèle sont des varables qualtatves dsponbles pour toutes les untés (souvent des varables de lancement de l enquête) ayant potentellement une nfluence sur la probablté de réponse. Le chox a été largement nspré de la consttuton des groupes de réponse homogènes réalsée lors du tratement effectf de la non-réponse sur le fcher TIC 20, qu retenat les varables : secteur d actvté, talle, localsaton, comportement de réponse à l enquête précédente et appartenance à un groupe. Nous avons aouté le chffre d affares, et vellé à prendre le même nveau de détal que lors de la génératon de la non-réponse pour les varables relatves au secteur et à la talle de l entreprse. Au fnal, les varables proposées en entrée de la modélsaton sont les suvantes : - le secteur d actvté : regroupement en 23 postes de la nomenclature d actvté agrégée A38 - la talle de l entreprse : 0 à 9 salarés 20 à 49 salarés 50 à 249 salarés 250 à 499 salarés 500 salarés et plus - la localsaton géographque : DOM/TOM Pars et pette couronne autres régons regroupées par grandes zones géographques - le comportement de réponse à l'enquête précédente : entreprse non nterrogée dans TIC 200 entreprse nterrogée répondante à TIC 200 entreprse nterrogée non répondante ou hors champ dans TIC 200 - l appartenance à un groupe en 2008 : ou non 9
- le chffre d affares (en mllers d euros) : 0 à mons de 2 000 2 000 à mons de 5 000 5 000 à mons de 20 000 20 000 à mons de 70 000 70 000 et plus. Les groupes de réponse homogènes sont ensute détermnés à l ade de la procédure Rank de SAS, le nombre de classes étant paramétré à 25. Il faut précser que le nombre de classes demandées consttue en fat un maxmum. En pratque, le nombre de classes peut être nféreur à 25 en foncton du modèle trouvé lors de la procédure Logstc (cf. page 5). 4. Deuxème méthode : la segmentaton par arbre 4. Présentaton de la segmentaton par arbre La segmentaton consste à construre des groupes d untés les plus homogènes possble par rapport à une varable d ntérêt Y en utlsant l nformaton de p varables X,..., X p, dtes «explcatves». Elle procède par dvsons successves des untés d une populaton en segments, ou «nœuds», construsant un arbre, de sorte que chaque nœud sot homogène par rapport à la varable d ntérêt en utlsant l nformaton des varables explcatves. L ensemble des nœuds termnaux, ou «feulles», consttue une partton de la populaton ntale en classes homogènes par rapport à la varable d ntérêt. Les varables Y et X,..., X p peuvent être bnares, nomnales, ordnales ou quanttatves. S Y est qualtatve (bnare, nomnale ou ordnale), on parle d arbre de classfcaton. S Y est quanttatve, on parle d arbre de régresson. Dverses méthodes de segmentaton par arbres (CART, ID3, C4.5 et C5.0, CHAID, QUEST, etc.) ont été proposées depus les années 960. Elles dffèrent par le type de varables à exploter (qualtatves, contnues ), par l ndcateur de qualté ou les crtères d arrêt retenus. Ces méthodes sont dsponbles dans dfférents logcels de statstque. Pour automatser la segmentaton sur 000 échantllons pour chacun des 2 scénar, nous avons chos d utlser la méthode CHAID, mplémentée en SAS va la macro TREEDISC. Celle-c permet de générer un code SAS utlsable pour réalser une classfcaton des observatons. La méthode CHAID (Ch-square Automatc Interacton Detecton) a été proposée par Kass (980). Il s agt d une améloraton des algorthmes AID (Morgan et Sonqust, 963) et THAID (Messenger et Morgan, 973). La méthode fonctonne avec des varables qualtatves ou quanttatves, et repose sur l utlsaton de deux algorthmes : pour regrouper les modaltés des varables explcatves et pour construre l arbre. Nous explquons c-dessous le processus suv avec des varables qualtatves. Soent Y la varable d ntérêt qualtatve à K modaltés et qualtatves, telles que X possède M modaltés. X,..., X J, J varables explcatves 0
Étape : Algorthme de regroupement des modaltés L algorthme est fondé sur des tests du ch2, dont la statstque se calcule de la manère suvante, pour deux varables qualtatves déclnées respectvement selon p et q modaltés : χ ² = p q nk. n. nk n n k= = k. n. n On construt pour chaque varable explcatve crosant Y et X : 2 Y/X X y X le tableau de contngence de dmenson ( K, )... x m... x M Σ M y k y K Σ n On détermne la pare de modaltés de X dont le sous-tableau (,2) K fournt le plus pett ch2.s ce ch2 n est pas sgnfcatf, c est-à-dre que la lason entre Y et les deux modaltés consdérées de X est fable, on regroupe les deux modaltés correspondantes en une seule modalté et on répète l opératon usqu à ce que toutes les modaltés (regroupées ou non) présentent un ch2 sgnfcatf. Ensute, pour chaque modalté composée de plus de tros modaltés orgnales, on détermne la dvson bnare assocée au ch2 le plus grand. S ce ch2 est sgnfcatf, c est-à-dre que la lason entre Y et les deux nouvelles modaltés est forte, on effectue cette dvson bnare et on revent au début de l étape. Étape 2 : Algorthme de constructon de l arbre Il faut tout d abord trouver la varable explcatve la plus sgnfcatve au moyen de tests du ch2. Pour cela, on calcule la sgnfcatvté p de chaque varable X dont les modaltés ont été regroupées et on retent la plus sgnfcatve. Le degré de sgnfcatvté corrgé p est obtenu en multplant le degré p du test du ch2 du tableau rédut par le coeffcent de Bonferron, qu représente le nombre de possbltés de regrouper les L modaltés d une varable explcatve en g groupes ( g L ) et vaut selon le type de varable : g - nomnale : ( ) ( ) L g nom =! ( g ) = 0! B, L - ordnale : B ord =, g L 2 L 2 - ordnale avec une modalté «flottante» (sans obet) : B ord = + g. g 2 g
S la sgnfcatvté dépasse la valeur seul défne a pror, on dvse l ensemble des observatons en autant de segments que de modaltés composées de la varable chose. Pour chaque segment ans obtenu, on répète ensute l étape 2 usqu à ce qu l n y at plus de varable explcatve sgnfcatve. 4.2 Intérêt de la méthode La segmentaton par arbre présente de nombreux avantages : - Le prncpal avantage est la smplcté de son fonctonnement, par dvsons successves de la populaton. La lsblté des règles d affectaton des untés aux groupes permet de communquer asément sur la méthode, en l llustrant notamment par des arbres. - La segmentaton est une méthode non paramétrque, ne nécesstant pas d hypothèses sur la dstrbuton des varables. - Elle est peu sensble aux valeurs extrêmes ou aberrantes. - Elle permet de détecter les nteractons entre pluseurs varables. - Par alleurs, comme pour la méthode des scores, le problème de la présélecton de varables explcatves pertnentes ne se pose pas, pusque la segmentaton met en œuvre des tests de sgnfcatvté des varables. - Par rapport à la méthode des scores, la segmentaton devrat permettre d obtenr des groupes ayant davantage de cohérence d un pont de vue économque, dans la mesure où les modaltés des varables qualtatves ordnales sont regroupées de manère adacente, tands qu avec la méthode des scores, tous les regroupements sont possbles. La segmentaton n est toutefos pas exempte d nconvénents : - Le prncpal, tout au mons avec la macro TREEDISC, est que l on ne maîtrse pas le nombre de groupes de réponse homogènes consttués, qu peuvent en outre être de talle très dfférente. - Il s agt d une méthode «descrptve» et non «explcatve», ce qu sgnfe qu elle ne s appue sur aucun test, pusqu aucun modèle n est supposé a pror. - Par alleurs, la méthode est assez sensble à la structure des données (nombre de modaltés des varables, etc.). - Elle peut également manquer de robustesse, s l échantllon n est pas assez grand. 4.3 Mse en œuvre L algorthme de la macro TREEDISC sous SAS est smlare à l algorthme CHAID décrt plus haut, même s les crtères de sgnfcatvté utlsés lors des tests sont dfférents : pour le regroupement des modaltés (étape ), la sgnfcatvté des tests est observée au regard des p-values austées. Par alleurs, pour trouver la varable de dvson la plus sgnfcatve (étape 2), l algorthme propose une améloraton de l austement de Bonferron. La macro TREEDISC permet de réalser des arbres m-ares. Les varables explcatves peuvent être qualtatves (nomnales ou ordnales, avec possblté de modalté «flottante» (sans obet)) ou quanttatves. Lors du parttonnement, les modaltés des varables nomnales peuvent être regroupées sans contrante. Pour les varables ordnales, les modaltés, étant ordonnées, ne peuvent être regroupées qu entre modaltés adacentes. Les valeurs manquantes sont tratées comme une modalté supplémentare. Les dfférents crtères (macro varables) à rensegner sont : - le seul de sgnfcatvté du test du ch2 (alpha) 2
- les crtères d arrêt : le nombre mnmum d observatons d un nœud pour qu l sot subdvsé en pluseurs branches (branch) le nombre mnmum d observatons pour consttuer une nouvelle feulle (leaf) le nombre maxmum de nveaux de l arbre (maxdepth). Dfférents tests ont montré que pour notre eu de données, l état dffcle de concler un seul de sgnfcatvté fable (mons de 0 %) avec un nombre relatvement mportant de groupes de réponse homogènes (au mons une vngtane), sans que ces derners soent trop volumneux (mons de 2 500 untés). Au fnal, les segmentatons, non pondérées, ont été réalsées avec le seul de sgnfcatvté alpha=0, et les crtères d arrêt suvants : branch=60, leaf=80 et maxdepth=20. 5. Analyse des résultats 5. Analyse des «modèles» trouvés 5.. Les varables retenues dans le modèle Pour comparer les performances des deux méthodes, nous nous ntéressons dans un premer temps aux «modèles» trouvés va la régresson logstque et la segmentaton. Le terme de «modèle» est c un abus de langage, pusque dans la seconde méthode, l s agt plus exactement des varables ntervenant dans les segmentatons, aucune modélsaton n étant réalsée. Globalement, quelle que sot la méthode utlsée, les résultats montrent une dfférence notable entre les scénar aléatore smple et varable cachée seule (ZAU ou taux d endettement), où le plus souvent aucun modèle n est trouvé, sauf avec un taux de réponse de 90 %, et les autres scénar, pour lesquels un modèle est trouvé dans tous les cas. Les mécansmes avec varables cachées seules sont approchés par des modèles comprenant une seule varable : le secteur d actvté prédomne pour le taux d endettement et la localsaton géographque pour le ZAU, mas le nombre d échantllons concernés reste assez modeste pour le taux d endettement. Pour les autres scénar, les modèles sont en général ben reconsttués ou approchés, même s ls sont combnés à une varable cachée. Dans ce cas, les varables cachées renforcent l effet des varables avec lesquelles elles sont les plus corrélées. Par alleurs, pour tous les scénar, plus le taux de réponse augmente, plus les modèles auront tendance à comporter davantage de varables. Ans, des taux de réponse élevés n assurent pas de retrouver exactement le mécansme de réponse, par contre, ls permettent de repérer davantage de modèles cohérents avec celu-c. Les modèles observés avec la régresson logstque et la segmentaton sont très proches : globalement, les méthodes explcatve et descrptve se reognent. La prncpale dfférence est que la segmentaton garde davantage de varables par rapport à la modélsaton logstque, en partculer dans les scénar avec GRH et quand le taux de réponse est élevé. Les modèles trouvés avec la segmentaton sont donc beaucoup plus varés et comportent souvent davantage de varables, au pont que pour les scénar fondés sur le GRH, avec ou sans la varable cachée, les deux ters des modèles avec 90 % de réponse comprennent l ensemble des varables potentelles. La plus grande varété de modèles avec la segmentaton est également de mse pour les scénar reposant sur le secteur et la talle de l entreprse, qu ls soent assocés ou non au taux d endettement. 3
Prncpaux modèles trouvés par régresson logstque selon le scénaro (en % sur les 000 échantllons) : Scénaro Modélsaton Talle Localsaton géographque Comportement de réponse en 200 Appartenance à un groupe Aléatore smple ZAU Taux d'endettement GRH GRH x taux d'endettement Secteur x talle Secteur x talle x taux d'endettement Secteur Chffre d'affares Modèles trouvés : varables sgnfcatves x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x 70 % 75 25 00 80 % 75 25 00 90 % 76 24 00 70 % 56 6 28 00 80 % 37 29 34 00 90 % 53 47 00 70 % 65 35 00 80 % 60 40 00 90 % 4 9 40 00 70 % 4 20 22 2 5 00 80 % 5 28 25 26 6 00 90 % 27 25 8 9 00 70 % 4 22 20 7 00 80 % 6 35 28 7 5 00 90 % 44 4 7 5 00 70 % 48 36 6 00 80 % 74 26 00 90 % 58 26 6 00 70 % 64 22 4 00 80 % 44 4 5 00 90 % 4 37 22 00 Note : Les cases blanches représentent mons de 0 % des échantllons. Lecture : Lorsque le mécansme de réponse est fondé sur les varables secteur x talle avec un taux de réponse de 70 %, pour 48 % des échantllons, le modèle trouvé comprend le secteur et le chffre d affares. Prncpaux «modèles» ssus de la segmentaton selon le scénaro (en % sur les 000 échantllons) : Scénaro Varables Appartenance à un groupe Aléatore smple ZAU Taux d'endettement GRH GRH x taux d'endettement Secteur x talle Secteur x talle x taux d'endettement Secteur Talle Localsaton géographque Comportement de réponse en 200 Chffre d'affares "Modèles" trouvés : varables sgnfcatves x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x Autres modèles Ensemble des modèles 70 % 63 37 00 80 % 65 35 00 90 % 65 35 00 70 % 44 56 00 80 % 27 4 59 00 90 % 9 8 00 70 % 52 48 00 80 % 48 52 00 90 % 29 0 6 00 70 % 20 3 5 22 30 00 80 % 2 2 24 40 2 00 90 % 2 66 2 00 70 % 2 7 3 2 26 00 80 % 6 5 7 40 2 00 90 % 3 68 9 00 70 % 3 2 75 00 80 % 7 6 3 45 00 90 % 9 6 2 3 40 00 70 % 9 3 68 00 80 % 6 8 2 54 00 90 % 9 9 6 4 32 00 Note : Les cases blanches représentent mons de 0 % des échantllons. Lecture : Lorsque le mécansme de réponse est fondé sur les varables secteur x talle avec un taux de réponse de 70 %, pour 3 % des échantllons, le «modèle» trouvé comprend le secteur et le chffre d affares. Autres Ensemble 4
5..2 Le nombre de groupes de réponse homogènes Un autre pont à examner, pour meux comprendre le fonctonnement de la repondératon, est le nombre de groupes de réponse homogènes obtenus n fne, après la modélsaton. Pour la méthode des scores, le nombre de groupes de réponse homogènes est comprs entre et 25 selon les scénar. Le nombre de classes est en effet fxé au maxmum à 25, mas vare en foncton du modèle trouvé. Ans, reflet des conclusons précédentes, dans le cas du scénaro aléatore smple ou des varables cachées seules, les échantllons consttuent souvent une seule classe de repondératon. C est le cas lorsque le modèle est rédut à la constante. Lorsqu une ou pluseurs varables sont ugées sgnfcatves, l est possble d attendre 25 groupes de réponse homogènes. Pour les autres scénar, le nombre mnmum de groupes s établt à 8 (secteur x talle), suffsant pour assurer une bonne homogénété au sen des classes. On peut remarquer également que plus le mécansme fat ntervenr de nombreuses varables, plus le nombre de groupes est élevé, ce qu est le cas lorsqu on aoute la varable cachée. Avec la segmentaton, le nombre de groupes de réponse vare entre et 35. Contrarement à la méthode des scores, le nombre de classes maxmum n est c pas mposé. Cela a peu d mpact sur le scénaro aléatore smple et sur ceux fondés sur les varables cachées seules, où le nombre de groupes est relatvement fable, comme avec la méthode des scores. Par contre, pour les autres scénar, la segmentaton aboutt à un nombre de groupes de réponse homogènes très varable, même pour un scénaro donné. Ans, pour les scénar fondés sur le GRH ou le crosement secteur x talle, avec ou sans varable cachée, tands que pour la méthode des scores le nombre de classes est comprs entre 8 et 25, avec la segmentaton, celu-c osclle entre 3 et 35. S le nombre de GRH défn par la méthode des scores dépend prncpalement de son paramétrage, le fat que le nombre de GRH détermnés par la segmentaton ne sot pas contrant permet une melleure adéquaton entre ce nombre de GRH et la stuaton à décrre. Nombre de GRH obtenus par scénaro selon la méthode : Scénaro Mécansme de réponse Aléatore smple ZAU Taux d'endettement GRH GRH x taux d'endettement Secteur x talle Secteur x talle x taux d'endettement Taux de réponse Méthode des scores Segmentaton Mnmum Médane Maxmum Mnmum Médane Maxmum 70 % 25 6 80 % 25 2 90 % 25 2 70 % 25 2 4 80 % 5 25 3 5 90 % 9 25 4 7 70 % 25 3 80 % 25 2 7 90 % 3 25 3 5 70 % 2 25 25 6 22 80 % 25 25 25 7 3 24 90 % 20 23 25 0 6 30 70 % 2 25 25 5 22 80 % 25 25 25 7 3 23 90 % 23 25 25 9 7 29 70 % 9 25 25 3 8 9 80 % 8 24 25 6 4 24 90 % 8 24 25 6 24 35 70 % 20 25 25 3 8 7 80 % 23 25 25 6 3 28 90 % 23 25 25 9 7 30 5.2 Analyse des estmateurs La qualté des estmateurs obtenus après correcton de la non-réponse est analysée au regard des ndcateurs de Monte-Carlo (cf. pages 5 et 6). 5
Concernant les varables quanttatves, qu sont les prncpales varables sur lesquelles les résultats de l enquête sont dffusés, les estmateurs sont globalement ben redressés par les deux méthodes. Le bas relatf est touours fable, en valeur absolue nféreur à respectvement,3 % et, % pour la méthode des scores et la segmentaton. L erreur quadratque moyenne est également du même ordre de grandeur par les deux méthodes, avec un rapport comprs entre 0,66 et,29. L erreur relatve est d alleurs partculèrement fable pour les varables de montant de chffre d affares et d achats électronques (varables G2, G5 et G8), où elle vare entre 0,93 et,08. En termes de scénaro, les mécansmes fondés sur le GRH semblent meux corrgés par la méthode des scores, tands que les taux de réponse plus élevés (90 %) seraent à l avantage de la segmentaton, même s les écarts restent fables. Pour ce qu est des varables qualtatves, les résultats sont également très proches va les deux méthodes. Comme pour les varables quanttatves, les bas relatfs sont fables : ls sont contenus à mons de,2 % en valeur absolue, sauf dans le cas du scénaro secteur x talle x taux d endettement pour la récepton de commandes de bens ou servces sur le ste web (G), où ls attegnent,5 % pour la méthode des scores et 2, % par la segmentaton. Par alleurs, l erreur quadratque moyenne est très proche va les deux méthodes : l erreur relatve est comprse entre 0,95 et,7, les valeurs extrêmes étant observées pour le scénaro secteur x talle x taux d endettement. 6. Comparason des méthodes 6. La «modélsaton» Les résultats présentés sur la «modélsaton» et le nombre de groupes de réponse homogènes consttués tradusent le fonctonnement très dfférent des deux méthodes. Malgré quelques nconvénents, la phase de «modélsaton» semble être à l avantage de la segmentaton. Cette méthode permet en effet de décrre et nterpréter les groupes de réponse homogènes à l ade des caractérstques des untés et de leur taux de réponse. Les règles d affectaton précses rendent la méthode transparente pour l utlsateur et permettent de communquer faclement sur les chox réalsés en termes de correcton de la non-réponse. En comparason, avec la méthode des scores, les classes de repondératon peuvent regrouper des untés très dfférentes, pusque ces dernères sont classées unquement en foncton de leur probablté prédte. Il faut toutefos précser que ce constat est lé en parte à la répartton des entreprses par quantles égaux. Dans le tratement actuel des enquêtes thématques entreprses, les résultats de la régresson logstque sont utlsés pour consttuer, «à la man», des groupes d entreprses présentant des caractérstques proches selon leur probablté de réponse. Cela revent à fare pas à pas ce que la segmentaton réalse de manère automatque, à cec près que la phase de modélsaton en amont de la méthode des scores rsque de reeter un certan nombre de varables canddates utlsées dans la segmentaton. Il est également ntéressant de soulgner que la segmentaton prend en compte un nombre plus mportant de varables pour un nombre de groupes de réponse homogènes souvent plus fable qu avec la méthode des scores. La segmentaton permet donc d utlser davantage d nformaton auxlare. Quant au nombre plus mportant de classes détermnées avec la méthode des scores, s l peut donner l mpresson de meux corrger la non-réponse, la répartton par quantles égaux n assure aucunement que les probabltés soent très dfférentes entre les groupes obtenus. Dès lors, le nombre de classes ssu de la segmentaton a plus de sens que celu obtenu par la méthode des scores, qu peut s avérer artfcellement élevé. La segmentaton est donc également plus transparente sur ce pont. Pour compléter la comparason, deux aspects négatfs de la segmentaton dovent être sgnalés. Cette méthode nécesste en amont de nombreux tests sur les paramètres à rensegner (profondeur de l arbre, nombre d observatons mnmum par nœud, etc.), et surtout une nterrogaton subsste sur la robustesse de la méthode, notamment en présence de petts échantllons. 6
6.2 Les ndcateurs de Monte-Carlo Concernant les ndcateurs de Monte-Carlo, les résultats semblent plus souvent en faveur de la segmentaton, en partculer pour les varables quanttatves et les taux de réponse élevés. En revanche, la méthode des scores s en sort meux en termes de bas quand le taux de répondants est plus fable. Ans, tous scénar confondus, par rapport aux 294 cas étudés, synthèse des 2 scénar applqués aux 4 varables d ntérêt, la segmentaton permet d amélorer le bas dans 52 % des cas par rapport à la méthode des scores, et surtout de dmnuer l erreur relatve dans 59 % des cas. S globalement l avantage se porterat plutôt sur la segmentaton, dont le prncpal ntérêt est de dmnuer plus souvent l erreur relatve par rapport à la méthode des scores, l faut toutefos se garder de généralser ce résultat, et ce, pour deux rasons. La premère est que, même s les ndcateurs de Monte-Carlo permettent de comparer les deux méthodes, les ndcateurs restent tout de même assez proches. La seconde rason porte sur la varablté des résultats en foncton des varables et du scénaro. Proporton de cas où la segmentaton est melleure selon l ndcateur de Monte-Carlo (en %, sur les 294 cas étudés, sot 4 varables x 2 scenar) : Bas relatf Erreur relatve 70 % 80 % 90 % Total 70 % 80 % 90 % Total Varables quanttatves 43 5 63 52 7 5 83 69 dont Aléatore smple 20 40 20 27 00 80 00 93 ZAU 00 00 00 00 00 00 00 00 Taux d'endettement 60 60 60 60 00 00 60 87 GRH 40 60 80 60 40 0 60 33 GRH x taux d'endettement 40 60 80 60 40 20 60 40 Secteur x talle 20 0 80 33 60 40 00 67 Secteur x talle x taux d'endettement 20 40 20 27 60 20 00 60 Varables qualtatves 44 48 62 5 62 5 63 59 dont Aléatore smple 44 44 33 89 00 67 ZAU 67 56 67 63 33 33 44 37 Taux d'endettement 56 67 56 59 33 89 44 GRH 67 44 56 56 67 67 67 67 GRH x taux d'endettement 44 44 67 52 56 56 56 56 Secteur x talle 33 44 78 52 44 44 78 56 Secteur x talle x taux d'endettement 33 33 67 44 44 44 67 52 Ensemble des varables 44 49 62 52 57 53 67 59 dont Aléatore smple 4 43 36 3 93 93 43 76 ZAU 79 7 79 76 57 57 64 60 Taux d'endettement 57 64 57 60 43 57 79 60 GRH 57 50 64 57 57 43 64 55 GRH x taux d'endettement 43 50 7 55 50 43 57 50 Secteur x talle 29 29 79 45 50 43 86 60 Secteur x talle x taux d'endettement 29 36 50 38 50 36 79 55 Note : Les cases sont grsées lorsque la segmentaton est melleure dans la maorté des cas. 6.3 Synthèse et pstes d approfondssement Les ndcateurs de Monte-Carlo étant fnalement relatvement proches, l ntérêt essentel de la segmentaton porte sur la phase de «modélsaton». La segmentaton présente en effet pluseurs avantages. Elle faclte le regroupement des modaltés, utlse davantage d nformaton auxlare et permet de caractérser les groupes de réponse homogènes consttués. En marge de ces conclusons, l faut avor à l esprt que les deux méthodes de correcton de la nonréponse ont été tratées dans un cadre partculer, celu de l enquête TIC 20, avec des chox parfos arbtrares sur leur mse en œuvre (nombre de groupes de réponse homogènes pour la 7
méthode des scores, crtères d arrêt pour la segmentaton, etc.). Auss, quelques pstes d approfondssement peuvent être envsagées. D autres tests pourraent être effectués pour analyser l mpact des dfférents paramètres (seul de sgnfcatvté, etc.). La stablté des modèles de segmentaton pourrat également être vérfée par valdaton crosée ou par utlsaton d un échantllon d apprentssage et d un échantllon-test. Enfn, en pratque, la régresson logstque pourrat être conservée en phase prélmnare, pour sélectonner les varables auxlares, avant d utlser la segmentaton par arbres pour le regroupement des modaltés et la formaton des classes de repondératon. 8
Bblographe Théore des sondages : - Ardlly, P. (2006). Les technques de sondage, Technp. - Le Guennec, J., and Sautory, O. (2005). Les sondages avec SAS, Insee/Cepe. Correcton de la non-réponse : - Hazza, D. (2006). Tratement de la non-réponse dans les enquêtes, Ensa, support de cours FCDA. - Caron, N. (2005). La correcton de la non-réponse par repondératon et par mputaton, Insee, Document de traval, n M0502. - Neter, B., and Busson, B. (200. Comment redresser une enquête thématque?, Insee, Document de traval, n E200/0. Régresson logstque : - Pommeret, D. (2008). Régresson sur données catégorelles et sur données de comptage, Ensa, support de cours FCDA. - Nakache, J.-P., and Confas, J. (2003). Statstque explcatve applquée, Technp. Segmentaton : - Gelen, B. (20). Méthodes de segmentaton par arbres, Ensa, support de cours de 2 e année. - Costet, N. (2009). Méthode de segmentaton par arbres bnares, Ensa, support de cours FCDA. - Rakotomalala, R. (2005). Arbres de décson, Revue Modulad, n 33. - Nakache, J.-P., and Confas, J. (2003). Statstque explcatve applquée, Technp. - Claudel, A., and Guevara, S., Utlsaton des arbres de segmentaton - Gude du chargé d études pour CIS 200, Insee Île-de-France, Document de traval. - Tufféry, S. (2009). Étude de cas en statstque décsonnelle, Technp (macros SAS dsponbles sous www.toedtons.com/sources/tuffery_etude-de-cas.htm). Enquête TIC 20 : - L enquête sur les technologes de l nformaton et de la communcaton, auprès des entreprses - TIC, Insee, Sources et méthodes (verson du 7 anver 20). - Demande d expertse pour le trage de l échantllon pour l enquête TIC 20, Insee/DES, note nterne n /DG75-E430/ du 22 ullet 200. - Demande de trage de l échantllon pour l enquête TIC 20, Insee/DSE, note nterne n 60/DG75-E430/ du 2 novembre 200. - Trage de l échantllon pour l enquête TIC 20, Insee/UMSE, note nterne n 65/DG75- E0/AF du 22 novembre 200. - Redressement de l enquête TIC 20 (correcton de la non-réponse et calage) - Note de cadrage, Insee/PISE, note nterne du 2 avrl 20. 9
Annexes Annexe Estmateurs... 2 _ Annexe 2 Indcateurs de Monte-Carlo. 23 _ Annexe 3 Exemple d arbre de segmentaton 25 _ Annexe 4 L enquête TIC 20... 27 _ 20
Annexe - Estmateurs Cble et écart par rapport à la cble (en %) pour les varables quanttatves: A2 Nombre de personnes utlsant un ordnateur B4 Nombre de personnes utlsant Internet G2 Montant du CA généré va le web G5 Montant du CA généré va EDI G8 Montant des achats électronques Cble Scores Segmentaton 70 % 80 % 90 % 70 % 80 % 90 % SAS 5 890 0,0 0,0 0,0 0,0 0,0 0,0 zau 5 890-0,5-0,4-0,3-0,5-0,4-0,3 taux_endett 5 890 0,3 0,3 0,2 0,2 0,2 0, GRH 5 890 0, -0,4-0,8 0,2 0, 0, GRH_endett 5 890 0,3-0, -0,6 0,3 0,2 0,2 sect_talle 5 890 0, -0, -0, 0,3 0,3-0, sect_talle_endett 5 890 0,0-0,2 0,0 0,4 0,4 0, SAS 4 680 0,0 0,0 0,0 0,0-0, 0,0 zau 4 680-0,6-0,5-0,4-0,6-0,5-0,4 taux_endett 4 680 0,2 0,3 0,2 0,2 0,2 0, GRH 4 680 0, -0,4-0,7 0,2 0, 0, GRH_endett 4 680 0,2-0,2-0,7 0,2 0, 0, sect_talle 4 680 0, -0,2-0, 0, 0,3-0, sect_talle_endett 4 680-0, -0,3 0,0 0,3 0,4 0, SAS 70 093 0,2 0,3 0, 0,2 0,3 0, zau 70 093-0,4-0,2-0, -0,4-0,2-0, taux_endett 70 093 0,4 0,5 0,4 0,3 0,4 0,3 GRH 70 093 0,3-0,3-0,7 0,3 0,2 0,0 GRH_endett 70 093, 0,7 0,,0, 0,8 sect_talle 70 093 0,4 0,3 0,3 0,3 0,6 0,3 sect_talle_endett 70 093 0, -0,2-0, -0,2 0,0-0, SAS 304 706-0, 0,0 0,0-0,2-0, 0,0 zau 304 706-0,4-0,2-0,2-0,3-0, -0,2 taux_endett 304 706-0, -0,2-0,2-0,3-0,4-0,3 GRH 304 706 0,2-0,5-0,9 0,8 0,6 0,3 GRH_endett 304 706-0, -0,7 -,3 0,3 0, -0,2 sect_talle 304 706 0,0-0, -0, 0,7 0,2-0, sect_talle_endett 304 706-0,6-0,8-0,5 0,2 0,0-0,6 SAS 266 397-0, 0, -0, -0, 0,0-0, zau 266 397-0,4-0,4-0,4-0,4-0,3-0,4 taux_endett 266 397-0,4-0,4-0,3-0,5-0,5-0,4 GRH 266 397 0,8 0,4 0,0 0,5 0,5 0, GRH_endett 266 397 0,6 0, -0,2 0,3 0, -0, sect_talle 266 397 0,4 0,0 0,0 0,5 0,2-0, sect_talle_endett 266 397 0,0-0, -0, -0, 0,4-0,3 Note : Montants en mllons d euros. En grsé, les cas où l écart dépasse 0,5 %. 2
Cble (en %) et écart par rapport à la cble (en pont de %) pour les varables qualtatves : B B6 C Da Db G G4 G7 H Présence d'un accès Internet Présence d'un ste web ou d'une page d'accuel Présence d'un système d'échange électronque traté automatquement Factures électronques aux clents par tratement automatque Factures électronques aux clents par courrer ou pèces ontes pdf Récepton de commandes de bens ou servces sur le ste web Récepton de commandes de bens ou servces va EDI Achat de bens et servces par voe électronque Utlsaton d'outls fondés sur la RFID Cble Scores Segmentaton 70 % 80 % 90 % 70 % 80 % 90 % SAS 98,3 0,00 0,00 0,00 0,00 0,00 0,00 zau 98,3 0,00 0,00-0,0 0,00 0,00 0,00 taux_endett 98,3 0,0 0,02 0,02 0,0 0,02 0,02 GRH 98,3 0,02 0,02 0,02 0,03 0,02 0,02 GRH_endett 98,3 0,00 0,0 0,0 0,02 0,02 0,0 sect_talle 98,3 0,0 0,0 0,0 0,02 0,0 0,00 sect_talle_endett 98,3-0,04-0,03-0,02-0,0-0,02-0,03 SAS 62,7-0,0 0,00 0,00-0,02-0,0 0,00 zau 62,7-0,09-0,09-0,06-0,09-0,09-0,06 taux_endett 62,7 0,08 0,09 0,09 0,07 0,08 0,08 GRH 62,7 0,07 0,07 0,04 0,03 0,06 0,07 GRH_endett 62,7 0,05 0,04 0,0 0,02 0,04 0,04 sect_talle 62,7 0,0-0,02 0,0 0,05-0,05-0,02 sect_talle_endett 62,7 0,02 0,0 0,0 0,02 0,04 0,00 SAS 48, 0,00 0,0-0,0 0,00 0,0-0,0 zau 48, -0,07-0,06-0,05-0,07-0,06-0,04 taux_endett 48, 0,08 0,09 0,08 0,08 0,08 0,07 GRH 48, 0,08 0,08 0,06 0,07 0,07 0,04 GRH_endett 48, 0,7 0,3 0, 0,8 0,3 0,09 sect_talle 48, 0,3 0,0 0,4 0,4 0,08 0,04 sect_talle_endett 48, 0,29 0,26 0,26 0,3 0,27 0,9 SAS 9,6-0,02-0,0 0,00-0,02-0,0 0,00 zau 9,6-0,0-0,0-0,0-0,0-0,0-0,0 taux_endett 9,6-0,0-0,0-0,0-0,0-0,0-0,0 GRH 9,6 0,03 0,02 0,00 0,02 0,02 0,00 GRH_endett 9,6 0,02 0,00-0,02 0,00 0,00-0,02 sect_talle 9,6 0,03 0,04 0,03 0,05 0,05 0,02 sect_talle_endett 9,6 0,03 0,0 0,0 0,04 0,0 0,0 SAS 34,8-0,0 0,00 0,0-0,0 0,00 0,0 zau 34,8 0,0 0,03 0,03 0,0 0,03 0,02 taux_endett 34,8 0,02-0,0-0,0 0,02-0,0 0,00 GRH 34,8 0,2 0,5 0,4 0,2 0,2 0,09 GRH_endett 34,8 0,03 0,06 0,06 0,03 0,04 0,02 sect_talle 34,8 0,09 0,09 0,08 0,07 0,08 0,02 sect_talle_endett 34,8 0, 0, 0,09 0,2 0,3 0,05 SAS 9,3 0,00 0,00 0,00 0,00 0,00 0,00 zau 9,3-0,0-0,02-0,0-0,0-0,03-0,0 taux_endett 9,3-0,03-0,0 0,00-0,03-0,0-0,0 GRH 9,3-0,03-0,03-0,05-0,07-0,04-0,03 GRH_endett 9,3-0,04-0,04-0,05-0,09-0,06-0,04 sect_talle 9,3-0,03-0,04-0,04-0,07-0,02-0,0 sect_talle_endett 9,3-0,0-0, -0,4-0,9-0,4-0, SAS 5,3 0,00 0,00 0,0 0,00 0,00 0,0 zau 5,3 0,02 0,02 0,0 0,02 0,02 0,0 taux_endett 5,3 0,02 0,02 0,02 0,02 0,0 0,0 GRH 5,3 0,03 0,0-0,0 0,04 0,04 0,02 GRH_endett 5,3 0,03 0,00-0,0 0,04 0,03 0,02 sect_talle 5,3 0,02 0,02 0,02 0,07 0,02 0,02 sect_talle_endett 5,3 0,0-0,0 0,0 0,05 0,00 0,02 SAS 27,4-0,0 0,0 0,00-0,0 0,0 0,00 zau 27,4-0,06-0,06-0,03-0,06-0,06-0,03 taux_endett 27,4 0,09 0,08 0,08 0,08 0,07 0,07 GRH 27,4 0,02 0,07 0,07 0,0 0,04 0,03 GRH_endett 27,4 0,09 0,0 0,3 0,08 0,08 0,0 sect_talle 27,4 0,2 0,06 0,08 0,0 0,03 0,0 sect_talle_endett 27,4 0,29 0,26 0,24 0,25 0,25 0,9 SAS 2,5-0,0-0,0-0,0-0,0-0,0-0,0 zau 2,5-0,0-0,0-0,0 0,00-0,0-0,0 taux_endett 2,5-0,02-0,0-0,02-0,02-0,02-0,02 GRH 2,5 0,00 0,0 0,00 0,00 0,0 0,0 GRH_endett 2,5 0,02 0,02 0,0 0,02 0,02 0,0 sect_talle 2,5-0,0-0,0-0,02-0,0-0,02-0,02 sect_talle_endett 2,5 0,02 0,0 0,02 0,02 0,02 0,0 Note : Proporton de ou, en %. En grsé, les cas où l écart dépasse 0,05 pont. 22
Annexe 2 - Indcateurs de Monte-Carlo R ˆ meth Y ˆ Y RB MC Y = (en %) R Y meth Rappel pour le bas relatf : ( ) 00 seg MSEMC ( Yˆ ) Rappel pour le rapport des erreurs quadratques moyennes : score MSE ( Yˆ ) = MC R R R = = R seg ( Yˆ Y ) score ( Yˆ Y ) Pour faclter la lecture, la qualté des résultats est ndquée à l ade d un code : - bas relatf : les chffres sont ndqués en gras et en grsé selon l mportance du bas, - rapport des erreurs quadratques moyennes : les cases sont en gras lorsque l erreur est plus fable par la segmentaton (<,0) et grsées lorsqu elle est plus fable par la méthode des scores (>,0). S la case est vde, le rapport vaut (même performance pour les deux méthodes). Indcateurs de Monte-Carlo pour les varables quanttatves : = 2 2 A2 Nombre de personnes utlsant un ordnateur B4 Nombre de personnes utlsant Internet G2 Montant du CA généré va le web G5 Montant du CA généré va EDI G8 Montant des achats électronques Bas relatf RB MC (en %) Rapport Scores Segmentaton MSE seg score MC /MSE MC 70 % 80 % 90 % 70 % 80 % 90 % 70 % 80 % 90 % SAS 0,0 0,0 0,0 0,0 0,0 0,0 0,9 0,95 0,94 zau -0,5-0,4-0,3-0,5-0,4-0,3 0,85 0,87 0,93 taux_endett 0,3 0,3 0,2 0,2 0,2 0, 0,87 0,9 0,93 GRH 0, -0,4-0,8 0,2 0, 0,,,07 0,66 GRH_endett 0,3-0, -0,6 0,3 0,2 0,2,0,29 0,85 sect_talle 0, -0, -0, 0,3 0,3-0, 0,99,25 0,95 sect_talle_endett 0,0-0,2 0,0 0,4 0,4 0,,2,27 0,9 SAS 0,0 0,0 0,0 0,0-0, 0,0 0,92 0,95 0,96 zau -0,6-0,5-0,4-0,6-0,5-0,4 0,88 0,89 0,94 taux_endett 0,2 0,3 0,2 0,2 0,2 0, 0,90 0,93 0,96 GRH 0, -0,4-0,7 0,2 0, 0,,0,06 0,73 GRH_endett 0,2-0,2-0,7 0,2 0, 0,,0,7 0,80 sect_talle 0, -0,2-0, 0, 0,3-0, 0,98,6 0,95 sect_talle_endett -0, -0,3 0,0 0,3 0,4 0,,04,7 0,92 SAS 0,2 0,3 0, 0,2 0,3 0, 0,99 zau -0,4-0,2-0, -0,4-0,2-0, 0,99 taux_endett 0,4 0,5 0,4 0,3 0,4 0,3 0,99 0,99 GRH 0,3-0,3-0,7 0,3 0,2 0,0,02 0,98 GRH_endett, 0,7 0,,0, 0,8 0,98,03,07 sect_talle 0,4 0,3 0,3 0,3 0,6 0,3 0,98,0 sect_talle_endett 0, -0,2-0, -0,2 0,0-0, 0,99 0,98 SAS -0, 0,0 0,0-0,2-0, 0,0 0,99 zau -0,4-0,2-0,2-0,3-0, -0,2 0,98 0,99 taux_endett -0, -0,2-0,2-0,3-0,4-0,3 0,99 0,99,0 GRH 0,2-0,5-0,9 0,8 0,6 0,3,06,08,0 GRH_endett -0, -0,7 -,3 0,3 0, -0,2,0,0 0,93 sect_talle 0,0-0, -0, 0,7 0,2-0,,03 0,99 sect_talle_endett -0,6-0,8-0,5 0,2 0,0-0,6 0,99 0,97 0,99 SAS -0, 0, -0, -0, 0,0-0, 0,99 0,99 zau -0,4-0,4-0,4-0,4-0,3-0,4 0,99 taux_endett -0,4-0,4-0,3-0,5-0,5-0,4 0,99,0 GRH 0,8 0,4 0,0 0,5 0,5 0, 0,96,0,02 GRH_endett 0,6 0, -0,2 0,3 0, -0, 0,97,02 sect_talle 0,4 0,0 0,0 0,5 0,2-0,,0 0,99 0,99 sect_talle_endett 0,0-0, -0, -0, 0,4-0,3 0,95,02 0,99 23
Indcateurs de Monte-Carlo pour les varables qualtatves : B B6 C Présence d'un accès Internet Présence d'un ste web ou d'une page d'accuel Présence d'un système d'échange électronque traté automatquement Da Factures électronques aux clents par tratement automatque Db Factures électronques aux clents par courrer ou pèces ontes pdf G G4 G7 H Récepton de commandes de bens ou servces sur le ste web Récepton de commandes de bens ou servces va EDI Achat de bens et servces par voe électronque Utlsaton d'outls fondés sur la RFID Bas relatf RB MC(en %) Rapport Scores Segmentaton MSE seg score MC /MSE MC 70 % 80 % 90 % 70 % 80 % 90 % 70 % 80 % 90 % SAS 0,0 0,0 0,0 0,0 0,0 0,0 zau 0,0 0,0 0,0 0,0 0,0 0,0 taux_endett 0,0 0,0 0,0 0,0 0,0 0,0 GRH 0,0 0,0 0,0 0,0 0,0 0,0 0,99,0,02 GRH_endett 0,0 0,0 0,0 0,0 0,0 0,0 0,99,0 sect_talle 0,0 0,0 0,0 0,0 0,0 0,0,0 sect_talle_endett 0,0 0,0 0,0 0,0 0,0 0,0 0,96 0,99,0 SAS 0,0 0,0 0,0 0,0 0,0 0,0 zau -0, -0, -0, -0, -0, -0,,0 taux_endett 0, 0, 0, 0, 0, 0, GRH 0, 0, 0, 0, 0, 0, GRH_endett 0, 0, 0,0 0,0 0, 0, 0,99 0,99 sect_talle 0,0 0,0 0,0 0, -0, 0,0,0 sect_talle_endett 0,0 0,0 0,0 0,0 0, 0,0,0 SAS 0,0 0,0 0,0 0,0 0,0 0,0 zau -0, -0, -0, -0, -0, -0,,0 taux_endett 0,2 0,2 0,2 0,2 0,2 0, GRH 0,2 0,2 0, 0,2 0, 0, 0,99 0,98 GRH_endett 0,4 0,3 0,2 0,4 0,3 0,2 0,99 0,99 sect_talle 0,3 0,2 0,3 0,3 0,2 0, 0,99 0,99 0,96 sect_talle_endett 0,6 0,6 0,5 0,7 0,6 0,4,03,02 0,95 SAS -0,2-0, 0,0-0,2-0, 0,0 zau -0, -0, -0, -0, -0, -0, taux_endett -0, -0, -0, -0, -0, -0, GRH 0,3 0,2 0,0 0,2 0,2 0,0 0,99 0,99 GRH_endett 0,2 0,0-0,2 0,0 0,0-0,2 0,99 sect_talle 0,4 0,4 0,3 0,6 0,5 0,2,0,0 sect_talle_endett 0,3 0, 0, 0,5 0, 0, 0,99 SAS 0,0 0,0 0,0 0,0 0,0 0,0 zau 0,0 0, 0, 0,0 0, 0, 0,99 taux_endett 0,0 0,0 0,0 0, 0,0 0,0 GRH 0,3 0,4 0,4 0,3 0,3 0,3 0,98 0,98 GRH_endett 0, 0,2 0,2 0, 0, 0,,0 0,99 0,99 sect_talle 0,3 0,2 0,2 0,2 0,2 0, 0,99 0,98 sect_talle_endett 0,3 0,3 0,3 0,3 0,4 0,,0,02 0,99 SAS 0,0 0, 0,0 0,0 0, 0,0 zau -0, -0,3-0, -0, -0,3-0,,0 taux_endett -0,3-0, 0,0-0,3-0, -0, GRH -0,3-0,4-0,5-0,8-0,4-0,3,02,0 0,98 GRH_endett -0,4-0,4-0,6 -,0-0,6-0,4,04,0 sect_talle -0,3-0,4-0,4-0,7-0,2-0,,04 sect_talle_endett -, -, -,5-2, -,5 -,2,7,03 0,98 SAS 0,0 0, 0, -0, 0, 0, 0,99 zau 0,3 0,3 0,2 0,4 0,3 0,2,0 taux_endett 0,4 0,3 0,3 0,3 0,2 0,2 0,99 GRH 0,6 0,2-0, 0,8 0,8 0,4,04,02 GRH_endett 0,5 0, -0,2 0,7 0,6 0,3,03,02 sect_talle 0,4 0,3 0,4,2 0,4 0,3,07 0,99 sect_talle_endett 0,2-0,2 0,3 0,9 0,0 0,4,02 0,99,02 SAS 0,0 0,0 0,0 0,0 0,0 0,0 zau -0,2-0,2-0, -0,2-0,2-0, taux_endett 0,3 0,3 0,3 0,3 0,3 0,3 GRH 0, 0,3 0,3 0,0 0,2 0, 0,99 0,99 0,99 GRH_endett 0,3 0,4 0,5 0,3 0,3 0,4 0,99 0,98 sect_talle 0,4 0,2 0,3 0,4 0, 0, 0,99 0,98 sect_talle_endett, 0,9 0,9 0,9 0,9 0,7 0,96 0,98 0,95 SAS -0,5-0,5-0,4-0,5-0,5-0,4 zau -0,2-0,3-0,3-0,2-0,3-0,3 taux_endett -0,7-0,6-0,9-0,8-0,6-0,9,0 GRH 0,2 0,4 0,0 0, 0,5 0,2 0,97 0,99 0,99 GRH_endett,0 0,7 0,3 0,9 0,8 0,5,0,0,0 sect_talle -0,3-0,3-0,7-0,2-0,7-0,8 0,99 0,99 sect_talle_endett 0,7 0,5 0,6 0,7 0,8 0,3 0,98,0 0,98 24
Annexe 3 - Exemple d arbre de segmentaton Arbre obtenu sur l échantllon 000 avec le scénaro GRH sur 70 % de répondants : 866 70 % Comportement de réponse en 200 Répondante 2 743 78 % Non nterrogée 8 559 69 % Non-répondante ou hors champ 564 50 % Localsaton géographque Centre, Nord, Est 2 90 72 % Ouest, Sud 3 860 69 % Régon parsenne, DOM/TOM 789 6 % Chffre d affares Chffre d affares Mons de 5 000 KE Plus de 5 000 KE Mons de 5 000 KE Plus de 5 000 KE 402 69 % 508 76 % 2 053 67 % 807 73 % Secteur (A38) Appartenance à un groupe Secteur (A38) CB,CH,CI,CK,E,MC CL,CM,F,H,JC,MA CA,CG,G,JA,L,N CC,CE,CJ,I,JB Ou Non CA,CB, CE-CK,E,F,H,JA,JC,MC CC,CM,G,L,MA,N CL,I,JB 07 82 % 579 73 % 555 67 % 6 53 % 0 57 % 445 70 % 003 72 % 797 63 253 55 % Appartenance à un groupe Ou 36 Non 372 Lecture : 866 Nombre d entreprses 77 % 70 % 70 % Part de répondants 25
26
Annexe 4 - L enquête TIC 20 L enquête annuelle sur l utlsaton des technologes de l nformaton et de la communcaton (TIC) et le commerce électronque est réalsée par l Insee en partenarat avec le servce de l observaton et des statstques (SOeS) du mnstère en charge du développement durable et le servce de la statstque et de la prospectve (SSP) du mnstère chargé de l agrculture. Elle s nscrt dans le dspostf d enquêtes européennes, en applcaton du règlement européen n 006/2009 du 6 septembre 2009 amendant le règlement du 2 avrl 2004. Les obectfs de l enquête L enquête vse à meux connaître la dffuson des TIC dans les entreprses. Elle cherche notamment à apprécer la place des outls nouveaux dans les relatons externes de l entreprse (nternet, commerce électronque) et dans leur fonctonnement nterne (réseaux, systèmes ntégrés de geston). Elle est composée d un tronc commun de questons artculées autour de tros thèmes prncpaux : l équpement en TIC, l accès et l usage d nternet, le commerce électronque, auxquels s aoute chaque année un module, détermné par le règlement européen annuel d applcaton du règlement cadre, tratant d un thème nouveau ou approfondssant l un des thèmes de base. Pour l enquête 20, le module supplémentare porte sur l utlsaton des technologes fondées sur l dentfcaton par rado-fréquence (RFID) (cf. questonnare). Le champ de l enquête À partr de l enquête TIC 2009, le champ couvre les entreprses marchandes explotantes de 0 salarés et plus de la métropole, appartenant aux secteurs suvants de la Naf rév. 2 : - l ndustre manufacturère (secton C) - la producton et la dstrbuton d électrcté, de gaz, de vapeur et d ar condtonné (secton D) - la producton et la dstrbuton d eau, l assanssement, la geston des déchets et la dépolluton (secton E) - la constructon (secton F) - le commerce, la réparaton d automobles et de motocycles (secton G) - les transports et l entreposage (secton H) - l hébergement et la restauraton (secton I) - l nformaton et la communcaton (secton J) - les actvtés mmoblères (secton L) - les actvtés spécalsées, scentfques et technques hors actvtés vétérnares (dvsons 69 à 74) - les actvtés de servces admnstratfs et de souten (secton N) - la réparaton d ordnateurs et d équpements de communcaton (groupe 95.). 27
Le plan de sondage La base de sondage est le répertore Srene (Système nformatque pour le répertore des entreprses et de leurs établssements). L échantllon est stratfé par secteur d actvté et par talle, les «strates de sondage» étant défnes par le crosement des modaltés. Les modaltés des tranches d effectfs sont au nombre de cnq (0 à 9 salarés, 20 à 49 salarés, 50 à 249 salarés, 250 à 499 salarés, 500 salarés et plus). Les modaltés des secteurs d actvté ont des nveaux d agrégaton très dvers (de la classe au regroupement de sectons), mas l peut y avor des regroupements de dvsons ou de groupes. Le nombre d entreprses à échantllonner dffère selon les strates. Les entreprses de plus de 500 salarés sont nterrogées exhaustvement (sauf pour l actvté de nettoyage, qu comporte beaucoup de grandes entreprses). Pour les strates de talle d effectf nféreure, le nombre d entreprses à nterroger a été obtenu par le bas d une allocaton proportonnelle au nombre de salarés. Au fnal, selon l année d enquête, envron 3 000 entreprses sont nterrogées. Sources : Présentaton de l enquête sur Insee.fr (L enquête sur les technologes de l nformaton et de la communcaton, auprès des entreprses - TIC, Insee, Sources et méthodes, anver 20) ; notes n 65/DG75-E0/AF, 60/DG75-E430/ et /DG75-E430 sur le trage de l échantllon de l enquête TIC 20. 28
TIC 20 Enquête sur les Technologes de l Informaton et de la Communcaton et le Commerce électronque Enquête condute, dans le cadre de la Statstque publque, par l Insttut natonal de la statstque et des études économques (Insee), le Servce de l observaton et des statstques (SOeS), le Servce de la statstque et de la prospectve (Ssp). Vu l avs favorable du Consel natonal de l nformaton statstque, cette enquête, reconnue d ntérêt général et de qualté statstque, est oblgatore, vsa n 20?????? du mnstre de l Économe, de l Industre et de l Emplo valable pour 20. Aux termes de l artcle 6 de la lo n 5-7 du 7 un 95 modfée sur l oblgaton, la coordnaton et le secret en matère de statstques, les rensegnements transms en réponse au présent questonnare ne sauraent en aucun cas être utlsés à des fns de contrôle fscal ou de répresson économque. La lo n 78-7 du 6 anver 978 relatve à l n formatque, aux fchers et aux lbertés, s applque aux réponses fates à la présente enquête par les entreprses ndvduelles. Elle leur garantt un drot d accès et de rectfcaton pour les données les concernant. Ce drot peut être exercé auprès de l Insee. Pour plus de rensegnements, vous pouvez contacter à l Insee : «GestNom» Tél : «GestTel» - Fax : «GestFax» Merc d adresser votre réponse avant le : «D_Ech» à : Insee Md-Pyrénées 36, rue des Trente-Sx-Ponts BP 9427 3054 TOULOUSE CEDEX 4 Nom de l entreprse : «NL_NOMEN» - «NL2_COMP» SIREN : «SIREN» Code APE : «APEL» Lbellé de l actvté : «LIB_APEL» Adresse : «NL3_CADR» - «NL4_VOIE» - «NL5_DISP» - «NL6_CODEPOST» - «NL7_LOCALITE» CACHET DE L ENTREPRISE «NL_NOMEN» - «NL2_COMP» «NL3_CADR» «NL4_VOIE» «NL5_DISP» «NL6_CODEPOST» «NL7_LOCALITE» Nom et coordonnées de la personne répondant à ce questonnare : Mme/Mlle/M : «C_NOM»... Foncton : «C_FONC»... Téléphone : «C_TEL»... Fax : «C_FAX»... Courrel : «C_COURRIEL» @ «C_COURRIEL2»... Adresse (s dfférente de celle de l entreprse) :... «C_L_NOMEN» - «C_L2_COMP» - «C_L3_CADR» - «C_L4_VOIE»... «C_L5_DISP» - «C_L6_CODEPOST» - «C_L7_LOCALITE»... Ste Web de l entreprse nterrogée : http://www. «ADR_SITEWEB»... Ce questonnare concerne votre entreprse en tant qu entté urdque (tous établssements confondus), à l excluson de toute autre entté (groupe ou établssement secondare). Il peut concerner pluseurs responsables de la drecton générale ou du servce nformatque. Cette enquête a pour obectf d évaluer l mportance de la dffuson et de l utlsaton des technologes de l nformaton et de la communcaton (TIC) dans les entreprses. Menée chaque année dans le cadre d une nvestgaton européenne, elle permet de recuellr des ponts de repère et de comparason mportants pour l orentaton de l acton publque. Module A : Utlsaton d ordnateurs et de réseaux A Votre entreprse utlse-t-elle au mons un ordnateur?...(queston fltre) OUI NON Le terme «ordnateur» nclut les PC, les nettops*, les ordnateurs portables (notebooks* ), les assstants numérques A_ORDINATEUR A2 personnels (PDA*) ou les téléphones ntellgents* (smartphone )... S NON passer à X Parm les personnes employées dans votre entreprse, dont le nombre dot être ndqué à la queston Xa, comben utlsent un ordnateur au mons une fos par semane?... A2_EMP_ORDI_VAL nombre A2_EMP_ORDI_PCT S vous ne pouvez pas fournr ce nombre, veullez ndquer leur proporton parm les personnes employées... % A3 Votre entreprse utlse-t-elle des logcels «lbres*» (encore dts logcels «open source») dans les cas suvants? OUI NON A3a_LIBRE_SYSTEXP a) un système d explotaton (Lnux )... b) un logcel de bureau (OpenOffce )... A3b_LIBRE_LOGIC c) un ERP ou PGI* Open source pour automatser les procédures d entreprses (OpenERP, Compere, ERP5 )... A3c_LIBRE_ERP Module B : Accès et utlsaton d nternet (champ : entreprses avec ordnateurs) OUI NON B_ACCES_INTERNET B Votre entreprse a-t-elle un accès à nternet*?... (queston fltre) B2 Votre entreprse a-t-elle les types de connexon à nternet suvants? S NON passer à C a) Modem tradtonnel (accès commuté sur une lgne téléphonque normale) ou connexon RNIS* (en anglas ISDN)... b) Connexon DSL* (xdsl, ADSL, SDSL )... B2b_DSL c) Autre connexon* fxe à nternet (câble, accès sans fl au réseau fxe, lgne louée [relas de trame, Ethernet métropoltan, CPL ])... d) Connexon haut débt moble* avec au mons une technologe 3G (UMTS, CDMA2000, Xevdo, HSDPA )... e) Autre connexon moble* (téléphone moble analogque, GSM, GPRS, EDGE )... B3 Quelle est la vtesse de téléchargement maxmale contractuelle de la connexon nternet la plus rapde de votre entreprse (en Mbts/s)? cochez une seule case B4 B5 a) Mons de 2 b) De 2 à mons de 0 c) De 0 à mons de 30 d) De 30 à mons de 00 Parm les personnes employées dans votre entreprse, dont le nombre dot être ndqué à la queston Xa, comben utlsent au mons une fos par semane un ordnateur avec un accès à nternet?... B3_VITESSE_CONNEX e) 00 et plus B4_EMP_INTERNET_VAL nombre S vous ne pouvez pas fournr ce nombre, veullez ndquer leur proporton parm les personnes employées.... B4_EMP_INTERNET_PCT % Parm les personnes employées dans votre entreprse, dont le nombre dot être ndqué à la queston Xa,comben B5_EMP_PORTABLE3G_VAL nombre dsposent d un apparel portable dédé à l entreprse, ayant au mons une technologe 3G* pour accéder à nternet?... B5_EMP_PORTABLE3G_PCT S vous ne pouvez pas fournr ce nombre, veullez ndquer leur proporton parm les personnes employées.... % OUI B6_SITE_WEB NON B6 Votre entreprse a-t-elle un ste Web* ou une page d accuel*?... (queston fltre) S NON passer à B8 B7 Le ste ou la page d accuel de votre entreprse propose-t-l actuellement les servces suvants? a) la commande ou la réservaton en lgne («shoppng cart*», cadde vrtuel )... B7b_CATALOGUES b) des catalogues et/ou des lstes de prx de bens ou servces... UTILISATION D INTERNET EN RELATION AVEC LES AUTORITÉS PUBLIQUES* (champ : entreprses avec accès à nternet) OUI NON En 200, votre entreprse a-t-elle utlsé nternet? B8 B8a_INFORMATION a) pour obtenr de l nformaton sur les stes web ou les pages d accuel des autortés publques... b) pour obtenr des formulares sur les stes web ou les pages d accuel des autortés publques (déclaraton d mpôts ). B8b_FORMULAIRES c) pour retourner électronquement un formulare rempl (formulares de déclaraton de douane ou de TVA )... B8c_RENS_FORMUL d) pour le tratement «tout électronque» d une procédure admnstratve (déclaraton, enregstrement, demande d autorsaton )... B8d_FORMAL_ADMIN B9 En 200, votre entreprse a-t-elle utlsé nternet pour gérer les procédures admnstratves suvantes? (en retournant un formulare rempl électronquement) a) déclaraton de cotsatons socales pour les employés... B9a_COTIS_SOC b) déclaraton d mpôts sur les socétés... B9b_IMPOTS c) déclaraton de TVA... B9c_TVA d) déclaraton de drots de douane / contrbutons ndrectes... B9d_DOUANE B0 Pensez-vous que certanes des rasons suvantes lmtent les relatons électronques de votre entreprse avec les autortés publques? a) nquétude vs-à-vs de la confdentalté et de la sécurté... b) certanes procédures électronques sont trop complquées et/ou demandent trop de temps... B0b_TEMPS c) certanes procédures électronques requèrent touours un échange de courrer ou des vstes de personnes... B0c_COURRIER d) ne connaît pas les possbltés de procédures électronques... B En 200, votre entreprse a-t-elle utlsé nternet pour accéder à une nformaton sur des documents et des spécfcatons d appel d offre dans le cadre de marché électronque des autortés publques*?... B2 En 200, votre entreprse a-t-elle utlsé nternet pour proposer des bens ou des servces dans le cadre de marché électronque des autortés publques (dépôt d appel d offre électronque*)? a) en France... b) dans un autre pays de l Unon Européenne... B2b_DEPOT_OFFRE_UE S OUI à B2a ou à B2b, passer à C B3 En 200, votre entreprse n a pas proposé de bens ou servces dans le cadre de marché électronque des autortés publques (dépôt d appel d offre électronque) : est-ce parce qu elle ne vend pas au secteur publc?... Module C : Envo et récepton de messages approprés à des tratements automatques vers ou en provenance de systèmes extéreurs (champ : entreprses avec ordnateurs) «Transmsson électronque et tratement automatque de l nformaton» sgnfe : envo et/ou récepton de messages (commande, facture, opératon de paement, descrpton de produts, document de transport, déclaraton d mpôts ) ; B2a_TEL_ANALOGIQUE B2c_AUTR_CONNEX_FIXES B2d_CONNEX_MOB_3G B2e_AUTR_CONNEX_MOB B7a_COMMANDE_LIGNE B0a_SECURITE B0d_PROC_INCONNUES B_INFO_APPEL_OFFRE B2a_DEPOT_OFFRE_FR B3_VENTES_ADMIN 29
30
C2 S ou, pour quelles opératons parm les suvantes? OUI NON C2a_PAIEMENT a) envoyer des nstructons de paement à des nsttutons fnancères... b) envoyer ou réceptonner des nformatons sur les produts (catalogues, lstes de prx )... C2b_INFO_PROD c) envoyer ou réceptonner des documents de transport (bordereaux d expédton )... C2c_TRANSPORT d) envoyer ou réceptonner des données avec des autortés publques (déclaratons de chffre d affares, données statstques, C2d_DONNEES_ADMIN déclaratons d mportaton ou d exportaton...) Module D : Facturaton électronque (champ : entreprses avec ordnateurs) Facturaton électronque sgnfe envo ou récepton de facture : dans un format qu permet son tratement automatque (EDI*,XML ou formulare web ) ; ou dans un format requérant une acton humane (courrel avec pèce onte en pdf ) ; vers ou en provenance d autres entreprses, d autortés publques, d nsttutons fnancères ou de partculers ; par le ste web du vendeur, la banque du clent ou d autres voes électronques. D Votre entreprse envoe-t-elle à des clents des factures électronques*? OUI NON Da_CLIENTS_FACT_AUTO D2 a) dans une structure standardsée appropée pour leur tratement automatque (EDI,XML )... b) ne permettant pas de tratement nformatque (courrel, pèce onte au format pdf ) Db_CLIENTS_FACT_NONAUT Votre entreprse reçot-elle des fournsseurs des factures électronques dans une structure standardsée approprée pour leur D2_FOURNISSEURS_FACT_AUTO tratement automatque (EDI, UBL, XML )?... Module E : Partage automatque de l nformaton au sen de l entreprse (champ : entreprses avec ordnateurs) Partage de l nformaton électronquement ou automatquement entre dfférents servces de votre entreprse sgnfe au mons une des propostons suvantes : utlsaton d une seule applcaton pour assurer les dfférentes fonctons de l entreprse (PGI ou ERP* ) ; lason (chaînage) des données entre les applcatons qu assurent les dfférentes fonctons de l entreprse ; utlsaton d une base de données commune ou d un entrepôt de données partagé accessble par les applcatons qu assurent les dfférentes fonctons de l entreprse ; à l ntéreur de l entreprse, envo et récepton par voe électronque d nformatons pouvant être tratées de manère automatque. E Quand votre entreprse reçot des bons de commande (par voe électronque ou non), l nformaton est-elle partagée électronquement ou automatquement à l ade d un logcel dédé aux servces suvants? a) votre geston des nveaux de stocks... Ea_COM_STOCK b) votre comptablté... Eb_COM_COMPTA c) votre geston de producton (ou de servces)... Ec_COM_PROD d) votre geston de la dstrbuton... E2 Lorsque votre entreprse effectue des ordres d achat (par voe électronque ou non), l nformaton est-elle partagée électronquement ou automatquement à l ade d un logcel dédé aux fonctons suvantes? E3 a) votre geston des nveaux de stocks... E2a_ACHAT_STOCK b) votre comptablté... E2b_ACHAT_COMPTA Votre entreprse a-t-elle utlsé un progcel de geston ntégré (PGI ou ERP*) pour partager l nformaton entre les E3_PGI_ERP dfférents pôles de l entreprse (comptablté, fnance, plannng, producton, marketng )?... Ne sat pas? E4 Votre entreprse utlse-t-elle une applcaton pour la geston de la relaton clent* (auss appelée CRM) qu lu permet de : a) collecter, conserver et rendre accessble à d autres servces l nformaton clentèle?... E4a_INFO_CLIENT b) analyser l nformaton clentèle à des fns de marketng (fxaton des prx, organsaton des ventes promotonnelles, chox des canaux de dstrbuton )?... E4b_MARKETING E5 Votre entreprse utlse-t-elle les outls nformatques suvants? a) outls de traval collaboratfs (groupware*, vdéoconférence* )... E5a_VIDEOCONF b) outls de modélsaton et d automatsaton (Workflow*, BPMS* )... E5b_MODELISATION c) outls de CAO nterne (Concepton Assstée par Ordnateur)... E5c_CAO_INTERNE d) outls de CAO collaboratve (entre entreprses)... Module F : Les TIC et l mpact envronnemental (champ : entreprses avec ordnateurs) F Votre entreprse a-t-elle ms en place l une des procédures suvantes : OUI NON F2 a) procédures vsant à la réducton des mpressons paper et des photocopes?... Fa_REDUC_IMP b) procédures vsant à la réducton de la consommaton énergétque dans l utlsaton de votre équpement TIC? Fb_REDUC_ENERGIE_TIC (consgne au personnel pour étendre les ordnateurs et les écrans, utlsaton de matérel d arrêt automatque des équpements TIC, utlsaton de matérel pérphérque multfonctons [mprmante, scanner, photocopeur])... Fc_REDUC_DEPLT c) utlsaton du téléphone, d nternet ou de vsoconférence au leu de déplacement... Votre entreprse a-t-elle ms en place une quelconque applcaton de technologe de l nformaton dédée à redure la consommaton d énerge des processus d actvté? (y comprs l optmsaton des procédures de traval, des processus de F2_REDUC_ENERGIE_PROCESS producton, du transport ou de la logstque)... OUI NON Ed_COM_DISTRIB E5d_CAO_COLLABO G G2 G3 G4 G5 G6 VENTES PAR COMMERCE ÉLECTRONIQUE Module G : Le commerce électronque* (champ : entreprses avec ordnateurs) VENTES PAR WEB OUI NON En 200, votre entreprse a-t-elle reçu des commandes de bens ou servces qu ont été passées sur le ste Web de votre entreprse? (à l excluson des courrels sass manuellement)... (queston fltre) G_VENTES_WEB Les ventes sur le Web sont des ventes effectuées va un magasn en lgne (webshop) ou va les formulares Web sur le ste Internet de S NON passer à G4 votre entreprse ou à l extranet, ndépendamment de la façon dont le web est accessble [ordnateur, portable, téléphone moble ] Quel a été en 200 le montant du chffre d affares hors taxes généré par des commandes reçues qu ont été passées sur le ste Web de votre entreprse? (en mllers d euros)... S vous ne pouvez pas ndquer le montant, veullez en donner une estmaton en % du chffre d affares total hors taxes de votre entreprse (ndqué à la queston Xb)... En 200, votre entreprse a-t-elle reçu des commandes qu ont été passées sur le ste Web de votre entreprse par des clents localsés dans les zones géographques suvantes? G2_VENT_WEB_VAL K G2_VENT_ WEB _PCT % a) en France... b) dans les autres pays de l Unon Européenne... c) dans le reste du monde... VENTES DE TYPE EDI* OUI NON En 200, votre entreprse a-t-elle reçu des commandes de bens ou servces qu ont été passées va des messages de type EDI?... G4_VENTES_EDI (queston fltre) Quel a été en 200 le montant du chffre d affares hors taxes généré par des commandes reçues qu ont été passées va des messages de type EDI? (en mllers d euros)... S vous ne pouvez pas ndquer le montant, veullez en donner une estmaton en % du chffre d affares total hors taxes de votre entreprse (ndqués à la queston Xb)... En 200, votre entreprse a-t-elle reçu des commandes qu ont été passées va des messages de type EDI par des clents localsés dans les zones géographques suvantes? OUI NON S NON passer à G7 G5_VENT_EDI_VAL K G5_VENT_EDI_PCT % a) en France... b) dans les autres pays de l Unon Européenne... c) dans le reste du monde... ACHATS PAR COMMERCE ÉLECTRONIQUE OUI NON G7 En 200, votre entreprse a-t-elle passé des commandes de bens ou servces va les réseaux nformatques? G7_ACHATS (va un ste web ou un message de type EDI mas en excluant les courrels sass manuellement)... (queston fltre) S NON passer à H G8 G9 Quel a été en 200 le montant des achats hors taxes générés par des commandes passées va les réseaux nformatques? (en mllers d euros)... S vous ne pouvez pas ndquer le montant, veullez en donner une estmaton en % du total des achats hors taxes de l entreprse (ndqués à la queston Xc)... En 200, votre entreprse a-t-elle passé des commandes va un ste web ou va des messages de type EDI auprès de fournsseurs localsés dans les zones géographques suvantes? K G8_ACHAT_PCT % a) en France... G9a_COM_FR b) dans les autres pays de l Unon Européenne... G9b_ COM_UE c) dans le reste du monde... G9c_ COM_RDM Module H : Utlsaton des technologes basées sur l Identfcaton par Rado Fréquence (RFID*) (champ : entreprses avec ordnateurs) Identfcaton par Rado Fréquence (en anglas, Rado Frequency Identfcaton RFID) désgne une méthode d dentfcaton automatque pour stocker et récupérer des données à dstance en utlsant les étquettes RFID ou transpondeurs. Une étquette RFID est un dspostf qu peut être attaché ou ncorporé à l obet et qu transmet des données va les ondes rado. OUI NON H_UTILISATION_RFID H Votre entreprse utlse-t-elle des outls basés sur la technologe RFID?... (queston fltre) S NON passer à X H2 Dans quels buts votre entreprse utlse-t-elle la technologe RFID? a) l dentfcaton des personnes ou le contrôle des accès... b) le suv et le contrôle de la producton ndustrelle, la chaîne d approvsonnement et du suv des stocks, le servce, l entreten ou la geston d actfs (dans le cadre du processus de producton et de prestaton de servces)... c) l dentfcaton de produts après-vente (contrôle des vols, contrefaçon, nformaton sur les allergènes)... Module X : Données de cadrage X Données caractérstques de la dmenson de l entreprse pour 200 G3a _VENTE_WEB_FR G3b _VENTE_WEB_UE G3c_VENTE_WEB_RDM G6a_VENTE_EDI_FR G6b_VENTE_EDI_UE G6c_VENTE_EDI_RDM G8_ACHAT_VAL H2a_IDENT_PERS H2b_SUIVI_PROCESS H2c_IDENT_PROD a ) effectf annuel moyen* en 200 (en nombre de personnes occupées)... Xa_EFF nombre Xb_CA Xc_ACHAT AT 3