Résumé Ue ouvelle approche du sodage aléatore smple Mart Körg mkorg@waadoofr Ue approche bayésee du sodage aléatore smple offre des solutos smples, pratques et relatvemet facles à exploter umérquemet l s agt de solutos aalytques (lo de probablté, focto de répartto, espérace, varace) permettat de prédre, pour ue classe doée, le ombre de représetats das la populato Mots-clés sodage aléatore smple, statstque bayésee Abstract A bayesa approach to statstcal surveys usg radom samplg leads to smple ad practcal solutos that are relatvely easy to umercally mplemet The gve aalytcal solutos (probablty fucto, cumulatve dstrbuto fucto, expected value, varace) eable the predcto of the umber of dvduals the populato that belog to a gve class Key words statstcal survey, radom samplg, bayesa statstcs troducto Je repreds u problème «classque» : le sodage aléatore smple (vor par exemple []) Sodage où les dvdus sot classés par rapport à u caractère (qualtatf) e pluseurs classes dstctes l objectf est de prédre, pour chaque classe, le ombre de représetats das la populato e aalysat u échatllo aléatore Pour u tel sodage ue théore bayésee exste [2] (vor égalemet [3] et [4] qu e tratet que le cas de deux classes) Das le cas de tros ou davatage de classes, l applcato de cette théore demadat jusqu c ue tégrato umérque mportate Le préset artcle elève cette dffculté e doat des solutos aalytques à la secto 5 Le Tab rassemble les otatos prcpales adoptées das cet artcle Pour ue classe quelcoque, le ombre (vor Tab ) est gééralemet pas cou avec exacttude - avat après le sodage l s agt d ue varable aléatore, dot o cherche à spécfer la lo de probablté (répose à la secto 5) Das le cas théorque K, l y a pas vramet de problème de prédcto pusque la populato etère a été échatlloée est le seul cas, d alleurs, où les ombres,, 2, sot cous exactemet L esemble de la théore exposée das les sectos 3 et 5 reste éamos valable das ce cas là L artcle cotue avec ue dscusso sur l mportace du ombre de classes (secto 6) et ue suggesto cocerat l formato a pror (secto 7) Revue MODULAD, 25-74 - uméro 33
Tab : otatos adoptées Symbole Domae Sgfcato otrate 2 ombre de classes dstctes dex de classe talle de la populato (ombre d dvdus das la populato) K k ombre présumé de représetats de la classe das la populato ombre présumé de représetats d ue classe (spécfée alleurs) das la populato K talle de l échatllo (ombre d dvdus das l échatllo) k K ombre observé de représetats de la classe das l échatllo k K k K 2 Hypothèse fodametale Dès la cocepto du sodage, o dot coaître le ombre de classes et la talle de la populato (vor Tab ) Hypothèse : Toutes les réparttos ( { }, 2,, ),,,, satsfasat, sot talemet équprobables ette hypothèse reflète la cocepto de l expérece aléatore assocée au sodage [2] 3 La lo de probablté tale Avat le sodage, la lo de probablté assocée à ue classe quelcoque est ommée p décrt l certtude tale cocerat cette classe Atteto : l e s agt pas d formato a pror que l utlsateur peut chosr ou modfer à voloté (secto 7) ; cette lo est ue coséquece mplcte de l hypothèse O trouve {,,, } [,] p :, 2 + 2 () p ( ) + pour chacue des classes,2,, Spécfcato cocerat la otato : Pour deux eters a, b, p Revue MODULAD, 25-75 - uméro 33
(2) b a a( a ) ( a b + ) 2 b s a < b s b so déote le ombre de combasos de b élémets choss parm a O otera que la défto (2) admet le cas a < b ce qu sera mportat pour les équatos (4), (5c) et (5d) Vor Fg pour quelques exemples de lo () pour des sodages de pette talle ( 9 ) La «forme» prcpale de p (uforme, léare, parabolque etc) déped de et e chage pas e varat Fg : Los de probablté tale p pour 9 et tros valeurs dfféretes de,25,2 p(),5, 2 3 4,5 3 6 9 (3) Remarque : L espérace de est défe par p ( ) ce qu doe e fat 4 e que l o sat à la sute du dépoullemet Après le dépoullemet de l échatllo, o coaît la talle K de l échatllo et les ombres k (vor Tab ) 5 e que l o souhate savor Pour chaque classe, o souhate coaître : la lo de probablté a eror p Revue MODULAD, 25-76 - uméro 33
la focto de répartto a eror l espérace a eror la varace a eror V F 5 La lo de probablté Le résultat prcpal est la lo de probablté a eror p :{,,, } [,], k K k + 2 + 2 (4) p ( ) K + + Pour 2, o retrouve cette formule das certas lvres de statstque (par exemple [3], page 47) gééral, ces los sot asymétrques lles ressemblet souvet à des gaussees (surtout s >> K >>, K >> k >> ), parfos à des expoetelles ( >>, k ), parfos à des paraboles ( >> K 2, k ), parfos à des foctos de Drac ( K >> ) Vor Fg 2 pour des exemples de vsualsatos graphques Fg 2 : Los de probablté a eror p ( ) pour 9, K 3, 2 et deux valeurs dfféretes de k,4,3 p(),2 k k, 3 6 9 Remarque 2 : Grâce à la défto (2), o observe ( < k > K + k ) p ( ) 52 La focto de répartto La focto de répartto a eror est défe par F {,,, } [,] :, (5a) F ( ) p ( j) j Revue MODULAD, 25-77 - uméro 33
Au leu d évaluer F ( ) par (5a), o peut l évaluer parfos avec beaucoup mos d opératos arthmétques à effectuer par l ue des formules suvates : (5b) où {,,, } F ( ) F ( ( ) + F ) p j + p j + ( j), ( j), s so < est u pot de référece quelcoque où la valeur de K k + 2 j + 2 j (5c) F ( ), K + j j + + K j+ + (5d) F ( ) K + k + K j+ + 2 F est déjà coue, b L effcacté umérque des formules (5) est lée au ombre de combasos a à évaluer Pour (5a) ce ombre est typquemet de l ordre de, be que pour (5c) et (5d) l est typquemet de l ordre de K (5c) et (5d) s avèret gééralemet plus effcaces que (5a) pusque le taux de sodage K/ est souvet fable (typquemet de l ordre de -3 ou modre) La focto de répartto F est drectemet lée à la probablté assocée à u tervalle doé : la probablté assocée à l tervalle m < m2, où m et m 2 sot les deux bores, est F ( m2 ) F ( m ) D autre part, grâce à ue stratége tératve, les formules (5) permettet de calculer u seul m correspodat à ue probablté P doée tel que F ( m) P Pour u tervalle de coface blatéral à 9%, par exemple, l faut calculer deux bores m et m 2 tel que F ( m ) 5 et ( m ) 95 F 2 53 L espérace L espérace a eror répod à la défto p ( ) ce qu doe ( + k )( K) (6) + k + K Remarque 3 : 54 La varace 2 La varace a eror répod à la défto V p ( ) ( ) 2 falemet (7a) ( K)( + )( + k )( K k ( + K) ( + K + ) + ) V 2 O obtet Revue MODULAD, 25-78 - uméro 33
Remarque 4 : Das le cas 2, o otera l detté V pratque, o remplace souvet la varace par l écart-type 2 V (7b) S V et o exprme ue prédcto du ombre e employat la otato ± S (vor exemples au Tab 2) J utlse la otato a ± b pour dquer l espérace a et l écart-type b d ue lo de probablté quelcoque : symétrque ou asymétrque, gaussee ou o Tab 2 : Prédctos ± S assocées aux los de probablté représetées aux Fg et 2 Fgure K k Fg Fg 2 ± 2 9 45±29 3 9 3±25 4 9 2±23 2 9 3 2±3 2 9 3 34±6 S Les formules (4)-(7) restet valables das le cas K (stuato tale) Das ce cas, o retrouve alors p p et (secto 3) 6 Le ombre de classes 6 Pourquo ce ombre est-l essetel? osdéros le cas K < et ue classe o représetée das l échatllo ( k ) Pusque l o e peut pas exclure la présece d u (ou pluseurs) représetat(s) de cette classe das la populato o échatlloée, l espérace de dot être ve, c est-à-dre (8) > coservat les valeurs, K, k, k, 2, k d u sodage quelcoque, o peut mager l ajout d ue classe + o représetée das l échatllo ( k ) Af de satsfare les relatos + (avat) et (après), les espéraces +, 2,, e peuvet pas rester varables parce qu l faut «fare de la place» pour la ouvelle classe pour laquelle o accorde + > selo (8) ocluso : haque théore du sodage aléatore smple dot predre e compte le ombre de classes ; otammet l espérace dot dépedre de Be etedu, la théore présetée à la secto 5 respecte cet mpératf revache, ue théore qu extrapole «aïvemet» la proporto observée k / K à la populato etère sas rapport avec e peut pas être correcte Revue MODULAD, 25-79 - uméro 33
62 ommet ce ombre fluece-t-l otre prédcto? De faço géérale : plus augmete, plus l espérace dmue e «comportemet» est llustré à la Fg 3 et au Tab 3 pour u sodage de pette talle Fg 3 : Los de probablté a eror p ( ) pour 9, k K 3 et tros valeurs dfféretes de,4,3 p(),2, 2 3 4 3 6 9 Tab 3 : Prédctos ± S assocées aux los de probablté représetées à la Fg 3 K k ± 2 9 3 3 78±3 3 9 3 3 7±5 4 9 3 3 64±5 S Af d explorer l fluece de sur u sodage de talle mportate, j ajoute les Tab 4 et 5 pour 7 lesquels la talle de la populato est 4, à peu près le ombre d adultes e Frace es deux tableaux doet la proporto estmée e (e caractère ormal), l écart par rapport à la proporto observée e S l écart-type de la proporto estmée s (e talque) k (e gras) et K Revue MODULAD, 25-8 - uméro 33
e focto de, calculées selo les équatos (6) et (7) k / K et K, où l espérace a eror et l écart-type a eror S sot Tab 4 : L fluece du ombre de classes,, sur l écart e etre la proporto estmée e et la proporto observée k / K das le cas K k 2 5 2 K e 98 95 9 83 e 98 95 9 83 s 97 94 9 83 2 294 94 66 286 86 62 273 73 55 25 5 42 5 2 5 8 9 95 98 588 88 232 78 78 36 259 59 398 5 493 794-59 398 8922-78 36 942-88 232 976-94 66 992-98 97 57 7 225 48 48 297 2 389 4857-43 485 774-286 48 8667-333 33 943-357 272 9429-37 225 969-38 86 545 45 26 285 99-9 373 4636-364 473 7364-636 48 8273-727 359 8727-773 36 9-8 285 982-88 26 5 98 97-83 262 75-25 345 425-75 449 675-25 426 7583-47 389 8-5 364 825-55 345 847-583 332 Revue MODULAD, 25-8 - uméro 33
Tab 5 : L fluece du ombre de classes,, sur l écart e etre la proporto estmée e et la proporto observée k / K das le cas K k 2 5 2 K e e s 2 2 45 29 9 45 28 8 45 26 6 44 5 2 5 8 9 95 98 59 9 69 8 8 95 26 6 26 5 58 7994-6 26 8992-8 95 949-9 69 979-45 999-57 7 69 5 5 95 2 26 4985-5 58 797-3 27 8965-35 96 9463-37 7 976-39 48 996-4 2 55 5 69 94 99-26 496-4 57 793-69 27 892-79 98 946-84 74 973-87 53 99-89 3 5 68 99-93 97-29 24 492-88 56 7853-47 29 8833-67 9324-76 79 968-82 6 984-86 42 Das ces deux tableaux, o otera que la proporto estmée e (coloes 2 à 5, caractère ormal) dffère souvet de la proporto observée k / K (premère coloe) L écart e (coloes 2 à 5, e gras) est souvet églgeable par rapport à l écart-type de la proporto estmée s (coloes 2 à 5, e talque), c est-à-dre que l o a e < s et écart augmete cepedat de faço sgfcatve, c est-à-dre e > s, s et k / K sot grads (cases grses) J e coclus que predre la proporto observée k / K et l adopter pour la populato etère est pas toujours ue boe dée Ue telle stratége peut doc codure à des erreurs de prédcto sgfcatves s et k / K sot grads que la talle du sodage sot pette ou grade Revue MODULAD, 25-82 - uméro 33
7 ommet corporer ue formato a pror? osdéros d abord u sodage «e cours» où les doées arrvet l ue après l autre O peut s arrêter à u momet quelcoque et aalyser/vsualser ce que l o a déjà A ce momet, o peut cosdérer que les doées déjà prses e compte foursset l formato a pror pour celles qu vot arrver Das la même optque, af de créer ue formato a pror, je propose de récupérer les doées d u sodage atéreur du même type pror pror pror k et K k (ou d «veter» les doées d u pré-sodage fctf) et de les comber avec celles du sodage actuel k act et K act act k (ou réel) e addtoat (9a) k k + k, pror act pror act (9b) K K + K ette méthode est souple et facle à mettre e œuvre De plus, o est sûr de commecer avec ue formato a pror cohérete 8 ocluso Pour exprmer ue prédcto smple du ombre de représetats d ue classe après u sodage aléatore smple, je précose la otato ± S, où sgfe l espérace et S l écarttype est facle à calculer (formules (6) et (7)) est facle à commuquer t c est très souvet suffsat Les paramètres et S sot défs pour ue lo de probablté quelcoque, qu l s agsse d ue gaussee ou o Pour ceux qu ot beso d ue précso supéreure, je doe égalemet les formules pour évaluer la lo de probablté (secto 5) et la focto de répartto (secto 52) La théore est valable sas rapport avec les talles et K et met e évdece l mportace du ombre de classes es résultats ot u champ d applcato téressat car ls offret les possbltés suvates : Tracer les los de probablté a eror (vor Fg 2 et 3) Grâce à u logcel spécfque évtat les overflows et à la pussace des ordateurs persoels d aujourd hu, cec est fasable même pour u sodage de talle mportate As, la commucato des résultats d u sodage pourrat être accompagée d u (ou pluseurs) graphque(s) tutf(s) Trater u sodage de «pette talle» Trater u sodage avec u ombre élevé de classes Ue théore «smple» qu pred la proporto observée k / K et l adopte drectemet pour la populato etère (sas predre e compte le ombre de classes ) ecourt des erreurs de prédcto sgfcatves s et k / K sot grads (secto 6) Das le cas 2, les prédctos de la ouvelle approche et celles de l approche habtuelle (vor par exemple []) semblet coverger de faço asymptotque d après mes premères expéreces umérques (Tab 4 et 5) Revue MODULAD, 25-83 - uméro 33
Remercemets Je remerce Glles Sado pour des dscussos et pour ses cosels cocerat les otatos et certaes formulatos Qu Harry-Pascal Baas sot remercé pour so soute facer Référeces [] Dussax, A-M & Grosbras, J-M, 993 Les sodages : prcpes et méthodes Presses uverstares de Frace, sére «Que sas-je?» [2] Körg, M, 23 Théore du sodage aléatore et étude d u sodage d opo avat le er tour d ue électo présdetelle La Revue de MODULAD, 3 2-8 [3] Robert,, 992 L aalyse statstque bayésee coomca, Pars [4] Smar, L, 22 Le paradgme bayése Das Méthodes bayésees e statstque, édteurs : Droesbeke, J-J, Fe, J et Saporta, G, dtos Techp (page 9-6) Revue MODULAD, 25-84 - uméro 33