Chaptre 5 (parte 1) ÉCHATILOAGE PAR GRAPPES ET À DEUX DEGRÉS AVEC DES PROBABILITÉS DE SÉLECTIO ÉGALES Souvent les untés de la populaton se présentent sous en groupes d untés ou «grappes» et ce sont ces dernères qu sont soumses à l échantllonnage. Par exemple 1 Pour échantllonner des étudants du secondare, on peut échantllonner des classes d étudants qu sont des grappes; Lorsqu on utlse une base de sondage aréolare les subdvsons géographques qu consttuent les untés de la base de sondage sont des grappes de foyers; Un foyer, échantllonné par le bas d un numéro de téléphone, est une grappe de personnes (sondage BBM). Dans sa verson la plus smple, l échantllonnage avec grappes s applque à une populaton de M untés dvsée en grappes de talle M. Le plan de sondage tre un échantllon aléatore de n grappes parm les grappes de la populaton. Les données s écrvent { yj : S, j 1,..., M}, ans l ndce représente la grappe et l ndce j l ndvdu dans la grappe. Peut-on trater un échantllon aléatore smple de n grappes de talle M comme un échantllon aléatore smple de nm untés de la populaton? Content-l la même nformaton?
Échantllonnage systématque L échantllonnage systématque est un cas partculer de l échantllonnage par grappe. Les grappes sont tous les échantllons systématques possbles. La talle d échantllon est n=1. Voc une représentaton schématque d un échantllon systématque de talle 3 dans une populaton de 1 éléments : Il y a quatre échantllons systématques possbles, {1,5,9}, {,6,10}, {3,7,11}, {4,8,1}, ce sont les grappes. Il y a donc =4 grappes de talle M=3 c et l échantllonnage systématque sélectonne une de ces grappes au hasard. Pusque l on sélectonne une seule grappe l est mpossble d obtenr un estmateur non basé de la varance de la moyenne échantllonnale. On trate souvent les données comme s le plan de sondage avat été aléatore smple sans remse pour estmer la varance. L échantllonnage systématque se généralse en dmenson ou plus. On a c-contre une populaton de 81 quadrats de laquelle on a tré un échantllon systématque de 9 untés. Il y a c 9 échantllons systématques possbles qu sont des grappes et on en a sélectonné un au hasard.
3 Présentaton schématque de quelques plans de sondage pour une populaton dvsée en grappes Populaton de =91 untés répartes dans 1 grappes Échantllon stratfé de 19 untés secondares secondares Échantllon aléatore smple de 3 grappes Échantllon aléatores smple de 19 untés secondares
4 COMPARAISO ETRE LES VARIACES DES MOYEES ÉCHATILLOALES OBTEUES SOUS DES PLAS ALÉATOIRE SIMPLE ET AVEC GRAPPES. La populaton est composée de M untés dvsées en grappes de talle M. Les données s écrvent y j, =1,, et j=1,,m où M est la talle des grappes. On compare la varance de deux plans de sondage pour trer nm untés : par grappes et aléatore smple. Dans les deux cas la moyenne (par unté secondare) s écrt y y y / ( nm ). Les varances sont Plan aléatore smple 1 f Var( yas ) nm M 1 j1 ( y y ) j as gra (, j) S j U M 1 Plan avec grappes 1 f Var( ygra ) n 1 ( yu yu ) 1 Théorême M 1 Var( ygra ) Var( yas ) 1 ( 1) C Var( as ) 1 ( M 1) ICC M( 1) avec ICC M ( yj yu ) M 1 j1 1. M M 1 ( yj yu ) 1 j1 M IC y
Démonstraton : En utlsant la décomposton AOVA d une somme de carrés totale, on obtent 1 j1 M M ( yj yu ) M ( y yu ) ( yj y) 1 j1 1 1 j1 Ans M M 1 f ( y yu) 1 f 1 Var( ygra ) ( yj yu ) ( yj y) n 1 1 nm 1 1 j1 1 j1 M M ( yj y) j yu M 1 j1 M M 1 ( 1) ( yj yu ) 1 j1 M 1 f ( y ) 1 nm M M M M 1 M( yj y) 1 j1 Var( yas ) 1 ( M 1) 1 M M( 1) ( M 1) ( yj yu ) 1 j1 M 1 Var( yas ) 1 ( M 1) ICC M( 1) 5
L ICC (pour ntra cluster correlaton ou coeffcent de corrélaton ntra grappe) mesure l homogénété des untés dans une grappe. S ICC=0 alors une grappe est smlare à un échantllon aléatore de nm untés de la populaton; d autre part ICC=1 s yj y pour tout et j c est-à-dre s toutes les untés de la grappe ont la même valeur de y. ICC et AOVA à un facteur aléatore. S on modélse y à l ade d un modèle d analyse de la varance à un facteur aléatore, on pose yj a j avec =1,.., et j=1,..,m où a sut une (0,σ a ) et ε j sut une (0,σ ) alors l ICC théorque, a 1, a a est le coeffcent de corrélaton entre deux untés provenant de la même grappe. Pour estmer l ICC théorque on utlse les estmateurs standards des composantes de la varance, M ( y ) j y 1 M ( y yu) ˆ et ˆ ˆ a 1 j1 ( M 1) M 1 1. On obtent alors 6
7 1 j1 M a yj y M 1 y yu j 1 j1 M ( yj y) 1 j1 1 ( y y ) ˆ ( M 1) ICC 1 1 ˆ ˆ ( ) ( ) 1 j1 ( M 1) M 1 1 1 1 M M 1 M M 1 M ( y y ) M M ( y yu) 1 M M ( yj y) ( yj y) 1 j1 M 1 j1 1 M M M 1 ( yj y) M ( y yu ) ( yj yu ) 1 j1 1 1 j1 j Le derner terme est égal à l ICC tel que défn plus haut. Ce résultat ade à nterpréter l ICC ; c est une mesure de la corrélaton entre deux untés d une même grappe.
ICC et échantllonnage systématque : S les untés de la populaton sont ordonnées dans le temps (factures d un restaurant) ou dans l espace (stes sur le bord d une rvère) les mesures de y pour des untés vosnes sont souvent corrélées postvement. Un modèle smple pour ce type de données est un processus autorégressf d ordre 1 {ou AR(1)}. Dans ce cas ICC<0 et l estmateur obtenu avec un échantllon systématque a une varance plus pette que l estmateur du plan aléatore smple sans remse. Pour avor un estmateur de varance non basé l faut trer pluseurs échantllons systématques, c est-à-dre pluseurs grappes. Souvent, on utlse l estmateur de varance d un plan aléatore smple lorsqu on tre un échantllon systématque. ICC pour calculer des talles d échantllon : Supposons que l on étude une populaton où est très grand. On a obtenu une talle d échantllon n 0 pour obtenr une certane précson à l ade d un plan aléatore smple sans remse. Quelle talle d échantllon faut-l prendre s on utlse un échantllonnage aléatores avec grappes de talle M. D après le théorème, on cherche n de telle sorte que Var( ygra ) Sy 1 ( M 1) ICC / n Sy / n0 La talle d échantllon dot donc être de n=n 0 (1+(M-1)ICC); en d autres termes l faudra trer n/m grappes pour attendre l objectf de précson. Cet exemple est très mportant. En général l ICC est postf et un plan avec grappes n est pas auss nformatf qu un plan aléatore smple sans remse à talle d échantllon égale. Il est donc mportant de tenr compte du plan de sondage utlsé lors du calcul d une talle d échantllon. 8
9 Trater toutes les données comme s elles étaent récoltées selon un plan aléatore smple sans remse amène souvent à surestmer la précson des résultats. S M est grand et s l ICC est supéreur à 0, l n est peut-être pas utle d observer y auprès des M untés de la grappe. On pourrat échantllonner dans la grappe et trer au hasard m des M untés qu s y trouvent. Cec défnt un plan de sondage à deux degrés; au degré 1 on tre un échantllon de n grappes (ou untés prmares d échantllonnage, UPE) et au deuxème degré on tre un échantllon de m untés secondares d échantllonnage parm les M untés secondares de chaque grappe échantllonnée au degré 1. PLA À DEUX DEGRÉS OÙ LES GRAPPES SOT DE TAILLES IÉGALES Populaton de =91 untés répartes dans 1 grappes Échantllon à deux degrés
EXEMPLE : Inventare du troupeau de carbous de la rvère George (p.101 pour un nventare semblable en Alaska) à l ade d une estmaton du nombre de carbous femelles dans la zone de mse bas en avrl. 10
11 Les untés d échantllonnage sont des parcelles de même talle qu sont photographées à partr d un aéronef. Les carbous sont comptés sur les négatfs des photos Pour accélérer la collecte de données, une photo est dvsée en 0 partes égales et les carbous sont comptés dans un échantllon de 5 partes de photo sélectonnées au hasard parm les 0 partes d une photo. Les photos sont des grappes de partes de photo. Réf. : Crête, M., L.-P. Rvest, D. Le Hénaff, & S.. Luttch. (1991). Adaptng samplng plans to carbou dstrbuton on calvng grounds. Rangfer, Proceedngs of the Ffth orth Amercan Carbou Workshop, 7, 137-150
1 Les données (fctves) sont : =50 parcelles n=10; M=0 partes de photo, m=5. Photo Parte 1 3 4 5 6 7 8 9 10 1 1 0 4 0 5 0 1 0 0 0 0 0 3 0 3 1 1 0 0 3 0 0 1 4 1 4 0 0 0 4 0 0 0 5 0 1 0 0 5 0 0 1 0 6 0 0 1 0 y 0. 0 1. 3 0. 4.6 0. 1 0. 0 s 0. 0 0.7 1 0. 1.3 0. 0.5 0. 0 Tratement théorque : On consdère le cas général où les grappes sont de talle dfférentes (la talle de la grappe est M ) et où les talles d échantllon varent d une grappe à l autre, les données s écrvent { yj : S, j S}. Pour ce plan de sondage la moyenne échantllonnale des y j n estme ren d ntéressant et l est préférable de travaller avec des estmatons du total de y.
13 otaton A-Indces unté prmare j unté secondare B-veau des untés prmares d échantllonnage (upe) = nb total d upe dans la populaton M = nb d use (unté secondare d échantllonnage) dans l upe K=M = nb d use dans la populaton t =total de y dans la ème upe T y =t =total de y dans la populaton ( t t / ) S1 t = varance nter unté prmares des totaux t 1 1 C-veau des untés secondares d échantllonnage (use) yu y /, j j K =moyenne par unté secondare y t / M y / M =moyenne dans l unté prmare U j j ( y ) j yu S, j K 1 ( y ) j yu S j M 1 varance par unté secondare varance dans l unté prmare
14 D-Quanttés échantllonnales n=nb d upe échantllonnées m =nb d use échantllonnées dans l upe tré au degré 1 y yj / m = moyenne échant. dans l upe tˆ M y = estmaton du total de l upe tˆ ˆ unb t / n= estmaton du total de la populaton s ˆ ˆ 1t ( t t unb / ) / ( n 1) varance nter upe-total s ( yj y ) /( m 1) = varance ntra upe. E-Pods d échantllonnage Pour une unté secondare sélectonnée dans l unté prmare, le pods d échantllonnage vaut : w j =M /(nm ). L estmaton du total de la populaton est ˆ M t ˆ / unb w, j y S j S j yj M y. t n js n m n où tˆ M y est une estmaton du total de y dans l unté prmare d échantllonnage. Cet estmateur est sans bas.
Pour calculer la varance on procède par condtonnement. L ndce 1 dénote le premer nveau d échantllonnage, c est-à-dre les varables ndcatrces Z pour la sélecton des untés prmares. Ensute les untés prmares choses au degré 1 jouent le rôle de strates et la sélecton des untés secondare se fat selon un plan stratfé. C est l ndce qu dénote ce plan de sondage condtonnel au résultat du degré 1. On a ˆ 1 ˆ t E( tunb ) E E( tunb) E1 Ty. S n Pour la varance on utlse la formule suvante Var( tˆ ) Var E ( tˆ ) E Var ( tˆ ). unb 1 unb 1 unb Le premer terme est Var 1( t / n) alors que le deuxème est E1 Var ˆ ( t ). S n S En évaluant ces deux termes on obtent ( ) ˆ n ( t t / ) m y j yu Var( tunb) 1 1 M j 1 n( 1) n 1 M m ( M 1) n S m S 1t 1 1 M n n 1 M m 15
16 Pour estmer cette varance l faut d abord noter que s ( tˆ tˆ / ) / ( n 1) n est pas un 1t unb estmateur non basé de S 1t. Proposton 1 m S E( s1 t ) S1 t 1 M 1 M m Démonstraton : En écrvant s comme une U-statstque (vor chap. ) on obtent 1t 1 E( s ˆ ˆ 1t ) E ZZ j( t t j ) nn ( 1), j1 où les Z sont des varables ndcatrces pour la sélecton d une upé au degré 1. On a nn ( 1) E( Z ) et ˆ ˆ ˆ ˆ Z j E( t t j) ( t t j) Var ( t) Var ( t j) ( 1) Ans
17 CQFD 1 E( s ) ( t t ) Var ( tˆ) Var ( tˆ ) 1t j j ( 1) j1 S 1 1t 1 Var ( tˆ ) S 1 1t 1 M 1 M m m S
18 n s1t Le premer terme de l estmateur de varance est 1 ; son espérance vaut n n S1t 1 m S 1 1 M alors que n n 1 M m ˆ n S1t m S Var( tunb) 1 1 M n n 1 M m Pour obtenr un estmateur de varance sans bas l faut ajouter une estmaton de m S 1 M. Ans un estmateur de varance non basée est 1 M m ˆ n s1t m s v( tunb ) 1 1 M n n M m Estmateur des composantes de la varance 1 m S 1 M 1 M m est estmé par 1 m s 1 M n M m et S 1t est estmée par
19 ( ˆ ˆ ˆ t t / ) 1 m s S 1 unb 1t M ( n 1) n M m. Cas où les grappes sont de même talle (M =M et m =m) n S m M ˆ t Var( tunb) 1 1 n n M m 1 n S m M n n M m L estmateur de varance devent ˆ n st M m v( t ) 1 1 ˆ unb S n m M t 1 1 Sntra ntra. Des estmateurs des composantes de la varance sont ˆ ˆ ( y j y ) ˆ ( y tunb /( M)) 1 m/ M ˆ Sntra et St M Sntra (, j) n( m 1) ( n 1) m. S
IVETAIRE DE CARIBOU =50 parcelles n=10; M=0 partes de photo, m=5. Photo Parte 1 3 4 5 6 7 8 9 10 1 1 0 4 0 5 0 1 0 0 0 0 0 3 0 3 1 1 0 0 3 0 0 1 4 1 4 0 0 0 4 0 0 0 5 0 1 0 0 5 0 0 1 0 6 0 0 1 0 y 0. 0 1. 3 0. 4.6 0. 1 0. 0 s 0. 0 0.7 1 0. 1.3 0. 0.5 0. 0 0 Estmaton du nombre total de carbou ˆ (0.+1....+0.) tunb 050 10 1060 Estmaton de varance ˆ 1 0. (0. 1.06)... (0 1.06) (1 0.5) 0.... 0 vt ( unb ) (050) 19614 439 10 9 550 10 Estmaton des composantes de la varance ˆ 0.... 0 ˆ (0. 1.06)... (0 1.06) 11/ 4 Sntra 0.43 et St =0-0.43 =931 10 9 5
1 L estmaton de la talle du troupeau a un CV supéreur à 40% et on voudrat augmenter sa précson. Fare un décompte de toutes les partes de photos sélectonnées permettrat-l d amélorer la précson de façon apprécable? Pour répondre à cette queston estmer la varance que l on obtendrat, sous un plan avec grappes, où tous les carbous des photos sélectonnées sont comptés. Pour meux comprendre la structure des données sur les carbous, on peut estmer l ICC à partr des données. La table AOVA est Source dl SM E(SM) Inter photo 9 5( y. y.. ) / 9 =11.96 +5 a S Intra photo 40 ( yj y. ) / 40=.43 S Ans ˆ a (11.96 0.43) / 5.31 et ICC.31/ (.31 0.43) 0.84. Ic l ICC est très élevé et l est mportant de tenr compte de la dépendance ntra photo dans les calculs. S on ouble la structure de la photo et s on estme la varance de la moyenne par s /50 on obtent une varance ( y j y.. ) de v ( ˆ as tunb ) (050) 6 qu sous-estme l erreur-type de 50%. 49 50 (, j) S ote : Ic les données ne sont pas normales et l faudrat, pour ben fare, construre un modèle avec une lo de Posson et un effet photo aléatore. Il s agt d un modèle lnéare généralsé mxte, que l on vot dans le cours gradué de régresson.
COMPARAISO AVEC DES DOÉES RECUEILLIES SELO U PLA ALÉATOIRE SIMPLE. S t ˆas représente l estmaton du total obtenu à l ade d un plan aléatore smple sans remse de mn untés secondares, on peut montrer que sous certanes condtons Var( tˆ ) Var( tˆ ) 1 ( m 1) ICC unb Cette équaton permet de fare des calculs de talles d échantllon dans les plans à deux degrés. Elle montre que le deuxème degré d échantllonnage est bénéfque et permet d augmenter la précson des estmatons lorsque les grappes sont homogènes. as