NHRI Communications

第 142 期 2006-03-23

研究發展
2005年『國民健康訪問暨藥物濫用調查』抽樣設計

壹、前言
『國民健康訪問暨藥物濫用調查』(以下簡稱「國民健康訪問調查」﹔National Health Interview Survey, NHIS)旨在瞭解國人之健康狀況、健康相關的知識、態度與行為及其對醫療服務之利用情形。

2001年之NHIS包含了三個母體：台灣地區、離島地區與山地地區等三個母體，基本抽出單位為「戶」，中選戶內之所有成員均為受訪對象，惟該次調查之樣本並未具有縣市代表性。為能提供各縣市更詳細的健康資訊，本次2005年NHIS之樣本除具台灣地區的代表性外，亦同時具有各縣市的代表性；另在考量戶中全查的耗時、母體戶籍資料沒有戶號難以進行家戶抽樣等因素，本次調查改以「人」為基本抽出單位。

一、調查區域範圍及對象
調查區域範圍為台灣地區23個縣市。調查對象為在台灣地區設有戶籍之常住人口（不包括居住國外者），中選樣本（人）即為受訪對象。

二、調查母體與抽樣底冊
以民國93年12月31日「台灣地區戶籍資料檔」之戶籍人口為抽樣母體。台灣地區23個縣市均可視為單一之母體，各縣市的抽樣作業程序完全獨立。抽樣底冊是民國93年12月31日「台灣地區個人戶籍資料檔」之戶籍人口資料。

貳、抽樣設計
樣本的選取採多階段分層系統抽樣設計(Multi-stage stratified systematic sampling design)，各層內採用抽取率與單位大小成比例(Probability Proportional to Size, PPS)、等距抽樣法逐步抽出「鄉鎮市區」\「村里」、「鄰」、「人」。各縣市內「鄉鎮市區」均先依據其都市化程度和地理位置作分層，並依層別之不同，各層之樣本有的採二階段的方法抽出，有的採三階段的方法抽出。

一、分層
各縣市內各「鄉鎮市區」之地理位置、人口分布與都市化程度有所不同，同時考量田野調查所需之人力資源配置、時間與經費下，為提升調查的效率，於是將各縣市內之「鄉鎮市區」作分層。在分層時，主要依據劉介宇等於2004年所作之台灣地區鄉鎮市區發展類型應用於大型健康調查抽樣設計之研究的結果，再參考各「鄉鎮市區」之地理位置、人口分布情形，以及過去調查訪問的經驗等因素加以微調。分層結果︰一縣市最少為一層（即不分層）如新竹市，最多為四層如台北縣，總計台灣地區23個縣市，358個「鄉鎮市區」共分成53個層別。

二、抽取率
由於各縣市內之人口數差異甚大，為取得足以代表各縣市的樣本數，控制抽樣誤差在一定範圍之內，又不讓整個樣本數過於龐大，於是各縣市採用不同之抽取率，是而未來在估算台灣地區之資料時，各縣市數值須先作加權處理。在制定抽取率時，設定縣市的基本樣本數為800人，以達到足夠大的推論樣本數。澎湖縣由於人口數較少，故獨立自成一群組，其抽取率為10‰；台灣地區其餘22個縣市則依其人口數分成五個群組，人口數較多之縣市其抽取率較低，反之則有較高的抽取率。各群的抽取率分別設定為1.00‰（人口數＞120萬）、1.30‰（人口數為70－120萬）、2.00‰（人口數為40－70萬）、2.50‰（人口數為30－40萬）與3.50‰（人口數＜30萬）等五種。總計台灣地區預定抽出30,275個樣本，其整體抽取率約為1.34‰，此抽取率大於2001年NHIS的抽取率（1.20‰）。

三、樣本數與各階段抽出單位數
各縣市內各層之樣本數均依人口數等比例分配（proportional allocation），抽出單位數則因「層」之特性而有三種不同的設計：
1. 二階段抽出：運用於都市化程度較高的層別，第一階段抽出的單位為「鄰」，接著抽出「人」。該層內之「鄉鎮市區」全部涵蓋在內。
2. 三階段抽出：運用於中度都市化程度、地理位置稍分散的層別，第一階段抽出的單位為「村里」，其次抽出「鄰」，最後抽出「人」。該層內之「鄉鎮市區」全部涵蓋在內。
3. 三階段抽出：運用於一般「鄉鎮市區」與偏遠「鄉鎮」的層別，第一階段抽出的單位為「鄉鎮市區」，其次抽出「鄰」，最後抽出「人」。

因考量各階段均須有基本的抽出單位數，所以各層之最後分配的樣本數與原分配之樣本數做了些許的調整。總計台灣地區23個縣市調整後之分配之樣本數為30,680人（原分配樣本數30,275人），358個「鄉鎮市區」中共計抽出187個「鄉鎮市區」。

參、抽樣結果
一、抽樣執行結果
本次抽樣工作所使用之母群體資料是由衛生署資訊中心擷取自內政部戶役政資料檔之民國93年12月31日「台灣地區戶籍資料檔」，總人口數為22,615,307人。資料在經過清理修正，除去資料檔中之亂碼與錯別字後即進行分層，各縣市均按預定的抽出設計逐階段以PPS等距的方法進行抽樣，台灣地區23個縣市都依照抽樣設計抽出各層各階段的樣本。總計台灣地區抽出187個「鄉鎮市區」，共抽出30,680人，抽出之樣本資料在經衛生署資訊中心將抽樣操作過程基於個人資料保護理由加密之個案識別資料加以解密還原後，即製成樣本清冊並提供給國民健康局進行後續之面訪調查。

二、樣本分布與母體的一致性檢定
為檢視抽出樣本之代表性，利用「性別」及「年齡」等兩個變項進行抽出樣本與母體資料的一致性檢定。所有的卡方檢定結果均顯示在性別與年齡層上，各縣市所抽出之樣本與母體資料均無顯著差異，顯示本次之樣本具有代表性。

肆、加權
由於本次調查各縣市之樣本具有不同的抽取率，未來在資料分析，欲推估台灣地區的資料時，各縣市的數值必須加權調整。各縣市的權值已於調查資料收集完成後進行計算處理，其結果將另文於2005年NHIS抽樣報告呈現。

伍、討論
本次抽樣實務工作，是利用國衛院生統組所開發之「國民健康訪問調查」資料管理系統中的抽樣功能模組進行，該模組係因應NHIS多階段分層系統抽樣設計，以等距抽樣方法所開發，使用該模組抽樣只需在母體資料匯入後，簡便地逐階段輸入參數（各階段抽出單位）即可完成抽樣處理。相較於2001年NHIS之抽樣工作所需之大量的人力與時間，本次抽樣大幅提升工作效率與樣本的正確性。

然而，本次抽樣於母體資料的取得上仍遭遇了些許的困難，其一為資料的申請進度稍慢，從申請到資料取得耗時超過兩個月；其二在於所取得之資料僅有加密之個人辨識資料、居住情形與居住地址等欄位，並不包含戶號及是否為共同生活戶（監獄、醫療院所等）等資訊，以致於抽樣時僅能依地址作排序，抽樣前也無法事先排除所謂的共同生活戶；其三為資料本身有為數不少的亂碼與錯別字（可能是資料檔所採之中文編碼不同所造成），亦增加了資料清理工作的負擔。

依據本項調查抽樣設計與操作執行經驗，針對未來NHIS抽樣之建議如下:
一、有效應用已開發之NHIS資料管理系統。
二、工作團隊與政府相關單位建立流暢資料申請管道。
三、希望政府相關單位可以提供較多抽樣所需之資料，並提升資料的正確性。
《文/圖：翁文舜，劉介宇，陳怡如，劉季鑫，張新儀，梁賡義，莊義利，洪永泰；本文節自「2005國民健康訪問調查研究簡訊」；圖：簡訊封面》