설문조사 표본추출 방법 가이드 — 무작위·층화·집락

"좋은 점수 나왔네요, 이걸로 경영 보고 들어가시면 되겠어요" —— 회의실에서 이런 말을 듣는 순간, "아니, 이거 뉴스레터 회원한테만 뿌린 거라 만족도가 좀 높게 나왔을 수도 있는데..." 하고 속으로 걸렸던 경험, 리서치 담당자라면 다들 한 번씩은 있을 겁니다. 표본 1,000개를 모아도, 선정 방법을 잘못 잡으면 "특정 층의 기분"만 측정한 꼴이 되고 경영 판단이 이상한 쪽으로 미끄러집니다 —— 표본추출 실수는 점수 계산 실수보다 훨씬 악질이고, 나중에 되돌릴 수 없습니다.

본 글에서는 "표본 수 계산"의 앞 단계에 있는 "누구를 어떻게 선정할 것인가" 를, 확률 추출 4가지 방법(무작위·계통·층화·집락)과 비확률 추출 4가지 방법(편의·할당·눈덩이·자발적)으로 나눠 정리합니다. 교과서적인 분류보다는 "현장에서 무엇은 타협해도 되고, 무엇은 절대 타협하면 안 되는가" 에 무게를 두고 씁니다.

1. 왜 "누구를 선정할까"가 "몇 명에게 물어볼까"보다 중요한 경우가 있는가

표본 크기 계산은 선정 방법이 확률 추출이라는 전제 하에 성립하는 수학입니다. 모집단에서 각 개체가 동일하게(또는 알려진 확률로) 선정될 때에만 신뢰구간이나 유의차 검정이 의미를 가집니다.

그런데 현대의 온라인 설문조사에서는 이 전제가 성립하지 않는 경우가 대부분 입니다.

자사 사이트 방문자에게 배너 표시로 배포 → 사이트 방문자 편향
뉴스레터 회원에게 배포 → 기존 고객 편향
SNS에서 URL 확산 → SNS 이용자 편향
패널 회사에 의뢰 → 패널 등록자 편향

이것들은 "편의 추출(Convenience Sampling)"의 일종으로, 표본 수를 1,000개 모아도 추측 통계의 전제를 충족하지 않는 경우가 많습니다. "표본 1,000개로 오차 ±3%"라고 적힌 보고서가 실제로는 "특정 세그먼트의 오차 ±3%"를 나타내는 사례가 빈번하게 발생합니다.

자세한 내용은 설문조사 표본 수 결정 방법 과 표본 크기는 어떻게 정할까 에서 "몇 명에게 물어볼까"를 다루고 있지만, 본 글은 그 앞 단계인 "애초에 어떻게 선정할 것인가"를 체계화합니다.

2. 확률 추출 vs 비확률 추출 — "신뢰구간 ±3%"라고 써도 되는 선

표본추출 방법은 크게 2가지 계통으로 나뉩니다.

확률 추출(Probability Sampling): 모집단에서 각 개체가 알려진 확률로 선정되는 설계. 신뢰구간·유의차 검정 등 추측 통계의 전제를 충족
비확률 추출(Non-probability Sampling): 각 개체의 선정 확률이 불분명한 설계. "신뢰구간 ±3%" 같은 수치를 엄밀하게는 쓸 수 없다

이 구별이 현장에서 가장 크게 작용하는 것은 "보고서에 신뢰구간을 쓸 것인가 말 것인가"의 판단입니다. SNS에서 URL을 확산해서 1,000건 모은 데이터에 "표본 N=1,000, 신뢰구간 ±3.1%"라고 쓰는 건, 엄밀히 말하면 아웃입니다. 왜냐하면 어느 개체가 어떤 확률로 선정되었는지 불분명 하기 때문입니다. 쓴다면 "탐색적 조사", "편의 추출에 의한 참고값"이라고 주석을 달아야 합니다 —— 이 한 수고가, 리서처의 실력을 보여주는 부분입니다.

3. 확률 추출의 4가지 방법

확률 추출에는 대표적으로 4가지 변형이 있습니다. 학술 문헌에서의 표준 분류를 정리합니다.

확률 추출의 4가지 방법

① 단순 무작위 추출(Simple Random Sampling, SRS)

모집단에서 완전히 무작위로 N명을 선정. 교과서적인 기본형 으로, 추측 통계가 가장 단순하게 적용 가능. 모집단 명부(표본추출 프레임)가 완비된 경우에 유효.

② 계통 추출(Systematic Sampling)

명부의 첫 머리부터 등간격(K명마다) 으로 선정. 구현이 간단하고 SRS에 가까운 정밀도. 다만 명부에 주기성(예: 급여일순, 성별 교대)이 있으면, 그 주기와 추출 간격이 일치하는 순간 편향이 발생.

③ 층화 추출(Stratified Sampling)

모집단을 층(예: 연령대·성별·지역)으로 나누고, 각 층에서 비례적으로 추출. SRS보다 정밀도가 높고, 층별 분석도 가능. 서브그룹 분석을 예정한 조사에서는 사실상의 표준.

④ 집락 추출(Cluster Sampling) / 다단 추출

모집단을 집락(학교·지역·조직)으로 나누고, 먼저 집락을 추출한 다음 그 안의 대상자를 추출하는 2단계 이상의 설계. 지리적으로 분산된 조사에서 비용을 낮추는 방법. 학교 조사·인구 조사에서 자주 사용됨.

정밀도 비교

학술적으로는 층화 추출 ≥ SRS = 계통 추출 ≥ 집락 추출 순서로 표준오차가 작아집니다. 집락 추출은 비용 효율은 최고이지만, 집락 내의 동질성에 의해 정밀도가 떨어지는 "설계 효과(Design Effect)"가 발생합니다.

실무적인 선정 지침:

모집단 명부가 있고, 서브그룹 분석이 필요 → 층화 추출(사실상의 표준)
모집단 명부가 있고, 단순하게 진행하고 싶음 → SRS 또는 계통 추출
지리적으로 분산되어 있고 방문 비용/동기 비용이 높음 → 집락 추출

4. 비확률 추출의 4가지 방법 — 웹 조사의 대부분은 여기

온라인 설문조사의 대부분 은 사실 비확률 추출입니다. "저희, SRS로 하고 있습니다"라고 주장하는 보고서를 보면, 거의 틀림없이 뒤에서 할당법이 돌아가고 있습니다. 이유는 단순한데, 국민 전원의 정확한 명부 가 손에 들어오지 않기 때문입니다.

편의 추출(Convenience Sampling): 입수하기 쉬운 사람부터 모음(사내 모니터·SNS 팔로워·통행인). 비용 최저, 모집단 대표성은 가장 약함
할당법(Quota Sampling): "성별 5:5, 연령대 4구분 균등"처럼 목표 수를 정하고, 그 칸이 찰 때까지 모음. 마케팅 리서치에서 사실상의 표준. "SRS로 했습니다"라고 적힌 패널 조사도, 등록 자체가 자발적이므로 실태는 할당법
눈덩이 추출(Snowball Sampling): 응답자가 다음 응답자를 소개. 도달이 어려운 대상(특정 질환 환자, 전문직, 특정 커뮤니티)의 조사에 사용
자발적 응답(Self-selection / Volunteer): 공개 URL을 설치하고, 응답하고 싶은 사람만 응답. 웹 투표·의견 공모가 이 형식. 가장 편향이 큼

웹 조사 편향을 체계화한 고전은 Bethlehem (2010). Selection Bias in Web Surveys 로, 커버리지·무응답·선택·측정의 4종류가 현대에서도 참조됩니다.

비확률 추출을 사용할 때의 "최소한의 작법"

비확률 추출의 결과를 사내외에 낼 때, 배포 채널·응답률·일반화의 한계 를 반드시 주석으로 다는 것 —— 이것이 리서치 직무 신뢰의 토대입니다. 구체적으로는:

"뉴스레터 회원 5,000통 → 응답 487건, 응답률 9.7%"처럼 분모 를 명시
"결과는 자사 기존 고객의 경향이며, 시장 전체가 아니다"라고 적용 범위 를 명시
세그먼트별 대표성에 우려가 있다면, 그 표는 본문에서 빼서 부록 으로 옮김

이걸 게을리하면, 나중에 "우리 데이터에서는 다른 결과가 나왔다"는 충돌이 발생했을 때 설명할 수 없게 됩니다.

5. 온라인 패널의 "좀 말하기 어려운" 실태

국내외에서 실무적으로 가장 많이 사용되는 것은 온라인 패널(리서치 회사가 보유한 등록 모니터)입니다. 얼핏 보면 "무작위로 1,000명에게 배포했다"고 말할 수 있는 형태지만, 구조를 잘 보면 2단계의 자기선택 이 작동하고 있습니다.

패널에 등록할 것인지 가 자기선택(포인트 목적의 층에 편향되기 쉬움)
설문 초대가 왔을 때 응답할 것인지 가 자기선택(시간에 여유가 있는 층에 편향되기 쉬움)

이 2단계를 거친 "무작위 배포"이므로, 엄밀히는 확률 추출이 아닙니다. 그럼에도 실무에서 계속 사용되는 것은, 비용과 속도 면에서 다른 수단이 현실적이지 않기 때문이라는 게 솔직한 이야기입니다.

패널 선정에서 봐야 할 "3가지 공개 항목"

여러 패널 회사 중에서 1개사를 선정할 때, 봐야 할 지표는 공칭 규모가 아닙니다.

액티브율: "등록 100만 명"보다 "최근 3개월 동안 1회 이상 응답한 액티브 모니터 수"가 더 의미 있음
중복 등록률: 같은 사람이 여러 패널에 등록되어 있는 비율. 극단적인 전업 모니터가 결과를 왜곡함
평균 응답 빈도: 월 10건 이상 응답하는 "프로 모니터"는 설문 숙달에 의한 특수한 응답 패턴을 가짐

이것들을 "기업 비밀"로 공개하지 않는 회사는, 품질 관리의 실태가 불투명할 가능성이 있습니다.

용도별 현실적인 선택 방법

B2C 일반 소비자 조사: 대형 패널(엠브레인 / 마크로밀 / 오픈서베이 등)로 할당 + 층화
B2B 전문직 조사: 업계 전문 패널, 또는 LinkedIn 타겟팅을 통한 직접 모집
특수한 대상(의료·교육·특정 질환): 전문 패널 + 눈덩이의 병용, 대상 수가 적기 때문에 비확률 추출의 한계를 처음부터 받아들임

6. "조금만 더 표본 늘리면 유의차 나오는 거 아닌가요?"에 대한 답

현장에서 반복적으로 듣는 것이 "N이 작으니까, 조금만 더 표본 늘리면 유의차 나오죠?" 라는 질문입니다. 절반은 맞고, 절반은 함정입니다. 함정 쪽에 있는 것이 비표본추출 오차 입니다.

표본추출 오차(Sampling Error): 모집단에서 표본을 추출함으로 인한 우연 오차. 표본 수의 제곱근에 반비례 해서 작아짐 → 표본 증가로 감소
비표본추출 오차(Non-sampling Error): 설문 설계의 미비, 무응답 편향, 응답 스타일의 편향, 입력 실수. 표본 수를 늘려도 줄지 않음

표본추출 오차와 비표본추출 오차를 통합한 틀이 "Total Survey Error"로, Groves et al. (2009) Survey Methodology 가 표준서로 참조됩니다.

현장에서의 판단: N=300에서 "유의차가 나오지 않는" 경우, 먼저 의심해야 할 것은 "N이 작다"가 아니라 "설문 문구에 문제가 있다", "대상자 선정이 편향되어 있다", "무응답이 한 방향으로 편향되어 있다" 중 하나입니다. 표본 증가를 검토하는 건 이 3가지를 잡고 나서입니다. 표본 추가에는 추가 비용이 들지만, 설문 문구 수정은 무료이고, 효과는 표본 증가보다 큰 경우가 많이 있습니다.

자세한 내용은 설문조사 데이터 클리닝 완벽 가이드 에서, 무응답 편향과 부주의 응답의 검출을 다루고 있습니다.

7. 편집부의 시각 — "해서는 안 되는 것"을 구체적으로

업계 사례와 프로젝트 경험을 토대로, 현장에서 반드시 효과가 있는 5가지를 강하게 말해 두겠습니다.

1. 자사 사이트 모집에 "신뢰구간 ±3%"라고 쓰지 않는다

자사 사이트의 배너로 모집해서 1,000건 모으고 "표본 오차 ±3.1%"라고 쓰는 보고서 —— 자주 보이지만, 이건 엄밀히는 부정확합니다. 사이트 방문자 편향이 있는 시점에서 확률 추출이 아니기 때문에, 신뢰구간은 이론적인 수치이지 모집단에 해당하지 않습니다. 쓴다면 "사이트 방문자 기반의 참고값"이라고 주석을 다는 게 정직합니다.

2. 연령 7구분 × 성별 2 = 14셀로 자르지 않는다

층화 추출을 하려고, 갑자기 "연령 7구분 × 성별 2 = 14셀"로 자르는 사람이 있는데, 각 셀 N=20을 밑돌면 카이제곱 검정이 돌아가지 않습니다(기대값 5 미만의 셀이 나옴). 층화는 3~5층부터 시작해서, 필요하면 세분화 가 실무의 안전 운전입니다.

3. 패널 회사 선정에서는 "공칭 등록자 수"보다 "액티브율"

"100만 명 패널"보다 "최근 3개월 동안 1회 이상 응답한 액티브 30만 명"이, 조사 품질에 직결됩니다. 영업 자료의 첫머리 숫자에 속지 말고, 액티브율·중복 등록률·응답 빈도 분포 를 묻는 게 철칙입니다.

4. 비확률 추출이어도 "사후 가중치 부여"로 어느 정도 살릴 수 있다

편의 추출의 결과를, 성별·연령·지역 등의 모집단 분포에 맞춰 가중치 부여(Post-stratification) 하는 것으로, 원시 데이터보다 추측 정밀도는 올라갑니다. 완전한 확률 추출에는 미치지 못하지만, "안 하는 것보다 훨씬 낫습니다". R의 survey 패키지나 SPSS의 가중치 부여 기능으로 수십 분 만에 구현할 수 있습니다.

5. 보고서 첫머리에 "대상자 선정 방법·배포 채널·응답률"을 명기

"N=500"만 적힌 보고서는, 읽는 쪽이 판단 자료를 가질 수 없습니다. 첫머리 3행에 "대상: ○○ / 배포: △△ / 응답률: ○○%" 라고 쓰는 것만으로, 나중에 "데이터의 편향을 알아채지 못했다"는 사고가 격감합니다. 이건 설계 이야기가 아니라, 운용 문서의 이야기입니다.

8. 설문조사 도구 Kicue에서의 표본추출 운영

Kicue에서 본 가이드의 표본추출 설계를 운영할 때의 기능과 운용 패턴:

배포 URL 발행: 단일 URL에서의 배포, 또는 여러 URL의 발행 으로 배포 경로별 효과 측정이 가능(뉴스레터 / SNS / 사내 모니터를 별도 URL로 배포하고, CSV 내보내기 시 채널별 비교)
스크리닝 설문: 대상 외 응답자를 처음에 제외하고, 대상자만 본 조사에 진행하는 설계(층화 추출의 대체·보완으로 활용)
응답 상한 설정: 성별·연령별 할당 목표 수 를 스크리닝과 조합해서 운용(할당법의 구현)
CSV 내보내기: 배포 경로 정보·스크리닝 응답·본 조사 응답을 통합한 형태로 데이터 취득, 외부 도구에서의 사후 층별 분석이 가능

Kicue에서 대응할 수 없는 범위

⚠️ Kicue 자체에는 확률 추출 기능·패널 관리 기능·사후 가중치 부여 기능이 없습니다. 구체적으로 Kicue의 기능만으로는 대응할 수 없고, 외부 운용이 필요한 것:

패널 회사로부터의 표본 취득: 대형 패널 회사(엠브레인 / 마크로밀 / Cint 등)와 계약해서 표본을 취득하고, Kicue로 배포
층화 추출의 자동화: 모집단 명부에서 층화 추출 → 개별 URL 배포는 외부 처리(R / Python으로 명부를 층화 처리한 후 Kicue에서 메일 배포 리스트 작성)
사후 가중치 부여(Post-stratification): CSV 내보내기 후, R survey 패키지나 SPSS의 가중치 부여 기능으로 실시
표본추출 오차·설계 효과의 계산: 통계 분석 도구 측에서 실시

관련 기사로 설문조사 표본 수 결정 방법·표본 크기는 어떻게 정할까·스크리닝 설문의 설계와 운용·설문조사 집계와 유의차 판정 을 함께 읽으면, 표본추출 설계와 수량 설계·스크리닝 설계의 접점이 보입니다.

참고 문헌

Kish, L. (1965). Survey Sampling. Wiley.
Cochran, W. G. (1977). Sampling Techniques (3rd ed.). Wiley.
Lohr, S. L. (2010). Sampling: Design and Analysis (2nd ed.). Brooks/Cole Cengage Learning.
Bethlehem, J. (2010). Selection Bias in Web Surveys. International Statistical Review, 78(2), 161-188.
Couper, M. P. (2000). Web Surveys: A Review of Issues and Approaches. Public Opinion Quarterly, 64(4), 464-494.
Groves, R. M., Fowler, F. J., Couper, M. P., Lepkowski, J. M., Singer, E., & Tourangeau, R. (2009). Survey Methodology (2nd ed.). Wiley.
Baker, R., Brick, J. M., Bates, N. A., Battaglia, M., Couper, M. P., Dever, J. A., Gile, K. J., & Tourangeau, R. (2013). Summary Report of the AAPOR Task Force on Non-probability Sampling. Journal of Survey Statistics and Methodology, 1(2), 90-143.

적절한 표본추출 설계로 설문조사를 운영하고 싶으시다면, 무료 설문조사 도구 Kicue 를 사용해 보세요. 채널별 비교를 위한 다중 URL 배포, 할당법 구현을 위한 스크리닝 설문 및 응답 상한, 채널 정보가 포함된 CSV 내보내기로, 표본추출 운영의 핵심을 1개 계정으로 실행할 수 있습니다(패널 회사 소싱, 자동화된 층화 표본추출, 사후층화 가중치 부여, 설계 효과 계산은 패널 회사 계약과 R / SPSS / Python 등의 외부 통계 도구와의 조합 운영이 됩니다).