설문 집계와 유의차 판정 — 크로스 집계·카이제곱 검정·효과 크기 사용법

"남성 만족도 75%, 여성 80% — 여성 쪽이 만족도가 높다" 라고 보고서에 적은 순간, 상사로부터 "그거 정말로 유의한 차이?" 라는 질문을 받고 굳어버린다. 누구나 한 번쯤 거치는 경험이다. 집계의 숫자를 읽는 것과 그 차이가 의미 있는 차이인지를 판정하는 것은 별개의 작업 이다. 전자는 누구나 할 수 있어도, 후자를 제대로 해낼 수 있는 현장 리서처는 의외로 적다.

이 글에서는 집계와 유의차 판정을 왜 분리해서 생각해야 하는지, GT 집계와 크로스 집계의 사용 구분, 크로스 집계에서 봐야 할 5가지 패턴, 카이제곱 검정의 실무, p값과 효과 크기의 차이, 그리고 편집부가 반드시 보는 함정 을 정리한다. 문항 품질 시리즈(wording → pilot → cleaning)의 후속편으로, "설계 → 검증 → 분석 준비 → 실분석"의 4부에 해당한다.

1. 왜 "집계" 와 "유의차 판정" 을 분리해서 생각해야 하는가

"차이가 있어 보임" 과 "차이가 있음" 의 차이

집계표에서 "남성 75% / 여성 80%" 를 봤을 때, 5포인트의 차이를 "차이가 있다" 로 판단하는 것은 성급. 샘플 사이즈가 작으면 이 차이는 무작위 변동의 범위 내, 크면 통계적으로 유의 — 같은 숫자라도 결론은 바뀐다.

Agresti (2018) Statistical Methods for the Social Sciences 는 사회 과학 조사 데이터 분석의 출발점으로 "관찰된 차이가 샘플링 오차의 범위 내인지를 반드시 확인한다" 고 권장한다. 집계표를 "읽는" 것만으로 판단하는 것은 통계적으로는 무작위 결과 라고 단정하는 것과 같다.

집계와 판정의 역할 분담

공정	무엇을 하는가	출력
집계	숫자를 정리한다 (GT·크로스)	표·그래프
유의차 판정	차이가 무작위인지 판정	p값·효과 크기
해석	통계 결과를 의사결정으로 번역	보고서·권장 액션

집계만으로 결론을 내는 것은, 온도계를 보지 않고 "오늘은 더우니까 열사병" 이라고 진단하는 것과 같다. 판정의 공정을 반드시 끼운다.

2. GT 집계와 크로스 집계의 사용 구분

GT 집계 (단순 집계, Grand Total)

각 문항에 대해 "어느 선택지가 몇 건 선택되었는지" 를 보는 가장 기본의 집계.

목적: 전체 경향 파악
사용처: 보고서 첫머리의 "전체상", 문항별 분포 확인
한계: 속성 간의 차이가 보이지 않음

크로스 집계

2개의 문항(또는 속성)을 곱해 세그먼트별 경향을 본다.

목적: 속성별·군별 비교
사용처: "성별 × 만족도", "연령대 × 구매 의향" 등
한계: 2축까지 (3축 이상은 해석이 어렵다)

사용 구분 판단축

질문의 타입	권장 집계
"전체로서 어떤 결과인가"	GT 집계
"세그먼트 간 차이가 있는가"	크로스 집계
"특정 조건 하의 결과는"	필터 후 GT 집계
"복수 속성이 조합된 효과는"	삼중 크로스 또는 다변량 분석 (외부 처리)

3. 크로스 집계에서 봐야 할 5가지 패턴

실무에서 크로스 집계를 활용하는 장면은 대략 5가지로 분류된다.

패턴 1: 속성별 비교

"성별 × 만족도", "연령대 × 구매 의향" 등 인구 통계 속성으로 그룹 분할. 가장 빈번하게 등장하는 크로스 집계.

패턴 2: 시계열 비교

조사 시점 (2025년 vs 2026년) 으로 같은 문항의 분포를 비교. 트래킹 조사의 기본.

패턴 3: 군간 비교 (실험·대조)

A/B 테스트나 전후 비교에서 "조건 × 결과" 를 본다. 마케팅 시책의 효과 측정.

패턴 4: 삼중 크로스

"성별 × 연령대 × 만족도" 처럼 3축으로 본다. 셀이 얇아지기 쉬우니 N=300 이상 권장.

패턴 5: 조건부 집계 (필터 후 GT)

"제품 X 를 구입한 사람만", "서비스 이용 6개월 이상인 사람만" 같은 조건으로 좁힌 후의 집계. 크로스 집계 대신 사용할 수 있는 경우가 많다.

행 퍼센트 vs 열 퍼센트

크로스 표에서는 2종류의 퍼센트를 전환할 수 있다:

행 퍼센트 — 각 행의 합계를 100% 로 한 내역 (예: 남성 안에서의 만족도 분포)
열 퍼센트 — 각 열의 합계를 100% 로 한 내역 (예: "만족" 이라고 답한 사람의 남녀 내역)

목적에 맞는 쪽을 고른다 것. 잘못된 쪽을 보면 같은 표라도 반대의 결론이 된다.

4. 카이제곱 검정의 실무 — 유의차를 어떻게 판정하는가

크로스 집계에서 속성 간 차이가 "무작위인지 유의인지" 를 판정하는 표준적 수법이 카이제곱 검정 (Chi-square test of independence).

카이제곱 검정의 기본

귀무가설 (H0): 2변수는 독립이다 (차이는 없다)
대립가설 (H1): 2변수는 관련되어 있다 (차이가 있다)
판정: p값이 사전에 정한 유의 수준 (보통 0.05) 미만이면 H0 을 기각

실무에서의 흐름

크로스 표 작성 (예: 성별 × 만족도)
R / Python / SPSS / Excel 에서 카이제곱 검정 실행
p값과 효과 크기 (Cramér's V) 확인
기대도수가 5 미만인 셀이 없는지 확인

기대도수의 제약

카이제곱 검정은 각 셀의 기대도수가 5 이상 을 전제로 하고 있다. 이를 밑도는 셀이 많은 경우는:

Fisher 의 정확 검정 으로 전환 (소수 셀용)
셀을 통합 (연령대를 "20~~30대 / 40~~50대 / 60대 이상" 처럼 거칠게)
샘플을 늘림

Field (2018) Discovering Statistics 도, 기대도수 5 미만의 셀이 전체의 20% 를 넘으면 검정 결과의 신뢰성이 떨어진다고 지적한다.

5. 유의차와 효과 크기의 차이 — p < 0.05 만으로는 불충분

N 이 크면 작은 차이라도 "유의" 가 된다

카이제곱 검정의 최대의 함정. 샘플 사이즈가 크면 실용상 의미 없는 작은 차이라도 통계적으로 유의가 된다.

예: N=10,000 으로 "남성 구매 의향 50% / 여성 51%" 라도, p < 0.001 로 "유의차 있음" 이 나오는 경우가 있다. 이 1포인트 차이에 비즈니스 의사결정의 가치가 있는가? 거의 없다.

ASA Statement on p-Values

Wasserstein & Lazar (2016) The ASA Statement on p-Values: Context, Process, and Purpose 는, 미국통계학회가 "p값만으로 결론을 내서는 안 된다" 고 공식적으로 표명한 중요한 문서. p값의 해석에는:

효과 크기 (effect size)
신뢰 구간
실질적 의의

를 함께 평가하는 것이 필수로 되어 있다.

효과 크기란

"차이가 어느 정도 큰지" 를 통계적으로 나타내는 지표. 크로스 집계에서 자주 사용되는 것은:

Cramér's V — 크로스 표 전체의 관련 강도 (0~1, 0.1=약, 0.3=중, 0.5=강)
Cohen's d — 2군의 평균값 차이 (연속 변수용, 0.2=소, 0.5=중, 0.8=대)
오즈비 / 위험비 — 2x2 표에서의 군간 효과

Sullivan & Feinn (2012) Using Effect Size — or Why the P Value Is Not Enough 는, 논문이나 보고서에서 p값과 효과 크기를 반드시 병기 하는 것을 권장한다.

실무적 판단축

p값	효과 크기	해석
p < 0.05	대	의미 있는 차이 — 액션을 취한다
p < 0.05	소	통계적으로는 유의하지만 실질 의의는 약함 — 신중히 해석
p ≥ 0.05	대	샘플 부족 가능성 — N 을 늘리거나 효과 크기로 의논
p ≥ 0.05	소	차이는 없음 — 그대로 결론

6. 편집부의 시각 — 5가지 함정

학술 문헌과 현장 운영을 바탕으로 편집부가 반드시 경계하는 5항목.

1. 소수 셀에서의 과잉 해석. 크로스 표에서 셀의 n 이 30 미만이 되면, 그 % 는 크게 흔들린다. "20대 여성에서 90% 가 만족" 이라고 쓰기 전에, 그 셀의 n 이 몇 건인지 를 반드시 확인. N=10 이라면 1명 증감으로 10포인트 움직이므로, 해석의 신뢰도는 0에 가깝다.

2. 다중 비교의 함정. "여러 크로스를 시험해, 유의차가 나온 것만 보고한다" 는 사실상의 p 해킹. 5번 시험해 1번 p < 0.05 가 나오는 것은 확률적으로 보통의 현상. 시행 횟수가 늘면 위양성도 늘어나므로, 사전에 검정할 가설을 좁혀둔다 가 철칙.

3. p < 0.05 만으로 결론을 낸다. 이것이 현장에서 가장 빈발하는 문제. 효과 크기를 반드시 병기 한다. p < 0.05 로 "유의차 있음" 만 적은 보고서는, 통계학적으로 절반밖에 일을 하지 않은 것. Sullivan & Feinn (2012) 를 경영층과 공유해, "차이의 크기" 를 의논하는 문화를 만든다.

4. 상관과 인과의 혼동. "서비스 이용자는 만족도가 높다" 라는 크로스 집계 결과로부터 "서비스를 이용하면 만족도가 올라간다" 고 결론하는 것은 인과 추론의 오용. 크로스 집계는 어디까지나 상관 으로, 인과 관계를 주장하려면 A/B 테스트 등의 실험 설계가 필요.

5. 크로스 축 선택의 편향. 크로스 집계에서 무엇을 축으로 할지로 "보이는 결론" 이 바뀐다. 사전에 분석 계획서를 적어두고 축을 정해 둔다 가 견실. 나중에 "재미있는 축" 을 찾으면, 자신에게 유리한 결론을 도출하기 쉬워진다.

7. 설문조사 도구 Kicue 에서의 집계 운영

Kicue 에는 집계와 분석의 기반 기능이 표준으로 갖추어져 있다.

GT 집계와 크로스 집계

GT 집계 는 모든 문항의 단순 집계를 한 화면에서 확인할 수 있다. 문항 타입(SA / MA / 매트릭스 / 스케일) 별로 최적의 집계표가 자동 생성된다.

크로스 집계 는 2축의 조합을 실시간 생성. 행 퍼센트 / 열 퍼센트의 전환 이 원클릭으로 가능하므로, 목적에 따른 읽기가 가능하다.

URL 파라미터를 크로스 축으로

URL 파라미터 로 취득한 유입원·캠페인 ID·고객 ID 도 크로스 집계의 축으로 이용 가능. "메일 경유 vs SNS 경유 의 만족도 비교" 같은 분석이 추가 구현 없이 가능.

로데이터 익스포트로 유의차 검정

카이제곱 검정이나 효과 크기 계산은 Kicue 내에서는 실행할 수 없다. 로데이터 익스포트 (CSV / Excel) 를 사용해 R / Python / SPSS 에 넘겨, chisq.test() 나 cramersV() 로 검정을 실행하는 운영이 표준.

부정 제외와 조합

집계 화면의 "부정 응답을 제외" 토글을 ON 으로 하고, 플래그 관리 로 confirmed (확정) 상태의 부정 응답을 제외한 후 집계하는 것이 기본 플로우. 데이터 클리닝 → 집계 → 검정의 일관된 흐름을 1개의 폼 안에서 완결할 수 있다.

적합한 도구 선택 — 무료 플랜 한도, 분기 로직 지원, AI 기능, CSV 내보내기는 도구마다 크게 다릅니다. 무료 설문조사 도구 비교에서 이 접근법에 맞는 도구를 찾아보세요.

정리

집계와 유의차 판정의 체크리스트:

집계와 유의차 판정은 별개의 공정 — 숫자를 보는 것만으로 결론을 내지 않는다.
GT 집계 (전체) 와 크로스 집계 (세그먼트 비교) 의 사용 구분 — 질문의 타입에 맞춰 고른다.
크로스 집계의 5가지 패턴 — 속성별 / 시계열 / 군간 / 삼중 / 조건부.
카이제곱 검정 으로 차이의 유의성을 판정. 기대도수 5 미만 의 셀에 주의.
p값만으로 결론을 내지 않는다 — 반드시 효과 크기 (Cramér's V, Cohen's d) 를 병기. ASA Statement (2016) 참조.
5가지 함정 — 소수 셀 과잉 해석 / 다중 비교 / p값 편중 / 상관 인과 혼동 / 축 선택의 자의성.
Kicue 는 GT·크로스 집계를 표준 탑재, 유의차 검정은 R / Python 에서 외부 처리.

집계는 "숫자를 정리하는" 공정, 유의차 판정은 "그 숫자에 의미가 있는지를 묻는" 공정. 양쪽을 돌릴 수 있어야 비로소, 조사 데이터가 의사결정의 재료가 된다. 문항 품질 시리즈의 4부작 (wording → pilot → cleaning → 집계·분석) 은 이로써 완결된다.

참고 문헌

학술·방법론

Agresti, A. (2018). Statistical Methods for the Social Sciences (5th ed.). Pearson.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5th ed.). SAGE.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Routledge.
Wasserstein, R. L., & Lazar, N. A. (2016). p값에 관한 미국통계학회 성명 — 맥락·프로세스·목적. The American Statistician, 70(2), 129–133.
Sullivan, G. M., & Feinn, R. (2012). 효과 크기를 사용한다 — 왜 p값만으로는 불충분한가. Journal of Graduate Medical Education, 4(3), 279–282.

표준화 단체·방법론 센터

업계 가이드 (업계 관찰로 참조)

집계부터 유의차 판정까지를 일관되게 운영하고 싶다면, 무료 설문조사 도구 Kicue 를 시도해보지 않겠습니까. GT 집계·크로스 집계·URL 파라미터에서의 세그먼트 분석·로데이터 익스포트가 표준 탑재되어, Kicue 측의 집계부터 R / Python 에서의 검정까지 심리스하게 접속할 수 있습니다.