"N=500을 모아놓고 로데이터를 그대로 분석에 넣었더니 명백히 이상한 응답이 섞여 있었다" — 본 발신 후 데이터를 열어보고 이대로 집계해도 되나 망설이는 경험은 누구나 있다. 문항 품질을 다잡고 파일럿을 돌리고 본 발신을 신중히 운영해도, 응답자의 일정 비율은 부주의 응답(careless responding)을 돌려준다. 이건 설계의 문제가 아니라 인간 인지 특성의 문제다.
이 글에서는 데이터 클리닝을 미루면 분석이 무너지는 구조, 5가지 부주의 응답 패턴, 검출 수법의 3 레이어, 실무에서의 제외 임계값 결정법, 다변량 지표의 사용처, 그리고 편집부의 실전 지침을 정리한다. 문항 품질 시리즈(문항 작성 → 파일럿 조사 운영)의 후속편으로, "설계 → 검증 → 분석 준비"의 3부에 해당한다.
1. 데이터 클리닝을 미루면 무슨 일이 일어나는가
부주의 응답의 출현율은 무시할 수 없다
Meade & Craig (2012) Identifying Careless Responses in Survey Data 는 폭넓은 설문 문헌을 분석하고, 응답자의 8~12% 가 어떤 형태로든 부주의 응답을 보인다 고 보고했다. Maniaci & Rogge (2014) Caring About Carelessness 도 같은 범위를 보여주며, N=500 의 조사라면 40~60건은 부주의 응답이 섞이는 셈이다.
클리닝 없이 분석한 경우의 영향:
- 평균값의 왜곡 — 중앙값 선호(한가운데만 고름)로 분포가 중앙으로 쏠림
- 상관계수의 희석 — 랜덤 응답이 섞이면 변수 간 진짜 관계가 옅어짐
- 클러스터 분석의 실패 — 부주의 응답자가 독자적인 클러스터를 만들어 해석 불능
- 서브그룹 간 차이를 오판 — 특정 세그먼트에 부주의 응답이 치우치면 본래 없는 차이가 "있는 것" 처럼 보임
DeSimone et al. (2015) Best Practice Recommendations for Data Screening 는 데이터 스크리닝을 "분석의 전제 조건" 으로 자리매김하며 논문 투고 시 스크리닝 절차의 명시를 권장 한다. 학술 측면에서는 이미 표준 공정.
"그냥 제외" 도 "전부 사용" 도 똑같이 위험
경험이 적은 리서처가 빠지기 쉬운 두 극단:
- 과잉 제외 — 스트레이트라이너라는 이유만으로 제외. 사실은 정말로 "전 항목 어느 쪽도 아니다" 라고 느끼는 응답자를 잘라낸다
- 과소 제외 — "데이터를 줄이고 싶지 않다" "샘플이 작아진다" 는 이유로 전부 남긴다. 결과적으로 분석이 부주의 응답에 끌려간다
정답은 검출 기준을 사전에 정해두고 그 기준으로 기계적으로 제외 하는 것. 사후에 임계값을 입맛대로 움직이는 것은 p 해킹과 구조적으로 같다.
2. 5가지 부주의 응답 패턴
검출을 체계화하려면 우선 무엇을 "부주의" 로 간주할지 분류가 필요하다. Curran (2016) Methods for the Detection of Carelessly Invalid Responses in Survey Data 와 Huang et al. (2012) Detecting and Deterring Insufficient Effort Responding 를 바탕으로 정리한다.
패턴 1: 스트레이트라이너 (straight-lining) — 같은 선택지를 연속 선택
매트릭스 문항에서 모든 행에 같은 선택지를 고르는 것. 가장 검출하기 쉽고 가장 빈도가 높다. "어느 쪽도 아니다" "다소 만족" 같은 중앙 쪽에서 잘 발생.
패턴 2: 스피더 (speeding) — 극단적으로 짧은 시간에 완료
문항을 읽지 않고 최소한의 조작만으로 완료. 보상 목적의 패널 응답자에게 빈번. 1문항당 3초 미만 이 일반적인 임계값.
패턴 3: 랜덤 응답 / 패턴 응답 (random / patterned)
선택지를 1, 2, 3, 4, 1, 2, 3, 4 같은 주기 패턴으로 고르거나 완전히 무작위. 스트레이트라이너보다 검출이 어렵다.
패턴 4: 모순 응답 (logical inconsistency)
논리적으로 성립하지 않는 조합의 응답. "서비스를 이용한 적이 없다" 라고 답한 직후에 "서비스에 매우 만족" 을 고르는 등. 설계 시 모순 검출용 페어 질문 을 심어두면 검출 가능.
패턴 5: 극단 응답 / 묵종 반응 (extreme / acquiescence response style)
모든 문항에서 최고값을 선택(극단 긍정), 또는 "동의한다" 를 계속 선택(묵종). 부주의라기보다 응답 스타일의 문제로, 삭제보다 분석 시 보정하는 경우도 있다.
| 패턴 | 검출 난이도 | 일반적 발생률 |
|---|---|---|
| 스트레이트라이너 | ★★★ (쉬움) | 5~10% |
| 스피더 | ★★★ (쉬움) | 3~8% |
| 랜덤 응답 | ★★ (중) | 1~3% |
| 모순 응답 | ★★ (중·설계 필요) | 2~5% |
| 극단·묵종 응답 | ★ (어려움·보정 가능) | 5~15% |
여러 패턴이 한 응답자에게 겹치는 경우도 있어, 최종 제외율은 대략 5~15% 로 수렴하는 것이 업계 경험칙.
3. 검출 수법의 3 레이어
학술 문헌을 정리하면 검출은 3 레이어로 나뉜다.
레이어 1: 룰 베이스 (최소한의 자동 검출)
사전에 정한 임계값으로 기계적으로 판정. 구현 비용이 낮고 검지 정확도도 안정적.
- 소요 시간 < 문항 수 × 3초 → 스피더
- 매트릭스 전체 행에서 같은 선택지 → 스트레이트라이너
- 필수 속성과 모순되는 응답 → 모순 응답
- 완료율 100% 인데 텍스트 입력이 공백투성이 → 잡회답
레이어 1은 본 발신 중 실시간으로 검출 가능 하며 운영 효율이 높다. Kicue 를 포함한 주요 설문 도구는 이 레이어를 표준 탑재.
레이어 2: 통계 지표 (다변량 검출)
여러 문항의 응답 패턴에서 부주의 응답을 통계적으로 판정. 레이어 1에서 놓치는 "교묘한 부주의 응답" 을 잡아낸다.
- IRV (Intra-individual Response Variability, 개인 내 응답 변동성) — 한 응답자의 응답의 표준편차. 극단적으로 낮음(같은 선택지뿐) 또는 극단적으로 높음(랜덤) 이면 부주의 의심
- 마할라노비스 거리 (Mahalanobis distance) — 다차원 공간에서 평균으로부터의 거리. 외곽치 응답 패턴 검출
- 홀짝 일치성 (odd-even consistency) — 같은 개념을 측정하는 홀수 문항과 짝수 문항의 상관. 낮으면 부주의 의심
- 동의문 / 반의문 페어 (psychometric synonyms / antonyms) — 같은 의미·반대 의미 페어의 정합성
이들은 로데이터를 익스포트해 R / Python / SPSS 에서 계산 하는 것이 표준. Curran (2016) 은 부주의 응답 검출 전용 R 패키지 (careless) 를 소개.
레이어 3: 모델 베이스 (머신러닝 검출)
봇이나 AI 에이전트의 자동 응답을, 조작 로그·입력 패턴의 머신러닝 모델로 검출. Kicue 의 AI 에이전트 검지가 이 레이어에 해당(상세는 AI 에이전트 부정 검지 기사).
| 레이어 | 구현 위치 | 검출 대상 | 계산 비용 |
|---|---|---|---|
| 1. 룰 베이스 | 설문 도구 내 | 스피더 / 스트레이트라이너 / 명시적 모순 | 낮음 |
| 2. 통계 지표 | R / Python (외부 처리) | 랜덤 / 교묘한 부주의 응답 | 중 |
| 3. 모델 베이스 | 설문 도구 / 외부 서비스 | 봇 / AI 에이전트 | 높음 |
실무에서는 레이어 1을 표준 운영 + 레이어 2를 분석 전 추가 가 현실적.
4. 실무에서의 제외 임계값 결정법
검출 임계값은 과잉 제외 / 과소 제외의 트레이드오프 를 의식해 사전에 결정한다.
임계값 설정의 3 원칙
원칙 1: 사전에 결정. 사후에 움직이지 말 것. 분석을 시작한 뒤에 "제외율이 너무 높다 / 낮다" 고 임계값을 움직이면 결과에 유리한 숫자가 나오기 쉽다. 프로토콜로 임계값을 문서화하고 잠근다 가 기본.
원칙 2: 복수 지표의 AND 조건을 사용. 단일 지표만으로 제외하면 오탐(false positive)이 늘어난다. 예: "스피더 AND 스트레이트라이너" 처럼 2 지표 이상에서 플래그가 선 응답만 제외하는 운영이 오제외를 억제.
원칙 3: 제외율을 사전에 예상해 둘 것. 업계 경험칙 5~15% 에서 크게 벗어난 결과가 나오면 검출 로직이나 문항 설계에 문제가 있을 가능성이 높다. 임계값 조정이 아니라 검출 기준 자체를 재검토 하는 타이밍.
일반적인 임계값 가이드
| 지표 | 일반적 임계값 | 출처 |
|---|---|---|
| 소요 시간 (스피더) | 문항 수 × 3초 미만 | Huang et al. (2012) |
| 스트레이트라인 (매트릭스) | 전체 행 같은 선택지 | Curran (2016) |
| IRV (개인 내 응답 변동성) | < 0.5 (5단계 척도 가정) | Dunn et al. (2018) |
| 홀짝 일치성 (odd-even consistency) | r < 0.30 | Johnson (2005) |
| 마할라노비스 거리 | p < 0.001 외곽치 | DeSimone et al. (2015) |
이는 어디까지나 출발점으로, 자기 조사의 맥락에서 타당성을 평가 할 필요가 있다 (특히 극단 응답의 임계값은 문화 차이가 크다).
5. 다변량 지표의 사용처
레이어 2의 통계 지표는 룰 베이스에서 놓치는 부주의 응답을 보완 하는 역할. 강점과 사용 구분을 정리.
IRV — "변동이 부자연스러운 사람" 을 찾는다
한 응답자의 응답의 표준편차. 스트레이트라이너 (IRV ≈ 0) 와 완전 랜덤 응답자 (IRV ≈ 균등 분포의 표준편차) 양쪽을 1지표로 검출 가능. 매트릭스 문항이 많은 조사에 적합.
마할라노비스 거리 — "전체에서 봐서 이상한 사람" 을 찾는다
다차원 응답 패턴이 샘플 평균에서 얼마나 떨어져 있는지. 개별 문항에서는 정상이라도 조합으로서 이상 한 응답을 잡는다. 샘플 사이즈 N=200 이상에서 안정.
홀짝 일치성 — "설계를 활용한 검출"
같은 개념을 측정하는 문항을 홀수 번호와 짝수 번호로 분산 배치하고 양자의 상관을 본다. 부주의 응답자는 양자의 상관이 낮다 (같은 개념을 묻는다는 것을 눈치채지 못한다). 설계 단계에서 심어둘 필요가 있지만 검출 정확도는 높다.
동의문 / 반의문 페어
"나는 리더십이 있다" "나는 팀을 이끄는 타입이다" 같은 동의문 페어의 일관성을 본다. 이것도 설계 단계의 준비가 필요.
다변량 지표 사용 시 주의
- N=100 미만에서는 지표가 불안정 — 다변량 검출은 본 발신 규모의 조사용
- 같은 응답자가 복수 지표에 걸린다 — 오탐 억제를 위해 복수 지표 AND 권장
- R
careless패키지 가 IRV / 마할라노비스 거리 / 홀짝 일치성을 일괄 계산 가능
6. 편집부의 시각 — 매번 적용하는 5가지 실전 지침
학술 문헌과 현장 운영을 바탕으로 편집부가 반드시 지키는 5가지.
1. 클리닝 기준은 본 발신 전에 문서화한다. "분석을 시작한 후에 결정" 은 절대 NG. 임계값·복합 조건·예상 제외율을 본 발신 전에 적어내고 관계자와 합의 해 둔다. 사후에 움직이면 결과에 유리한 숫자가 나올 위험이 높다. 이는 p 해킹과 구조적으로 같은 문제.
2. 룰 베이스 + 통계 지표의 두 단계 운영. 룰 베이스만으로는 "교묘한 부주의 응답" 을 놓치고, 통계 지표만으로는 "명백한 스피더" 를 기다리지 않고 분석이 늦어진다. 본 발신 중 룰 베이스로 1차 필터 → 익스포트 후 통계 지표로 2차 필터 가 표준 운영.
3. 제외율이 업계 경험칙 (5~15%) 에서 벗어나면 문항 설계를 의심. 제외율이 20% 를 넘으면 문항이 너무 길거나 어렵거나 지루할 가능성이 높다. 임계값을 늦추는 게 아니라 문항 구조 자체를 재검토 해야 할 타이밍. 제외율은 설계 품질의 메트릭이기도 하다.
4. 모순 검출용 "트랩 문항" 을 본 발신에 1문항 넣는다. "이 문항에서는 '3' 을 골라 주십시오" 같은 명시적 트랩 문항을 1문항만. 정답하지 못한 응답자는 주의 산만이 확정 되어 강력한 부주의 검출이 된다. 긴 조사에서 특히 효과적 (단 너무 많이 넣으면 응답자 신뢰를 잃는다).
5. 제외한 응답도 "제외 사유와 함께" 보존한다. 클리닝으로 제외한 응답을 완전히 버리지 말고, 제외 플래그를 달아 로데이터에 남긴다. 나중에 검증·감사가 필요할 때 제외 프로세스의 투명성을 담보. 학술 논문의 스크리닝 보고와 같은 사상이다.
7. 설문조사 도구 Kicue 에서의 데이터 클리닝 운영
Kicue 에는 레이어 1 (룰 베이스) 의 주요 검지가 표준 구현되어 있다.
4종류의 자동 검지
- 스피더 검지 — 문항 수 × 3초 미만으로 자동 플래그
- 스트레이트라이너 검지 — 매트릭스 문항에서 전체 행이 같은 선택지인 경우
- AI 에이전트 검지 — ChatGPT / Claude / Gemini 등의 자동 응답 패턴
- 봇 / 중복 응답 검지 — 헤드리스 브라우저, IP / 쿠키 / 핑거프린트
검지된 응답은 본 발신 중 실시간으로 플래그가 서고 모니터링 화면에서 확인할 수 있다.
플래그 관리 워크플로우
플래그 관리 화면 에서 각 플래그를 pending (미확인) → confirmed (확정) / dismissed (각하) 의 3 상태로 관리. 집계 화면의 "부정 응답을 제외" 토글 을 ON 으로 하면 confirmed (확정) 상태의 응답만 집계에서 제외된다. pending (미확인) 과 dismissed (각하) 는 제외 대상에서 빠지므로 오제외를 막는 설계.
로데이터 익스포트로 다변량 분석
로데이터 익스포트 에서는 각종 플래그가 CSV 컬럼으로 출력된다. R / Python / SPSS 에 로드해 IRV 나 마할라노비스 거리 등의 레이어 2 통계 지표를 추가로 계산 하는 운영이 가능. Kicue 내에서 완결되지 않는 고급 부주의 응답 검출은 익스포트 후 외부 처리에 맡기는 것이 현실적.
모순 검출은 설계로 심는다
논리적 모순의 자동 검출은 표준 기능이 아니다. 스크리닝 문항에서 속성을 묻는 값과 본 조사 응답과의 정합성 체크 를 익스포트 후 처리로 구현하는 운영이 된다. 본 발신 전에 "어느 페어로 모순을 검출할지" 를 정해두는 것이 우선.
적합한 도구 선택 — 무료 플랜 한도, 분기 로직 지원, AI 기능, CSV 내보내기는 도구마다 크게 다릅니다. 무료 설문조사 도구 비교에서 이 접근법에 맞는 도구를 찾아보세요.
정리
데이터 클리닝 체크리스트:
- 부주의 응답의 출현율은 8~12% — N=500 이라면 40~60건이 섞이는 전제로 설계.
- 5가지 패턴: 스트레이트라이너 / 스피더 / 랜덤 응답 / 모순 응답 / 극단·묵종 응답.
- 3 레이어 검출 수법: 룰 베이스 (도구 내) / 통계 지표 (외부 처리) / 모델 베이스 (봇·AI 검지).
- 임계값은 본 발신 전에 문서화 — 사후에 움직이지 말 것. 복수 지표의 AND 조건으로 오탐을 억제.
- 5가지 실전 지침: 기준의 사전 문서화 / 룰+통계의 두 단계 / 제외율 20% 초과는 설계를 의심 / 트랩 문항을 1문항 넣는다 / 제외 응답도 보존.
- Kicue 표준으로 스피더 / 스트레이트라이너 / AI / 봇의 4종을 검지, 레이어 2는 익스포트 후 R / Python 으로.
데이터 클리닝은 "데이터를 줄이는 작업" 이 아니라 "분석 대상을 정의하는 작업". 제외 프로세스를 투명하게 하고 사전에 기준을 정해두면, N=500 의 숫자는 "깨끗한 N=450" 으로 바뀌어 분석의 신뢰성이 크게 올라간다.
참고 문헌
학술·방법론
- Meade, A. W., & Craig, S. B. (2012). 설문 데이터에서의 부주의 응답 식별. Psychological Methods, 17(3), 437–455.
- Curran, P. G. (2016). 설문 데이터에서의 부주의로 무효화된 응답의 검출 수법. Journal of Experimental Social Psychology, 66, 4–19.
- DeSimone, J. A., Harms, P. D., & DeSimone, A. J. (2015). 데이터 스크리닝의 베스트 프랙티스 권장 사항. Journal of Organizational Behavior, 36(2), 171–181.
- Huang, J. L., Curran, P. G., Keeney, J., Poposki, E. M., & DeShon, R. P. (2012). 설문에서의 노력 부족 응답의 검출과 억제. Journal of Business and Psychology, 27(1), 99–114.
- Maniaci, M. R., & Rogge, R. D. (2014). 부주의에 신경 쓰기 — 참가자의 주의 산만이 연구에 미치는 영향. Journal of Research in Personality, 48, 61–83.
표준화 단체·방법론 센터
- AAPOR (American Association for Public Opinion Research): Standard Definitions.
- Pew Research Center: Our Survey Methodology in Detail.
업계 가이드 (업계 관찰로 참조)
데이터 클리닝을 설계부터 운영까지 일관되게 실시하고 싶다면, 무료 설문조사 도구 Kicue 를 시도해보지 않겠습니까. 스피더 / 스트레이트라이너 / AI / 봇의 자동 검지, 플래그 관리, 집계 제외 토글, 로데이터 익스포트가 표준 탑재되어, 레이어 1의 운영이 그대로 외부 처리(R / Python)와 접속됩니다.
