리커트 척도 설계 가이드 — 5단계·7단계·9단계 사용 구분과 중앙값의 처리

"매우 만족~매우 불만족"의 5단계 평가는 업계 용어로 리커트 척도(Likert scale) 라 불리는, 1932년에 고안된 측정법입니다. CSAT, NPS, CES, 브랜드 평가, 인게이지먼트 서베이 — 현대 웹 설문에서 사용되는 평가 문항의 거의 모두가 리커트 척도의 파생 인데도 "5단계인가 7단계인가" "중앙값을 넣을 것인가" 같은 기본 논점조차 실무 현장에서는 임기응변으로 결정되기 쉽습니다.

이 글에서는 리커트 척도의 본질·단계 수 선택의 학술적 근거·중앙값(중립)의 처리·라벨 설계의 함정·데이터 분석 시의 논쟁까지 정리합니다. "왠지 모르게 5단계"로 진행하고 있는 조사가, 사실 단계 수를 바꾸는 것만으로 결론이 바뀌는 케이스는 드물지 않습니다.

1. 리커트 척도란

리커트 척도(Likert scale)는 "어떤 대상에 대한 태도·평가를 여러 단계의 선택지에서 고르게 하는" 측정법입니다. 1932년, 미국의 사회심리학자 Rensis Likert가 박사 논문 A Technique for the Measurement of Attitudes에서 제창했습니다.

일반적인 형식

Q. 당사 서비스의 종합 만족도를 알려주세요
   1. 매우 불만족
   2. 다소 불만족
   3. 보통
   4. 다소 만족
   5. 매우 만족

이렇게 "양극을 부정~긍정으로 배치하고 사이에 단계를 둔다" 가 리커트 척도의 기본 구조입니다. 웹 설문에서 자주 사용되는 파생형:

NPS(0~10의 11단계) — Reichheld (2003)이 제창, 추천 의향 측정
5단계 만족도(CSAT) — 고객 서포트 평가의 표준
7단계 시맨틱 디퍼렌셜(SD) — "밝다~어둡다" 같은 양극 형용사 쌍
슬라이더(연속값) — 0~100의 연속 척도

리커트 척도의 구성 요소

설계상의 판단 포인트는 4개로 분해됩니다:

단계 수 — 5 / 7 / 9 / 11단계 중 어느 것
중앙값의 유무 — "보통"을 넣을 것인가
라벨 — "매우 만족" "다소 만족" 같은 언어 라벨을 모든 단계에 붙일 것인가, 양 끝만 붙일 것인가
방향 — "불만족→만족" 인가 "만족→불만족" 인가(좌우 어느 방향인가)

각 논점에 학술적 논의의 축적이 있습니다.

2. 왜 "단계 수"가 이렇게 논쟁이 되는가

리커트 척도의 단계 수 논쟁은 측정의 신뢰도(reliability)와 타당도(validity), 그리고 응답 부담의 트레이드오프 에서 생깁니다.

단계 수를 늘리는 메리트

식별력(discrimination)이 오른다 — "다소 만족"과 "매우 만족"의 차이를 받을 수 있음
통계적인 정보량이 늘어난다 — 평균값·표준편차의 계산에서 입자가 나옴
천장 효과·바닥 효과를 완화 — 5단계라면 모두가 "매우 만족"에 달라붙는 현상(천장 효과)을 7단계 이상으로 분산할 수 있음

단계 수를 늘리는 디메리트

인지 부하가 오른다 — "다소 만족"과 "어느 정도 만족"의 차이를 판단하는 부담
응답 시간이 길어짐 — 매트릭스에서 단계가 많으면 표시도 세로로 길어짐
단계 사이의 의미가 모호해짐 — 9단계 이상에서는 중앙 부근의 단계가 응답자에게 구별하기 어려움
데이터의 재현성이 떨어짐 — 같은 사람이 같은 질문에 답해도 단계 수가 많을수록 응답이 흩어짐

Cox (1980) "The Optimal Number of Response Alternatives for a Scale"이 "최적의 단계 수는 5~9의 범위" 라고 결론지은 이래, 이것이 업계의 통설이 되어 있습니다.

3. 5단계 vs 7단계 vs 9단계 — 학술적 결론

주요 연구의 결론

연구	권장 단계 수	주요 근거
Likert (1932) 원전	5단계	5단계로 충분한 식별력 확보, 응답 부담 최소
Cox (1980)	5~9단계	9를 넘으면 식별력 상승이 인지 부하를 상회하지 않음
Krosnick & Fabrigar (1997)	7단계	신뢰도와 타당도의 양립으로 최적
Preston & Colman (2000)	7~10단계	신뢰도는 7단계 이상에서 안정
Lozano, García-Cueto & Muñiz (2008)	4~7단계	4단계 이하에서는 타당도 저하, 7단계에서 정점
Norman (2010)	5 또는 7단계	파라메트릭 분석을 한다면 5단계 이상에서 충분

학술적으로는 5~7단계가 "안전권" 으로, 9단계 이상은 식별력 상승보다 인지 부하 악화가 이기기 시작한다 는 것이 공통 견해입니다.

용도별 표준

실무에서는 용도마다 단계 수의 관습이 있습니다:

용도	표준적인 단계 수	이유
CSAT(고객 만족도)	5단계	결과가 직관적(5점 만점이 전달되기 쉬움)
NPS	11단계(0~10)	Reichheld의 방법론에 고정
CES	5 또는 7단계	Dixon et al.의 원논문에서는 5단계
브랜드 평가	7단계	세밀한 차이를 받고 싶음
인게이지먼트	5단계	Gallup Q12 등의 표준
학술 조사	7단계	신뢰도 계수(Cronbach's α)가 안정

9단계·11단계를 사용하는 특수 케이스

NPS의 11단계 — 0~10이라는 구체적인 숫자를 내는 것으로 "사람에게 추천하고 싶은 강도"를 구별할 수 있다고 Reichheld가 주장. 학술적으로는 "11단계의 합리성" 보다 "11단계로 운영한다는 업계 관습"의 측면이 강함
9단계 — 학회 논문·대규모 패널 조사에서의 식별력 중시의 경우에 사용. 일반 웹 설문에서는 그다지 권장되지 않음

"망설인다면 5단계 또는 7단계" 가 업계 기사와 학술 연구의 종합적인 권장입니다.

4. 리커트 척도에 중앙값(중립 선택지)을 넣어야 하는가

"보통" "중립"이라는 중앙값(midpoint)을 넣을지 여부는 단계 수 논쟁과 같은 정도로 중요한 분기점 입니다.

중앙값을 넣음(홀수 단계)

메리트: "정말로 중립인 응답자"가 무리하게 긍정/부정을 고르지 않아도 됨. 응답 부담을 경감
디메리트: "답하고 싶지 않다"는 사람의 도피처 가 되어 satisficing이 늘어날 가능성

중앙값을 넣지 않음(짝수 단계)

메리트: 응답자에게 태도를 표명하게 하는 강제력 이 있음. "왠지 중립"을 배제 가능
디메리트: 정말로 중립인 사람을 무리하게 긍정/부정으로 분배 하는 것으로 데이터를 왜곡

학술 연구의 견해

Krosnick & Fabrigar (1997)는 "중앙값은 기본적으로 넣어야 한다" 고 결론짓고 있습니다. 이유는:

참으로 중립인 응답자는 존재한다 — 모름 / 관심이 없음 / 경험이 없음의 경우
강제 선택은 측정 오차를 늘린다 — "왠지" 로 긍정/부정을 고르게 하면 노이즈가 늘어남
중앙값의 존재로 satisficing이 늘어나는 증거는 약하다 — 단계 수가 적절하면 영향은 작음

다만, "뉴트럴 응답이 비정상적으로 많을 경우는 설문 설계의 문제" 이며, 중앙값을 없애는 게 아니라 설문문을 재검토해야 한다 는 것이 실무의 철칙입니다.

5. 라벨 설계의 함정

리커트 척도의 "말의 라벨" 을 어떻게 붙일지도 데이터 품질에 직결됩니다.

전체 라벨화 vs 양 끝 라벨화

전체 라벨화:

1. 매우 불만족 / 2. 다소 불만족 / 3. 보통 / 4. 다소 만족 / 5. 매우 만족

양 끝 라벨화:

1(매우 불만족) — 2 — 3 — 4 — 5(매우 만족)

학술적으로는 Krosnick & Berent (1993)에서 전체 라벨화가 신뢰도·타당도가 높다 고 제시되어 있습니다. 이유는 응답자가 숫자만으로는 단계의 의미를 해석할 수 없기 때문. 모든 단계에 말을 붙이는 것이 원칙 입니다.

라벨의 "등간격성"

"매우 만족 / 다소 만족 / 보통 / 다소 불만족 / 매우 불만족"을 5단계를 등간격으로 가정 해 평균값을 내는 케이스가 많지만 정말 그럴까요?

Tourangeau, Rips & Rasinski (2000)는 "매우 만족"과 "다소 만족"의 심리적 거리는 "다소 만족"과 "보통"의 거리와 같다고는 한정되지 않는다 고 지적합니다. 이것이 리커트 척도를 "순서 척도(ordinal)"로 다룰 것인지 "간격 척도(interval)"로 다룰 것인지의 논쟁으로 이어집니다(다음 섹션 참조).

방향성의 관습

"불만족 → 만족"과 "만족 → 불만족" 중 어느 쪽이 왼쪽에 올 것인가. 한국 국내에서는 "불만족이 왼쪽, 만족이 오른쪽이 관습" 이지만, 구미의 학술적 조사에서는 "긍정이 왼쪽, 부정이 오른쪽"의 케이스도 있습니다. 하나의 조사 안에서는 방향을 통일하는 것, 경년 비교에서는 방향을 절대 바꾸지 않는 것이 철칙입니다.

6. 리커트 척도의 데이터는 "순서 척도인가 간격 척도인가" — 통계 분석의 논쟁

학술계에서 50년 이상 계속되는 논쟁이 있습니다. 리커트 척도의 응답(1~5 등의 숫자)을 평균값이나 표준편차를 계산해도 되는가?

엄격파: "순서 척도이므로 평균은 부적절"

리커트 척도는 본질적으로 순서 척도(ordinal scale) 이며, "매우 만족"과 "다소 만족"의 차이는 숫자상은 같지만 심리적으로 같다고 보장되지 않음. 그래서:

평균값을 계산하는 것은 부적절 — 중앙값이나 최빈값을 사용해야 함
비파라메트릭 검정(Mann-Whitney U 등)을 사용해야 함
회귀 분석·t 검정은 부적절

실용파: "실질적으로 간격 척도로 다룰 수 있다"

Norman (2010) "Likert scales, levels of measurement and the 'laws' of statistics"는 "리커트 척도를 간격 척도로 가정하고 파라메트릭 검정(t 검정, 회귀 등)을 사용해도 실용상 거의 문제없다" 고 결론짓고 있습니다. 이유:

시뮬레이션 연구로 강건성이 확인되어 있음 — 등간격이 아닌 가정 하에서도 결과는 대체로 정확
5단계 이상이라면 중심 극한 정리가 효과 — 샘플이 크면 정규 분포에 근사 가능
학술 논문 대부분은 실질적으로 파라메트릭 검정을 사용하고 있음 — 엄격파의 논의는 실무를 따라잡지 못하고 있음

실무에서의 절충점

업계 기사와 학술 논문의 종합적인 견해로:

5단계 이상의 리커트로 N=100 이상이면 평균값·표준편차·회귀 분석은 실용상 문제없음
단, 논문이나 정식 보고서에서는 "리커트 척도를 간격 척도로 다뤘다"고 명기
천장 효과·바닥 효과가 있는 경우에는 비파라메트릭 검정으로 재확인 하는 것이 안전

CSAT 점수(평균값)나 NPS(추천자에서 비판자를 빼는)가 보통 사용되고 있는 것은 이 실용파의 입장이 업계 표준 인 것의 표현입니다.

7. 편집부 시각 — 리커트 척도 설계에서 반드시 효과 보는 5가지 실천

업계 기사와 공개 사례를 추적해 온 입장에서, 강하게 말해두고 싶은 원칙 5개를 씁니다.

1. "망설인다면 5단계"가 무난. 7단계를 고른다면 이유를 가진다. 5단계와 7단계 중 어느 것을 고를지 망설이는 장면이 많지만, "특별한 이유가 없으면 5단계" 가 업계의 경험칙입니다. 7단계를 고른다면 "세밀한 식별이 필요한 케이스(브랜드 이미지 비교 등)" 라는 명확한 이유를 문서화해 둡니다. "왠지 7단계가 정밀도가 높을 것 같다"로 7단계로 하면 나중에 "5단계가 결과가 직관적이었다"고 후회하는 패턴 이 업계 기사에서 반복적으로 보입니다.

2. 중앙값은 기본 넣는다. "뉴트럴이 너무 많다"가 문제라면 설문문을 재검토한다. 중앙값(중립 선택지)을 없애고 강제 선택으로 하는 운영이 가끔 있지만 많은 경우는 문제의 잘못 잡기 입니다. "중립이 많다"는 것은 설문에 대한 관심이 없음 / 질문이 추상적인 시그널이므로 중앙값을 없애는 게 아니라 설문을 다듬는 것이 올바른 방향. 중앙값 없애기는 Krosnick & Fabrigar의 연구적으로도 권장되지 않는 설계입니다.

3. 전체 라벨화를 기본으로 한다. 양 끝 라벨만은 "숫자에 의존한 설계"가 되어 있다. "1 — 2 — 3 — 4 — 5(불만족만족)"같은 양 끝 라벨 설계를 보면 "설계 비용을 아꼈다" 사인 이라고 느낍니다. 학술적으로는 전체 라벨화가 신뢰도가 높다는 것이 반복적으로 제시되어 있어 모든 단계에 말을 붙이는 1분의 수고가 후의 분석 품질을 좌우하는 것이 현실입니다. NPS만은 010의 숫자 단독으로 운영하는 것이 관습화되어 있지만 그 이외는 전체 라벨화가 원칙입니다.

4. 경년 비교를 한다면 단계 수·중앙값·라벨을 절대 바꾸지 않는다. 과거 조사와 비교하고 싶은 장면에서 "이번엔 7단계로 바꿔봤다", "라벨 표현을 다듬었다"고 변경하는 팀을 업계 기사에서 반복적으로 봅니다. 한 번 바꾸면 과거 점수와 이번 점수가 같은 척도 위에 없으므로 경년 비교가 영원히 불가능해집니다. 바꾼다면 과거 조사도 새 척도로 재수집할 각오를 가지든지, 바꾸지 않든지, 의 양자택일입니다.

5. 리커트는 "마법이 아니다". 설문문의 질이 80%, 척도 설계는 20%. 단계 수나 중앙값의 논의는 물론 중요하지만 사실은 설문문(질문의 표현) 쪽이 훨씬 결과를 좌우한다 는 것이 업계의 본심입니다. "매우 만족~매우 불만족"을 5단계로 묻든 7단계로 묻든 질문이 "서비스에 대한 만족도를 알려주세요"처럼 모호하다면 데이터의 의미는 변하지 않습니다. 먼저 설문문을 다듬은 후 척도 설계를 생각하는 순서를 잘못하지 마세요.

8. 설문조사 도구 Kicue에서의 리커트 척도

Kicue에서는 리커트 척도 운용에 필요한 기능을 표준으로 갖추고 있습니다.

SCALE 문항 타입

스케일 문항 타입으로 4종류를 제공:

LIKERT — 표준적인 리커트 척도(5/7단계 등, 단계 수는 유연하게 설정 가능)
NPS — 11단계(0~10)에 최적화
SLIDER — 연속값 슬라이더
SD — 시맨틱 디퍼렌셜(양극 형용사 쌍)

매트릭스 문항과의 조합

여러 항목을 리커트 척도로 평가할 경우는 매트릭스 문항 타입과 SCALE을 조합합니다. 매트릭스 설계의 함정은 매트릭스 문항의 설계와 함정에서 해설하고 있습니다.

정리

리커트 척도의 설계와 운영 체크포인트:

단계 수는 5 또는 7이 학술적으로 최적 — 9단계 이상은 인지 부하가 식별력 상승을 상회
중앙값(중립)은 기본 넣는다 — 강제 선택은 측정 오차를 늘림
전체 라벨화가 원칙 — 양 끝 라벨만은 신뢰도가 떨어짐
데이터는 실용상 "간격 척도"로 다룰 수 있다 — Norman (2010) 이래의 업계 표준
경년 비교를 한다면 단계 수·라벨을 절대 바꾸지 않는다 — 한 번 바꾸면 과거 비교가 파괴됨
설문문의 질이 80%, 척도 설계는 20% — 순서를 잘못하지 말 것

"리커트 척도 정도야 5단계로 어쩌고저쩌고" 다루는 팀과 "왜 5단계인가 / 중앙값은 어떨지 / 라벨은 어떻게 만들지"를 의도적으로 정하는 팀 에서는 데이터의 재현성에 압도적인 차이가 납니다. CSAT/NPS/CES의 근간을 이루는 측정법이기에 설계의 의도를 가지고 운영하고 싶은 영역입니다.

참고 문헌

학술·방법론

Likert, R. (1932). A Technique for the Measurement of Attitudes. Archives of Psychology.
Cox, E. P. (1980). The Optimal Number of Response Alternatives for a Scale: A Review. Journal of Marketing Research.
Krosnick, J. A., & Fabrigar, L. R. (1997). Designing Rating Scales for Effective Measurement in Surveys. Survey Measurement and Process Quality.
Krosnick, J. A., & Berent, M. K. (1993). Comparisons of Party Identification and Policy Preferences. American Journal of Political Science.
Preston, C. C., & Colman, A. M. (2000). Optimal Number of Response Categories in Rating Scales. Acta Psychologica.
Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the Number of Response Categories on the Reliability and Validity of Rating Scales. Methodology.
Norman, G. (2010). Likert Scales, Levels of Measurement and the 'Laws' of Statistics. Advances in Health Sciences Education.
Tourangeau, R., Rips, L. J., & Rasinski, K. (2000). The Psychology of Survey Response. Cambridge University Press.

업계 벤더·실무 가이드

리커트 척도를 포함한 폭넓은 문항 타입을 사용 구분하면서 설계부터 본 수집·집계까지 한 번에 실시할 수 있는 무료 설문조사 도구 Kicue를 사용해 보지 않으시겠습니까. LIKERT / NPS / SLIDER / SD의 4종 SCALE 문항 타입이 표준 탑재되어 단계 수·중앙값·라벨을 자유롭게 설정할 수 있습니다.