고객 세분화 설문조사 가이드 — 클러스터 분석으로 고객을 나눈다

키 드라이버 분석으로 "종합 만족도를 움직이는 것은 지원이다"라는 걸 알았다. 중요도-만족도 분석으로 "중점 개선은 지원과 가격이다"라고 정했다. 하지만 그 결론에는 숨겨진 전제 가 있습니다. "고객은 하나의 덩어리다" 라는 전제입니다.

실제로는 가격에 민감한 신규 고객과 기능의 깊이를 원하는 헤비 유저는, 만족도를 움직이는 요인이 전혀 다릅니다. 전체 평균에서 "지원이 효과적이다"라고 나와도, 그것은 두 개의 서로 다른 고객군을 섞어서 평균낸 결과로, 어느 쪽 고객에게도 정확하지 않습니다 ——통계학에서 말하는 "평균적인 고객은 존재하지 않는다" 문제입니다. 이것을 푸는 것이 고객 세분화 설문조사 입니다. 설문 데이터에서 "비슷한 사람끼리의 덩어리"를 찾아내고, 덩어리별로 전략을 바꾼다. 본고에서는 분류의 두 가지 큰 접근법부터, 분류 축의 선택법, 클러스터 분석의 기법, 세그먼트 수 결정법, 그리고 "쓸 수 있는 세그먼트의 조건"까지를 실무의 감각으로 정리합니다.

1. 왜 세분화인가 — 전체 평균이라는 함정

키 드라이버 분석 도 중요도-만족도 분석(IPA) 도 강력하지만 "응답자 전체를 하나의 모집단으로 평균낸다" 는 점이 공통된 약점입니다.

이질적인 고객을 섞어서 평균내면 심슨의 역설 에 가까운 현상이 일어납니다. "전체로는 지원이 만족도의 최대 드라이버"여도, 세그먼트 A에서는 가격이, 세그먼트 B에서는 기능이 최대 드라이버, 라는 것은 일상다반사입니다. 전체 평균만으로 의사결정하면 어느 세그먼트에도 꽂히지 않는, 평균적이고 평범한 시책 에 투자하게 됩니다.

세분화의 목적은 단순합니다. "비슷한 반응을 하는 고객의 덩어리"로 나누어, 덩어리별로 최적의 수를 바꾼다. 마케팅의 고전 Smith (1956) 가 "제품 차별화"와 대비하여 "시장 세분화"를 제창한 이래, 세분화는 마케팅 전략의 토대로 자리잡고 있습니다.

KDA / IPA 를 세그먼트별로 다시 돌리면 "전체로는 보이지 않았던, 세그먼트별로 다른 드라이버"가 보이기 시작합니다. 세분화는 분석 3부작(요인 특정 → 우선순위 → 고객 분류)의 마지막 조각입니다.

2. 사전적 분류 vs 사후적 분류 — 두 가지 접근법

고객을 나누는 방법에는 근본적으로 다른 두 가지 접근법이 있습니다. 혼동하면 분석 설계를 잘못합니다.

사전적 분류(A priori / Descriptor-based)

분석자가 미리 정한 기준 으로 기계적으로 나누는 방법입니다. "연령대별", "계약 플랜별", "이용 빈도별" 등. 기준이 명확하고, 운용이 편하며, 누구나 재현할 수 있습니다.

약점은 그 기준이 정말로 고객 행동을 나누고 있다고는 할 수 없다 는 것. "20대와 30대로 나누었지만, 사실 양쪽의 구매 행동은 거의 같았다"라는 것은 흔히 있습니다. 나눈 듯한 기분만 들 뿐, 시책이 바뀌지 않습니다.

사후적 분류(Post-hoc / Cluster-based)

설문의 응답 패턴(만족도·니즈·가치관 등)에서, 데이터 기반으로 "자연스러운 덩어리"를 발견 하는 방법입니다. 클러스터 분석이나 잠재 클래스 분석을 사용합니다. "데이터에게 말하게 하는" 접근법으로, 사전의 선입견으로는 알아차릴 수 없는 세그먼트가 나옵니다.

약점은 매번 다른 결과가 나오기 쉽고, 해석이 어려우며, 운용에서 재현하기 어렵다 는 것. "이 세그먼트는 누구인가"를 해석하는 힘이 필요합니다.

구분의 원칙

먼저 사전적 분류로 가늠을 잡는다: 인구통계·행동 데이터로 나누어, KDA/IPA에 차이가 나는지 본다
차이가 나지 않거나 깊이 파고들고 싶다면 사후적 분류: 클러스터 분석으로 니즈·가치관 기반의 덩어리를 찾는다
실무에서는 양쪽을 조합한다: 사후적 분류로 발견한 덩어리를, 사전적 분류의 변수(연령대·플랜)로 "프로파일링"하여 정체를 파악한다(제6장)

3. 세그먼트 축의 선택법 — 4종류의 변수

무엇을 기준으로 나눌 것인가. 세분화 변수는 크게 4종류가 있으며, "나누기 쉬움"과 "수로 이어지기 쉬움"이 트레이드오프 가 됩니다.

세분화 변수의 4종류

인구통계(Demographic)

연령·성별·연소득·지역·직업 등. 취득이 쉽고 기술하기 쉽지만, 행동을 설명하는 힘은 약하다. "30대 여성"이 모두 같은 방식으로 사는 것은 아니다. 단독으로는 약하며, 다른 축의 보조에 적합하다.

행동(Behavioral)

이용 빈도·구매 금액·이용 기능·지속 기간 등. 실제 행동에 기반하므로 시책으로 이어지기 쉽다. RFM 분석(최종 구매·빈도·금액)이 대표적. CRM 데이터와 결합하기 쉽다.

니즈·베네핏(원하는 가치)

"무엇을 중시하여 선택하는가". 가격 중시·품질 중시·지원 중시 등. 제품 개발·소구에 가장 직결되지만, 설문에서 꼼꼼하게 묻는 설계가 필요하다. 사후적 분류의 주역.

심리적(가치관·라이프스타일)

성격·가치관·라이프스타일·태도. 깊은 동기를 포착할 수 있지만, 측정이 어렵고 해석에 주관이 들어가기 쉽다. 단독 운용은 상급자용.

실무의 정석

행동 + 니즈의 조합 이 가장 "쓸 수 있는" 세그먼트를 만들기 쉽다
인구통계는 분류 축이 아니라 프로파일링 축으로 사용한다(나중에 "이 세그먼트는 30대가 많다"라고 기술한다)
니즈·베네핏을 측정하려면 리커트 척도의 문항 설계가 핵심. 리커트 척도 설계 가이드 를 참조

4. 클러스터 분석의 기법 — 계층·k-평균·잠재 클래스

사후적 분류의 핵심이 클러스터 분석입니다. 대표적인 3가지 기법에는 각각 적합한 상황이 있습니다.

계층적 클러스터 분석(Hierarchical)

샘플을 하나씩 병합해 나가며, 수형도(덴드로그램)로 덩어리의 구조를 보는 방법입니다. 세그먼트 수를 사전에 정하지 않아도 되고, 구조를 시각적으로 파악할 수 있는 것이 이점. 워드 방법(Ward's method)이 자주 사용됩니다. 약점은 계산량이 크고, 샘플이 수천을 넘으면 무거워진다 는 것. 소〜중 규모 샘플이나 탐색 단계에 적합합니다.

k-평균 방법

세그먼트 수 k 를 먼저 지정 하고, 각 점을 가장 가까운 중심에 할당하여 중심을 갱신, 을 반복하는 방법입니다. 대규모 데이터에서도 빠르며, 가장 널리 사용됩니다. 약점은 (1) k 를 사전에 정해야 한다, (2) 초기값 의존으로 결과가 흔들린다(여러 번 실행하여 안정성을 확인), (3) 변수의 스케일에 민감하다(반드시 표준화한 후 투입).

잠재 클래스 분석(Latent Class Analysis, LCA)

"각 응답자는 확률적으로 어느 한 잠재 클래스에 속한다"라고 가정하는 통계 모델입니다. Kamakura & Russell (1989) 이래 마케팅에서 발전했습니다. 통계적인 기준(BIC 등)으로 세그먼트 수를 선택할 수 있다 는 것, 범주형 변수를 자연스럽게 다룰 수 있다는 것이 이점. 약점은 전문성이 높고, 전용 소프트웨어(Latent GOLD, R의 poLCA 등)가 필요하다는 것.

전처리: 요인분석으로 차원을 압축한다

문항이 20문항·30문항씩 있는 경우, 그대로 클러스터 분석에 투입하면 상관하는 문항이 같은 개념을 이중으로 가중 하게 됩니다. 먼저 요인분석(factor analysis) 으로 "가격 지향", "품질 지향" 등의 요인으로 압축한 후, 요인점수로 클러스터링하는 것이 정석입니다. 설문조사의 신뢰성과 타당성 가이드 에서 요인분석과 구성개념의 관계를 다루고 있습니다.

5. 세그먼트 수를 어떻게 정하는가 — 통계 지표와 해석 가능성

"몇 개로 나눌까"는 세분화 최대의 고민거리입니다. 통계적 지표와 비즈니스상의 해석 가능성의 양쪽 으로 정합니다.

통계적인 기준

엘보우 방법(Elbow Method): 클러스터 수를 늘렸을 때의 "군내 제곱합의 감소 방식"이 완만해지는 "팔꿈치"의 점을 선택한다
실루엣 계수(Silhouette): 각 점이 자신이 속한 클러스터에 얼마나 적합하고, 이웃 클러스터로부터 얼마나 떨어져 있는지를 -1〜1 로 평가. Rousseeuw (1987) 의 지표로, 1에 가까울수록 좋다
잠재 클래스 분석이라면 BIC / AIC: 정보량 기준이 최소인 클러스터 수를 선택한다

그러나 최종 결정은 "해석 가능성"

통계 지표가 "6세그먼트가 최적"이라고 나와도, 6개를 말로 설명할 수 없으면 의미가 없습니다. 실무에서는 3〜6세그먼트 로 안착하는 경우가 많습니다. 이유는 단순한데, 7개 이상은 시책을 구분해서 펼칠 수 없기(조직의 리소스가 부족하기) 때문입니다.

"통계적으로는 최적이어도, 비즈니스에서 움직일 수 없는 세그먼트 수는 채택하지 않는다". 이것이 세그먼트 수 결정의 철칙입니다. 통계는 어디까지나 후보의 제시이며, 최종 판단은 "이 세그먼트별로 다른 수를 펼칠 수 있는가"입니다.

6. 프로파일링과 페르소나화 — 쓸 수 있는 세그먼트의 6가지 조건

클러스터가 나오면 각각이 "누구인가"를 기술(프로파일링) 합니다. 각 세그먼트에 대해 인구통계·행동·니즈의 평균값을 내고, "이 세그먼트는 가격 중시이고 30대가 많으며, 이용 빈도가 낮은 신규층"처럼 언어화하고, 필요하면 페르소나로 만듭니다.

다만 통계적으로 나뉜 덩어리가 모두 "쓸 수 있는 세그먼트"라고는 할 수 없습니다. Kotler가 정리한, 실무에서 쓸 수 있는 세그먼트의 조건을 충족하는지 확인합니다.

측정 가능성(Measurable): 세그먼트의 규모·특성을 측정할 수 있다
접근 가능성(Accessible): 그 세그먼트에 광고·영업으로 도달할 수 있다
규모(실질성, Substantial): 투자에 걸맞은 크기가 있다(1%의 세그먼트에 전용 시책은 펼칠 수 없다)
차별화 가능성(Differentiable): 다른 세그먼트와 반응이 명확하게 다르다
실행 가능성(Actionable): 그 세그먼트를 위해 구체적인 시책을 설계·실행할 수 있다
안정성(Stable): 단기간에 사라지지 않는, 시간적으로 안정된 세그먼트이다

"통계적으로 깔끔하게 나뉘었지만, 도달 수단이 없고 규모도 작은" 세그먼트는, 분석으로서는 옳아도 비즈니스에서는 쓸 수 없습니다. 프로파일링 단계에서 이 6가지 조건으로 거릅니다.

7. 편집부의 관점 — 세분화에서 해서는 안 되는 5가지

업계 사례와 실무 담당자의 목소리를 지속적으로 쫓는 입장에서, 세분화에서 반복적으로 일어나는 사고를 5가지.

1. 변수를 표준화하지 않고 클러스터링한다

가장 빈번하면서 가장 알아차리지 못하는 사고입니다. "연소득(만 원 단위, 수백〜수천)"과 "만족도(1〜5)"를 표준화하지 않고 k-평균에 투입하면, 스케일이 큰 연소득만으로 덩어리가 정해지고, 만족도는 거의 무시됩니다. 클러스터링 전에 모든 변수를 표준화(z 점수화) 한다. 이것을 잊은 분석은 거의 확실하게 틀렸습니다.

2. 인구통계만으로 나누고 "나눈 듯한 기분"이 된다

"20대/30대/40대로 나누었습니다"로 끝난다. 연령대로 나누어도 구매 행동이 같다면, 그것은 세분화가 아니라 단순한 집계 입니다. 인구통계는 분류 축이 아니라 프로파일링 축. 행동·니즈로 나누고, 인구통계로 기술하는 순서를 지킨다.

3. 세그먼트 수를 통계 지표만으로 정한다

실루엣 계수가 최대라며 8세그먼트를 채택하고, 조직이 구분해서 펼칠 수 없어 방치된다. "구분해서 펼칠 수 있는 수"를 상한으로, 통계는 그 범위 안에서 최적을 선택한다. 3〜6이 현실적인 착지점입니다.

4. 한번 만든 세그먼트를 영원히 계속 사용한다

2년 전에 만든 세그먼트를, 시장이 바뀐 지금도 계속 사용한다. 세그먼트는 생물 입니다. 시장·고객·제품이 바뀌면 덩어리도 바뀐다. 정기적으로(연 1회 정도) 클러스터링을 다시 하고, 세그먼트의 안정성(조건 6)을 확인한다.

5. 샘플 크기가 작은데 세그먼트를 나눈다

N=150 을 6세그먼트로 나누면, 1세그먼트 평균 25명. 세그먼트별 스코어가 오차투성이 가 되어, "세그먼트 A의 만족도가 높다"라고 말해도 N=20에서는 의미가 없습니다. 세분화를 전제로 한다면, 1세그먼트 최소 50〜100, 가능하면 각 100 이상 을 확보할 수 있는 샘플 설계를. 필요 샘플 크기 결정법 을 참조.

8. 설문조사 도구 Kicue에서의 고객 세분화 설문조사

세분화 설문조사는 "분류의 바탕이 되는 문항을 측정한다" 단계와 "클러스터 분석으로 덩어리를 찾는다" 분석 단계로 나뉩니다. Kicue가 담당하는 것은 전자이며, 후자는 외부 통계 도구와의 조합이 됩니다.

분류 변수의 측정: 니즈·가치관·행동을 측정하는 리커트 척도／단일·복수 응답의 문항 설계에 대응(문항 타입)
인구통계·행동 문항의 병설: 프로파일링에 사용하는 속성(연령대·플랜·이용 빈도)을 동일 폼에서 취득
응답자 ID 부여 CSV 내보내기: 1행 1응답으로 모든 문항을 나열한, 클러스터 분석에 그대로 투입할 수 있는 구조로 출력. 분석 후에 "어느 응답자가 어느 세그먼트인지"를 CRM과 다시 결합하는 것도 가능
GT 집계·교차 집계: 사전적 분류(연령대별 등)의 교차 집계까지는 대시보드상에서 가능

⚠️ Kicue에서 대응할 수 없는 범위

클러스터 분석·k-평균·계층적 클러스터·잠재 클래스 분석 기능은 없음: 통계 해석은 R(cluster, poLCA 등) / Python(scikit-learn) / SPSS / Latent GOLD 로 실시. Kicue 자체에는 통계 해석 기능을 두고 있지 않습니다
요인분석·변수의 표준화도 없음: 클러스터링 전처리는 내보내기 후의 통계 소프트웨어 쪽에서 실시
세그먼트별 드라이버 분석(KDA)도 없음: CSV를 외부 도구에 넘겨 세그먼트별로 돌리는 운용
페르소나의 자동 생성도 없음: 프로파일링 결과로부터의 페르소나화는 수작업 + BI 도구로 실시

관련 기사로 키 드라이버 분석 가이드・중요도-만족도 분석(IPA) 가이드・설문조사 샘플링 기법 가이드・스크리닝 문항의 설계와 운용 가이드・설문조사의 신뢰성과 타당성 가이드 를 함께 읽으면, "설계 → 분류 → 세그먼트별 요인 분석 → 우선순위"의 분석 파이프라인 전체가 보이기 시작합니다.

정리 — 고객 세분화를 쓸 수 있는 분석으로 만드는 6가지

전체 평균의 함정을 의식한다 — KDA/IPA를 세그먼트별로 다시 돌리면, 숨겨진 차이가 보인다
행동·니즈로 나누고, 인구통계로 기술한다 — 인구통계 단독 분류는 "나눈 듯한 기분"으로 끝난다
클러스터링 전에 반드시 표준화 — 스케일이 큰 변수에 덩어리가 점령당하지 않는다
세그먼트 수는 "구분해서 펼칠 수 있는 수"가 상한 — 통계 지표는 그 범위 안에서 최적을 선택한다(3〜6이 현실적인 답)
6가지 조건(측정·접근·규모·차별화·실행·안정)으로 거른다 — 통계적인 덩어리 ≠ 쓸 수 있는 세그먼트
세그먼트 전제라면 각 100 이상을 확보 — 소규모 샘플을 잘게 나누면 오차투성이

고객 세분화는 "고도의 클러스터 분석을 돌리는 것"이 목적이 아닙니다. 표준화·해석 가능성·실행 가능성의 3가지를 놓치지 않는 것 으로, "평균적인 고객"이라는 환상에서 벗어나, 덩어리별로 꽂히는 수를 설계할 수 있는, 전략의 토대가 되는 분석입니다.

세분화의 바탕이 되는 조사를 설계하고 싶은 분은, 무료 설문조사 도구 Kicue 를 사용해 보시는 건 어떨까요. 니즈·행동·속성을 측정하는 리커트／선택 문항의 설계, 응답자 ID 부여 CSV 내보내기로, 클러스터 분석의 입력 데이터를 만드는 부분을 1개 계정으로 시작할 수 있습니다(클러스터 분석·요인분석·잠재 클래스 분석·변수의 표준화는 R / Python / SPSS / Latent GOLD 와의 조합 운용이 됩니다).

참고 문헌

Smith, W. R. (1956). Product Differentiation and Market Segmentation as Alternative Marketing Strategies. Journal of Marketing, 21(1), 3-8.
Punj, G., & Stewart, D. W. (1983). Cluster Analysis in Marketing Research: Review and Suggestions for Application. Journal of Marketing Research, 20(2), 134-148.
Kamakura, W. A., & Russell, G. J. (1989). A Probabilistic Choice Model for Market Segmentation and Elasticity Structure. Journal of Marketing Research, 26(4), 379-390.
Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.
Wedel, M., & Kamakura, W. A. (2000). Market Segmentation: Conceptual and Methodological Foundations (2nd ed.). Kluwer Academic Publishers.