컨셉 테스트 조사 가이드 — 출시 전에 수용성을 측정하는 설계

신제품 기획안이 셋으로 좁혀졌다. 회의실에는 목소리 큰 사람이 미는 안과, 임원이 좋아하는 안이 남아 있다. 하지만 그걸 사는 사람은 회의실에 있는 사람들이 아닙니다. 출시하고 나서 "안 팔렸습니다"라고 깨닫는 것이, 가장 비싸게 치르는 실패입니다.

컨셉 테스트는 아이디어를 세상에 내놓기 전에, 타깃 고객에게 "이거, 어때요?"라고 물어보는 조사 입니다. 하는 일은 단순해 보여도, 설계를 하나 잘못하면 숫자가 거짓말을 합니다. "모든 컨셉이 구매 의향 70% 초과"——흔히 보는 광경이지만, 이것은 제시 방식을 잘못 고른 전형적인 실패입니다. 본고에서는 제시 방식의 구분부터, 측정해야 할 표준 지표, Top Box의 해석법, 그리고 "우리 숫자는 높은가 낮은가"를 판단하기 위한 노름 비교까지를, 실무의 손맛으로 정리합니다.

1. 컨셉 테스트란 — 가장 비싼 실패를 피하는 투자

컨셉 테스트는 제품·서비스·기능·광고 등의 컨셉(아직 실물이 없는 단계의 아이디어) 을, 타깃 고객에게 제시해 수용성을 평가하는 조사입니다. 목적은 두 가지입니다.

Go / No-Go 판단: 애초에 세상에 내놓을 가치가 있는가. 여러 안 중 어느 것을 진행할 것인가
개선점 발견: 컨셉의 어디가 꽂히고, 어디가 와닿지 않는가

가장 큰 가치는 "만들기 전에 알 수 있다" 는 점. 프로토타입 개발·재고·광고 집행 전에 방향성을 검증할 수 있으면, 실패의 비용이 자릿수가 다르게 작아집니다. 거꾸로 말하면, 여기서 엉성한 조사를 해서 "갈 만하다"고 오판하면, 가장 비싼 실패——시장에 내놓은 뒤의 철수——를 부릅니다.

참고로 컨셉 테스트는 "얼마에 팔 것인가"의 앞단 입니다. 수용성을 확인한 뒤에, Van Westendorp 가격 민감도 측정법(PSM) 이나 컨조인트 분석 으로 가격·기능의 최적 조합을 다듬고, MaxDiff 로 소구 요소의 우선순위를 측정한다. 컨셉 테스트는 이 출시 전 조사 클러스터의 입구에 해당합니다.

2. 제시 방식의 구분 — 모나딕 / 순차 모나딕 / 비교

컨셉 테스트 최대의 설계 판단이 "어떻게 보여줄 것인가" 입니다. 제시 방식에 따라 결과가 크게 달라집니다. 여기를 잘못 고르면, 서두의 "모두 70% 초과"나 반대로 "모두 낮음"이 일어납니다.

컨셉 제시의 3가지 방식

모나딕(Monadic) — 1인 1안만

응답자를 안별로 나누고, 각자는 하나의 컨셉만을 깊이 평가한다. 가장 순수(편향이 적음)하고, 현실의 구매 상황에 가깝다. 약점: 안의 수만큼 표본이 필요하다(3안이면 3배). 본 의사결정은 이것.

순차 모나딕(Sequential Monadic) — 1인이 여러 안을 차례로

1인이 여러 안을 하나씩 순서대로 평가한다. 표본 효율이 좋다. 약점: 뒤의 안이 앞의 안과 비교되어 버린다(순서 효과). 제시 순서를 랜덤화해 완화한다. 실무에서 가장 많이 쓰는 절충안.

비교 제시(Comparative / Competitive) — 여러 안을 나란히

여러 안을 동시에 나란히 놓고 "어느 것이 가장 좋은가"를 고르게 한다. 안 사이의 상대적 우열은 선명하게 나온다. 약점: 전부 나란히 놓으면 차이가 과장되고, 절대적인 수용도(시장에서 정말 팔릴지)는 알 수 없다. 스크리닝에 적합.

구분의 원칙

최종적인 Go / No-Go 판단 → 모나딕: 표본은 많이 들지만, 현실의 구매(사람은 매대에서 한 안씩 만난다)에 가장 가깝고, 절대 수준을 읽을 수 있다
표본이 한정적 → 순차 모나딕 + 제시 순서 랜덤화: 현실적인 절충. 순서 효과는 순서 효과와 설문 순서 설계 의 지견대로 랜덤화 필수
다수의 안에서 몇 개로 좁히는 1차 스크리닝 → 비교 제시: 상대 순위만 보고 싶을 때

"비교 제시로 전체 안을 보여줘 높은 평가가 나왔다"를 절대 수준으로 오독하지 않는다. 나란히 놓으면 차이가 과장되고, 실제 시장(한 안씩 만난다)과는 동떨어집니다.

3. 무엇을 측정하는가 — 컨셉 테스트의 표준 지표

측정하는 지표는 업계에서 대체로 굳어져 있습니다. 최소한 짚어야 할 것은 다음 5가지입니다.

구매 의향(Purchase Intent): "출시되면 사고 싶으신가요". 5점 척도("반드시 산다"〜"절대 안 산다")가 표준. 가장 중요한 지표
신규성 / 새로움(Uniqueness / Newness): "지금까지 없던 새로움을 느끼시나요". 신규성이 낮으면, 기존 제품에서 갈아탈 이유가 없다
호감도(Appeal / Liking): "전체적으로 얼마나 매력을 느끼시나요". 첫인상의 종합 평가
관련성 / 자기 관련도(Relevance): "당신의 니즈에 맞나요". 신규성이 높아도 자신과 관계없으면 사지 않는다
독창성 / 차별화(Differentiation): "다른 제품과 다르다고 생각하시나요"

신규성 × 관련성의 균형

특히 중요한 것이 신규성과 관련성의 트레이드오프 입니다.

신규성은 높지만 관련성이 낮음 → "재미있지만, 나와는 상관없다". 화제는 되지만 안 팔린다
관련성은 높지만 신규성이 낮음 → "편리해 보이지만, 지금 있는 걸로 충분하다". 갈아타기가 일어나지 않는다
둘 다 높음 → 이상적. 새롭고, 게다가 나에게 필요하다

구매 의향만 보고 일희일비하지 말고, "왜 그 구매 의향인가"를 신규성·관련성으로 분해 하면, 개선의 방향(새로움을 더할지, 자기 관련도를 더할지)이 보입니다.

4. Top Box의 해석법 — 숫자를 할인하는 작법

구매 의향 집계에서는 Top Box / Top 2 Box(T2B) 를 사용합니다. 5점 척도라면 "반드시 산다"=Top Box, "반드시 산다 + 아마 산다"=T2B 입니다.

구매 의향은 반드시 부풀려진다

여기가 가장 큰 함정입니다. 설문의 구매 의향은, 실제 구매 행동보다 반드시 높게 나옵니다. "사고 싶다"고 답하는 것은 공짜이기 때문입니다. "반드시 산다"고 답한 사람의 실제 구매율이, 그 숫자대로 되는 일은 거의 없습니다.

실무에서는 "반드시 산다"를 무겁게, "아마 산다"를 크게 할인 하는 것이 정석입니다. 업계에 따라서는 "T2B의 몇 할이 실제 구매"라는 환산 계수(과거 실적으로 만드는 자사 계수)를 갖고 있지만, 이것은 상품·가격대에 따라 크게 달라지므로, 타사의 계수를 빌려와도 맞지 않습니다.

그래서 "노름 비교"가 필요하다(다음 장)

할인하더라도, "할인 후의 숫자가 높은가 낮은가"를 판단할 기준 이 필요합니다. 그것이 노름입니다.

5. 노름 비교 — "70%"가 높은지 낮은지는 단독으로는 알 수 없다

컨셉 테스트에서 가장 흔한 오류가, 점수의 절대값만 보고 판단하는 것입니다. "구매 의향 T2B가 65%, 이건 높다"——정말일까요.

구매 의향의 수준은, 카테고리·가격대·조사 기법에 따라 크게 달라집니다. 생필품의 신규 향(flavor)이라면 T2B 70%는 평범해도, 고가 내구재라면 40%로 우수할 수도 있다. 같은 조사 설계로 측정한 과거 안·경쟁사·카테고리 평균(=노름 / 기준값)과 비교해야 비로소, "높다 / 낮다"를 말할 수 있습니다.

노름을 만드는 법·쓰는 법

자사의 과거 안을 같은 설계로 축적한다: 가장 신뢰할 수 있는 노름. 성공한 과거 상품·실패한 과거 상품의 점수를 기준선으로 삼는다
동일 조사 안에 "앵커"를 심는다: 테스트 안과 함께, 기존의 자사 히트 상품이나 경쟁 제품도 같은 설문으로 평가하게 한다. 이로써 "신규 안은 기존 히트와 비교해 어떤가"가 동일 조건에서 보인다
시장 조사 회사의 노름 DB를 쓴다: BASES(NielsenIQ) 등의 상용 노름 DB는, 카테고리별 기준값을 갖고 있다. 단 기법 의존이므로, 그 회사의 기법으로 측정하는 것이 전제

단발 점수에는 의미가 거의 없다. 비교 대상과 세트가 되어야 비로소 판단 재료가 된다. 이것이 컨셉 테스트의 철칙입니다.

6. 자극(컨셉 문안)의 설계 — 측정하기 전의 승부

간과되기 쉽지만, 컨셉의 "보여주는 방식(자극)" 그 자체가 결과를 좌우합니다. 같은 아이디어라도, 자극의 완성도에 따라 평가가 달라진다.

컨셉 문안의 표준 구성

좋은 컨셉 문안은, 대체로 다음 요소를 갖습니다.

인사이트 / 과제: "이런 불만, 없으신가요"(공감의 입구)
베네핏: 그 과제를 어떻게 해결하는가(제공 가치)
Reason to Believe(RTB): 왜 그것이 가능한가(믿을 근거·기술·실적)
제품 형태·사용 장면: 구체적으로 무엇을, 언제, 어떻게 쓰는가

자극 설계의 주의점

안마다 정보량·완성도를 맞춘다: A안만 정교하게 만들고 B안이 엉성하면, 컨셉이 아니라 "카피의 솜씨"를 측정해 버린다. 비교의 공정성 이 생명
광고로 만들지 않는다: 과장 표현이나 부추김을 넣으면, 컨셉의 본래 힘이 아니라 광고의 힘을 측정하게 된다. 담담하게 가치를 전한다
전문 용어·사내 용어를 배제: 타깃이 한 번 읽고 이해할 수 있는 말로. 이해하지 못한 자극에 대한 낮은 평가는, 컨셉의 부정이 아니라 전달의 실패

제시하는 문장의 완성도는, 설문 문안 설계와 한 몸입니다. 설문 문항 작성법 완전 가이드 의 유도·과장 회피 원칙이 그대로 효과를 발휘합니다.

7. 편집부의 관점 — 컨셉 테스트에서 해서는 안 되는 5가지

업계 사례와 실무 담당자의 목소리를 꾸준히 좇는 입장에서, 컨셉 테스트에서 반복해 일어나는 사고를 5가지.

1. 비교 제시의 높은 평가를 절대 수준으로 오독한다

가장 자주 나옵니다. 전체 안을 나란히 놓고 "이긴 안은 T2B 75%"를 "시장에서 75%가 산다"로 읽는다. 나란히 놓으면 차이는 과장되고, 절대 수준은 나오지 않습니다. Go / No-Go는 모나딕으로, 절대 수준을 측정한 뒤에 판단한다. 비교 제시는 1차 스크리닝 한정.

2. 노름 없이 절대값을 판단한다

"구매 의향 65%는 높다"고, 비교 대상 없이 단언한다. 카테고리·가격대에 따라 수준은 격변합니다. 과거 안·경쟁사·카테고리 평균과 같은 설계로 나란히 놓아야 비로소 고저를 말할 수 있다. 단발 점수는 판단 재료가 되지 않습니다. 적어도 동일 조사 안에 앵커(기존 제품)를 심는다.

3. 구매 의향을 액면 그대로 믿는다

"반드시 산다 40%"를 사업 계획에 그대로 얹는다. 구매 의향은 반드시 부풀려집니다. "반드시 산다"를 무겁게, "아마 산다"를 크게 할인한다. 환산 계수는 자사 실적으로 만든다——타사·타 카테고리의 계수는 맞지 않습니다.

4. 자극의 완성도를 안마다 다르게 한다

본 안만 깔끔한 자극, 대항 안은 대충. 이래서는 컨셉의 힘이 아니라 카피의 솜씨 를 측정하고 있는 것. 정보량·톤·완성도를 모든 안에서 맞춘다. 비교의 공정성이 무너진 조사는, 표본을 아무리 모아도 무의미합니다.

5. 타깃 밖에 물어보고 만족한다

모으기 쉽다는 이유로, 타깃이 아닌 층(기존 헤비 유저나 직원의 지인)에게 물어본다. 신제품의 평가는 정말로 사주길 바라는 타깃 에게 묻지 않으면 의미가 없다. 스크리닝으로 대상자를 좁히는 것은 필수입니다. 대상자 설계는 스크리닝 문항의 설계와 운용 가이드 를 참조.

8. 설문조사 도구 Kicue에서의 컨셉 테스트 운용

컨셉 테스트는 "자극을 제시해 표준 지표를 측정하는" 설계 단계와, "노름 비교·통계 검정으로 해석하는" 분석 단계로 나뉩니다. Kicue가 담당하는 것은 주로 전자입니다.

컨셉 자극의 제시: 컨셉 문안(텍스트)의 제시와, 구매 의향·신규성·호감도 등의 리커트 문항을 세트로 설계 가능(문항 타입)
모나딕 설계를 위한 분기 / 랜덤화: 응답자를 안별로 배분하는 모나딕, 제시 순서를 랜덤화하는 순차 모나딕의 설계에, 표시 조건·분기 로직으로 대응(분기 로직 완전 가이드)
앵커(기존 제품)의 동봉: 동일 폼 안에 기존 히트 제품·경쟁 제품의 평가 문항을 넣어, 노름 비교의 토대를 만들 수 있다
대상자 스크리닝: 서두의 스크리닝 문항으로 타깃 밖을 제외
응답자 ID 부여 CSV 익스포트: Top Box 집계·안 사이 비교를 외부에서 하기 위한 구조화 데이터를 출력

⚠️ Kicue에서 대응할 수 없는 범위

동영상·리치 이미지의 자극 제시에는 제약: 정교한 동영상 컨셉이나 정밀한 패키지 이미지의 제시는, 외부 호스팅 링크 병용 등 운용상의 궁리가 필요한 경우가 있다(제시 형태는 사전에 확인 필요)
노름 DB·업계 기준값은 갖지 않는다: BASES 등의 상용 노름과의 비교는 외부 서비스. Kicue가 제공하는 것은 자사 조사 데이터뿐
통계적 유의차 검정·환산 계수의 계산은 없음: 안 사이의 구매 의향 차이 검정이나 T2B→실제 구매의 환산은 Excel / R / Python / SPSS 로 실시(집계와 유의차 판정 가이드 참조)
할당의 엄밀한 셀 관리(쿼터)에는 제약: 모나딕의 셀별 표본 수를 엄밀하게 맞추는 할당 관리는, 외부 패널 회사와의 연계가 필요한 경우가 있다

관련 기사로 Van Westendorp PSM 설계 가이드·컨조인트 분석의 실무·MaxDiff 설계 가이드·스크리닝 문항의 설계와 운용 가이드·설문 문항 작성법 완전 가이드 를 함께 읽으면, "컨셉을 평가 → 가격·기능을 다듬는다 → 소구의 우선순위를 측정한다"의 출시 전 조사 파이프라인 전체가 보입니다.

정리 — 컨셉 테스트를 신뢰할 수 있는 조사로 만드는 6가지

Go / No-Go는 모나딕으로 — 절대 수준을 측정할 수 있는 것은 모나딕뿐. 비교 제시는 1차 스크리닝 한정
구매 의향만 보지 않는다 — 신규성 × 관련성으로 분해해, 개선의 방향을 읽는다
Top Box는 할인한다 — 구매 의향은 반드시 부풀려진다. "반드시 산다"를 무겁게, "아마"를 크게 할인
노름과 비교해야 비로소 고저를 말할 수 있다 — 단발 점수에 의미는 없다. 과거 안·경쟁사·앵커와 동일 설계로 비교
자극은 안마다 공정하게 완성한다 — 카피의 솜씨가 아니라 컨셉의 힘을 측정한다
타깃에게 묻는다 — 스크리닝으로 대상자를 좁힌다. 모으기 쉬운 층에 물어도 판단 재료가 되지 않는다

컨셉 테스트는 "설문을 받는 것"이 목적이 아닙니다. 제시 방식·노름 비교·자극의 공정성의 3가지를 놓치지 않는 것 으로, 회의실의 목소리 크기가 아니라 시장의 목소리로 Go / No-Go를 정할 수 있는, 가장 투자 대비 효과가 높은 출시 전의 보험이 됩니다.

출시 전의 컨셉 평가 조사를 설계하고 싶은 분은, 무료 설문조사 도구 Kicue 를 시험해 보지 않으시겠어요. 컨셉 문안의 제시와 구매 의향·신규성·호감도의 리커트 문항 설계, 모나딕 배분을 위한 분기 로직, 대상자 스크리닝, 응답자 ID 부여 CSV 익스포트까지, 컨셉 테스트의 조사 부분을 1개 계정으로 시작할 수 있습니다(노름 DB 비교·통계적 유의차 검정·T2B에서 실제 구매로의 환산은 외부의 노름 서비스나 R / Python / SPSS와의 조합 운용이 됩니다).

참고 문헌

Page, A. L., & Rosenbaum, H. F. (1992). Developing an Effective Concept Testing Program for Consumer Durables. Journal of Product Innovation Management, 9(4), 267-277.
Moore, W. L. (1982). Concept Testing. Journal of Business Research, 10(3), 279-294.
Dahan, E., & Hauser, J. R. (2002). The Virtual Customer. Journal of Product Innovation Management, 19(5), 332-353.
Morwitz, V. G., Steckel, J. H., & Gupta, A. (2007). When do purchase intentions predict sales?. International Journal of Forecasting, 23(3), 347-364.