Guia de teste de conceito — Medir a aceitação antes do lançamento

A ideia do novo produto foi afunilada para três candidatas. Na sala de reunião, sobraram a aposta de quem fala mais alto e a queridinha do diretor. Só que quem vai comprar não é o pessoal da sala de reunião. Descobrir que "não vendeu" só depois de lançar é o erro mais caro de todos.

O teste de conceito é a pesquisa em que você apresenta a ideia ao cliente-alvo e pergunta "e aí, o que achou?" antes de levá-la ao mundo. Parece simples de fazer, mas basta errar um ponto do design para os números mentirem. "Todos os conceitos passaram dos 70% de intenção de compra" — cena comum, e um fracasso típico de quem errou o formato de apresentação. Neste artigo organizamos, com o tato da prática, desde a escolha do formato de apresentação, passando pelos indicadores padrão que você deve medir e a leitura do Top Box, até a comparação com normas para decidir se "o seu número está alto ou baixo".

1. O que é teste de conceito — o investimento que evita o erro mais caro

O teste de conceito é a pesquisa que apresenta ao cliente-alvo um conceito (a ideia ainda na fase em que não existe produto real) de produto, serviço, funcionalidade ou anúncio para avaliar a aceitação. Há dois objetivos.

Decisão de Go / No-Go: vale ou não a pena levar isso ao mundo. Qual das várias candidatas seguir adiante
Descoberta de pontos de melhoria: onde o conceito acerta e onde ele não pega

O maior valor é "saber antes de fazer". Se você consegue validar a direção antes de desenvolver o protótipo, formar estoque e veicular anúncios, o custo do erro fica em outra ordem de grandeza. Por outro lado, fazer uma pesquisa relapsa aqui e julgar "está liberado" por engano leva ao erro mais caro de todos — a retirada do mercado depois do lançamento.

Vale lembrar que o teste de conceito antecede a decisão de "por quanto vender". Depois de confirmar a aceitação, você ajusta a combinação ótima de preço e funcionalidades com o Medidor de Sensibilidade a Preço de Van Westendorp (PSM) ou a análise conjoint, e mede a prioridade dos atributos de apelo com o MaxDiff. O teste de conceito é a porta de entrada desse cluster de pesquisas pré-lançamento.

2. A escolha do formato de apresentação — monádico / monádico sequencial / comparativo

A maior decisão de design do teste de conceito é "como mostrar". O formato de apresentação muda muito o resultado. Errar aqui é o que produz o "todos acima de 70%" do começo ou, ao contrário, o "todos baixos".

Os 3 formatos de apresentação de conceito

Monádico (Monadic) — 1 pessoa, 1 candidata só

Os respondentes são divididos por candidata, e cada pessoa avalia a fundo apenas 1 conceito. É o mais puro (com menos viés) e o mais próximo da situação real de compra. Ponto fraco: exige amostra na proporção do número de candidatas (3 candidatas = 3 vezes mais). É este o formato para a decisão de verdade.

Monádico sequencial (Sequential Monadic) — 1 pessoa avalia várias em sequência

Uma pessoa avalia várias candidatas uma de cada vez, em sequência. Boa eficiência de amostra. Ponto fraco: as candidatas seguintes acabam sendo comparadas com as anteriores (efeito de ordem). Randomize a ordem de apresentação para mitigar. É a opção intermediária mais usada na prática.

Comparativo (Comparative / Competitive) — várias candidatas lado a lado

Várias candidatas são colocadas lado a lado ao mesmo tempo e o respondente escolhe "qual é a melhor". A superioridade relativa entre as candidatas fica nítida. Ponto fraco: colocar todas juntas exagera as diferenças, e você não fica sabendo a aceitação absoluta (se vai mesmo vender no mercado). Serve para triagem.

O princípio da escolha

Decisão final de Go / No-Go → monádico: consome amostra, mas é o mais próximo da compra real (a pessoa encontra uma candidata de cada vez na prateleira) e permite ler o nível absoluto
Amostra limitada → monádico sequencial + randomização da ordem: a opção intermediária realista. Pelo que mostra Efeitos de ordem e design da sequência de perguntas, a randomização do efeito de ordem é obrigatória
Triagem inicial para afunilar de muitas candidatas para algumas → comparativo: quando você quer ver só o ranking relativo

Nunca leia como nível absoluto um "todas as candidatas pontuaram alto no comparativo". Colocadas lado a lado, as diferenças se exageram e o resultado se distancia do mercado real (onde você encontra uma candidata por vez).

3. O que medir — os indicadores padrão do teste de conceito

Os indicadores a medir já estão, em grande parte, consolidados no setor. O mínimo a garantir são estes 5.

Intenção de compra (Purchase Intent): "você teria vontade de comprar se isto fosse lançado?". O padrão é uma escala de 5 pontos ("com certeza compraria" a "com certeza não compraria"). O indicador mais importante
Novidade / ineditismo (Uniqueness / Newness): "você sente algo novo, que não existia antes?". Se a novidade é baixa, não há razão para trocar do produto atual
Apelo / atratividade (Appeal / Liking): "no geral, quanta atração você sente?". A avaliação geral da primeira impressão
Relevância / o quanto é "pra mim" (Relevance): "isto combina com a sua necessidade?". Por mais nova que seja, se não tem a ver com a pessoa, ela não compra
Singularidade / diferenciação (Differentiation): "você acha que é diferente dos outros produtos?"

O equilíbrio entre novidade × relevância

Especialmente importante é o trade-off entre novidade e relevância.

Novidade alta, mas relevância baixa → "é interessante, mas não tem a ver comigo". Vira assunto, mas não vende
Relevância alta, mas novidade baixa → "parece útil, mas o que já tenho dá conta". Não acontece a troca
As duas altas → o ideal. Novo e, ao mesmo tempo, necessário pra mim

Em vez de comemorar ou se desesperar olhando só a intenção de compra, decomponha "por que a intenção de compra é essa" em novidade e relevância — assim você enxerga a direção da melhoria (adicionar ineditismo ou adicionar "pertinência pra mim").

4. A leitura do Top Box — a arte de descontar os números

No fechamento da intenção de compra usamos o Top Box / Top 2 Box (T2B). Numa escala de 5 pontos, "com certeza compraria" = Top Box, e "com certeza compraria + provavelmente compraria" = T2B.

A intenção de compra sempre vem superestimada

Aqui está a maior armadilha. A intenção de compra na pesquisa sempre vem mais alta do que o comportamento real de compra. Porque responder "quero comprar" não custa nada. Quase nunca a taxa de compra real de quem respondeu "com certeza compraria" corresponde àquele número.

Na prática, a regra é dar peso ao "com certeza compraria" e descontar fortemente o "provavelmente compraria". Há setores que mantêm um fator de conversão ("que fração do T2B vira compra real", um fator próprio construído a partir do histórico), mas isso varia muito por produto e faixa de preço, então emprestar o fator de outra empresa não acerta.

Por isso a "comparação com normas" é necessária (próximo capítulo)

Mesmo descontando, você precisa de um critério para julgar se "o número depois do desconto está alto ou baixo". Esse critério é a norma.

5. Comparação com normas — sozinho, "70%" não diz se é alto ou baixo

O erro mais comum no teste de conceito é julgar olhando apenas o valor absoluto do score. "A intenção de compra T2B é 65%, isto é alto" — será mesmo?

O nível da intenção de compra muda muito por categoria, faixa de preço e método de pesquisa. Para um novo sabor de produto de uso diário, um T2B de 70% pode ser banal; para um bem durável de alto valor, 40% talvez seja excelente. Só comparando com candidatas anteriores, concorrentes ou média da categoria medidos com o mesmo design de pesquisa (= norma / benchmark) é que dá para dizer "alto / baixo".

Como construir e usar normas

Acumule suas próprias candidatas anteriores com o mesmo design: a norma mais confiável. Use os scores de produtos passados de sucesso e de fracasso como linha de base
Embuta uma "âncora" dentro da mesma pesquisa: junto das candidatas em teste, peça que avaliem, com as mesmas perguntas, um produto de sucesso já existente seu ou um concorrente. Assim você fica sabendo, em condição idêntica, "como a nova candidata se sai em relação ao sucesso já existente"
Use um banco de dados normativo de uma empresa de pesquisa: bancos normativos comerciais como o BASES (NielsenIQ) trazem benchmarks por categoria. Mas dependem do método, então pressupõem medir com o método daquela empresa

Score isolado quase não tem significado. Só vira insumo de decisão em conjunto com um termo de comparação. Essa é a regra de ouro do teste de conceito.

6. O design do estímulo (texto do conceito) — a disputa antes de medir

Costuma ser esquecido, mas a própria "forma de mostrar (o estímulo)" do conceito determina o resultado. A mesma ideia tem a avaliação alterada conforme a construção do estímulo.

A estrutura padrão do texto de conceito

Um bom texto de conceito costuma ter os seguintes elementos.

Insight / problema: "você não tem essa insatisfação?" (a porta de entrada da empatia)
Benefício: como esse problema é resolvido (o valor entregue)
Reason to Believe (RTB / razão para acreditar): por que isso é possível (a base para acreditar — tecnologia, histórico)
Forma do produto / cena de uso: concretamente o quê, quando e como se usa

Cuidados no design do estímulo

Equalize a quantidade de informação e o acabamento entre as candidatas: se só a candidata A está bem-acabada e a B está relapsa, você acaba medindo a "habilidade do texto", não o conceito. A imparcialidade da comparação é vital
Não transforme em anúncio: ao colocar exageros ou apelos, você passa a medir a força do anúncio, não a força nua do conceito. Comunique o valor de forma sóbria
Elimine jargão e termos internos: use palavras que o público-alvo entenda numa leitura. A avaliação baixa de um estímulo incompreensível não é a rejeição do conceito, e sim a falha na comunicação

A construção do texto apresentado é uma continuidade do design do enunciado das perguntas. Os princípios de evitar indução e exagero do Guia completo de como redigir perguntas de pesquisa valem diretamente aqui.

7. A visão da redação — 5 coisas que você não deve fazer no teste de conceito

Da posição de quem acompanha continuamente os casos do setor e a voz de quem está na linha de frente, aqui vão 5 acidentes que se repetem no teste de conceito.

1. Ler a alta avaliação do comparativo como nível absoluto

O mais frequente. Colocar todas as candidatas lado a lado e ler "a candidata vencedora tem T2B 75%" como "75% do mercado compra". Lado a lado, as diferenças se exageram e o nível absoluto não aparece. O Go / No-Go se decide com o monádico, depois de medir o nível absoluto. O comparativo se limita à triagem inicial.

2. Julgar o valor absoluto sem norma

Afirmar "intenção de compra 65% é alto" sem termo de comparação. O nível muda drasticamente por categoria e faixa de preço. Só dá para falar em alto ou baixo colocando lado a lado, com o mesmo design, candidatas anteriores, concorrentes e média da categoria. Score isolado não vira insumo de decisão. No mínimo, embuta uma âncora (produto existente) dentro da mesma pesquisa.

3. Acreditar na intenção de compra ao pé da letra

Levar "com certeza compraria, 40%" para o plano de negócios como está. A intenção de compra sempre vem superestimada. Dê peso ao "com certeza compraria" e desconte fortemente o "provavelmente". O fator de conversão se constrói a partir do próprio histórico — fatores de outras empresas ou de outras categorias não acertam.

4. Mudar o acabamento do estímulo entre as candidatas

Estímulo bonito só para a candidata favorita, e a concorrente feita nas coxas. Assim você está medindo a habilidade do texto, não a força do conceito. Equalize quantidade de informação, tom e acabamento em todas as candidatas. Uma pesquisa em que a imparcialidade da comparação ruiu é inútil por mais amostra que você junte.

5. Se contentar perguntando para fora do público-alvo

Por ser fácil de recrutar, perguntar a um público que não é o alvo (heavy users existentes ou conhecidos de funcionários). A avaliação de um novo produto só faz sentido se você perguntar ao público-alvo que você realmente quer que compre. Afunilar os respondentes com triagem é obrigatório. Para o design dos respondentes, consulte o Guia de design e operação de perguntas de triagem.

8. Operação de teste de conceito com a ferramenta de pesquisa Kicue

O teste de conceito se divide na fase de design — "apresentar o estímulo e medir os indicadores padrão" — e na fase de análise — "interpretar com comparação a normas e teste de significância". O que o Kicue cobre é principalmente a primeira.

Apresentação do estímulo de conceito: dá para desenhar em conjunto a apresentação do texto do conceito (texto) e as perguntas Likert de intenção de compra, novidade, apelo etc. (tipos de perguntas)
Ramificação / randomização para o design monádico: o monádico que distribui os respondentes por candidata e o monádico sequencial que randomiza a ordem de apresentação são atendidos por condições de exibição e lógica de ramificação (Guia completo de lógica de ramificação)
Inclusão da âncora (produto existente): dá para colocar, no mesmo formulário, perguntas de avaliação de um produto de sucesso existente ou de concorrentes, criando a base da comparação com normas
Triagem dos respondentes: excluir quem está fora do público-alvo com uma pergunta de triagem no início
Exportação de CSV com ID do respondente: gera dados estruturados para fazer o fechamento do Top Box e a comparação entre candidatas por fora

⚠️ Limites do que o Kicue não cobre

A apresentação de estímulos em vídeo / imagem rica tem restrições: a apresentação de conceitos em vídeo elaborados ou de imagens precisas de embalagem pode exigir artifícios operacionais, como o uso combinado de links de hospedagem externa (confirme antecipadamente a forma de apresentação)
Não há banco de dados normativo / benchmark do setor: a comparação com normas comerciais como o BASES é serviço externo. O que o Kicue fornece são apenas os dados da sua própria pesquisa
Não há teste de significância estatística / cálculo de fator de conversão: o teste da diferença de intenção de compra entre candidatas e a conversão de T2B → compra real se fazem no Excel / R / Python / SPSS (consulte o Guia de agregação e teste de significância)
A gestão rigorosa de cotas por célula da alocação tem restrições: a gestão de alocação para equalizar com rigor o tamanho de amostra por célula do monádico pode exigir integração com uma empresa de painel externa

Como leitura relacionada, ler em conjunto o Guia de design do PSM de Van Westendorp, a prática da análise conjoint, o Guia de design de MaxDiff, o Guia de design e operação de perguntas de triagem e o Guia completo de como redigir perguntas de pesquisa revela todo o pipeline de pesquisa pré-lançamento: "avaliar o conceito → ajustar preço e funcionalidades → medir a prioridade do apelo".

Resumo — 6 pontos para tornar o teste de conceito uma pesquisa confiável

O Go / No-Go com monádico — só o monádico mede o nível absoluto. O comparativo se limita à triagem inicial
Não olhe só a intenção de compra — decomponha em novidade × relevância e leia a direção da melhoria
Desconte o Top Box — a intenção de compra sempre vem superestimada. Dê peso ao "com certeza compraria" e desconte fortemente o "provavelmente"
Só comparando com normas dá para falar em alto ou baixo — score isolado não tem significado. Compare candidatas anteriores, concorrentes e âncoras com o mesmo design
Construa o estímulo com imparcialidade entre as candidatas — meça a força do conceito, não a habilidade do texto
Pergunte ao público-alvo — afunile os respondentes com triagem. Perguntar a um público fácil de recrutar não vira insumo de decisão

O teste de conceito não tem como objetivo "fazer uma pesquisa". Ao não escorregar nos 3 pontos — formato de apresentação, comparação com normas e imparcialidade do estímulo —, ele se torna o seguro pré-lançamento de maior retorno sobre investimento, em que o Go / No-Go é decidido pela voz do mercado, e não pelo volume de voz da sala de reunião.

Quem quiser desenhar uma pesquisa de avaliação de conceito antes do lançamento pode experimentar a ferramenta de pesquisa Kicue gratuita. Desde a apresentação do texto do conceito e o design das perguntas Likert de intenção de compra, novidade e apelo, passando pela lógica de ramificação para a distribuição monádica e a triagem dos respondentes, até a exportação de CSV com ID do respondente, você inicia a parte de pesquisa do teste de conceito com uma única conta (a comparação com banco de dados normativo, o teste de significância estatística e a conversão de T2B para compra real ficam para a operação combinada com serviços externos de normas ou com R / Python / SPSS).

Referências

Page, A. L., & Rosenbaum, H. F. (1992). Developing an Effective Concept Testing Program for Consumer Durables. Journal of Product Innovation Management, 9(4), 267-277.
Moore, W. L. (1982). Concept Testing. Journal of Business Research, 10(3), 279-294.
Dahan, E., & Hauser, J. R. (2002). The Virtual Customer. Journal of Product Innovation Management, 19(5), 332-353.
Morwitz, V. G., Steckel, J. H., & Gupta, A. (2007). When do purchase intentions predict sales?. International Journal of Forecasting, 23(3), 347-364.