Guía de test de concepto — Medir la aceptación antes del lanzamiento

Las propuestas de nuevo producto se han reducido a tres. En la sala de reuniones sobreviven la favorita del que habla más fuerte y la preferida del directivo. Pero quien va a comprarlo no es la gente de la sala de reuniones. Darse cuenta tras el lanzamiento de que «no se vendió» es el fracaso más caro de todos.

El test de concepto es la investigación que pregunta a tu cliente objetivo «¿esto qué te parece?» antes de sacar la idea al mundo. Parece sencillo de ejecutar, pero basta un error de diseño para que los números mientan. «Todos los conceptos superan el 70 % de intención de compra» es una escena habitual, y es el fracaso típico de quien equivocó el modo de presentación. En este artículo ordenamos, con el tacto del oficio, desde cuándo usar cada modo de presentación hasta los indicadores estándar que hay que medir, cómo leer el Top Box y, finalmente, la comparación con normas para poder juzgar «si la cifra propia es alta o baja».

1. Qué es un test de concepto — La inversión que evita el fracaso más caro

El test de concepto es la investigación que presenta a tu cliente objetivo un concepto (una idea aún sin producto real) de producto, servicio, función o publicidad para evaluar su aceptación. Tiene dos objetivos.

La decisión Go / No-Go: si vale la pena sacarlo al mundo y, entre varias propuestas, cuál llevar adelante
El hallazgo de mejoras: qué parte del concepto cala y qué parte no resuena

Su mayor valor es «saberlo antes de fabricar». Si puedes validar la dirección antes del desarrollo del prototipo, el inventario o la inversión publicitaria, el coste del fracaso baja un orden de magnitud. Dicho al revés: si aquí haces una investigación chapucera y juzgas mal que «esto va a funcionar», provocas el fracaso más caro de todos: la retirada del mercado una vez lanzado.

Conviene recordar que el test de concepto va antes de la pregunta «¿a qué precio lo vendo?». Tras confirmar la aceptación, con el medidor de sensibilidad al precio de Van Westendorp (PSM) o el análisis conjoint afinas la combinación óptima de precio y funciones, y con el MaxDiff mides la prioridad de los elementos de atractivo. El test de concepto es la puerta de entrada a todo ese clúster de investigación previa al lanzamiento.

2. Cuándo usar cada modo de presentación — Monádica / monádica secuencial / comparativa

La mayor decisión de diseño de un test de concepto es «cómo mostrarlo». El modo de presentación cambia los resultados de forma drástica. Si te equivocas aquí, ocurre el «todos por encima del 70 %» del inicio o, al revés, el «todos bajos».

Los 3 modos de presentación del concepto

Monádica (Monadic) — una sola propuesta por persona

Se reparte a los encuestados por propuesta y cada persona evalúa en profundidad un único concepto. Es la más pura (con menos sesgo) y la más cercana a la situación real de compra. Punto débil: necesitas tanta muestra como propuestas (3 propuestas, el triple). La decisión de fondo se toma con esto.

Monádica secuencial (Sequential Monadic) — una persona evalúa varias propuestas en orden

Una persona evalúa varias propuestas una a una, en orden. Buena eficiencia de muestra. Punto débil: la propuesta posterior se compara con la anterior (efectos de orden). Se atenúa aleatorizando el orden de presentación. Es la solución intermedia más habitual en la práctica.

Presentación comparativa (Comparative / Competitive) — varias propuestas en paralelo

Se ponen varias propuestas en paralelo a la vez y se pide elegir «cuál es la mejor». La superioridad relativa entre propuestas sale con nitidez. Punto débil: al ponerlas todas juntas se exageran las diferencias y no sabes el grado de aceptación absoluto (si de verdad se vende en el mercado). Sirve para hacer cribado.

El principio para elegir entre ellas

Para la decisión final Go / No-Go → monádica: consume muestra, pero es lo más cercano a la compra real (uno se topa con una sola propuesta en el lineal) y permite leer el nivel absoluto
Cuando la muestra es limitada → monádica secuencial + orden de presentación aleatorizado: el término medio realista. Por lo que enseñan los efectos de orden y el diseño del orden de las preguntas, aleatorizar es obligatorio
Cribado inicial para reducir muchas propuestas a unas pocas → presentación comparativa: cuando solo quieres ver el ranking relativo

No leas como nivel absoluto un «salió alta valoración mostrando todas las propuestas en comparativa». Al ponerlas juntas se exageran las diferencias y se aleja del mercado real (donde uno se topa con una propuesta cada vez).

3. Qué medir — Los indicadores estándar del test de concepto

Los indicadores a medir están más o menos consolidados en el sector. Lo mínimo que hay que cubrir son estos cinco.

Intención de compra (Purchase Intent): «si saliera a la venta, ¿lo querrías comprar?». El estándar son 5 niveles («seguro que lo compro» – «seguro que no lo compro»). El indicador más importante
Novedad / lo inédito (Uniqueness / Newness): «¿percibes una novedad que no existía hasta ahora?». Si la novedad es baja, no hay motivo para cambiar desde el producto existente
Atractivo (Appeal / Liking): «en conjunto, ¿cuánto atractivo te genera?». La valoración global de la primera impresión
Relevancia / cuánto te toca de cerca (Relevance): «¿encaja con tus necesidades?». Por muy alta que sea la novedad, si no te incumbe no lo compras
Singularidad / diferenciación (Differentiation): «¿crees que es distinto de los demás productos?»

El equilibrio entre novedad y relevancia

Especialmente importante es el compromiso entre novedad y relevancia.

Novedad alta pero relevancia baja → «es curioso, pero no es para mí». Da que hablar, pero no se vende
Relevancia alta pero novedad baja → «parece útil, pero con lo que ya tengo me basta». No se produce el cambio
Ambas altas → lo ideal. Nuevo y, a la vez, necesario para ti

En lugar de alegrarte o angustiarte mirando solo la intención de compra, si descompones «por qué esa intención de compra» en novedad y relevancia, ves la dirección de la mejora (si añadir novedad o añadir cercanía personal).

4. Cómo leer el Top Box — El arte de descontar la cifra

Para agregar la intención de compra se usa el Top Box / Top 2 Box (T2B). En 5 niveles, «seguro que lo compro» = Top Box, y «seguro que lo compro + probablemente lo compre» = T2B.

La intención de compra siempre se infla

Aquí está la mayor trampa. La intención de compra de una encuesta siempre sale más alta que el comportamiento de compra real. Responder «lo quiero comprar» sale gratis. Que la tasa de compra real de quien respondió «seguro que lo compro» coincida con esa cifra no pasa casi nunca.

En la práctica, el método consagrado es dar mucho peso al «seguro que lo compro» y descontar a lo grande el «probablemente lo compre». Según el sector hay quien tiene un coeficiente de conversión («qué fracción del T2B compra de verdad», un coeficiente propio construido a partir del histórico), pero como varía enormemente según el producto y el rango de precio, tomar prestado el coeficiente de otra empresa no acierta.

Por eso hace falta la «comparación con normas» (siguiente apartado)

Aunque descuentes, necesitas un criterio para juzgar «si la cifra descontada es alta o baja». Ese criterio son las normas.

5. Comparación con normas — Si «70 %» es alto o bajo no se sabe en aislado

El error más habitual en un test de concepto es juzgar mirando solo el valor absoluto de la puntuación. «El T2B de intención de compra es 65 %, esto es alto»: ¿de verdad?

El nivel de la intención de compra varía enormemente según la categoría, el rango de precio y el método de investigación. Para un nuevo sabor de un producto de consumo diario, un T2B del 70 % puede ser mediocre; para un bien duradero caro, un 40 % quizá sea excelente. Solo cuando lo comparas con propuestas pasadas, competidores o la media de categoria medidos con el mismo diseño de investigación (= normas / valores de referencia) puedes afirmar «alto / bajo».

Cómo construir y usar las normas

Acumular tus propuestas pasadas con el mismo diseño: la norma más fiable. Toma como línea base las puntuaciones de productos pasados que triunfaron y de los que fracasaron
Incrustar un «ancla» dentro de la misma encuesta: junto a la propuesta a testar, haz evaluar con las mismas preguntas un producto de éxito propio existente o un producto competidor. Así sabes, en condiciones idénticas, «cómo está la nueva propuesta frente al éxito existente»
Usar la base de datos normativa de una empresa de investigación: las bases de datos normativas comerciales como BASES (NielsenIQ) tienen valores de referencia por categoría. Eso sí, dependen del método, así que parten de medir con el método de esa empresa

Una puntuación aislada casi no tiene significado. Solo se convierte en material de juicio en conjunto con un objeto de comparación. Esta es la regla de oro del test de concepto.

6. El diseño del estímulo (texto de concepto) — La partida se juega antes de medir

Se suele pasar por alto, pero el propio «modo de mostrar el concepto (el estímulo)» condiciona los resultados. Con la misma idea, la valoración cambia según cómo esté trabajado el estímulo.

La estructura estándar del texto de concepto

Un buen texto de concepto tiene, en general, los siguientes elementos.

Insight / problema: «¿no te ha pasado esta molestia?» (la puerta de entrada de la empatía)
Beneficio: cómo resuelve ese problema (el valor que aporta)
Reason to Believe (RTB / razón para creer): por qué eso es posible (el fundamento para creer, la tecnología, los resultados)
Formato del producto y escena de uso: en concreto qué, cuándo y cómo se usa

Puntos de atención del diseño del estímulo

Igualar la cantidad de información y el grado de trabajo entre propuestas: si solo trabajas la propuesta A y la B queda chapucera, no estás midiendo el concepto, sino «la habilidad del copy». La equidad de la comparación es vital
No convertirlo en publicidad: si metes expresiones exageradas o ganchos, acabas midiendo la fuerza del anuncio y no la fuerza desnuda del concepto. Transmite el valor de forma sobria
Eliminar tecnicismos y jerga interna: usa palabras que el objetivo entienda de una sola lectura. Una valoración baja a un estímulo que no se entiende no es un rechazo del concepto, sino un fallo de transmisión

El trabajo del texto que presentas es continuación directa del diseño de la redacción de las preguntas. Los principios de evitar la inducción y la exageración de la guía completa de redacción de preguntas de encuesta aplican tal cual.

7. La perspectiva del equipo editorial — 5 cosas que no se deben hacer en un test de concepto

Desde la posición de quien sigue de forma continua los casos del sector y la voz de los responsables prácticos, cinco accidentes que se repiten una y otra vez en los tests de concepto.

1. Leer como nivel absoluto la alta valoración de la presentación comparativa

El más frecuente. Poner todas las propuestas en paralelo y leer el «la propuesta ganadora tiene 75 % de T2B» como «el 75 % del mercado la compra». Al ponerlas juntas se exageran las diferencias y no sale el nivel absoluto. El Go / No-Go se decide tras medir el nivel absoluto con la monádica. La presentación comparativa, limitada al cribado inicial.

2. Juzgar el valor absoluto sin normas

Afirmar «la intención de compra del 65 % es alta» sin objeto de comparación. El nivel cambia radicalmente según la categoría y el rango de precio. Solo cuando pones en paralelo propuestas pasadas, competidores o la media de categoría con el mismo diseño se puede hablar de alto o bajo. Una puntuación aislada no sirve de material de juicio. Como mínimo, incrusta un ancla (un producto existente) dentro de la misma encuesta.

3. Creerse la intención de compra al pie de la letra

Llevar el «seguro que lo compro, 40 %» tal cual al plan de negocio. La intención de compra siempre se infla. Da mucho peso al «seguro que lo compro» y descuenta a lo grande el «probablemente». El coeficiente de conversión se construye con el histórico propio: los coeficientes de otras empresas u otras categorías no aciertan.

4. Variar el grado de trabajo del estímulo entre propuestas

Estímulo bonito solo para la propuesta de fondo y la rival hecha a desgana. Así estás midiendo la habilidad del copy y no la fuerza del concepto. Iguala la cantidad de información, el tono y el grado de trabajo en todas las propuestas. Una investigación en la que se ha roto la equidad de la comparación es inútil por mucha muestra que reúnas.

5. Conformarse con preguntar a quien no es el objetivo

Preguntar, porque es fácil de reclutar, a una capa que no es el objetivo (usuarios intensivos existentes o conocidos de empleados). La valoración de un nuevo producto no tiene sentido si no se la preguntas al objetivo al que de verdad quieres que compre. Acotar a los participantes con un cribado es obligatorio. Para el diseño de los participantes, consulta la guía de diseño y operación de preguntas de cribado.

8. Operar un test de concepto en la herramienta de encuestas Kicue

El test de concepto se divide en una fase de diseño «presentar el estímulo y medir los indicadores estándar» y una fase de análisis «interpretar con comparación contra normas y pruebas estadísticas». Lo que cubre Kicue es principalmente lo primero.

Presentación del estímulo de concepto: puedes diseñar en conjunto la presentación del texto de concepto (texto) y las preguntas tipo Likert de intención de compra, novedad, atractivo, etc. (tipos de pregunta)
Ramificación / aleatorización para el diseño monádico: para el diseño monádico que reparte a los encuestados por propuesta y el monádico secuencial que aleatoriza el orden de presentación, se cubre con las condiciones de visualización y la lógica de ramificación (guía completa de la lógica de ramificación)
Incluir el ancla (producto existente): dentro del mismo formulario puedes meter preguntas de evaluación de un éxito existente propio o de un producto competidor, y construir así la base para la comparación con normas
Cribado de participantes: con una pregunta de cribado al inicio, excluyes a quien no es el objetivo
Exportación a CSV con ID de encuestado: genera datos estructurados para hacer fuera la agregación del Top Box y la comparación entre propuestas

⚠️ Lo que Kicue no cubre

La presentación de estímulos en vídeo o imagen enriquecida tiene restricciones: presentar conceptos en vídeo elaborado o imágenes precisas de packaging puede requerir, en algunos casos, ingenios operativos como combinarlo con enlaces a alojamiento externo (conviene confirmar de antemano el formato de presentación)
No dispone de base de datos normativa ni valores de referencia del sector: la comparación con normas comerciales como BASES es un servicio externo. Lo que Kicue ofrece son únicamente los datos de la investigación propia
No hay pruebas de significación estadística ni cálculo del coeficiente de conversión: la prueba de la diferencia de intención de compra entre propuestas y la conversión T2B → compra real se hacen con Excel / R / Python / SPSS (consulta la guía de agregación y prueba de significación)
La gestión estricta de cuotas por celda en la asignación tiene restricciones: la gestión de cuotas que iguala con rigor el tamaño de muestra por celda en la monádica puede requerir, en algunos casos, la colaboración con una empresa externa de paneles

Como artículos relacionados, leer en paralelo la guía de diseño de Van Westendorp PSM, la práctica del análisis conjoint, la guía de diseño de MaxDiff, la guía de diseño y operación de preguntas de cribado y la guía completa de redacción de preguntas de encuesta deja ver todo el pipeline de investigación previa al lanzamiento: «evaluar el concepto → afinar precio y funciones → medir la prioridad del atractivo».

Resumen — 6 puntos para convertir el test de concepto en una investigación fiable

El Go / No-Go, con monádica — solo la monádica permite medir el nivel absoluto. La presentación comparativa, limitada al cribado inicial
No mires solo la intención de compra — descompón en novedad × relevancia y lee la dirección de la mejora
El Top Box se descuenta — la intención de compra siempre se infla. Da mucho peso al «seguro que lo compro» y descuenta a lo grande el «probablemente»
Solo comparando con normas se puede hablar de alto o bajo — una puntuación aislada no tiene significado. Compara con propuestas pasadas, competidores y el ancla bajo el mismo diseño
Trabaja el estímulo con equidad entre propuestas — mide la fuerza del concepto, no la habilidad del copy
Pregunta al objetivo — acota a los participantes con un cribado. Preguntar a la capa fácil de reclutar no da material de juicio

El test de concepto no tiene como objetivo «recoger una encuesta». No fallando en los tres puntos —modo de presentación, comparación con normas y equidad del estímulo—, se convierte en el seguro previo al lanzamiento de mayor retorno: el que permite decidir el Go / No-Go con la voz del mercado y no con quién habla más fuerte en la sala de reuniones.

¿Quieres diseñar una investigación de evaluación de concepto previa al lanzamiento? Prueba la herramienta de encuestas gratuita Kicue. Desde la presentación del texto de concepto y el diseño de preguntas tipo Likert de intención de compra, novedad y atractivo, pasando por la lógica de ramificación para el reparto monádico, el cribado de participantes y la exportación a CSV con ID de encuestado, puedes arrancar con una sola cuenta la parte de investigación del test de concepto (la comparación con base de datos normativa, las pruebas de significación estadística y la conversión del T2B a compra real quedan como operación combinada con servicios normativos externos o con R / Python / SPSS).

Referencias

Page, A. L., & Rosenbaum, H. F. (1992). Developing an Effective Concept Testing Program for Consumer Durables. Journal of Product Innovation Management, 9(4), 267-277.
Moore, W. L. (1982). Concept Testing. Journal of Business Research, 10(3), 279-294.
Dahan, E., & Hauser, J. R. (2002). The Virtual Customer. Journal of Product Innovation Management, 19(5), 332-353.
Morwitz, V. G., Steckel, J. H., & Gupta, A. (2007). When do purchase intentions predict sales?. International Journal of Forecasting, 23(3), 347-364.