Guía de diseño de MaxDiff (Maximum Difference Scaling) — Medir prioridades

«¿Qué función tiene la máxima prioridad?» preguntas, y la Likert devuelve un informe donde todos los ítems quedan alineados en "muy importante" — si llevas un año haciendo investigación, te has cruzado con ese paisaje al menos una vez. Ese momento en que te llevas las manos a la cabeza pensando «dicen que todo es importante… esto no sirve para tomar decisiones…».

El método que evita estructuralmente este efecto techo (Ceiling Effect) es MaxDiff (Maximum Difference Scaling, Best-Worst Scaling). En este artículo organizamos, desde por qué la Likert no permite jerarquizar prioridades, hasta la estructura básica de MaxDiff, las convenciones del diseño experimental, los criterios para decidir el tamaño de muestra, el cálculo de puntuaciones (conteo vs jerarquía bayesiana) y la diferenciación con conjoint y PSM, apoyándonos tanto en la práctica de los proveedores de implementación como en los textos académicos originales.

1. Por qué la Likert no permite jerarquizar prioridades

Cuando alineas 10 ítems y preguntas «evalúa la importancia en 5 niveles», casi todos los ítems aparecen marcados como "importante" o "muy importante". Esta es la debilidad estructural de la escala Likert.

Las causas principales son tres:

Efecto techo: cuando el encuestado siente que «todos son importantes», se pega al límite superior. Si los 10 ítems reciben 5 puntos, no se puede identificar la prioridad
Sesgo de deseabilidad social: ítems difíciles de negar como «seguridad», «calidad» o «soporte» aparecen más altos de lo que reflejaría su prioridad real
Atajos por carga de respuesta: poner una estrella a cada uno de 10 ítems es una tarea monótona, y la segunda mitad se responde a la ligera

Como resultado, se acumulan datos que dicen «todo es importante» y se cae en la situación de que no sirven para tomar decisiones.

Para más detalle, la Guía de diseño de la escala Likert aborda cómo usar la propia Likert, pero para el caso de uso «quiero ordenar por rango» la Likert es estructuralmente inadecuada, y esa es la motivación para usar MaxDiff.

2. Estructura básica de MaxDiff — elegir el mejor y el peor

MaxDiff es un método que presenta 4 o 5 ítems a la vez y pide al encuestado que elija el más importante (best) y el menos importante (worst). Repitiendo esto en 10 a 15 bloques, se estima estadísticamente la prioridad relativa de cada ítem.

Aspecto de la pregunta

Ejemplo: si quieres comparar 10 ítems, al encuestado se le muestra una pantalla como la siguiente unas 12 veces.

De los siguientes 4 ítems, elige uno como el más importante y otro como el menos importante.

[ ] Precio bajo                Más importante [○]   Menos importante [ ]
[ ] Calidad del soporte        Más importante [ ]   Menos importante [○]
[ ] Riqueza de funcionalidades Más importante [ ]   Menos importante [ ]
[ ] Facilidad de uso           Más importante [ ]   Menos importante [ ]

Cada encuestado se ve obligado a comparar directamente los ítems, así que no hay escapatoria tipo «todos 5 puntos» como en Likert. Como resultado, las diferencias relativas entre ítems quedan claras.

Por qué funciona este formato

La intuición clave que mostró Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis es el hecho psicológico de que «la elección relativa es más natural para los humanos que la evaluación absoluta». A nosotros nos cuesta decidir «esto vale 7 puntos», mientras que respondemos al instante a «entre A y B, ¿cuál te gusta más?». MaxDiff es un diseño que aprovecha honestamente esta característica cognitiva.

3. Diseño experimental — convenciones del diseño en bloques incompletos

El núcleo de MaxDiff es el diseño experimental. Cuando comparas 10 ítems, no puedes mostrar al encuestado todas las combinaciones (45 pares), así que distribuyes aleatoriamente los ítems con un Balanced Incomplete Block Design (BIBD, diseño en bloques incompletos equilibrado).

Reglas básicas del diseño

4 o 5 ítems por bloque: demasiados dificulta la elección, demasiado pocos diluye la información comparativa
Cada ítem aparece el mismo número de veces: si distribuyes 10 ítems en 12 bloques, cada ítem aparece unas 5 veces
Cada par de ítems coocurre el mismo número de veces: igualar las veces que «precio» y «soporte» aparecen en el mismo bloque
Aleatorizar la posición de los ítems: para evitar efectos del orden de presentación

La realidad de la implementación

Como construir un BIBD perfecto a mano no es realista, lo estándar es usar herramientas especializadas:

Sawtooth Software Lighthouse / Discover: el proveedor de referencia del sector para MaxDiff, generación automática de diseños
Paquete R support.BWS: open source, ampliamente usado en uso académico
SurveyEngine / Conjoint.ly: en la nube, con plantillas

Estos generan automáticamente el diseño de bloques a partir del número de ítems que introduces. No construir desde cero a mano es la regla de oro.

4. Cómo decidir el tamaño de muestra y el número de repeticiones

«¿A cuánta gente hay que preguntar?» y «¿cuántos bloques mostrar por persona?» son los puntos que más quebradero de cabeza dan en la práctica de MaxDiff.

Orientación para el número de repeticiones (bloques por persona)

Número de ítems × 3 / 4 es la regla empírica del sector. Ejemplo: 10 ítems implica 7-8 bloques por persona, 15 ítems implica 11-12 bloques
Si hay pocas repeticiones, la estimación a nivel individual se vuelve inestable; si hay demasiadas, sube la tasa de abandono por carga
La sensación práctica es calcular hacia atrás con 5-10 minutos de tiempo de respuesta como límite superior

Orientación para el número de respuestas

Solo análisis a nivel agregado: N=200-300 es suficiente
Estimación bayesiana jerárquica por segmento: N=100 o más por segmento, total N=400-500
Estimación a nivel individual (análisis detallado de clientes clave): N=500 o más

Orme, B. K. (2010). Getting Started with Conjoint Analysis (2nd ed.) es un manual práctico que organiza el diseño de muestra de MaxDiff desde la experiencia de implementación de Sawtooth Software, y se referencia como guía estándar en el terreno.

Para más detalle consulta la Guía para determinar el tamaño de muestra de la encuesta, que aborda los fundamentos del cálculo del tamaño muestral.

5. Cálculo de puntuaciones — análisis por conteo vs jerarquía bayesiana

Hay básicamente 2 formas de calcular la «puntuación de prioridad de cada ítem» a partir de los datos de respuesta de MaxDiff.

Análisis por conteo (versión simplificada)

Para cada ítem se computa «número de veces elegido como best − número de veces elegido como worst»
Tras el conteo, se comparan los ítems entre sí
Se puede hacer en Excel, la interpretación es simple, y es eficaz cuando quieres ver el ranking grueso a nivel agregado

Sin embargo, el análisis por conteo no permite puntuaciones a nivel individual ni comparaciones finas por segmento.

Estimación bayesiana jerárquica (HB, Hierarchical Bayes)

Estima la puntuación individual de cada encuestado mediante distribución a priori (media poblacional) + ajuste a posteriori (elecciones individuales)
Como genera puntuaciones a nivel individual, se puede usar para segmentación y clustering
Lo estándar es ejecutarlo con el módulo HB de Sawtooth Software o con los paquetes R bayesm / ChoiceModelR

Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices es la literatura que organiza los modelos matemáticos (modelos de utilidad aleatoria, MNL) de la elección best-worst y es la base teórica de la implementación HB.

Cómo elegir en la práctica

Quieres mostrar en una presentación a dirección «la función A es 3 veces más importante que la función B» → estimación HB (puntuaciones individuales → mostrar como promedio)
Quieres comparar las prioridades por 5 segmentos → estimación HB (distribuciones a posteriori por segmento)
Quieres compartir internamente de forma concisa «qué es lo prioritario en el Q1» → el análisis por conteo es suficiente

Para el detalle teórico de la estimación bayesiana, leer en paralelo la Guía de agregación y test de significancia de encuestas — uso de tablas cruzadas, chi cuadrado y tamaño del efecto facilita la comprensión por contraste con el enfoque frecuentista.

6. Cuándo usar MaxDiff / conjoint / PSM

Como las tres grandes técnicas de investigación de precio y prioridades, MaxDiff, conjoint y PSM se discuten a menudo juntas. Cada una resuelve preguntas distintas y se adapta a escenarios distintos.

Cuándo usar MaxDiff / conjoint / PSM

MaxDiff (Maximum Difference Scaling)

Mide la prioridad de ítems individuales. Identifica «qué es lo más importante» entre 10 a 30 funciones o demandas. Diseño relativamente simple y carga de respuesta media. Óptimo para priorización de funcionalidades, screening de conceptos y filtrado de atributos.

Análisis conjoint

Presenta combinaciones de atributos y realiza simulación de share. Potente cuando se trata de comparar perfiles de producto (precio × funcionalidad × marca). La dificultad de diseño y análisis es mayor que la de MaxDiff. Óptimo para evaluación de concepto de producto y medición de elasticidad de precio.

Van Westendorp PSM

Pregunta directamente los 4 puntos de precio como «demasiado caro», «demasiado barato», «adecuado». El diseño es el más simple, pero lo que obtienes es únicamente el «rango de precio», y no sabes las prioridades de funcionalidad. Óptimo para exploración inicial del rango de precio para nuevos productos.

Flujo de selección en la práctica

Quieres decidir «qué desarrollar con máxima prioridad» → MaxDiff
Quieres ver «si se vende con este precio + este conjunto de funcionalidades» → conjoint
Quieres explorar «si el precio inicial debe ser 3.000 / 5.000 / 8.000 yenes» → PSM

También hay casos en paralelo. Un patrón estándar en proyectos de tamaño medio es: filtrar la prioridad de funcionalidades con MaxDiff, luego un conjoint que incorpore las 3 funcionalidades top, y el rango de precio con PSM.

Para más detalle, leer en paralelo La práctica del análisis conjoint y la Guía de diseño de Van Westendorp PSM deja claro cómo distinguir entre los tres métodos hermanos.

7. Perspectiva editorial — los 5 puntos que siempre funcionan al implementar MaxDiff

Desde la posición de quien sigue continuamente casos del sector y artículos públicos de los proveedores, estos son los 5 puntos que siempre funcionan al implementar MaxDiff.

1. Reducir los ítems a entre 10 y 20 antes de empezar

A menudo aparece la demanda «quiero meter los 30 ítems en MaxDiff», pero con 30 ítems se necesitan unos 22 bloques por persona y la carga de respuesta se rompe. La convención de campo es discutir internamente «qué dejamos claramente / qué quitamos claramente» antes del MaxDiff y reducir a 20 ítems o menos antes de ejecutarlo.

2. Igualar el grano de los ítems

Si alineas en la misma lista «precio bajo» y «facilidad de uso del formulario de contacto», los niveles de abstracción son demasiado diferentes y el encuestado no puede compararlos. Hay que igualar deliberadamente el grano (nivel de abstracción) de los ítems: por ejemplo, todos al nivel de «categoría de funcionalidad» o todos al nivel de «touchpoint concreto».

3. No mezclar «importancia» con «satisfacción»

Si en MaxDiff quieres recoger «importancia» y «satisfacción actual» en la misma encuesta, hay que separarlos en bloques distintos. Si haces que dentro del mismo bloque elijan «lo importante y a la vez satisfactorio», el encuestado se confunde. Si vas a combinar con análisis del modelo de Kano, lo seguro es diseñarlo como una encuesta separada.

4. Verificar la presentación de los bloques en dispositivo real durante el pretest

En las pantallas de bloques de MaxDiff, ocurre con frecuencia que los textos de los ítems se cortan en línea y son difíciles de leer en móviles. Antes del lanzamiento real, comprobar la presentación tanto en iOS como en Android es obligatorio. Para más detalle, la Lista de verificación previa al lanzamiento de la encuesta organiza el marco de validación previo a la publicación.

5. En el informe, el trío «puntuación + ranking + tamaño del efecto»

Mostrarle a la dirección solo el número «la función A es 28,5 puntos» no transmite. Hay que alinear en una sola página el trío «puntuación», «ranking» y «¿la diferencia entre función A y función B es estadísticamente significativa?». Con estimación HB se puede mostrar intuitivamente la significancia mediante el solapamiento de las distribuciones a posteriori.

8. Implementación de MaxDiff en la herramienta de encuestas Kicue

⚠️ Premisa importante: Kicue no dispone de un tipo de pregunta específico para MaxDiff. Comparado con herramientas de investigación especializadas habituales (Sawtooth Software / SurveyEngine / Conjoint.ly), las funciones de automatización de diseño y análisis son limitadas.

Las 2 opciones para implementar MaxDiff en Kicue

Opción A: implementación sustituta en Kicue

Puedes reproducir el comportamiento de MaxDiff con bloques iterados de pregunta de respuesta única:

Repetir 12 veces «el más importante de los siguientes 4 ítems» como pregunta de respuesta única
Repetir 12 veces «el menos importante de los siguientes 4 ítems» como pregunta de respuesta única
Cambiar el conjunto de ítems por bloque (generar previamente el BIBD en Excel / R y copiar y pegar en las opciones de cada pregunta)
Tras recoger las respuestas, exportar CSV → estimación HB con los paquetes R bayesm / ChoiceModelR

Este método es lo bastante práctico para «proyectos iniciales que no pueden permitirse el coste de una herramienta especializada» o «casos en que quieres una verificación simple con 10-15 ítems».

Opción B: combinar con herramientas especializadas

En un proyecto MaxDiff a fondo:

Sawtooth Software Discover / Lighthouse: estándar del sector, integra desde el diseño hasta el análisis HB
SurveyEngine / Conjoint.ly: tipo SaaS, fácil de adoptar
Ejecutar la encuesta principal con ellos y usar Kicue para preguntas de screening o preguntas adicionales de profiling

Lo que Kicue no cubre

Generación automática de BIBD → generar previamente con una herramienta externa (R support.BWS / Sawtooth) y copiar y pegar en Kicue
Estimación bayesiana jerárquica → exportar CSV → R bayesm / módulo HB de Sawtooth
Visualización en dashboard de puntuaciones a nivel individual → herramienta BI externa (Tableau / Looker)
Aleatorización automática de la presentación de bloques → cobertura parcial con la función de aleatorización de opciones de Kicue; igualar pares entre ítems requiere control manual

Como artículos relacionados, leer en paralelo la Guía de diseño de Van Westendorp PSM, La práctica del análisis conjoint, la Guía de diseño de la escala Likert y la Guía de diseño de preguntas de screening deja ver cómo distinguir entre los tres métodos hermanos y el diseño del screening previo al MaxDiff.

Referencias

Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis: A novel method of measuring values in marketing research. Journal of Marketing Research, 27(4), 437-444.
Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices. Journal of Mathematical Psychology, 49(6), 464-480.
Orme, B. K. (2010). Getting Started with Conjoint Analysis: Strategies for Product Design and Pricing Research (2nd ed.). Research Publishers.
Cohen, S. H. (2003). Maximum difference scaling: Improved measures of importance and preference for segmentation. Sawtooth Software Research Paper.
Flynn, T. N., Louviere, J. J., Peters, T. J., & Coast, J. (2007). Best-worst scaling: What it can do for health care research and how to do it. Journal of Health Economics, 26(1), 171-189.

Si deseas medir las prioridades de características o rankings de funcionalidades con alta precisión, prueba la herramienta gratuita de encuestas Kicue. Implementación sustituta de MaxDiff con bloques iterados de respuesta única, control del orden de visualización con la función de aleatorización de opciones, e integración con R / Sawtooth a través de exportación CSV — puedes comenzar la fase de verificación inicial de MaxDiff en una sola cuenta (la generación de BIBD, la estimación bayesiana jerárquica y el análisis a nivel individual requieren herramientas especializadas como Sawtooth Software / SurveyEngine / R bayesm).