Guía de diseño de la escala Likert — 5, 7 o 9 puntos y la cuestión del punto medio

La valoración "muy satisfecho a muy insatisfecho" tan común en cualquier encuesta de cliente es, en el lenguaje del sector, una escala Likert — una técnica de medición introducida en 1932. CSAT, NPS, CES, evaluación de marca, encuestas de engagement — casi todo ítem de rating en encuestas web modernas es un derivado de la escala Likert, y aún así preguntas básicas como "¿5 puntos o 7?" y "¿incluyo un punto medio?" se siguen decidiendo a tientas en la mayoría de los proyectos.

Este artículo recorre la esencia de la escala Likert, las bases académicas para elegir el número de puntos, la cuestión del punto medio, las trampas del diseño de etiquetas y el largo debate estadístico sobre cómo analizar los datos. Encuestas que corren bajo "5 puntos porque siempre lo hacemos así" a veces producen conclusiones que se invierten al cambiar la escala — está más cerca de los cimientos de lo que la gente cree.

1. Qué es una escala Likert

Una escala Likert es un dispositivo de medición que pide al respondente expresar su actitud o evaluación eligiendo entre varias categorías ordenadas. Rensis Likert propuso la técnica en su tesis doctoral de 1932 A Technique for the Measurement of Attitudes.

Formato típico

Q. En general, ¿qué tan satisfecho/a está con nuestro servicio?
   1. Muy insatisfecho/a
   2. Algo insatisfecho/a
   3. Neutral
   4. Algo satisfecho/a
   5. Muy satisfecho/a

La estructura básica: dos polos opuestos con pasos graduados entre ellos. Los derivados habituales en encuestas web incluyen:

NPS (0–10, 11 puntos) — Reichheld (2003), intención de recomendación
CSAT 5 puntos — estándar para evaluación de soporte
Diferencial semántico (SD) 7 puntos — pares de adjetivos bipolares ("brillante vs. oscuro")
Sliders — escala continua 0–100

Cuatro decisiones de diseño

El problema de diseño se reduce a cuatro elecciones:

Número de puntos — 5 / 7 / 9 / 11
Punto medio — incluir "neutral" o no
Etiquetas — texto completo en cada punto o sólo en los extremos
Dirección — "negativo → positivo" o "positivo → negativo"

Cada una tiene su propia literatura académica.

2. Por qué se discute tanto el número de puntos

El debate sobre el número de puntos surge de un trade-off entre fiabilidad de medición, validez y carga del respondente.

Beneficios de más puntos

Mayor discriminación — separa "algo satisfecho" de "muy satisfecho"
Más información estadística — mayor granularidad para medias y desviaciones
Mitiga efectos techo y suelo — una escala de 5 puntos que empuja a todos a "muy satisfecho" puede repartirse en 7

Costes de más puntos

Más carga cognitiva — distinguir "algo" de "bastante" satisfecho cuesta
Tiempo de respuesta más largo — matrices más altas en disposición vertical
Pasos medios borrosos — con 9+ puntos las categorías centrales se vuelven indistinguibles
Menor fiabilidad test-retest — la misma persona, la misma pregunta, más variación

Cox (1980) "The Optimal Number of Response Alternatives for a Scale" concluyó que el rango óptimo es 5–9 puntos — y ese ha sido el consenso del sector desde entonces.

3. 5 vs 7 vs 9 puntos — qué dice la investigación

Hallazgos principales

Estudio	Recomendado	Razón
Likert (1932) original	5 puntos	Suficiente discriminación con carga mínima
Cox (1980)	5–9 puntos	Más allá de 9, ganancias de discriminación < ganancias de carga
Krosnick & Fabrigar (1997)	7 puntos	Mejor compromiso fiabilidad + validez
Preston & Colman (2000)	7–10 puntos	La fiabilidad se estabiliza en 7+
Lozano, García-Cueto & Muñiz (2008)	4–7 puntos	La validez cae bajo 4; satura en 7
Norman (2010)	5 o 7 puntos	El análisis paramétrico va bien con 5+

La zona segura académica es 5–7 puntos; 9+ ve cómo el coste cognitivo supera las ganancias de discriminación.

Convenciones por uso

En la práctica las convenciones varían según aplicación:

Caso de uso	Estándar	Por qué
CSAT	5 puntos	Intuitivo (5 sobre 5)
NPS	11 puntos (0–10)	Metodología fija de Reichheld
CES	5 o 7 puntos	El original de Dixon et al. usaba 5
Evaluación de marca	7 puntos	Quiere diferencias más finas
Engagement	5 puntos	Estándar Gallup Q12
Estudios académicos	7 puntos	Cronbach's α se estabiliza

Cuándo 9 u 11 tienen sentido

NPS a 11 puntos — Reichheld argumentó que 0–10 captura específicamente la "fuerza de recomendación". Académicamente, la convención de 11 puntos es más "práctica estándar del sector" que "óptima demostrablemente".
9 puntos — usado en estudios académicos y paneles grandes para máxima discriminación. No suele recomendarse en encuestas web típicas.

"5 o 7 si dudas" es el consenso entre investigación y literatura profesional.

4. ¿Hay que incluir el punto medio en una escala de Likert?

Si se incluye un punto medio "neutral" / "ni de acuerdo ni en desacuerdo" es tan importante como la cuestión del número de puntos.

Con punto medio (escalas impares)

Pro: respondentes genuinamente neutrales no son forzados a posicionarse. Reduce carga.
Contra: da un escondite a los "prefiero no responder"; potencial de satisficing.

Sin punto medio (escalas pares)

Pro: fuerza a los respondentes a expresar una opinión, eliminando "vagamente neutrales".
Contra: fuerza a los realmente neutrales a un lado u otro, distorsionando los datos.

Qué recomienda la investigación

Krosnick & Fabrigar (1997) concluyen que el punto medio debería incluirse en general. Razones:

Existen respondentes genuinamente neutrales — sin conocimiento / sin interés / sin experiencia.
La elección forzada aumenta el error de medición — elecciones "vagamente positivas" añaden ruido.
La evidencia de que el punto medio infla el satisficing es débil — con número apropiado de puntos, el efecto es pequeño.

Dicho eso, si las respuestas neutrales dominan, el problema es la pregunta, no el punto medio. Mejora la formulación, no quites el punto medio.

5. Trampas del diseño de etiquetas

Cómo etiquetes las categorías afecta directamente la calidad del dato.

Etiquetado completo vs sólo extremos

Etiquetado completo:

1. Muy insatisfecho/a / 2. Algo insatisfecho/a / 3. Neutral / 4. Algo satisfecho/a / 5. Muy satisfecho/a

Sólo extremos:

1 (muy insatisfecho/a) — 2 — 3 — 4 — 5 (muy satisfecho/a)

Krosnick & Berent (1993) mostraron que las escalas con etiquetas completas tienen mayor fiabilidad y validez — los respondentes no pueden interpretar los números desnudos, así que adjuntar lenguaje a cada categoría importa. Por defecto, etiqueta todo.

El supuesto de "intervalos iguales"

La gente calcula medias rutinariamente asumiendo pasos uniformemente espaciados — pero ¿lo son?

Tourangeau, Rips & Rasinski (2000) The Psychology of Survey Response señalan que la distancia psicológica de "muy satisfecho" a "algo satisfecho" no tiene por qué igualar la de "algo satisfecho" a "neutral". Eso lleva al debate ordinal-vs-intervalo (siguiente sección).

Convenciones de dirección

Si "negativo → positivo" o "positivo → negativo" se lee de izquierda a derecha es una convención que varía por región. Las reglas no negociables: dirección consistente dentro de una encuesta, y nunca cambiar en un estudio de tracking.

6. Ordinal o intervalo — el debate estadístico de 50 años

Un debate académico que dura medio siglo: ¿se pueden calcular medias y desviaciones de datos Likert (números 1–5)?

Visión estricta: "Es ordinal — las medias no son apropiadas"

Una escala Likert es fundamentalmente ordinal — la diferencia entre "muy satisfecho" y "algo satisfecho" es un paso numérico, pero no necesariamente un paso psicológico. Por tanto:

Las medias no son apropiadas — usa mediana o moda.
Usa pruebas no paramétricas (Mann-Whitney U, etc.).
Regresión y t-tests no son apropiadas.

Visión pragmática: "Trátalo como intervalo en la práctica"

Norman (2010) "Likert Scales, Levels of Measurement and the 'Laws' of Statistics" concluye que tratar escalas Likert como intervalo y aplicar pruebas paramétricas (t-tests, regresión) no causa esencialmente ningún problema en la práctica. Razones:

Estudios de simulación muestran robustez — incluso cuando los intervalos no son iguales, los resultados son mayormente correctos.
El teorema central del límite aplica con 5+ puntos y muestras grandes — las distribuciones se aproximan a normal.
La gran mayoría de la investigación publicada usa pruebas paramétricas — la visión estricta no se ha mantenido al día con la práctica.

Dónde aterriza la práctica

Síntesis de la investigación y literatura profesional:

Likert de 5+ puntos con N ≥ 100 → medias, SD y regresión están bien para fines prácticos.
Para papers e informes formales, explicita "datos Likert tratados como intervalo".
Cuando hay efectos techo o suelo, valida con pruebas no paramétricas.

Las medias CSAT y la resta NPS son rutinarias porque la visión pragmática es el estándar de trabajo en el sector.

7. Visión editorial — cinco reglas que mueven la aguja

Siguiendo informes del sector y casos públicos, cinco puntos en los que insistiríamos con fuerza.

1. "5 puntos si dudas." Elige 7 sólo con razón. Los equipos oscilan entre 5 y 7, y la heurística práctica es "5 a menos que tengas razón específica". Cuando elijas 7, documenta por qué ("necesitamos discriminación más fina entre ítems de imagen de marca"). Elegir 7 porque "se siente más preciso" es el patrón al que vuelve la prensa especializada: los equipos se arrepienten porque los resultados eran menos intuitivos en 7 que en 5.

2. Por defecto incluye el punto medio. Si "neutral" es muy alto, arregla la pregunta. Quitar el punto medio para forzar posicionamiento es un workaround que vemos a veces — y suele ser un error de categoría. Neutralidad excesiva señala una pregunta abstracta o de bajo engagement. Afina el enunciado, no quites el punto medio. Es lo que también respalda la investigación de Krosnick & Fabrigar.

3. Por defecto etiqueta todo. Sólo extremos es "diseño con esfuerzo ahorrado". Cuando ves "1 — 2 — 3 — 4 — 5 (insatisfecho — satisfecho)" sin etiquetas intermedias, suele ser señal de que alguien economizó esfuerzo de diseño. La investigación muestra repetidamente que las escalas totalmente etiquetadas tienen mayor fiabilidad — el minuto que toma agregar lenguaje a cada categoría compra calidad real aguas abajo. NPS es la excepción convencional (0–10 numérico); todo lo demás: etiquetas completas.

4. En estudios de tracking, congela puntos, punto medio y etiquetas — punto. Vemos equipos "subiendo de 5 a 7 esta ronda" o "ajustando la formulación" e intentando comparar contra la ola anterior. Una vez cambiado, las puntuaciones histórica y actual ya no comparten escala, y la comparación longitudinal se rompe para siempre. O recolectas la ola histórica con la nueva escala, o no la cambies.

5. La Likert no es magia — la formulación es 80%, el diseño de la escala 20%. El número de puntos y el punto medio importan, pero la formulación de la pregunta mueve los resultados mucho más. Esté "¿Qué tan satisfecho/a está con nuestro servicio?" en escala 5 o 7 puntos, el dato carece de sentido si la pregunta es demasiado abstracta. Pule la formulación primero, luego piensa la escala.

8. Escalas Likert en la Herramienta de Encuestas Kicue

Kicue trae las capacidades relacionadas con escalas como estándar.

Tipos de pregunta SCALE

Los tipos de pregunta SCALE vienen en cuatro sabores:

LIKERT — escala Likert estándar (5 / 7 puntos y otros, totalmente configurable)
NPS — optimizado para 11 puntos (0–10)
SLIDER — slider continuo
SD — diferencial semántico (pares de adjetivos bipolares)

Combinando con preguntas matriz

Para evaluar varios ítems en una escala Likert compartida, combina los tipos matriz con SCALE. Para trampas específicas de matriz, ver diseño de preguntas matriz.

Artículos de diseño relacionados

Las escalas Likert se conectan con otros temas. Ver también nuestra guía CSAT, guía completa NPS, guía CES, diseño de matrices y efectos del orden de preguntas.

Elegir la herramienta correcta — Los límites del plan gratuito, soporte de ramificación, capacidades IA y exportación CSV varían mucho entre herramientas. Consulta nuestra comparativa de herramientas de encuestas gratuitas para encontrar la adecuada para este enfoque.

Resumen

Checklist para diseñar y operar escalas Likert:

5 o 7 puntos es el óptimo académico. 9+ cuestan más en carga que ganan en discriminación.
Por defecto incluye el punto medio. La elección forzada eleva el error de medición.
Etiqueta cada categoría completamente. Sólo extremos reduce la fiabilidad.
Trata los datos como intervalo en la práctica. Norman (2010) es el estándar de trabajo.
En tracking, congela el diseño de la escala. Cambiarlo rompe la comparación longitudinal.
Formulación primero, escala después. 80/20.

Equipos que tratan la Likert como "5 puntos, da igual" producen fiabilidad distinta a los que deciden deliberadamente puntos, punto medio y etiquetas. Es el dispositivo de medición tras CSAT/NPS/CES — vale diseñarlo a propósito.

Referencias

Académico y metodológico

Likert, R. (1932). A Technique for the Measurement of Attitudes. Archives of Psychology.
Cox, E. P. (1980). The Optimal Number of Response Alternatives for a Scale: A Review. Journal of Marketing Research.
Krosnick, J. A., & Fabrigar, L. R. (1997). Designing Rating Scales for Effective Measurement in Surveys. Survey Measurement and Process Quality.
Krosnick, J. A., & Berent, M. K. (1993). Comparisons of Party Identification and Policy Preferences. American Journal of Political Science.
Preston, C. C., & Colman, A. M. (2000). Optimal Number of Response Categories in Rating Scales. Acta Psychologica.
Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the Number of Response Categories on the Reliability and Validity of Rating Scales. Methodology.
Norman, G. (2010). Likert Scales, Levels of Measurement and the 'Laws' of Statistics. Advances in Health Sciences Education.
Tourangeau, R., Rips, L. J., & Rasinski, K. (2000). The Psychology of Survey Response. Cambridge University Press.

Guías de proveedores y prácticas

¿Querés diseñar encuestas con elecciones deliberadas de Likert de extremo a extremo? Probá la herramienta de encuestas online gratuita Kicue. Los tipos LIKERT, NPS, SLIDER y SD vienen de serie, con control completo sobre número de puntos, punto medio y diseño de etiquetas.