Guia de design da escala Likert — 5, 7 ou 9 pontos e a questão do ponto médio

A avaliação "muito satisfeito a muito insatisfeito" tão comum em qualquer pesquisa com cliente é, no jargão do setor, uma escala Likert — uma técnica de medição introduzida em 1932. CSAT, NPS, CES, avaliação de marca, pesquisas de engagement — quase todo item de rating em pesquisas web modernas é um derivado da escala Likert, e mesmo assim perguntas básicas como "5 pontos ou 7?" e "incluir um ponto médio?" continuam sendo decididas no chute na maioria dos projetos.

Este artigo percorre a essência da escala Likert, as bases acadêmicas para escolher o número de pontos, a questão do ponto médio, as armadilhas do design de rótulos e o longo debate estatístico sobre como analisar os dados. Pesquisas que rodam no "5 pontos porque sempre foi assim" às vezes produzem conclusões que se invertem ao mudar a escala — está mais perto do alicerce do que se imagina.

1. O que é uma escala Likert

Uma escala Likert é um instrumento de medição que pede ao respondente expressar sua atitude ou avaliação escolhendo entre várias categorias ordenadas. Rensis Likert propôs a técnica em sua tese de doutorado de 1932 A Technique for the Measurement of Attitudes.

Formato típico

Q. De modo geral, qual é sua satisfação com nosso serviço?
   1. Muito insatisfeito(a)
   2. Um pouco insatisfeito(a)
   3. Neutro
   4. Um pouco satisfeito(a)
   5. Muito satisfeito(a)

Estrutura básica: dois polos opostos com passos graduados entre eles. Derivados comuns em pesquisa web:

NPS (0–10, 11 pontos) — Reichheld (2003), intenção de recomendação
CSAT 5 pontos — padrão para avaliação de suporte
Diferencial semântico (SD), 7 pontos — pares de adjetivos bipolares ("claro vs. escuro")
Sliders — escala contínua 0–100

Quatro decisões de design

O problema de design se resume a quatro escolhas:

Número de pontos — 5 / 7 / 9 / 11
Ponto médio — incluir "neutro" ou não
Rótulos — texto completo em cada ponto ou só nos extremos
Direção — "negativo → positivo" ou "positivo → negativo"

Cada uma tem sua própria literatura acadêmica.

2. Por que o "número de pontos" é tão debatido

O debate sobre número de pontos surge de um trade-off entre confiabilidade da medição, validade e carga do respondente.

Vantagens de mais pontos

Discriminação maior — separa "um pouco satisfeito" de "muito satisfeito"
Mais informação estatística — granularidade maior para médias e desvios-padrão
Mitiga efeitos teto e piso — uma escala de 5 pontos que joga todos para "muito satisfeito" pode ser distribuída em 7

Custos de mais pontos

Mais carga cognitiva — distinguir "um pouco" de "bastante" satisfeito custa
Tempo de resposta maior — matrizes mais altas em layout vertical
Passos do meio borrados — em 9+ pontos as categorias centrais ficam indistinguíveis
Menor confiabilidade teste-reteste — mesma pessoa, mesma pergunta, mais variação

Cox (1980) "The Optimal Number of Response Alternatives for a Scale" concluiu que a faixa ótima é 5–9 pontos — e esse tem sido o consenso do setor desde então.

3. 5 vs 7 vs 9 pontos — o que a pesquisa diz

Principais achados

Estudo	Recomendado	Razão
Likert (1932) original	5 pontos	Discriminação suficiente com carga mínima
Cox (1980)	5–9 pontos	Acima de 9, ganhos de discriminação < ganhos de carga
Krosnick & Fabrigar (1997)	7 pontos	Melhor combinação confiabilidade + validade
Preston & Colman (2000)	7–10 pontos	Confiabilidade estabiliza a 7+
Lozano, García-Cueto & Muñiz (2008)	4–7 pontos	Validade cai abaixo de 4; platô em 7
Norman (2010)	5 ou 7 pontos	Análise paramétrica funciona bem com 5+

A zona segura acadêmica é 5–7 pontos; 9+ vê o custo cognitivo superar os ganhos de discriminação.

Convenções por caso de uso

Na prática as convenções variam por aplicação:

Caso de uso	Padrão	Por quê
CSAT	5 pontos	Intuitivo (5 de 5)
NPS	11 pontos (0–10)	Metodologia fixa de Reichheld
CES	5 ou 7 pontos	Original de Dixon et al. usava 5
Avaliação de marca	7 pontos	Quer diferenças mais finas
Engagement	5 pontos	Padrão Gallup Q12
Estudos acadêmicos	7 pontos	α de Cronbach estabiliza

Quando 9 ou 11 fazem sentido

NPS a 11 pontos — Reichheld argumentou que 0–10 captura especificamente a "força da recomendação". Academicamente, a convenção de 11 pontos é mais "prática padrão do setor" do que "comprovadamente ótima".
9 pontos — usado em estudos acadêmicos e painéis grandes para máxima discriminação. Geralmente não recomendado para a pesquisa web típica.

"5 ou 7 na dúvida" é o consenso entre pesquisa e literatura de praticantes.

4. Deve-se incluir o ponto médio em uma escala de Likert?

Se incluir um ponto médio "neutro" / "nem concordo nem discordo" é tão importante quanto a questão do número de pontos.

Com ponto médio (escalas ímpares)

Pró: respondentes genuinamente neutros não são forçados a se posicionar. Reduz carga.
Contra: dá esconderijo aos "preferia não responder"; potencial de satisficing.

Sem ponto médio (escalas pares)

Pró: força os respondentes a expressar uma opinião, eliminando "vagamente neutros".
Contra: força quem é genuinamente neutro a um lado ou outro, distorcendo os dados.

O que a pesquisa recomenda

Krosnick & Fabrigar (1997) concluem que o ponto médio deve em geral ser incluído. Razões:

Respondentes genuinamente neutros existem — sem conhecimento / sem interesse / sem experiência.
A escolha forçada aumenta o erro de medição — escolhas "vagamente positivas" adicionam ruído.
A evidência de que o ponto médio infla satisficing é fraca — com número apropriado de pontos, o efeito é pequeno.

Isso dito, se respostas neutras dominam, a pergunta é o problema, não o ponto médio. Conserte a redação, não remova o ponto médio.

5. Armadilhas do design de rótulos

Como você rotula as categorias afeta a qualidade do dado diretamente.

Totalmente rotulado vs só extremos

Totalmente rotulado:

1. Muito insatisfeito(a) / 2. Um pouco insatisfeito(a) / 3. Neutro / 4. Um pouco satisfeito(a) / 5. Muito satisfeito(a)

Só extremos:

1 (muito insatisfeito) — 2 — 3 — 4 — 5 (muito satisfeito)

Krosnick & Berent (1993) mostraram que escalas totalmente rotuladas têm maior confiabilidade e validade — respondentes não interpretam números nus de forma confiável, então anexar linguagem a cada categoria importa. Por padrão, totalmente rotulado.

A suposição de "intervalos iguais"

Pessoas calculam médias rotineiramente assumindo passos uniformemente espaçados — mas eles são?

Tourangeau, Rips & Rasinski (2000) The Psychology of Survey Response apontam que a distância psicológica de "muito satisfeito" para "um pouco satisfeito" não precisa ser igual à de "um pouco satisfeito" para "neutro". Isso leva ao debate ordinal-vs-intervalo (próxima seção).

Convenções de direção

Se "negativo → positivo" ou "positivo → negativo" se lê da esquerda para a direita é convenção que varia por região. As regras inegociáveis: direção consistente dentro de uma pesquisa, e nunca mudar em estudo de tracking.

6. Ordinal ou intervalo — o debate estatístico de 50 anos

Um debate acadêmico que dura meio século: dá para calcular médias e desvios-padrão de dados Likert (números 1–5)?

Visão estrita: "É ordinal — médias são inadequadas"

Uma escala Likert é fundamentalmente ordinal — a diferença entre "muito satisfeito" e "um pouco satisfeito" é um passo numérico, mas não necessariamente um passo psicológico. Portanto:

Médias são inadequadas — use mediana ou moda.
Use testes não paramétricos (Mann-Whitney U etc.).
Regressão e testes t inadequados.

Visão pragmática: "Trate como intervalo na prática"

Norman (2010) "Likert Scales, Levels of Measurement and the 'Laws' of Statistics" conclui que tratar escalas Likert como intervalo e aplicar testes paramétricos (t-tests, regressão) não causa essencialmente nenhum problema na prática. Razões:

Estudos de simulação mostram robustez — mesmo quando intervalos não são iguais, os resultados são em grande parte corretos.
O teorema central do limite se aplica com 5+ pontos e amostras grandes — distribuições aproximam normal.
A vasta maioria da pesquisa publicada usa testes paramétricos — a visão estrita não acompanhou a prática.

Onde a prática chega

Síntese de pesquisa e literatura de praticantes:

Likert de 5+ pontos com N ≥ 100 → médias, SDs e regressão são ok para fins práticos.
Para artigos e relatórios formais, explicite "dados Likert tratados como intervalo".
Quando há efeitos teto ou piso, valide com testes não paramétricos.

Médias CSAT e subtração NPS são rotineiras porque a visão pragmática é o padrão de trabalho no setor.

7. Visão editorial — cinco regras que fazem diferença

Acompanhando relatórios setoriais e cases públicos, cinco pontos em que insistiríamos com força.

1. "5 pontos na dúvida." Escolha 7 só com motivo. Times oscilam entre 5 e 7, e a heurística prática é "5 a menos que tenha motivo específico". Quando escolher 7, documente por que ("precisamos de discriminação mais fina entre itens de imagem de marca"). Escolher 7 porque "parece mais preciso" é o padrão a que a imprensa especializada retorna: times se arrependem porque os resultados eram menos intuitivos em 7 do que seriam em 5.

2. Padrão é incluir o ponto médio. Se "neutro" estiver alto demais, conserte a pergunta. Remover o ponto médio para forçar posicionamento é um workaround que vemos periodicamente — e geralmente é um erro de categoria. Neutralidade excessiva sinaliza pergunta abstrata ou pouco engajadora. Apure a redação, não retire o ponto médio. É também o que a pesquisa de Krosnick & Fabrigar suporta.

3. Padrão é rotular tudo. Só extremos é "design economizado". Quando você vê "1 — 2 — 3 — 4 — 5 (insatisfeito — satisfeito)" sem rótulos no meio, costuma ser sinal de que alguém economizou esforço de design. A pesquisa mostra repetidamente que escalas totalmente rotuladas têm maior confiabilidade — o minuto que leva para adicionar linguagem a cada categoria compra qualidade real lá na frente. NPS é a exceção convencional (0–10 numérico); o restante: rótulos completos.

4. Em estudos de tracking, congele número de pontos, ponto médio e rótulos — ponto. Vemos times "subindo de 5 para 7 nesta rodada" ou "ajustando a redação" e tentando comparar contra a onda anterior. Uma vez mudado, as notas histórica e atual não compartilham mais a escala, e a comparação longitudinal quebra para sempre. Ou recoleta a onda histórica na nova escala, ou não muda.

5. A Likert não é mágica — redação 80%, design da escala 20%. Número de pontos e ponto médio importam, mas a redação da pergunta move os resultados muito mais. Esteja "Qual sua satisfação com nosso serviço?" em escala 5 ou 7 pontos, os dados não fazem sentido se a pergunta é abstrata demais. Polir a redação primeiro, depois pensar a escala.

8. Escalas Likert na Ferramenta de Pesquisa Kicue

A Kicue traz capacidades relacionadas a escalas como padrão.

Tipos de pergunta SCALE

Os tipos de pergunta SCALE vêm em quatro sabores:

LIKERT — escala Likert padrão (5 / 7 pontos e outros, totalmente configurável)
NPS — otimizado para o formato de 11 pontos (0–10)
SLIDER — slider de valor contínuo
SD — diferencial semântico (pares de adjetivos bipolares)

Combinando com perguntas matriz

Para avaliar vários itens em uma escala Likert compartilhada, combine os tipos matriz com SCALE. Para armadilhas específicas de matriz, veja design de perguntas matriz.

Artigos de design relacionados

Escalas Likert se conectam com outros temas de design. Veja também nosso guia CSAT, guia completo NPS, guia CES, design de matrizes e efeitos de ordem das perguntas.

Escolher a ferramenta certa — Os limites do plano gratuito, suporte a ramificação, capacidades IA e exportação CSV variam muito entre ferramentas. Confira nosso comparativo de ferramentas de pesquisa gratuitas para encontrar a ideal para esta abordagem.

Resumo

Checklist para projetar e operar escalas Likert:

5 ou 7 pontos é o ótimo acadêmico. 9+ custa mais em carga do que ganha em discriminação.
Por padrão inclua o ponto médio. Escolha forçada eleva o erro de medição.
Rotule cada categoria por completo. Só extremos reduz a confiabilidade.
Trate os dados como intervalo na prática. Norman (2010) é o padrão de trabalho.
Em tracking, congele o design da escala. Mudar quebra a comparação longitudinal.
Redação primeiro, escala depois. 80/20.

Times que tratam a Likert como "5 pontos, qualquer coisa" produzem confiabilidade diferente daqueles que decidem deliberadamente pontos, ponto médio e rótulos. É o instrumento de medição por trás de CSAT/NPS/CES — vale projetar com intenção.

Referências

Acadêmico e metodológico

Likert, R. (1932). A Technique for the Measurement of Attitudes. Archives of Psychology.
Cox, E. P. (1980). The Optimal Number of Response Alternatives for a Scale. Journal of Marketing Research.
Krosnick, J. A., & Fabrigar, L. R. (1997). Designing Rating Scales for Effective Measurement in Surveys. Survey Measurement and Process Quality.
Krosnick, J. A., & Berent, M. K. (1993). Comparisons of Party Identification and Policy Preferences. American Journal of Political Science.
Preston, C. C., & Colman, A. M. (2000). Optimal Number of Response Categories in Rating Scales. Acta Psychologica.
Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the Number of Response Categories on the Reliability and Validity of Rating Scales. Methodology.
Norman, G. (2010). Likert Scales, Levels of Measurement and the 'Laws' of Statistics. Advances in Health Sciences Education.
Tourangeau, R., Rips, L. J., & Rasinski, K. (2000). The Psychology of Survey Response. Cambridge University Press.

Guias de fornecedores e prática

Quer projetar pesquisas com escolhas Likert deliberadas de ponta a ponta? Experimente a ferramenta de pesquisa online gratuita Kicue. Os tipos LIKERT, NPS, SLIDER e SD vêm de fábrica, com controle completo sobre número de pontos, ponto médio e design de rótulos.