A avaliação "muito satisfeito a muito insatisfeito" tão comum em qualquer pesquisa com cliente é, no jargão do setor, uma escala Likert — uma técnica de medição introduzida em 1932. CSAT, NPS, CES, avaliação de marca, pesquisas de engagement — quase todo item de rating em pesquisas web modernas é um derivado da escala Likert, e mesmo assim perguntas básicas como "5 pontos ou 7?" e "incluir um ponto médio?" continuam sendo decididas no chute na maioria dos projetos.
Este artigo percorre a essência da escala Likert, as bases acadêmicas para escolher o número de pontos, a questão do ponto médio, as armadilhas do design de rótulos e o longo debate estatístico sobre como analisar os dados. Pesquisas que rodam no "5 pontos porque sempre foi assim" às vezes produzem conclusões que se invertem ao mudar a escala — está mais perto do alicerce do que se imagina.
1. O que é uma escala Likert
Uma escala Likert é um instrumento de medição que pede ao respondente expressar sua atitude ou avaliação escolhendo entre várias categorias ordenadas. Rensis Likert propôs a técnica em sua tese de doutorado de 1932 A Technique for the Measurement of Attitudes.
Formato típico
Q. De modo geral, qual é sua satisfação com nosso serviço?
1. Muito insatisfeito(a)
2. Um pouco insatisfeito(a)
3. Neutro
4. Um pouco satisfeito(a)
5. Muito satisfeito(a)
Estrutura básica: dois polos opostos com passos graduados entre eles. Derivados comuns em pesquisa web:
- NPS (0–10, 11 pontos) — Reichheld (2003), intenção de recomendação
- CSAT 5 pontos — padrão para avaliação de suporte
- Diferencial semântico (SD), 7 pontos — pares de adjetivos bipolares ("claro vs. escuro")
- Sliders — escala contínua 0–100
Quatro decisões de design
O problema de design se resume a quatro escolhas:
- Número de pontos — 5 / 7 / 9 / 11
- Ponto médio — incluir "neutro" ou não
- Rótulos — texto completo em cada ponto ou só nos extremos
- Direção — "negativo → positivo" ou "positivo → negativo"
Cada uma tem sua própria literatura acadêmica.
2. Por que o "número de pontos" é tão debatido
O debate sobre número de pontos surge de um trade-off entre confiabilidade da medição, validade e carga do respondente.
Vantagens de mais pontos
- Discriminação maior — separa "um pouco satisfeito" de "muito satisfeito"
- Mais informação estatística — granularidade maior para médias e desvios-padrão
- Mitiga efeitos teto e piso — uma escala de 5 pontos que joga todos para "muito satisfeito" pode ser distribuída em 7
Custos de mais pontos
- Mais carga cognitiva — distinguir "um pouco" de "bastante" satisfeito custa
- Tempo de resposta maior — matrizes mais altas em layout vertical
- Passos do meio borrados — em 9+ pontos as categorias centrais ficam indistinguíveis
- Menor confiabilidade teste-reteste — mesma pessoa, mesma pergunta, mais variação
Cox (1980) "The Optimal Number of Response Alternatives for a Scale" concluiu que a faixa ótima é 5–9 pontos — e esse tem sido o consenso do setor desde então.
3. 5 vs 7 vs 9 pontos — o que a pesquisa diz
Principais achados
| Estudo | Recomendado | Razão |
|---|---|---|
| Likert (1932) original | 5 pontos | Discriminação suficiente com carga mínima |
| Cox (1980) | 5–9 pontos | Acima de 9, ganhos de discriminação < ganhos de carga |
| Krosnick & Fabrigar (1997) | 7 pontos | Melhor combinação confiabilidade + validade |
| Preston & Colman (2000) | 7–10 pontos | Confiabilidade estabiliza a 7+ |
| Lozano, García-Cueto & Muñiz (2008) | 4–7 pontos | Validade cai abaixo de 4; platô em 7 |
| Norman (2010) | 5 ou 7 pontos | Análise paramétrica funciona bem com 5+ |
A zona segura acadêmica é 5–7 pontos; 9+ vê o custo cognitivo superar os ganhos de discriminação.
Convenções por caso de uso
Na prática as convenções variam por aplicação:
| Caso de uso | Padrão | Por quê |
|---|---|---|
| CSAT | 5 pontos | Intuitivo (5 de 5) |
| NPS | 11 pontos (0–10) | Metodologia fixa de Reichheld |
| CES | 5 ou 7 pontos | Original de Dixon et al. usava 5 |
| Avaliação de marca | 7 pontos | Quer diferenças mais finas |
| Engagement | 5 pontos | Padrão Gallup Q12 |
| Estudos acadêmicos | 7 pontos | α de Cronbach estabiliza |
Quando 9 ou 11 fazem sentido
- NPS a 11 pontos — Reichheld argumentou que 0–10 captura especificamente a "força da recomendação". Academicamente, a convenção de 11 pontos é mais "prática padrão do setor" do que "comprovadamente ótima".
- 9 pontos — usado em estudos acadêmicos e painéis grandes para máxima discriminação. Geralmente não recomendado para a pesquisa web típica.
"5 ou 7 na dúvida" é o consenso entre pesquisa e literatura de praticantes.
4. Deve-se incluir o ponto médio em uma escala de Likert?
Se incluir um ponto médio "neutro" / "nem concordo nem discordo" é tão importante quanto a questão do número de pontos.
Com ponto médio (escalas ímpares)
- Pró: respondentes genuinamente neutros não são forçados a se posicionar. Reduz carga.
- Contra: dá esconderijo aos "preferia não responder"; potencial de satisficing.
Sem ponto médio (escalas pares)
- Pró: força os respondentes a expressar uma opinião, eliminando "vagamente neutros".
- Contra: força quem é genuinamente neutro a um lado ou outro, distorcendo os dados.
O que a pesquisa recomenda
Krosnick & Fabrigar (1997) concluem que o ponto médio deve em geral ser incluído. Razões:
- Respondentes genuinamente neutros existem — sem conhecimento / sem interesse / sem experiência.
- A escolha forçada aumenta o erro de medição — escolhas "vagamente positivas" adicionam ruído.
- A evidência de que o ponto médio infla satisficing é fraca — com número apropriado de pontos, o efeito é pequeno.
Isso dito, se respostas neutras dominam, a pergunta é o problema, não o ponto médio. Conserte a redação, não remova o ponto médio.
5. Armadilhas do design de rótulos
Como você rotula as categorias afeta a qualidade do dado diretamente.
Totalmente rotulado vs só extremos
Totalmente rotulado:
1. Muito insatisfeito(a) / 2. Um pouco insatisfeito(a) / 3. Neutro / 4. Um pouco satisfeito(a) / 5. Muito satisfeito(a)
Só extremos:
1 (muito insatisfeito) — 2 — 3 — 4 — 5 (muito satisfeito)
Krosnick & Berent (1993) mostraram que escalas totalmente rotuladas têm maior confiabilidade e validade — respondentes não interpretam números nus de forma confiável, então anexar linguagem a cada categoria importa. Por padrão, totalmente rotulado.
A suposição de "intervalos iguais"
Pessoas calculam médias rotineiramente assumindo passos uniformemente espaçados — mas eles são?
Tourangeau, Rips & Rasinski (2000) The Psychology of Survey Response apontam que a distância psicológica de "muito satisfeito" para "um pouco satisfeito" não precisa ser igual à de "um pouco satisfeito" para "neutro". Isso leva ao debate ordinal-vs-intervalo (próxima seção).
Convenções de direção
Se "negativo → positivo" ou "positivo → negativo" se lê da esquerda para a direita é convenção que varia por região. As regras inegociáveis: direção consistente dentro de uma pesquisa, e nunca mudar em estudo de tracking.
6. Ordinal ou intervalo — o debate estatístico de 50 anos
Um debate acadêmico que dura meio século: dá para calcular médias e desvios-padrão de dados Likert (números 1–5)?
Visão estrita: "É ordinal — médias são inadequadas"
Uma escala Likert é fundamentalmente ordinal — a diferença entre "muito satisfeito" e "um pouco satisfeito" é um passo numérico, mas não necessariamente um passo psicológico. Portanto:
- Médias são inadequadas — use mediana ou moda.
- Use testes não paramétricos (Mann-Whitney U etc.).
- Regressão e testes t inadequados.
Visão pragmática: "Trate como intervalo na prática"
Norman (2010) "Likert Scales, Levels of Measurement and the 'Laws' of Statistics" conclui que tratar escalas Likert como intervalo e aplicar testes paramétricos (t-tests, regressão) não causa essencialmente nenhum problema na prática. Razões:
- Estudos de simulação mostram robustez — mesmo quando intervalos não são iguais, os resultados são em grande parte corretos.
- O teorema central do limite se aplica com 5+ pontos e amostras grandes — distribuições aproximam normal.
- A vasta maioria da pesquisa publicada usa testes paramétricos — a visão estrita não acompanhou a prática.
Onde a prática chega
Síntese de pesquisa e literatura de praticantes:
- Likert de 5+ pontos com N ≥ 100 → médias, SDs e regressão são ok para fins práticos.
- Para artigos e relatórios formais, explicite "dados Likert tratados como intervalo".
- Quando há efeitos teto ou piso, valide com testes não paramétricos.
Médias CSAT e subtração NPS são rotineiras porque a visão pragmática é o padrão de trabalho no setor.
7. Visão editorial — cinco regras que fazem diferença
Acompanhando relatórios setoriais e cases públicos, cinco pontos em que insistiríamos com força.
1. "5 pontos na dúvida." Escolha 7 só com motivo. Times oscilam entre 5 e 7, e a heurística prática é "5 a menos que tenha motivo específico". Quando escolher 7, documente por que ("precisamos de discriminação mais fina entre itens de imagem de marca"). Escolher 7 porque "parece mais preciso" é o padrão a que a imprensa especializada retorna: times se arrependem porque os resultados eram menos intuitivos em 7 do que seriam em 5.
2. Padrão é incluir o ponto médio. Se "neutro" estiver alto demais, conserte a pergunta. Remover o ponto médio para forçar posicionamento é um workaround que vemos periodicamente — e geralmente é um erro de categoria. Neutralidade excessiva sinaliza pergunta abstrata ou pouco engajadora. Apure a redação, não retire o ponto médio. É também o que a pesquisa de Krosnick & Fabrigar suporta.
3. Padrão é rotular tudo. Só extremos é "design economizado". Quando você vê "1 — 2 — 3 — 4 — 5 (insatisfeito — satisfeito)" sem rótulos no meio, costuma ser sinal de que alguém economizou esforço de design. A pesquisa mostra repetidamente que escalas totalmente rotuladas têm maior confiabilidade — o minuto que leva para adicionar linguagem a cada categoria compra qualidade real lá na frente. NPS é a exceção convencional (0–10 numérico); o restante: rótulos completos.
4. Em estudos de tracking, congele número de pontos, ponto médio e rótulos — ponto. Vemos times "subindo de 5 para 7 nesta rodada" ou "ajustando a redação" e tentando comparar contra a onda anterior. Uma vez mudado, as notas histórica e atual não compartilham mais a escala, e a comparação longitudinal quebra para sempre. Ou recoleta a onda histórica na nova escala, ou não muda.
5. A Likert não é mágica — redação 80%, design da escala 20%. Número de pontos e ponto médio importam, mas a redação da pergunta move os resultados muito mais. Esteja "Qual sua satisfação com nosso serviço?" em escala 5 ou 7 pontos, os dados não fazem sentido se a pergunta é abstrata demais. Polir a redação primeiro, depois pensar a escala.
8. Escalas Likert na Ferramenta de Pesquisa Kicue
A Kicue traz capacidades relacionadas a escalas como padrão.
Tipos de pergunta SCALE
Os tipos de pergunta SCALE vêm em quatro sabores:
- LIKERT — escala Likert padrão (5 / 7 pontos e outros, totalmente configurável)
- NPS — otimizado para o formato de 11 pontos (0–10)
- SLIDER — slider de valor contínuo
- SD — diferencial semântico (pares de adjetivos bipolares)
Combinando com perguntas matriz
Para avaliar vários itens em uma escala Likert compartilhada, combine os tipos matriz com SCALE. Para armadilhas específicas de matriz, veja design de perguntas matriz.
Artigos de design relacionados
Escalas Likert se conectam com outros temas de design. Veja também nosso guia CSAT, guia completo NPS, guia CES, design de matrizes e efeitos de ordem das perguntas.
Escolher a ferramenta certa — Os limites do plano gratuito, suporte a ramificação, capacidades IA e exportação CSV variam muito entre ferramentas. Confira nosso comparativo de ferramentas de pesquisa gratuitas para encontrar a ideal para esta abordagem.
Resumo
Checklist para projetar e operar escalas Likert:
- 5 ou 7 pontos é o ótimo acadêmico. 9+ custa mais em carga do que ganha em discriminação.
- Por padrão inclua o ponto médio. Escolha forçada eleva o erro de medição.
- Rotule cada categoria por completo. Só extremos reduz a confiabilidade.
- Trate os dados como intervalo na prática. Norman (2010) é o padrão de trabalho.
- Em tracking, congele o design da escala. Mudar quebra a comparação longitudinal.
- Redação primeiro, escala depois. 80/20.
Times que tratam a Likert como "5 pontos, qualquer coisa" produzem confiabilidade diferente daqueles que decidem deliberadamente pontos, ponto médio e rótulos. É o instrumento de medição por trás de CSAT/NPS/CES — vale projetar com intenção.
Referências
Acadêmico e metodológico
- Likert, R. (1932). A Technique for the Measurement of Attitudes. Archives of Psychology.
- Cox, E. P. (1980). The Optimal Number of Response Alternatives for a Scale. Journal of Marketing Research.
- Krosnick, J. A., & Fabrigar, L. R. (1997). Designing Rating Scales for Effective Measurement in Surveys. Survey Measurement and Process Quality.
- Krosnick, J. A., & Berent, M. K. (1993). Comparisons of Party Identification and Policy Preferences. American Journal of Political Science.
- Preston, C. C., & Colman, A. M. (2000). Optimal Number of Response Categories in Rating Scales. Acta Psychologica.
- Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the Number of Response Categories on the Reliability and Validity of Rating Scales. Methodology.
- Norman, G. (2010). Likert Scales, Levels of Measurement and the 'Laws' of Statistics. Advances in Health Sciences Education.
- Tourangeau, R., Rips, L. J., & Rasinski, K. (2000). The Psychology of Survey Response. Cambridge University Press.
Guias de fornecedores e prática
- Qualtrics: Likert Scale Question Best Practices.
- SurveyMonkey: Likert Scale Design Tips.
- Pew Research Center: Question Wording.
Quer projetar pesquisas com escolhas Likert deliberadas de ponta a ponta? Experimente a ferramenta de pesquisa online gratuita Kicue. Os tipos LIKERT, NPS, SLIDER e SD vêm de fábrica, com controle completo sobre número de pontos, ponto médio e design de rótulos.
