Guia de design de MaxDiff (Maximum Difference Scaling) — Medir prioridades

"Qual funcionalidade tem maior prioridade?" — você pergunta na Likert, e o relatório volta com todos os itens empilhados em 'muito importante'. Quem trabalha com pesquisa por um ano já se deparou com essa cena pelo menos uma vez. Aquele momento de segurar a cabeça: "estão dizendo que tudo é importante… não dá pra tomar decisão com isso…".

Esse efeito teto (Ceiling Effect) tem uma forma estrutural de ser contornada: o MaxDiff (Maximum Difference Scaling, Best-Worst Scaling). Neste artigo organizamos, desde o motivo de a Likert não conseguir ranquear prioridades, passando pela estrutura básica do MaxDiff, o protocolo de design experimental, o critério para tamanho de amostra, o cálculo de scores (contagem vs. Bayesiana hierárquica), até a divisão de uso com conjoint e PSM, apoiados tanto na prática dos fornecedores que implementam quanto na literatura acadêmica original.

1. Por que a Likert não consegue ranquear prioridades

Ao colocar 10 itens lado a lado e pedir "avalie a importância em 5 níveis", na maioria deles aparecem 'importante' e 'muito importante'. Essa é a fraqueza estrutural da escala Likert.

São três as causas principais:

Efeito teto: quando o respondente sente que "tudo é importante", ele gruda no topo da escala. Se os 10 itens recebem 5 pontos, prioridade não tem como ser identificada
Viés de desejabilidade social: itens difíceis de negar como "segurança", "qualidade", "suporte" aparecem com prioridade acima da real
Atalho pela carga cognitiva: dar uma nota com estrela para cada um dos 10 itens é monótono, e da metade para frente o respondente passa a fazer no automático

O resultado é um dado em que "tudo é importante", uma situação inservível para tomada de decisão.

Tratamos o uso adequado da Likert em si no Guia de design da escala Likert, mas para o caso de uso "quero ranquear", a Likert é estruturalmente inadequada — essa é a motivação para usar MaxDiff.

2. A estrutura básica do MaxDiff — Escolher o melhor e o pior

O MaxDiff é um método que apresenta 4 a 5 itens por vez e pede ao respondente que escolha o mais importante (best) e o menos importante (worst). Repetindo isso por 10 a 15 blocos, estima-se estatisticamente a prioridade relativa de cada item.

Como a pergunta aparece para o respondente

Exemplo: se quiser comparar 10 itens, o respondente verá uma tela como esta 12 vezes.

Dos 4 itens abaixo, escolha um como o mais importante e um como o menos importante.

[ ] Preço baixo                Mais importante [○]  Menos importante [ ]
[ ] Qualidade do suporte       Mais importante [ ]  Menos importante [○]
[ ] Riqueza de funcionalidades Mais importante [ ]  Menos importante [ ]
[ ] Facilidade de uso          Mais importante [ ]  Menos importante [ ]

Cada respondente é obrigado a comparar os itens diretamente, então não existe a saída de fuga "tudo 5 pontos" da Likert. Como resultado, o contraste relativo entre os itens fica nítido.

Por que esse formato funciona

A intuição central que Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis apresentou é o fato psicológico de que "a escolha relativa é mais natural para o ser humano do que a avaliação absoluta". Temos dificuldade em decidir "isso vale 7 pontos", mas respondemos sem hesitar a "A ou B, qual você prefere?". O MaxDiff é um design que usa essa característica cognitiva de forma direta.

3. Design experimental — O protocolo do Balanced Incomplete Block Design

O núcleo do MaxDiff é o design experimental. Como não dá para apresentar todas as combinações (45 no caso de 10 itens) para os respondentes, distribui-se os itens aleatoriamente com Balanced Incomplete Block Design (BIBD, design em blocos incompletos balanceados).

As regras básicas do design

4 a 5 itens por bloco: muitos itens dificultam a escolha, poucos itens deixam a informação comparativa rala
Cada item aparece o mesmo número de vezes: se 10 itens são distribuídos em 12 blocos, cada item aparece cerca de 5 vezes
Cada par de itens coocorre o mesmo número de vezes: equalizar quantas vezes "preço" e "suporte" caem no mesmo bloco
Aleatorizar a posição dos itens: prevenir efeito de ordem de exibição

A realidade da implementação

Como criar um BIBD perfeito no braço é inviável, o padrão é usar ferramentas especializadas:

Sawtooth Software Lighthouse / Discover: fornecedor padrão da indústria para MaxDiff, gera o design automaticamente
Pacote R support.BWS: open source, amplamente usado em pesquisa acadêmica
SurveyEngine / Conjoint.ly: cloud, com templates prontos

Eles geram o design de blocos automaticamente a partir do número de itens informado. Não montar do zero no braço é a regra de ouro.

4. Como decidir tamanho de amostra e número de repetições

"Quantas pessoas bastam" e "quantos blocos mostrar para cada pessoa" são as discussões mais espinhosas na prática do MaxDiff.

Critério para o número de repetições (blocos por pessoa)

Número de itens × 3 / 4 é a regra empírica da indústria. Exemplo: 10 itens → 7 a 8 blocos por pessoa, 15 itens → 11 a 12 blocos
Poucas repetições deixam a estimativa em nível individual instável; muitas elevam a taxa de abandono pela carga sobre o respondente
O critério prático é calcular de trás para frente para que o tempo de resposta não passe de 5 a 10 minutos

Critério para o número de amostras

Apenas análise em nível agregado: N=200 a 300 basta
Estimativa Bayesiana hierárquica por segmento: N≥100 por segmento, total de N=400 a 500
Estimativa em nível individual (análise detalhada de clientes-chave): N≥500

Orme, B. K. (2010). Getting Started with Conjoint Analysis (2nd ed.) é um livro prático que organiza o design de amostra do MaxDiff a partir da experiência de implementação da Sawtooth Software, referenciado como diretriz padrão no campo.

Tratamos a base do cálculo de tamanho de amostra em Como decidir o tamanho de amostra de uma pesquisa.

5. Cálculo de scores — Análise por contagem vs. Bayesiana hierárquica

Há duas grandes formas de calcular o "score de prioridade de cada item" a partir dos dados de resposta do MaxDiff.

Análise por contagem (versão simplificada)

Para cada item, totalizar "número de vezes escolhido como best − número de vezes escolhido como worst"
Após o total, comparar entre itens
Dá pra fazer no Excel, interpretação simples, eficaz quando se quer ver o ranking geral em nível agregado

Entretanto, a análise por contagem não permite calcular scores em nível individual nem fazer comparação refinada por segmento.

Estimativa Bayesiana hierárquica (HB, Hierarchical Bayes)

Estima o score individual de cada respondente combinando distribuição a priori (média do grupo) + ajuste a posteriori (escolhas do indivíduo)
Como saem scores em nível individual, pode-se usar para segmentação e clustering
O padrão é executar pelo módulo HB da Sawtooth Software, ou pelos pacotes R bayesm / ChoiceModelR

Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices organiza os modelos matemáticos de escolha best-worst (modelo de utilidade aleatória, MNL) e é a base teórica para implementações de HB.

Como escolher na prática

Quero mostrar para a diretoria "a funcionalidade A é 3 vezes mais importante que a B" → estimativa HB (score individual → mostrar pela média)
Quero comparar a prioridade entre 5 segmentos → estimativa HB (distribuição a posteriori por segmento)
Quero compartilhar internamente de forma sucinta "o que é prioridade máxima no Q1" → análise por contagem basta

Para o detalhe teórico da estimativa Bayesiana, ler em paralelo Agregação de respostas de pesquisa e teste de significância — uso de tabelas cruzadas, teste qui-quadrado e tamanho de efeito ajuda a entender por contraste com a estatística frequentista.

6. Divisão de uso entre MaxDiff / Conjoint / PSM

Como os três grandes métodos de pesquisa de preço e prioridades, MaxDiff, conjoint e PSM costumam ser discutidos lado a lado. Cada um responde a uma pergunta diferente e tem cenários distintos em que se destaca.

Divisão de uso entre MaxDiff / Conjoint / PSM

MaxDiff (Maximum Difference Scaling)

Mede a prioridade entre itens individuais. Identifica "qual é o mais importante" entre 10 a 30 funcionalidades ou demandas. Design relativamente simples, carga sobre o respondente moderada. Ideal para priorização de funcionalidades, screening de conceitos e redução de atributos.

Análise conjunta

Apresenta combinações de atributos e roda simulação de share. Poderoso quando se comparam perfis de produto (preço × funcionalidade × marca). Dificuldade de design e análise é maior que a do MaxDiff. Ideal para avaliação de conceito de produto e medição de elasticidade-preço.

Van Westendorp PSM

Pergunta diretamente 4 pontos de preço como "caro demais", "barato demais", "razoável". O design é o mais simples, mas o que se obtém é apenas a "faixa de preço" — não se aprende sobre prioridade de funcionalidades. Ideal para exploração da faixa de preço inicial de um produto novo.

Fluxo de escolha na prática

Quero decidir "o que desenvolver com prioridade máxima" → MaxDiff
Quero ver "se este conjunto de preço + funcionalidades vende" → Conjoint
Quero explorar "o preço inicial deve ser R $30, R$ 50 ou R$ 80" → PSM

Há casos em que se usam em paralelo. Após reduzir as prioridades de funcionalidade com MaxDiff, montar um conjoint com as 3 funcionalidades top e usar PSM para a faixa de preço é o padrão de projeto de porte médio.

Lendo em paralelo Análise conjunta na prática e Guia de design do PSM de Van Westendorp, a divisão de uso entre os três irmãos fica visível.

7. A visão da equipe editorial — 5 pontos que sempre funcionam na implementação de MaxDiff

Da posição de quem acompanha continuamente casos da indústria e artigos publicados por fornecedores, os 5 pontos que sempre funcionam na implementação de MaxDiff.

1. Reduzir os itens para 10 a 20 antes de começar

"Quero passar todos os 30 itens por MaxDiff" é um pedido comum, mas com 30 itens são necessários cerca de 22 blocos por pessoa, e a carga sobre o respondente colapsa. Antes do MaxDiff, debater internamente "o que claramente fica / o que claramente sai" e reduzir para 20 itens ou menos é a regra do campo.

2. Igualar a granularidade dos itens

Colocar "preço baixo" e "facilidade de uso do formulário de contato" no mesmo nível tem nível de abstração tão diferente que o respondente não consegue comparar. Igualar conscientemente a granularidade (nível de abstração) dos itens — por exemplo, unificar tudo em nível de "categoria de funcionalidade" ou tudo em nível de "ponto de contato concreto".

3. Não misturar "importância" e "satisfação"

Se quiser capturar "importância" e "satisfação atual" na mesma pesquisa com MaxDiff, separar em blocos distintos. Fazer o respondente escolher "o que é importante e satisfaz" dentro do mesmo bloco confunde. Para combinar com análise do modelo Kano, desenhar como pesquisas separadas é o caminho seguro.

4. No pré-teste, verificar a exibição do bloco em dispositivo real

Nas telas de bloco do MaxDiff, o texto dos itens quebra linha em celular e fica difícil de ler com frequência. Antes do disparo em produção, confirmar a exibição em iOS e Android, sem exceção. Organizamos o framework de verificação pré-publicação em Checklist pré-publicação de pesquisa.

5. No relatório, o tripé "score + ranking + tamanho de efeito"

Mostrar para a alta gestão apenas "funcionalidade A: 28,5 pontos" não comunica. Colocar em uma única página "score", "ranking" e "a diferença entre A e B é estatisticamente significativa?" — os três juntos. Com estimativa HB, dá para mostrar a significância intuitivamente pelo overlap das distribuições a posteriori.

8. Implementação de MaxDiff na ferramenta de pesquisas Kicue

⚠️ Premissa importante: o Kicue não tem um tipo de pergunta dedicado a MaxDiff. Comparado a ferramentas especializadas em pesquisa (Sawtooth Software / SurveyEngine / Conjoint.ly), as funções de automação de design e análise são limitadas.

2 opções para implementar MaxDiff no Kicue

Opção A: Implementação substituta no Kicue

Dá para reproduzir o comportamento de MaxDiff com blocos iterados de perguntas de resposta única:

"O mais importante dos 4 itens abaixo" como pergunta de resposta única, repetida 12 vezes
"O menos importante dos 4 itens abaixo" como pergunta de resposta única, repetida 12 vezes
Variar o conjunto de itens por bloco (gerar o BIBD antes no Excel / R e colar nas opções de cada pergunta)
Após coletar respostas, exportar em CSV → estimativa HB com pacotes R bayesm / ChoiceModelR

Esse método é suficientemente prático para "projetos iniciais que não podem investir em ferramenta especializada" e "casos em que se quer verificação simples com 10 a 15 itens".

Opção B: Combinar com ferramenta especializada

Em projetos de MaxDiff de produção:

Sawtooth Software Discover / Lighthouse: padrão da indústria, do design à análise HB de ponta a ponta
SurveyEngine / Conjoint.ly: tipo SaaS, fácil de adotar
Conduzir a pesquisa principal nessas, e usar o Kicue para perguntas de screening ou perguntas adicionais de profiling

O que está fora do alcance do Kicue

Geração automática de BIBD → gerar antes em ferramenta externa (R support.BWS / Sawtooth) e colar no Kicue
Estimativa Bayesiana hierárquica → exportação CSV → R bayesm / módulo HB da Sawtooth
Exibição em dashboard de scores em nível individual → ferramenta de BI externa (Tableau / Looker)
Aleatorização automática da exibição de blocos → cobertura parcial com a função de aleatorização de opções do Kicue, com a equalização de pares entre itens controlada manualmente

Como artigos relacionados, lendo em paralelo Guia de design do PSM de Van Westendorp, Análise conjunta na prática, Guia de design da escala Likert e Design de perguntas de screening, enxerga-se a divisão de uso entre os três irmãos e o design de screening que antecede o MaxDiff.

Referências

Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis: A novel method of measuring values in marketing research. Journal of Marketing Research, 27(4), 437-444.
Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices. Journal of Mathematical Psychology, 49(6), 464-480.
Orme, B. K. (2010). Getting Started with Conjoint Analysis: Strategies for Product Design and Pricing Research (2nd ed.). Research Publishers.
Cohen, S. H. (2003). Maximum difference scaling: Improved measures of importance and preference for segmentation. Sawtooth Software Research Paper.
Flynn, T. N., Louviere, J. J., Peters, T. J., & Coast, J. (2007). Best-worst scaling: What it can do for health care research and how to do it. Journal of Health Economics, 26(1), 171-189.

Se você quer medir as prioridades de funcionalidades ou rankings de itens com alta precisão, experimente a ferramenta gratuita de pesquisas Kicue. Implementação substituta de MaxDiff com blocos iterados de resposta única, controle da ordem de exibição com a função de aleatorização de opções, e integração com R / Sawtooth via exportação CSV — você pode começar a fase de verificação inicial de MaxDiff em uma única conta (a geração de BIBD, a estimativa bayesiana hierárquica e a análise em nível individual requerem ferramentas especializadas como Sawtooth Software / SurveyEngine / R bayesm).