Métodos de pesquisa

Guia de análise de fatores-chave (Key Driver Analysis) — O que move a satisfação e o NPS

Como usar a análise de fatores-chave (Key Driver Analysis) para identificar o que realmente move a satisfação geral e o NPS. Cobrimos a armadilha de decidir só pelo coeficiente de correlação, o problema da multicolinearidade na regressão múltipla, o valor de Shapley e os pesos relativos (Johnson's Relative Weights) que a resolvem, e o maior erro de leitura — confundir correlação com causalidade — organizado à luz da pesquisa sobre importância relativa desde Johnson (2000) e do tato de quem faz na prática. Também posicionamos a KDA como fonte da importância derivada usada na IPA (análise de importância-desempenho).

A tabulação da pesquisa de satisfação terminou, e lá estão os escores por atributo lado a lado com a satisfação geral. A pergunta seguinte é sempre a mesma: "Quero aumentar a satisfação geral. Então, qual item eu preciso melhorar para que a satisfação geral suba?"

É aqui que muita gente monta uma lista do coeficiente de correlação entre cada atributo e a satisfação geral e reporta "os fatores em ordem de correlação são os drivers". Isso é meia armadilha. A correlação só mostra que duas coisas "se movem juntas" — não garante que "melhorar aqui faz a geral subir". E pior: quando os atributos são correlacionados entre si, você acaba contando a mesma importância duas, três vezes. A análise de fatores-chave (Key Driver Analysis, KDA) é a técnica para desembaraçar estatisticamente essa "importância aparente" e extrair os fatores que de fato pesam. Neste artigo, organizo — com o tato de quem faz na prática — desde os limites da correlação até a multicolinearidade da regressão múltipla, o valor de Shapley e os pesos relativos que a resolvem, e a maior regra de todas: nunca confundir correlação com causalidade.

1. O que é a análise de fatores-chave — quantificar "o que pesa"

A análise de fatores-chave decompõe o quanto uma variável de resultado (satisfação geral, NPS, intenção de continuidade etc.) pode ser explicada por várias variáveis driver (a satisfação com cada atributo) e atribui um número à "força de cada driver (importância)".

Por exemplo, numa pesquisa de satisfação de um SaaS, você toma a "satisfação geral" como variável dependente e "satisfação com o suporte", "satisfação com as funcionalidades", "satisfação com o preço" e "satisfação com a UI" como variáveis independentes, e identifica qual delas mais fortemente move a satisfação geral. O que sai dali é a "importância derivada (derived importance)" — uma importância que não foi perguntada diretamente ao respondente, mas inferida estatisticamente a partir dos dados.

Essa importância derivada é exatamente o conceito que apareceu no guia de análise de importância-desempenho (IPA) anterior como "a forma de medir a importância". Calcular a importância com a KDA e colocá-la nos 4 quadrantes da IPA para definir prioridades — esses dois métodos são feitos para andar em par (detalho a conexão na seção 7).

A tabulação básica de correlação e regressão é tratada no guia de tabulação de pesquisas e teste de significância. Este artigo avança como aplicação disso, entrando no como separar "o que pesa, dentre vários fatores".

2. Por que "a lista de coeficientes de correlação" não basta

A KDA mais fácil é calcular o coeficiente de correlação de Pearson entre cada driver e a satisfação geral e ordenar do maior para o menor. Dá para fazer até com a função CORREL do Excel. Como triagem inicial para ter uma intuição, funciona — mas transformar isso na conclusão final erra por dois motivos.

Motivo 1: a "contagem dupla" de importância

Os atributos costumam ser correlacionados entre si. "Rapidez do suporte" e "cordialidade do suporte" tendem a subir juntas. Se você olhar essas duas separadamente pela correlação, ambas mostram correlação alta. Mas a realidade talvez seja que apenas um bloco — a "experiência de suporte" — é que pesa. A lista de correlações conta em duplicidade a importância de fatores correlacionados, pintando um quadro distorcido em que "os itens ligados ao suporte monopolizam o topo".

Motivo 2: não considera os demais fatores

A correlação olha "apenas duas variáveis". Mesmo que "a correlação entre satisfação com o preço e satisfação geral seja alta", isso não permite separar a possibilidade de que não seja o preço em si, e sim outro fator correlacionado com o preço (sensação de custo-benefício, expectativa), que esteja pesando.

Surge então a necessidade de considerar vários fatores simultaneamente e extrair a contribuição "pura" de cada um. É isso que a regressão múltipla, a seguir, faz.

3. A regressão múltipla e a armadilha da "multicolinearidade"

A regressão múltipla explica a satisfação geral com todos os drivers ao mesmo tempo e toma os coeficientes beta padronizados (β) como a importância de cada driver. Ela entrega uma contribuição pura, um passo além da correlação: "mantendo os demais fatores constantes, quando este fator se move 1 desvio-padrão, a satisfação geral se move β desvios-padrão".

Acontece que, ao usar regressão múltipla na KDA, você quase sempre cai na armadilha da multicolinearidade (multicollinearity).

O que acontece na multicolinearidade

Quando os drivers são fortemente correlacionados entre si (ex.: rapidez e cordialidade do suporte com correlação de 0,8), a regressão não consegue decidir "de quem é o mérito" e os coeficientes ficam instáveis. Concretamente:

  • O sinal do coeficiente se inverte (o coeficiente da "rapidez do suporte", que deveria ser importante, fica negativo)
  • Basta mudar um pouco a amostra para os coeficientes oscilarem muito
  • O erro-padrão incha e o coeficiente deixa de ser significativo

Se você reportar numa reunião de diretoria que "a rapidez do suporte tem impacto negativo na satisfação geral", ninguém vai acreditar. E essa desconfiança está correta — aquele coeficiente negativo não é a realidade, é um artefato estatístico gerado pela multicolinearidade.

Como detectar

A multicolinearidade é detectada pelo VIF (fator de inflação da variância, Variance Inflation Factor). Como regra de bolso, VIF acima de 5 já acende um alerta, e acima de 10 indica problema claro. Só de olhar a matriz de correlação entre os atributos, qualquer par com correlação igual ou superior a 0,7 já é sinal vermelho.

O problema é que os atributos de satisfação do cliente são estruturalmente correlacionados (o cliente satisfeito avalia tudo bem), de modo que a multicolinearidade não acontece "de vez em quando", mas "quase sempre". Por isso, na KDA, não se pode usar o coeficiente bruto da regressão como a importância.

4. Como resolver a multicolinearidade — valor de Shapley e pesos relativos

Os métodos para gerar uma importância estável evitando a multicolinearidade são os pesos relativos (Relative Weights) e a análise pelo valor de Shapley. Esse é o padrão atual da KDA na prática.

Os 4 métodos da análise de fatores-chave — o trade-off entre precisão e praticidade

Análise de correlação (Correlation)
Correlação de Pearson entre cada driver e a satisfação geral. Boa para a triagem inicial. Ponto fraco: ignora a correlação entre atributos e conta a importância em duplicidade. Não use como conclusão final.
Regressão múltipla (Multiple Regression)
Insere todos os drivers ao mesmo tempo e usa o β padronizado como importância. Entrega a contribuição pura, mas a multicolinearidade desestabiliza os coeficientes e inverte sinais. Monitore com o VIF.
Pesos relativos / valor de Shapley (Relative Weights / Shapley)
O padrão na prática. Decompõe o poder explicativo (R²) de forma justa entre todos os drivers. A importância é não negativa e estável, e a soma equivale ao R². Robusto à multicolinearidade. Exige ferramenta específica (relaimpo do R etc.).
Importância de variáveis em random forest (Random Forest)
Abordagem de machine learning que captura não linearidade e interações. Útil quando a relação não é linear. Ponto fraco: cai a interpretabilidade e surge a sensação de caixa-preta.

A lógica do valor de Shapley e dos pesos relativos

Os dois têm concepção parecida: calculam o quanto o poder explicativo (R²) aumenta ao incluir um driver como variável explicativa, e tiram a média disso para todas as combinações possíveis de ordem de inserção das variáveis, obtendo assim a contribuição justa de cada driver. O valor de Shapley vem da teoria dos jogos, é conhecido por Kruskal (1987) e como método LMG, e os pesos relativos de Johnson (2000) são uma aproximação que reduz a carga de cálculo.

A maior vantagem prática é que a importância é sempre não negativa e a soma coincide com o R² do modelo. Saem números como "o suporte representa 32% do poder explicativo total, o preço 21%…", interpretáveis intuitivamente como percentual de contribuição. Você se livra do inferno de explicar uma "importância negativa" na reunião de diretoria.

O cálculo é difícil de fazer com as funções nativas do Excel; ele é realizado com o pacote relaimpo do R (Grömping 2006), com Python, com ferramentas de análise de pesquisa dedicadas etc. Tonidandel & LeBreton (2011) organizam, de forma voltada à prática, como a análise de importância relativa é um complemento útil à análise de regressão — um bom ponto de partida para adotá-la.

5. Não confunda correlação com causalidade — o maior erro de leitura da KDA

Aqui está o ponto em que mais se erra, e da forma mais fatal, na análise de fatores-chave. O que a KDA produz é associação (correlation), não causalidade (causation).

O resultado de que "a satisfação com o suporte explica fortemente a satisfação geral" não garante que "melhorar o suporte fará a satisfação geral subir". As armadilhas a seguir estão sempre à espreita.

Causalidade reversa (efeito halo)

O cliente globalmente satisfeito tende a avaliar bem, meio que por reflexo, os atributos individuais também (efeito halo). Surge então a correlação "quem tem satisfação geral alta também avalia bem o suporte", mas isso pode não ser "o suporte elevou a geral", e sim a relação inversa — "a satisfação global elevou a avaliação do suporte". A KDA, sozinha, não consegue determinar esse sentido.

Confundimento

Há também a possibilidade de que tanto o suporte quanto a satisfação geral estejam sendo elevados simultaneamente por um terceiro fator não observado (ex.: nível de proficiência do cliente, afinidade).

Como lidar na prática

  • Não rebatize "driver" como "alavanca que com certeza funciona se melhorada". Fique na expressão "fator fortemente associado à satisfação geral"
  • Para os fatores de maior importância, sempre que possível, verifique a causalidade com teste A/B ou comparação antes-depois da ação. A KDA é a priorização de "onde verificar", não a prova da causalidade
  • No relatório, inclua sempre a frase "esta é uma importância baseada em correlação e não garante efeito causal"

A humildade protege a credibilidade da KDA. A forma exata de dizer não é "encontrei os fatores que funcionam", e sim "ordenei, da hipótese de evidência mais forte para a mais fraca, os fatores que parecem funcionar".

6. Como escolher a variável de resultado e a "assimetria da satisfação"

O que colocar como variável dependente

Na KDA, a conclusão muda conforme a escolha da variável de resultado. É satisfação geral? NPS (intenção de recomendar)? Intenção de continuidade? Recompra? Os drivers de cada uma são diferentes.

  • Com a satisfação geral como dependente, saem os "fatores que compõem a experiência atual"
  • Com intenção de continuidade / NPS como dependente, saem os "fatores que determinam o comportamento futuro" (ver como ler o NPS e benchmarks)

Se você está investigando o fenômeno "a satisfação é alta, mas o cliente cancela", a variável dependente deveria ser intenção de continuidade, não satisfação. Quando a variável de resultado está desalinhada do objetivo, toda a análise seguinte erra o alvo.

Não ignore a assimetria da satisfação (Kano)

A regressão comum supõe uma relação linear de "se o driver sobe, a geral sobe proporcionalmente", mas a realidade é assimétrica. Como já mencionado em Matzler et al. (2004) no guia da IPA:

  • Qualidade obrigatória: é óbvio que tem de existir. Se falta, a geral despenca, mas atendê-la não faz a geral subir
  • Qualidade atrativa: sua ausência não gera insatisfação, mas sua presença faz a geral disparar

Para capturar isso, usa-se a análise de contraste penalidade-recompensa (penalty-reward contrast analysis), que separa o driver em "dummy de avaliação alta" e "dummy de avaliação baixa" e roda a regressão. Ela permite distinguir o fator "que tem importância alta, mas na verdade só serve para eliminar insatisfação (corrigi-lo não eleva a satisfação)".

7. A conexão com a IPA — colocar a saída da KDA nos 4 quadrantes

A análise de fatores-chave e a análise de importância-desempenho (IPA) se conectam numa relação de entrada e saída.

  1. Calcule a importância derivada com a KDA: gere o percentual de contribuição de cada driver com valor de Shapley / pesos relativos (matéria-prima do eixo vertical)
  2. Tabule a satisfação (desempenho) de cada driver: média ou Top 2 Box (matéria-prima do eixo horizontal)
  3. Coloque no gráfico de dispersão da IPA: eixo vertical = importância derivada da KDA, eixo horizontal = satisfação
  4. Leia as prioridades nos 4 quadrantes: "importância (KDA) alta, mas satisfação baixa" = área de melhoria prioritária

Com esse fluxo, a importância derivada da KDA resolve o ponto fraco da IPA — o problema de que "medir a importância por pergunta direta faz tudo colapsar por efeito teto". A KDA cria o eixo vertical e a IPA desenha o mapa de decisão. KDA + IPA = a forma completa de priorizar melhorias.

Sobre como medir o lado da satisfação (desempenho), veja o guia de design de pesquisa de satisfação do cliente (CSAT); sobre o tamanho de amostra necessário, veja como determinar o tamanho da amostra.

8. A visão da redação — os 5 erros que você não deve cometer na análise de fatores-chave

Da posição de quem acompanha continuamente cases do setor e a voz de quem está na operação, cinco acidentes que se repetem na KDA.

1. Chamar a lista de coeficientes de correlação de "análise de drivers"

O mais frequente. Reportar como "fiz a análise de fatores-chave" algo que é apenas a ordenação por correlação. Como a correlação conta em duplicidade, um grupo de fatores correlacionados (os ligados ao suporte, por exemplo) monopoliza indevidamente o topo. A triagem inicial pode ser por correlação, mas a conclusão tem de sair sempre por pesos relativos / Shapley.

2. Reportar o coeficiente negativo da regressão como está

Colocar no relatório, sem conferência, o "coeficiente negativo de um fator que deveria ser importante" surgido por multicolinearidade. O leitor percebe na hora que "essa análise está errada". Confira sempre o VIF e, se houver colinearidade, mude para pesos relativos. Não faça do coeficiente bruto da regressão a saída final da KDA.

3. Afirmar que "driver = alavanca que funciona se melhorada"

A KDA é correlação, não causalidade. A ação que afirmou "o suporte é o maior driver → investir em suporte fará a satisfação geral subir" erra o alvo, e "eu confiei na análise" vira perda de credibilidade da própria análise. Distinga em palavras "força de associação" e "efeito de melhoria", e verifique a causalidade dos fatores do topo com teste A/B.

4. Deixar a variável de resultado como "satisfação geral" por inércia

Se o objetivo é "reduzir cancelamentos" mas a variável dependente é a satisfação geral, drivers sem relação com o cancelamento sobem ao topo. Escolha a variável de resultado conforme o objetivo (satisfação / continuidade / recomendação / recompra). Decidir isso por inércia torna inútil toda a análise refinada que vem depois.

5. Não equilibrar o tamanho da amostra com o número de variáveis

Rodar uma regressão com 30 variáveis explicativas e N=80 faz a importância oscilar à toa por overfitting. Como regra de bolso, é desejável ter 10 a 15 respostas por variável explicativa. Se há variáveis demais, comprima a dimensionalidade com análise fatorial ou agrupe por conhecimento de domínio antes de inserir.

9. Operação da análise de fatores-chave com a ferramenta de pesquisa Kicue

A KDA se divide em "o design das perguntas que medem drivers e resultado" e "a análise que calcula a importância por pesos relativos etc.". A Kicue cobre a primeira parte; a segunda é uma combinação com ferramentas estatísticas externas.

  • Design das perguntas de driver e de resultado: suporta um design que mede, em escala Likert dentro do mesmo formulário, a satisfação de cada atributo (driver) e a satisfação geral / NPS / intenção de continuidade (resultado) (tipos de pergunta · guia de design de escala Likert)
  • Exportação de CSV com ID do respondente: saída no formato pronto para inserir na regressão, com uma linha por resposta colocando lado a lado a satisfação por atributo e a satisfação geral
  • Tabulação GT e cross-tab: a verificação da média e da distribuição de cada driver, e a checagem dos dados brutos antes da triagem inicial de correlação, são possíveis no painel

⚠️ O que a Kicue não cobre

  • Não há funcionalidade de cálculo de correlação, regressão múltipla, pesos relativos ou valor de Shapley: a análise estatística é feita em R (relaimpo etc.) / Python / SPSS / JASP. A própria Kicue não tem funcionalidade de análise estatística
  • Também não há diagnóstico de VIF / multicolinearidade: faça no software estatístico depois de exportar
  • Também não há machine learning como random forest: faça em Python (scikit-learn etc.)
  • Também não há criação do gráfico de dispersão da IPA: o gráfico com a importância derivada da KDA no eixo vertical é desenhado em Excel / R / Python

Como leituras relacionadas, ler em conjunto o guia de análise de importância-desempenho (IPA) · o guia de design de pesquisa de satisfação do cliente (CSAT) · como ler o NPS e benchmarks · o guia de tabulação de pesquisas e teste de significância · o guia de design de programa de VoC ajuda a enxergar todo o pipeline de análise: "medir → identificar os fatores que pesam (KDA) → priorizar (IPA) → operar".

Resumo — 6 pontos para tornar a análise de fatores-chave uma análise confiável

  1. A lista de correlações vai só até a triagem inicial — como conta em duplicidade, não vire conclusão com ela
  2. Desconfie da multicolinearidade na regressão múltipla — confira o VIF e não engula o coeficiente negativo
  3. Gere a importância por pesos relativos / Shapley — não negativa, com soma igual ao R², interpretável como percentual de contribuição
  4. Distinga correlação de causalidade — é "força de associação", não "garantia de efeito de melhoria". Verifique os fatores do topo com teste A/B
  5. Alinhe a variável de resultado ao objetivo — para combater cancelamento, intenção de continuidade; para melhorar a experiência, satisfação geral
  6. 10 a 15 respostas por variável explicativa — se há variáveis demais, comprima com análise fatorial

Na análise de fatores-chave, a credibilidade se decide menos por "qual método estatístico usar" e mais por não errar nestes dois pontos: multicolinearidade e causalidade. Bastando proteger esses dois, ela vira uma arma poderosa para elevar a discussão de "por onde começar" do achismo para o debate com números.


Quer desenhar uma pesquisa que meça drivers e resultado? Que tal experimentar a ferramenta de pesquisa gratuita Kicue? Desde o design de perguntas Likert que medem a satisfação por atributo e a satisfação geral / NPS no mesmo formulário até a exportação de CSV com ID do respondente pronta para inserir na regressão, você começa numa única conta a parte de produzir os dados de entrada da análise de fatores-chave (o cálculo de correlação, regressão múltipla, pesos relativos, valor de Shapley e o diagnóstico de VIF ficam por conta da combinação com R / Python / SPSS / JASP).

Referências

Artigos relacionados

Métodos de pesquisa

Guia de pesquisas de segmentação de clientes — Dividir clientes com análise de cluster

Como desenhar uma pesquisa de segmentação de clientes que classifica clientes em segmentos com significado a partir dos dados da pesquisa. Cobrimos a diferença entre segmentação a priori e post-hoc (análise de cluster), os 4 eixos de classificação — demográfico, comportamental, de necessidades e psicográfico —, quando usar análise de cluster hierárquica, k-means ou análise de classes latentes, como decidir o número de segmentos e os 6 critérios de um segmento utilizável, organizado à luz da pesquisa sobre segmentação desde Smith (1956) e do tato de quem faz na prática.

Métodos de pesquisa

Análise de importância-desempenho (IPA) — Priorizar melhorias em 4 quadrantes

A análise de importância-desempenho (IPA: Importance-Performance Analysis) organiza os resultados de uma pesquisa de satisfação em 4 quadrantes — melhoria prioritária / manter / qualidade excessiva / baixa prioridade — e ajuda a decidir a ordem das melhorias. Explicamos a diferença entre pergunta direta e importância derivada estatisticamente, como escolher o ponto de corte dos eixos (média vs. mediana), o efeito teto da satisfação como a maior armadilha, e como montar o gráfico de dispersão, organizando o conhecimento acadêmico desde Martilla & James (1977) com as armadilhas do dia a dia.

Métodos de pesquisa

Guia de teste de conceito — Medir a aceitação antes do lançamento

Como avaliar novos produtos, novas funcionalidades e textos publicitários por pesquisa antes do lançamento com o teste de conceito. Organizamos, com a sensibilidade da prática, a escolha entre monádico, monádico sequencial e comparativo, os indicadores padrão de intenção de compra, novidade, apelo e singularidade, a leitura do Top Box, a importância da comparação com normas (benchmarks) e a construção do estímulo (texto do conceito). A porta de entrada da pesquisa pré-lançamento, que antecede PSM, conjoint e MaxDiff.

Pronto para criar sua própria pesquisa?

Envie seu arquivo de questionário e a IA gera um formulário web em 30 segundos.

Começar grátis