Métodos de pesquisa

Guia de pesquisas de segmentação de clientes — Dividir clientes com análise de cluster

Como desenhar uma pesquisa de segmentação de clientes que classifica clientes em segmentos com significado a partir dos dados da pesquisa. Cobrimos a diferença entre segmentação a priori e post-hoc (análise de cluster), os 4 eixos de classificação — demográfico, comportamental, de necessidades e psicográfico —, quando usar análise de cluster hierárquica, k-means ou análise de classes latentes, como decidir o número de segmentos e os 6 critérios de um segmento utilizável, organizado à luz da pesquisa sobre segmentação desde Smith (1956) e do tato de quem faz na prática.

A análise de fatores-chave revelou que "quem move a satisfação geral é o suporte". A análise de importância-desempenho definiu que "a melhoria prioritária é suporte e preço". Mas essa conclusão tem uma premissa escondida: a de que "o cliente é um bloco único".

Na prática, o cliente novo que é sensível a preço e o usuário pesado que busca profundidade de funcionalidades têm fatores que movem a satisfação completamente diferentes. Mesmo que a média geral aponte que "o suporte funciona", isso é o resultado de misturar e nivelar dois grupos distintos de clientes — e não é exato para nenhum dos dois. É o problema que a estatística chama de "o cliente médio não existe". Quem resolve isso é a pesquisa de segmentação de clientes. A partir dos dados da pesquisa, encontramos "blocos de gente parecida" e mudamos a estratégia por bloco. Neste artigo, organizo — com o tato de quem faz na prática — desde as duas grandes abordagens de classificação até a escolha dos eixos, os métodos de análise de cluster, como decidir o número de segmentos e os critérios de um segmento utilizável.

1. Por que segmentar — a armadilha da média geral

Tanto a análise de fatores-chave quanto a análise de importância-desempenho (IPA) são poderosas, mas compartilham um ponto fraco: "tratam todos os respondentes como uma única população e tiram a média".

Quando você mistura clientes heterogêneos e tira a média, acontece um fenômeno próximo do paradoxo de Simpson. "No geral, o suporte é o maior driver da satisfação", mas no segmento A é o preço, e no segmento B é a funcionalidade — isso é o pão de cada dia. Decidir só com a média geral leva a investir em uma iniciativa média e medíocre, que não cativa nenhum segmento.

O objetivo da segmentação é simples: dividir em "blocos de clientes que reagem de forma parecida" e mudar a melhor jogada por bloco. Desde que o clássico do marketing Smith (1956) propôs a "segmentação de mercado" em contraste com a "diferenciação de produto", a segmentação segue sendo a base da estratégia de marketing.

Rodar a KDA / IPA de novo, separadamente por segmento, faz aparecer "os drivers diferentes de cada segmento, invisíveis no agregado". A segmentação é a última peça da trilogia analítica (identificar fatores → priorizar → classificar clientes).

2. Segmentação a priori vs post-hoc — duas abordagens

Há duas formas radicalmente diferentes de dividir os clientes. Confundi-las leva a errar o desenho da análise.

Segmentação a priori (A priori / baseada em descritores)

É o método em que o analista divide mecanicamente por critérios definidos de antemão: "por faixa etária", "por plano contratado", "por frequência de uso", etc. O critério é claro, a operação é fácil e qualquer um consegue reproduzir.

O ponto fraco é que não há garantia de que esse critério de fato separe o comportamento do cliente. "Dividi entre os 20 e os 30 anos, mas na real o comportamento de compra dos dois grupos era quase igual" é comum. Você tem a sensação de ter dividido, mas a iniciativa não muda.

Segmentação post-hoc (Post-hoc / baseada em cluster)

É o método que descobre "blocos naturais" de forma data-driven a partir dos padrões de resposta da pesquisa (satisfação, necessidades, valores, etc.). Usa análise de cluster ou análise de classes latentes. É a abordagem de "deixar os dados falarem", e dela emergem segmentos que as suposições prévias não conseguiriam enxergar.

O ponto fraco é que tende a dar resultados diferentes a cada vez, é difícil de interpretar e difícil de reproduzir na operação. Exige capacidade de interpretar "afinal, quem é este segmento".

O princípio de quando usar cada um

  • Primeiro, sonde com a segmentação a priori: divida pelos dados demográficos e comportamentais e veja se a KDA/IPA mostra diferença
  • Se não houver diferença, ou se quiser aprofundar, vá para a post-hoc: busque blocos baseados em necessidades e valores com análise de cluster
  • Na prática, combine as duas: faça a "profilagem" dos blocos encontrados pela post-hoc usando as variáveis da a priori (faixa etária, plano) para entender quem eles são (capítulo 6)

3. Como escolher os eixos de segmentação — 4 tipos de variável

Por qual critério dividir? As variáveis de segmentação são basicamente de 4 tipos, e há um trade-off entre "facilidade de dividir" e "facilidade de conectar a uma ação".

Os 4 tipos de variável de segmentação

Demográfica
Idade, gênero, renda, região, ocupação, etc. Fácil de obter e fácil de descrever, mas tem pouco poder para explicar o comportamento. Nem toda "mulher na faixa dos 30" compra do mesmo jeito. Fraca sozinha; serve como apoio aos outros eixos.
Comportamental
Frequência de uso, valor de compra, funcionalidades usadas, tempo de retenção, etc. Por se basear no comportamento real, é fácil de conectar a ações. A análise RFM (recência, frequência, valor) é o exemplo típico. Combina bem com dados do CRM.
Necessidades / benefícios (o valor buscado)
"O que se prioriza na escolha." Foco em preço, em qualidade, em suporte, etc. É o que mais se conecta diretamente ao desenvolvimento de produto e à comunicação, mas exige um desenho cuidadoso de perguntas na pesquisa. É a protagonista da segmentação post-hoc.
Psicográfica (valores / estilo de vida)
Personalidade, valores, estilo de vida, atitudes. Captura motivações profundas, mas é difícil de medir e a interpretação fica sujeita à subjetividade. Usá-la sozinha é para os mais experientes.

A regra de bolso da prática

  • A combinação de comportamento + necessidades é a que mais tende a gerar segmentos "utilizáveis"
  • Use a demográfica não como eixo de classificação, e sim como eixo de profilagem (depois você descreve "este segmento tem muita gente na faixa dos 30")
  • Para medir necessidades e benefícios, a chave é o desenho das perguntas em escala Likert. Veja o guia de desenho de escalas Likert

4. Métodos de análise de cluster — hierárquica, k-means, classes latentes

O núcleo da segmentação post-hoc é a análise de cluster. Os três métodos típicos têm, cada um, o cenário em que se encaixam.

Análise de cluster hierárquica (Hierarchical)

É o método que vai fundindo as amostras uma a uma e enxerga a estrutura dos blocos por um dendrograma (diagrama de árvore). A vantagem é que não exige decidir o número de segmentos de antemão e permite apreender a estrutura visualmente. O método de Ward (Ward's method) é muito usado. O ponto fraco é o alto custo computacional: fica pesado quando a amostra passa de alguns milhares. Serve para amostras pequenas a médias e para a fase exploratória.

Método k-means

É o método em que você especifica antes o número de segmentos k, atribui cada ponto ao centroide mais próximo e atualiza os centroides, repetindo isso. É rápido mesmo em grandes volumes e é o mais usado de todos. Os pontos fracos são (1) precisar decidir o k de antemão, (2) a dependência dos valores iniciais, que faz o resultado oscilar (rode várias vezes e confirme a estabilidade) e (3) a sensibilidade à escala das variáveis (padronize sempre antes de submeter).

Análise de classes latentes (Latent Class Analysis, LCA)

É um modelo estatístico que assume que "cada respondente pertence, de forma probabilística, a uma das classes latentes". Desde Kamakura & Russell (1989) ele se desenvolveu no marketing. As vantagens são poder escolher o número de segmentos por um critério estatístico (como o BIC) e lidar naturalmente com variáveis categóricas. O ponto fraco é a alta especialização e a necessidade de software dedicado (Latent GOLD, o poLCA do R, etc.).

Pré-processamento: comprimir dimensões com análise fatorial

Quando há 20, 30 perguntas e você as submete cruas à análise de cluster, perguntas correlacionadas entre si acabam ponderando duas vezes o mesmo conceito. A jogada certa é primeiro comprimir, com análise fatorial (factor analysis), em fatores como "orientação a preço" e "orientação a qualidade", e só então clusterizar pelos escores fatoriais. O guia de confiabilidade e validade de pesquisas trata da relação entre análise fatorial e construtos.

5. Como decidir o número de segmentos — indicadores estatísticos e interpretabilidade

"Em quantos dividir" é a maior dor de cabeça da segmentação. Decide-se tanto pelos indicadores estatísticos quanto pela interpretabilidade do ponto de vista do negócio.

As referências estatísticas

  • Método do cotovelo (Elbow Method): escolha o ponto do "cotovelo", em que a "queda da soma de quadrados intra-cluster" ao aumentar o número de clusters fica suave
  • Coeficiente de silhueta (Silhouette): avalia, de -1 a 1, o quanto cada ponto se ajusta ao cluster a que pertence e o quanto está distante do cluster vizinho. É o indicador de Rousseeuw (1987); quanto mais perto de 1, melhor
  • Se for análise de classes latentes, BIC / AIC: escolha o número de clusters com o menor critério de informação

Mas a decisão final é a "interpretabilidade"

Mesmo que o indicador estatístico aponte que "6 segmentos é o ideal", não adianta nada se você não consegue explicar os 6 em palavras. Na prática, costuma-se assentar em 3 a 6 segmentos. O motivo é simples: com 7 ou mais não dá para diferenciar as iniciativas (a organização não tem recursos para isso).

"Mesmo que seja o ideal estatístico, um número de segmentos que o negócio não consegue mover não é adotado." Essa é a regra de ouro da decisão do número de segmentos. A estatística apenas apresenta os candidatos; o julgamento final é "consigo fazer uma jogada diferente para cada um destes segmentos?".

6. Profilagem e personas — os 6 critérios de um segmento utilizável

Quando os clusters saem, descreva quem é cada um (profilagem). Para cada segmento, calcule as médias de demográfico, comportamento e necessidades, verbalize no estilo "este segmento prioriza preço, tem muita gente na faixa dos 30 e é uma camada de novos com baixa frequência de uso" e, se preciso, transforme em persona.

Mas atenção: nem todo bloco estatisticamente separado é um "segmento utilizável". Verifique se ele atende aos critérios de um segmento utilizável na prática, organizados por Kotler.

  • Mensurável (Measurable): dá para medir o tamanho e as características do segmento
  • Acessível (Accessible): dá para alcançar esse segmento por publicidade ou vendas
  • Substancial (Substantial): tem tamanho que justifica o investimento (não dá para fazer iniciativa dedicada a um segmento de 1%)
  • Diferenciável (Differentiable): a reação é claramente diferente da dos outros segmentos
  • Acionável (Actionable): dá para desenhar e executar iniciativas concretas voltadas a esse segmento
  • Estável (Stable): é um segmento que não some no curto prazo, estável no tempo

Um segmento "estatisticamente bem separado, mas sem meio de alcance e de tamanho pequeno" pode estar certo como análise, mas é inútil para o negócio. Na etapa de profilagem, peneire por esses 6 critérios.

7. A visão da redação — 5 coisas que não se deve fazer na segmentação

Da posição de quem acompanha continuamente os casos do setor e a voz de quem está na linha de frente, aqui vão 5 acidentes que se repetem na segmentação.

1. Clusterizar sem padronizar as variáveis

É o acidente mais frequente e o menos percebido. Submeter ao k-means, sem padronizar, "renda (em milhares, na casa das centenas a milhares)" e "satisfação (de 1 a 5)" faz com que os blocos sejam definidos só pela renda, de escala maior, e a satisfação seja praticamente ignorada. Antes de clusterizar, padronize todas as variáveis (escores z). Uma análise que esquece isso está, quase com certeza, errada.

2. Dividir só pela demográfica e ter a "sensação de ter dividido"

Acabar em "dividi entre quem tem 20, 30 e 40 anos". Se você divide por faixa etária e o comportamento de compra é igual, isso não é segmentação, é mera tabulação. A demográfica não é eixo de classificação, é eixo de profilagem. Mantenha a ordem: dividir pelo comportamento e pelas necessidades, descrever pela demográfica.

3. Decidir o número de segmentos só pelo indicador estatístico

Adotar 8 segmentos só porque o coeficiente de silhueta foi máximo, sem que a organização consiga diferenciar as iniciativas, e deixar tudo parado. Use o "número que dá para diferenciar" como teto e deixe a estatística escolher o ótimo dentro dessa faixa. De 3 a 6 é o ponto de pouso realista.

4. Usar para sempre os segmentos criados uma única vez

Continuar usando, hoje com o mercado mudado, os segmentos criados há 2 anos. Segmento é produto perecível. Se mercado, cliente e produto mudam, os blocos mudam. Refaça a clusterização periodicamente (cerca de uma vez por ano) e confirme a estabilidade dos segmentos (critério 6).

5. Recortar segmentos com amostra pequena

Dividir N=150 em 6 segmentos dá, em média, 25 pessoas por segmento. Os escores por segmento ficam cheios de erro, e dizer que "a satisfação do segmento A é alta" com N=20 não tem significado. Se a premissa é segmentar, faça um desenho de amostra que garanta no mínimo 50 a 100 por segmento, de preferência 100 ou mais cada. Veja como decidir o tamanho de amostra necessário.

8. Pesquisa de segmentação de clientes com a ferramenta de pesquisa Kicue

A pesquisa de segmentação se divide na fase de "medir as perguntas que servem de base para a classificação" e na fase de análise de "encontrar os blocos com análise de cluster". O Kicue cuida da primeira; a segunda fica por conta da combinação com ferramentas estatísticas externas.

  • Medição das variáveis de classificação: suporte ao desenho de perguntas em escala Likert / de resposta única ou múltipla para medir necessidades, valores e comportamento (tipos de pergunta)
  • Perguntas demográficas e comportamentais lado a lado: capture no mesmo formulário os atributos usados na profilagem (faixa etária, plano, frequência de uso)
  • Exportação de CSV com ID do respondente: saída em estrutura pronta para submeter à análise de cluster, com uma linha por resposta e todas as perguntas enfileiradas. Também é possível, depois da análise, recombinar com o CRM "qual respondente está em qual segmento"
  • GT / tabulação cruzada: a tabulação cruzada da segmentação a priori (por faixa etária, etc.) é possível no próprio dashboard

⚠️ O que está fora do alcance do Kicue

  • Não há funcionalidade de análise de cluster, k-means, cluster hierárquica nem análise de classes latentes: a análise estatística é feita em R (cluster, poLCA, etc.) / Python (scikit-learn) / SPSS / Latent GOLD. O próprio Kicue não embute funcionalidade de análise estatística
  • Também não há análise fatorial nem padronização de variáveis: o pré-processamento da clusterização é feito do lado do software estatístico, após a exportação
  • Também não há análise de drivers (KDA) por segmento: a operação é passar o CSV a uma ferramenta externa e rodar por segmento
  • Também não há geração automática de personas: transformar o resultado da profilagem em persona é feito a mão + ferramenta de BI

Como leituras relacionadas, ler junto o guia de análise de fatores-chave, o guia de análise de importância-desempenho (IPA), o guia de métodos de amostragem em pesquisas, o guia de desenho e operação de perguntas de triagem e o guia de confiabilidade e validade de pesquisas deixa visível todo o pipeline analítico de "desenho → classificação → análise de fatores por segmento → priorização".

Resumo — 6 pontos para transformar a segmentação de clientes numa análise utilizável

  1. Tenha consciência da armadilha da média geral — rodar a KDA/IPA de novo por segmento revela as diferenças escondidas
  2. Divida pelo comportamento e pelas necessidades, descreva pela demográfica — classificar só pela demográfica acaba na "sensação de ter dividido"
  3. Padronize sempre antes de clusterizar — não deixe a variável de maior escala sequestrar os blocos
  4. O número de segmentos tem como teto o "número que dá para diferenciar" — o indicador estatístico escolhe o ótimo dentro dessa faixa (3 a 6 é a solução realista)
  5. Peneire pelos 6 critérios (mensurável, acessível, substancial, diferenciável, acionável, estável) — bloco estatístico ≠ segmento utilizável
  6. Se a premissa é segmentar, garanta 100 ou mais por segmento — picar uma amostra pequena deixa tudo cheio de erro

A segmentação de clientes não tem como objetivo "rodar uma análise de cluster sofisticada". É uma análise que serve de base para a estratégia: sem errar os três pontos — padronização, interpretabilidade e acionabilidade —, ela tira você da ilusão do "cliente médio" e permite desenhar jogadas que cativam bloco a bloco.


Quer desenhar a pesquisa que vai servir de base para a segmentação? Que tal experimentar a ferramenta de pesquisa gratuita Kicue. O desenho de perguntas Likert / de escolha para medir necessidades, comportamento e atributos, e a exportação de CSV com ID do respondente, permitem começar — em uma só conta — a parte de construir os dados de entrada da análise de cluster (a análise de cluster, a análise fatorial, a análise de classes latentes e a padronização de variáveis ficam como operação combinada com R / Python / SPSS / Latent GOLD).

Referências

Artigos relacionados

Métodos de pesquisa

Guia de análise de fatores-chave (Key Driver Analysis) — O que move a satisfação e o NPS

Como usar a análise de fatores-chave (Key Driver Analysis) para identificar o que realmente move a satisfação geral e o NPS. Cobrimos a armadilha de decidir só pelo coeficiente de correlação, o problema da multicolinearidade na regressão múltipla, o valor de Shapley e os pesos relativos (Johnson's Relative Weights) que a resolvem, e o maior erro de leitura — confundir correlação com causalidade — organizado à luz da pesquisa sobre importância relativa desde Johnson (2000) e do tato de quem faz na prática. Também posicionamos a KDA como fonte da importância derivada usada na IPA (análise de importância-desempenho).

Métodos de pesquisa

Guia de teste de conceito — Medir a aceitação antes do lançamento

Como avaliar novos produtos, novas funcionalidades e textos publicitários por pesquisa antes do lançamento com o teste de conceito. Organizamos, com a sensibilidade da prática, a escolha entre monádico, monádico sequencial e comparativo, os indicadores padrão de intenção de compra, novidade, apelo e singularidade, a leitura do Top Box, a importância da comparação com normas (benchmarks) e a construção do estímulo (texto do conceito). A porta de entrada da pesquisa pré-lançamento, que antecede PSM, conjoint e MaxDiff.

Métodos de pesquisa

Análise de importância-desempenho (IPA) — Priorizar melhorias em 4 quadrantes

A análise de importância-desempenho (IPA: Importance-Performance Analysis) organiza os resultados de uma pesquisa de satisfação em 4 quadrantes — melhoria prioritária / manter / qualidade excessiva / baixa prioridade — e ajuda a decidir a ordem das melhorias. Explicamos a diferença entre pergunta direta e importância derivada estatisticamente, como escolher o ponto de corte dos eixos (média vs. mediana), o efeito teto da satisfação como a maior armadilha, e como montar o gráfico de dispersão, organizando o conhecimento acadêmico desde Martilla & James (1977) com as armadilhas do dia a dia.

Pronto para criar sua própria pesquisa?

Envie seu arquivo de questionário e a IA gera um formulário web em 30 segundos.

Começar grátis