Guia de pesquisas de segmentação de clientes — Dividir clientes com análise de cluster

A análise de fatores-chave revelou que "quem move a satisfação geral é o suporte". A análise de importância-desempenho definiu que "a melhoria prioritária é suporte e preço". Mas essa conclusão tem uma premissa escondida: a de que "o cliente é um bloco único".

Na prática, o cliente novo que é sensível a preço e o usuário pesado que busca profundidade de funcionalidades têm fatores que movem a satisfação completamente diferentes. Mesmo que a média geral aponte que "o suporte funciona", isso é o resultado de misturar e nivelar dois grupos distintos de clientes — e não é exato para nenhum dos dois. É o problema que a estatística chama de "o cliente médio não existe". Quem resolve isso é a pesquisa de segmentação de clientes. A partir dos dados da pesquisa, encontramos "blocos de gente parecida" e mudamos a estratégia por bloco. Neste artigo, organizo — com o tato de quem faz na prática — desde as duas grandes abordagens de classificação até a escolha dos eixos, os métodos de análise de cluster, como decidir o número de segmentos e os critérios de um segmento utilizável.

1. Por que segmentar — a armadilha da média geral

Tanto a análise de fatores-chave quanto a análise de importância-desempenho (IPA) são poderosas, mas compartilham um ponto fraco: "tratam todos os respondentes como uma única população e tiram a média".

Quando você mistura clientes heterogêneos e tira a média, acontece um fenômeno próximo do paradoxo de Simpson. "No geral, o suporte é o maior driver da satisfação", mas no segmento A é o preço, e no segmento B é a funcionalidade — isso é o pão de cada dia. Decidir só com a média geral leva a investir em uma iniciativa média e medíocre, que não cativa nenhum segmento.

O objetivo da segmentação é simples: dividir em "blocos de clientes que reagem de forma parecida" e mudar a melhor jogada por bloco. Desde que o clássico do marketing Smith (1956) propôs a "segmentação de mercado" em contraste com a "diferenciação de produto", a segmentação segue sendo a base da estratégia de marketing.

Rodar a KDA / IPA de novo, separadamente por segmento, faz aparecer "os drivers diferentes de cada segmento, invisíveis no agregado". A segmentação é a última peça da trilogia analítica (identificar fatores → priorizar → classificar clientes).

2. Segmentação a priori vs post-hoc — duas abordagens

Há duas formas radicalmente diferentes de dividir os clientes. Confundi-las leva a errar o desenho da análise.

Segmentação a priori (A priori / baseada em descritores)

É o método em que o analista divide mecanicamente por critérios definidos de antemão: "por faixa etária", "por plano contratado", "por frequência de uso", etc. O critério é claro, a operação é fácil e qualquer um consegue reproduzir.

O ponto fraco é que não há garantia de que esse critério de fato separe o comportamento do cliente. "Dividi entre os 20 e os 30 anos, mas na real o comportamento de compra dos dois grupos era quase igual" é comum. Você tem a sensação de ter dividido, mas a iniciativa não muda.

Segmentação post-hoc (Post-hoc / baseada em cluster)

É o método que descobre "blocos naturais" de forma data-driven a partir dos padrões de resposta da pesquisa (satisfação, necessidades, valores, etc.). Usa análise de cluster ou análise de classes latentes. É a abordagem de "deixar os dados falarem", e dela emergem segmentos que as suposições prévias não conseguiriam enxergar.

O ponto fraco é que tende a dar resultados diferentes a cada vez, é difícil de interpretar e difícil de reproduzir na operação. Exige capacidade de interpretar "afinal, quem é este segmento".

O princípio de quando usar cada um

Primeiro, sonde com a segmentação a priori: divida pelos dados demográficos e comportamentais e veja se a KDA/IPA mostra diferença
Se não houver diferença, ou se quiser aprofundar, vá para a post-hoc: busque blocos baseados em necessidades e valores com análise de cluster
Na prática, combine as duas: faça a "profilagem" dos blocos encontrados pela post-hoc usando as variáveis da a priori (faixa etária, plano) para entender quem eles são (capítulo 6)

3. Como escolher os eixos de segmentação — 4 tipos de variável

Por qual critério dividir? As variáveis de segmentação são basicamente de 4 tipos, e há um trade-off entre "facilidade de dividir" e "facilidade de conectar a uma ação".

Os 4 tipos de variável de segmentação

Demográfica

Idade, gênero, renda, região, ocupação, etc. Fácil de obter e fácil de descrever, mas tem pouco poder para explicar o comportamento. Nem toda "mulher na faixa dos 30" compra do mesmo jeito. Fraca sozinha; serve como apoio aos outros eixos.

Comportamental

Frequência de uso, valor de compra, funcionalidades usadas, tempo de retenção, etc. Por se basear no comportamento real, é fácil de conectar a ações. A análise RFM (recência, frequência, valor) é o exemplo típico. Combina bem com dados do CRM.

Necessidades / benefícios (o valor buscado)

"O que se prioriza na escolha." Foco em preço, em qualidade, em suporte, etc. É o que mais se conecta diretamente ao desenvolvimento de produto e à comunicação, mas exige um desenho cuidadoso de perguntas na pesquisa. É a protagonista da segmentação post-hoc.

Psicográfica (valores / estilo de vida)

Personalidade, valores, estilo de vida, atitudes. Captura motivações profundas, mas é difícil de medir e a interpretação fica sujeita à subjetividade. Usá-la sozinha é para os mais experientes.

A regra de bolso da prática

A combinação de comportamento + necessidades é a que mais tende a gerar segmentos "utilizáveis"
Use a demográfica não como eixo de classificação, e sim como eixo de profilagem (depois você descreve "este segmento tem muita gente na faixa dos 30")
Para medir necessidades e benefícios, a chave é o desenho das perguntas em escala Likert. Veja o guia de desenho de escalas Likert

4. Métodos de análise de cluster — hierárquica, k-means, classes latentes

O núcleo da segmentação post-hoc é a análise de cluster. Os três métodos típicos têm, cada um, o cenário em que se encaixam.

Análise de cluster hierárquica (Hierarchical)

É o método que vai fundindo as amostras uma a uma e enxerga a estrutura dos blocos por um dendrograma (diagrama de árvore). A vantagem é que não exige decidir o número de segmentos de antemão e permite apreender a estrutura visualmente. O método de Ward (Ward's method) é muito usado. O ponto fraco é o alto custo computacional: fica pesado quando a amostra passa de alguns milhares. Serve para amostras pequenas a médias e para a fase exploratória.

Método k-means

É o método em que você especifica antes o número de segmentos k, atribui cada ponto ao centroide mais próximo e atualiza os centroides, repetindo isso. É rápido mesmo em grandes volumes e é o mais usado de todos. Os pontos fracos são (1) precisar decidir o k de antemão, (2) a dependência dos valores iniciais, que faz o resultado oscilar (rode várias vezes e confirme a estabilidade) e (3) a sensibilidade à escala das variáveis (padronize sempre antes de submeter).

Análise de classes latentes (Latent Class Analysis, LCA)

É um modelo estatístico que assume que "cada respondente pertence, de forma probabilística, a uma das classes latentes". Desde Kamakura & Russell (1989) ele se desenvolveu no marketing. As vantagens são poder escolher o número de segmentos por um critério estatístico (como o BIC) e lidar naturalmente com variáveis categóricas. O ponto fraco é a alta especialização e a necessidade de software dedicado (Latent GOLD, o poLCA do R, etc.).

Pré-processamento: comprimir dimensões com análise fatorial

Quando há 20, 30 perguntas e você as submete cruas à análise de cluster, perguntas correlacionadas entre si acabam ponderando duas vezes o mesmo conceito. A jogada certa é primeiro comprimir, com análise fatorial (factor analysis), em fatores como "orientação a preço" e "orientação a qualidade", e só então clusterizar pelos escores fatoriais. O guia de confiabilidade e validade de pesquisas trata da relação entre análise fatorial e construtos.

5. Como decidir o número de segmentos — indicadores estatísticos e interpretabilidade

"Em quantos dividir" é a maior dor de cabeça da segmentação. Decide-se tanto pelos indicadores estatísticos quanto pela interpretabilidade do ponto de vista do negócio.

As referências estatísticas

Método do cotovelo (Elbow Method): escolha o ponto do "cotovelo", em que a "queda da soma de quadrados intra-cluster" ao aumentar o número de clusters fica suave
Coeficiente de silhueta (Silhouette): avalia, de -1 a 1, o quanto cada ponto se ajusta ao cluster a que pertence e o quanto está distante do cluster vizinho. É o indicador de Rousseeuw (1987); quanto mais perto de 1, melhor
Se for análise de classes latentes, BIC / AIC: escolha o número de clusters com o menor critério de informação

Mas a decisão final é a "interpretabilidade"

Mesmo que o indicador estatístico aponte que "6 segmentos é o ideal", não adianta nada se você não consegue explicar os 6 em palavras. Na prática, costuma-se assentar em 3 a 6 segmentos. O motivo é simples: com 7 ou mais não dá para diferenciar as iniciativas (a organização não tem recursos para isso).

"Mesmo que seja o ideal estatístico, um número de segmentos que o negócio não consegue mover não é adotado." Essa é a regra de ouro da decisão do número de segmentos. A estatística apenas apresenta os candidatos; o julgamento final é "consigo fazer uma jogada diferente para cada um destes segmentos?".

6. Profilagem e personas — os 6 critérios de um segmento utilizável

Quando os clusters saem, descreva quem é cada um (profilagem). Para cada segmento, calcule as médias de demográfico, comportamento e necessidades, verbalize no estilo "este segmento prioriza preço, tem muita gente na faixa dos 30 e é uma camada de novos com baixa frequência de uso" e, se preciso, transforme em persona.

Mas atenção: nem todo bloco estatisticamente separado é um "segmento utilizável". Verifique se ele atende aos critérios de um segmento utilizável na prática, organizados por Kotler.

Mensurável (Measurable): dá para medir o tamanho e as características do segmento
Acessível (Accessible): dá para alcançar esse segmento por publicidade ou vendas
Substancial (Substantial): tem tamanho que justifica o investimento (não dá para fazer iniciativa dedicada a um segmento de 1%)
Diferenciável (Differentiable): a reação é claramente diferente da dos outros segmentos
Acionável (Actionable): dá para desenhar e executar iniciativas concretas voltadas a esse segmento
Estável (Stable): é um segmento que não some no curto prazo, estável no tempo

Um segmento "estatisticamente bem separado, mas sem meio de alcance e de tamanho pequeno" pode estar certo como análise, mas é inútil para o negócio. Na etapa de profilagem, peneire por esses 6 critérios.

7. A visão da redação — 5 coisas que não se deve fazer na segmentação

Da posição de quem acompanha continuamente os casos do setor e a voz de quem está na linha de frente, aqui vão 5 acidentes que se repetem na segmentação.

1. Clusterizar sem padronizar as variáveis

É o acidente mais frequente e o menos percebido. Submeter ao k-means, sem padronizar, "renda (em milhares, na casa das centenas a milhares)" e "satisfação (de 1 a 5)" faz com que os blocos sejam definidos só pela renda, de escala maior, e a satisfação seja praticamente ignorada. Antes de clusterizar, padronize todas as variáveis (escores z). Uma análise que esquece isso está, quase com certeza, errada.

2. Dividir só pela demográfica e ter a "sensação de ter dividido"

Acabar em "dividi entre quem tem 20, 30 e 40 anos". Se você divide por faixa etária e o comportamento de compra é igual, isso não é segmentação, é mera tabulação. A demográfica não é eixo de classificação, é eixo de profilagem. Mantenha a ordem: dividir pelo comportamento e pelas necessidades, descrever pela demográfica.

3. Decidir o número de segmentos só pelo indicador estatístico

Adotar 8 segmentos só porque o coeficiente de silhueta foi máximo, sem que a organização consiga diferenciar as iniciativas, e deixar tudo parado. Use o "número que dá para diferenciar" como teto e deixe a estatística escolher o ótimo dentro dessa faixa. De 3 a 6 é o ponto de pouso realista.

4. Usar para sempre os segmentos criados uma única vez

Continuar usando, hoje com o mercado mudado, os segmentos criados há 2 anos. Segmento é produto perecível. Se mercado, cliente e produto mudam, os blocos mudam. Refaça a clusterização periodicamente (cerca de uma vez por ano) e confirme a estabilidade dos segmentos (critério 6).

5. Recortar segmentos com amostra pequena

Dividir N=150 em 6 segmentos dá, em média, 25 pessoas por segmento. Os escores por segmento ficam cheios de erro, e dizer que "a satisfação do segmento A é alta" com N=20 não tem significado. Se a premissa é segmentar, faça um desenho de amostra que garanta no mínimo 50 a 100 por segmento, de preferência 100 ou mais cada. Veja como decidir o tamanho de amostra necessário.

8. Pesquisa de segmentação de clientes com a ferramenta de pesquisa Kicue

A pesquisa de segmentação se divide na fase de "medir as perguntas que servem de base para a classificação" e na fase de análise de "encontrar os blocos com análise de cluster". O Kicue cuida da primeira; a segunda fica por conta da combinação com ferramentas estatísticas externas.

Medição das variáveis de classificação: suporte ao desenho de perguntas em escala Likert / de resposta única ou múltipla para medir necessidades, valores e comportamento (tipos de pergunta)
Perguntas demográficas e comportamentais lado a lado: capture no mesmo formulário os atributos usados na profilagem (faixa etária, plano, frequência de uso)
Exportação de CSV com ID do respondente: saída em estrutura pronta para submeter à análise de cluster, com uma linha por resposta e todas as perguntas enfileiradas. Também é possível, depois da análise, recombinar com o CRM "qual respondente está em qual segmento"
GT / tabulação cruzada: a tabulação cruzada da segmentação a priori (por faixa etária, etc.) é possível no próprio dashboard

⚠️ O que está fora do alcance do Kicue

Não há funcionalidade de análise de cluster, k-means, cluster hierárquica nem análise de classes latentes: a análise estatística é feita em R (cluster, poLCA, etc.) / Python (scikit-learn) / SPSS / Latent GOLD. O próprio Kicue não embute funcionalidade de análise estatística
Também não há análise fatorial nem padronização de variáveis: o pré-processamento da clusterização é feito do lado do software estatístico, após a exportação
Também não há análise de drivers (KDA) por segmento: a operação é passar o CSV a uma ferramenta externa e rodar por segmento
Também não há geração automática de personas: transformar o resultado da profilagem em persona é feito a mão + ferramenta de BI

Como leituras relacionadas, ler junto o guia de análise de fatores-chave, o guia de análise de importância-desempenho (IPA), o guia de métodos de amostragem em pesquisas, o guia de desenho e operação de perguntas de triagem e o guia de confiabilidade e validade de pesquisas deixa visível todo o pipeline analítico de "desenho → classificação → análise de fatores por segmento → priorização".

Resumo — 6 pontos para transformar a segmentação de clientes numa análise utilizável

Tenha consciência da armadilha da média geral — rodar a KDA/IPA de novo por segmento revela as diferenças escondidas
Divida pelo comportamento e pelas necessidades, descreva pela demográfica — classificar só pela demográfica acaba na "sensação de ter dividido"
Padronize sempre antes de clusterizar — não deixe a variável de maior escala sequestrar os blocos
O número de segmentos tem como teto o "número que dá para diferenciar" — o indicador estatístico escolhe o ótimo dentro dessa faixa (3 a 6 é a solução realista)
Peneire pelos 6 critérios (mensurável, acessível, substancial, diferenciável, acionável, estável) — bloco estatístico ≠ segmento utilizável
Se a premissa é segmentar, garanta 100 ou mais por segmento — picar uma amostra pequena deixa tudo cheio de erro

A segmentação de clientes não tem como objetivo "rodar uma análise de cluster sofisticada". É uma análise que serve de base para a estratégia: sem errar os três pontos — padronização, interpretabilidade e acionabilidade —, ela tira você da ilusão do "cliente médio" e permite desenhar jogadas que cativam bloco a bloco.

Quer desenhar a pesquisa que vai servir de base para a segmentação? Que tal experimentar a ferramenta de pesquisa gratuita Kicue. O desenho de perguntas Likert / de escolha para medir necessidades, comportamento e atributos, e a exportação de CSV com ID do respondente, permitem começar — em uma só conta — a parte de construir os dados de entrada da análise de cluster (a análise de cluster, a análise fatorial, a análise de classes latentes e a padronização de variáveis ficam como operação combinada com R / Python / SPSS / Latent GOLD).

Referências

Smith, W. R. (1956). Product Differentiation and Market Segmentation as Alternative Marketing Strategies. Journal of Marketing, 21(1), 3-8.
Punj, G., & Stewart, D. W. (1983). Cluster Analysis in Marketing Research: Review and Suggestions for Application. Journal of Marketing Research, 20(2), 134-148.
Kamakura, W. A., & Russell, G. J. (1989). A Probabilistic Choice Model for Market Segmentation and Elasticity Structure. Journal of Marketing Research, 26(4), 379-390.
Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.
Wedel, M., & Kamakura, W. A. (2000). Market Segmentation: Conceptual and Methodological Foundations (2nd ed.). Kluwer Academic Publishers.