Guía de encuestas de segmentación de clientes — Dividir clientes con análisis de clústeres

Con el análisis de factores clave descubriste que «lo que mueve la satisfacción global es el soporte». Con el análisis de importancia-desempeño decidiste que «la mejora prioritaria es el soporte y el precio». Pero esas conclusiones tienen una premisa oculta: la premisa de que «los clientes son un único bloque».

En realidad, para el cliente nuevo que es muy sensible al precio y para el usuario intensivo que busca profundidad de funciones, los factores que mueven la satisfacción son completamente distintos. Aunque en el conjunto salga que «el soporte funciona», eso es el resultado de mezclar y promediar dos grupos de clientes diferentes, y no es exacto para ninguno de los dos: es el problema que en estadística se enuncia como «el cliente promedio no existe». Lo que resuelve esto es la encuesta de segmentación de clientes. A partir de los datos de la encuesta se buscan «bloques de gente parecida» y se cambia la estrategia para cada bloque. En este artículo ordenamos, con la textura del oficio, desde los dos grandes enfoques de clasificación hasta la elección de los ejes, los métodos de análisis de clústeres, cómo decidir el número de segmentos y, finalmente, «las condiciones de un segmento utilizable».

1. Por qué segmentar — La trampa del promedio del conjunto

Tanto el análisis de factores clave como el análisis de importancia-desempeño (IPA) son potentes, pero comparten una debilidad: «promedian a todos los encuestados como una única población».

Cuando se promedian clientes heterogéneos mezclados, ocurre un fenómeno cercano a la paradoja de Simpson. Que «en el conjunto el soporte sea el principal factor de la satisfacción», pero que en el segmento A lo sea el precio y en el segmento B las funciones, es el pan de cada día. Si se decide solo con el promedio del conjunto, se acaba invirtiendo en acciones promedio y mediocres que no calan en ningún segmento.

El objetivo de la segmentación es sencillo: dividir en «bloques de clientes que reaccionan de forma parecida» y cambiar la mejor jugada para cada bloque. Desde que el clásico del marketing Smith (1956) propuso la «segmentación del mercado» contrastándola con la «diferenciación de producto», la segmentación ha seguido siendo la base de la estrategia de marketing.

Cuando se vuelven a correr el KDA / IPA por segmento, aparecen «los factores diferentes de cada segmento que no se veían en el conjunto». La segmentación es la última pieza de la trilogía analítica (identificar factores → priorizar → clasificar clientes).

2. Segmentación a priori vs post-hoc — Dos enfoques

Hay dos enfoques radicalmente distintos para dividir a los clientes. Confundirlos lleva a un diseño de análisis equivocado.

Segmentación a priori (A priori / basada en descriptores)

Es el método en el que el analista divide de forma mecánica según un criterio decidido de antemano. «Por franja de edad», «por plan contratado», «por frecuencia de uso», etc. El criterio es claro, la operación es cómoda y cualquiera puede reproducirlo.

Su debilidad es que ese criterio no necesariamente separa el comportamiento real del cliente. «Dividí entre veinteañeros y treintañeros, pero en realidad el comportamiento de compra de ambos era casi idéntico» es algo habitual. Te da la sensación de haber dividido, pero las acciones no cambian.

Segmentación post-hoc (Post-hoc / basada en clústeres)

Es el método que, a partir de los patrones de respuesta de la encuesta (satisfacción, necesidades, valores, etc.), descubre «bloques naturales» de forma data-driven. Usa el análisis de clústeres o el análisis de clases latentes. Es un enfoque de «dejar que hablen los datos», y surgen segmentos que con los prejuicios previos no se podrían intuir.

Su debilidad es que tiende a dar resultados distintos cada vez, es difícil de interpretar y cuesta reproducirlo en la operación. Requiere capacidad para interpretar «qué es realmente este segmento».

El principio para elegir

Primero tantea con la segmentación a priori: divide con datos demográficos y conductuales y mira si aparecen diferencias en el KDA/IPA
Si no aparecen diferencias, o si quieres profundizar, pasa a la post-hoc: busca con el análisis de clústeres bloques basados en necesidades y valores
En la práctica se combinan ambos: los bloques hallados con la segmentación post-hoc se «perfilan» con las variables de la segmentación a priori (edad, plan) para descubrir su identidad (capítulo 6)

3. Cómo elegir el eje de segmentación — Cuatro tipos de variables

¿Según qué criterio dividir? Las variables de segmentación se agrupan en cuatro grandes tipos, y existe un trade-off entre «la facilidad para dividir» y «la facilidad para conectar con la acción».

Los cuatro tipos de variables de segmentación

Demográficas (estadísticas de población)

Edad, sexo, ingresos, región, ocupación, etc. Fáciles de obtener y de describir, pero con poca capacidad para explicar el comportamiento. No todas las «mujeres de 30 años» compran igual. Por sí solas son débiles; sirven como apoyo a otros ejes.

Conductuales (de comportamiento)

Frecuencia de uso, importe de compra, funciones utilizadas, antigüedad, etc. Como se basan en el comportamiento real, son fáciles de conectar con la acción. El análisis RFM (última compra, frecuencia, importe) es el representante. Se combinan bien con los datos de CRM.

Necesidades / beneficios (el valor que buscan)

«Qué priorizan al elegir». Orientación al precio, a la calidad, al soporte, etc. Es lo más directamente ligado al desarrollo de producto y a la propuesta de valor, pero requiere un diseño cuidadoso para preguntarlo en la encuesta. Es la protagonista de la segmentación post-hoc.

Psicográficas (valores y estilo de vida)

Personalidad, valores, estilo de vida, actitudes. Permiten captar las motivaciones profundas, pero son difíciles de medir y la interpretación se vuelve subjetiva. Usarlas en solitario es para nivel avanzado.

La regla práctica

La combinación de conducta + necesidades es la que más fácilmente genera segmentos «utilizables»
Las demográficas no se usan como eje de clasificación, sino como eje de perfilado (después se describe que «este segmento tiene muchos treintañeros»)
Para medir necesidades y beneficios, la clave está en el diseño de preguntas con escala de Likert. Consulta la guía de diseño de la escala de Likert

4. Métodos de análisis de clústeres — Jerárquico, k-medias y clases latentes

El núcleo de la segmentación post-hoc es el análisis de clústeres. Los tres métodos representativos tienen, cada uno, su situación idónea.

Análisis de clústeres jerárquico (Hierarchical)

Es el método que va fusionando las muestras una a una y observa la estructura de los bloques con un dendrograma (diagrama de árbol). Su ventaja es que no hace falta decidir de antemano el número de segmentos y se puede captar la estructura de forma visual. Se suele usar el método de Ward (Ward's method). Su debilidad es que el coste de cálculo es grande y cuando las muestras superan los varios miles se vuelve pesado. Es adecuado para muestras de tamaño pequeño a medio o para la fase exploratoria.

Método k-medias

Es el método en el que se especifica primero el número de segmentos k, se asigna cada punto al centroide más cercano y se actualizan los centroides, repitiendo el proceso. Es rápido incluso con grandes volúmenes de datos y es el más utilizado. Sus debilidades son: (1) hay que decidir k de antemano, (2) depende de los valores iniciales y el resultado fluctúa (ejecútalo varias veces para comprobar la estabilidad) y (3) es sensible a la escala de las variables (hay que estandarizar siempre antes de introducirlas).

Análisis de clases latentes (Latent Class Analysis, LCA)

Es un modelo estadístico que asume que «cada encuestado pertenece, de forma probabilística, a alguna de las clases latentes». Se desarrolló en el marketing desde Kamakura & Russell (1989) en adelante. Sus ventajas son que se puede elegir el número de segmentos con un criterio estadístico (como el BIC) y que maneja las variables categóricas de forma natural. Su debilidad es que tiene alta especialización y requiere software dedicado (Latent GOLD, poLCA de R, etc.).

Preprocesamiento: comprimir dimensiones con el análisis factorial

Cuando hay 20 o 30 preguntas, si se introducen tal cual en el análisis de clústeres, las preguntas correlacionadas entre sí ponderan dos veces el mismo concepto. Lo habitual es comprimir primero con el análisis factorial (factor analysis) en factores como «orientación al precio» u «orientación a la calidad» y luego agrupar con las puntuaciones factoriales. La guía de fiabilidad y validez de las encuestas trata la relación entre el análisis factorial y los constructos.

5. Cómo decidir el número de segmentos — Indicadores estadísticos e interpretabilidad

«En cuántos dividir» es el mayor quebradero de cabeza de la segmentación. Se decide con tanto los indicadores estadísticos como la interpretabilidad de cara al negocio.

Referencias estadísticas

Método del codo (Elbow Method): se elige el punto del «codo» donde, al aumentar el número de clústeres, «la reducción de la suma de cuadrados intragrupo» se vuelve suave
Coeficiente de silueta (Silhouette): evalúa, de -1 a 1, cuánto encaja cada punto en su clúster de pertenencia y cuánto se aleja del clúster vecino. Es el indicador de Rousseeuw (1987); cuanto más cerca de 1, mejor
Si es análisis de clases latentes, BIC / AIC: se elige el número de clústeres con el criterio de información mínimo

Pero la decisión final es la «interpretabilidad»

Aunque los indicadores estadísticos digan que «6 segmentos es lo óptimo», si no puedes explicar los 6 con palabras, no sirve de nada. En la práctica, lo habitual es aterrizar en 3 a 6 segmentos. La razón es simple: con 7 o más no se pueden diferenciar las acciones (no hay recursos suficientes en la organización).

«Aunque estadísticamente sea lo óptimo, no se adopta un número de segmentos que el negocio no pueda mover». Esta es la regla de oro para decidir el número de segmentos. La estadística no es más que la propuesta de candidatos; el juicio final es «si puedo aplicar una jugada distinta a cada uno de estos segmentos».

6. Perfilado y creación de personas — Las 6 condiciones de un segmento utilizable

Una vez que salen los clústeres, se describe (perfila) qué es cada uno. Para cada segmento se obtienen los valores medios de las variables demográficas, conductuales y de necesidades, se verbaliza algo como «este segmento está orientado al precio, tiene muchos treintañeros y es una capa nueva con baja frecuencia de uso» y, si hace falta, se convierte en una persona.

Ahora bien, no todos los bloques separados estadísticamente son «segmentos utilizables». Hay que comprobar si cumplen las condiciones de un segmento utilizable en la práctica que ordenó Kotler.

Medible (Measurable): se puede medir el tamaño y las características del segmento
Accesible (Accessible): se puede llegar a ese segmento con publicidad o ventas
Sustancial (Substantial): tiene un tamaño que justifica la inversión (no se puede lanzar una acción dedicada a un segmento del 1 %)
Diferenciable (Differentiable): su reacción es claramente distinta de la de otros segmentos
Accionable (Actionable): se pueden diseñar y ejecutar acciones concretas dirigidas a ese segmento
Estable (Stable): es un segmento que no desaparece en poco tiempo, estable en el tiempo

Un segmento «que se separó limpiamente en lo estadístico, pero no tiene forma de alcanzarlo y además es pequeño» es correcto como análisis, pero inservible para el negocio. En la fase de perfilado se criba con estas 6 condiciones.

7. La mirada editorial — 5 cosas que NO hacer en la segmentación

Desde la posición de quien sigue de forma continua los casos del sector y la voz de los profesionales, cinco accidentes que se repiten en la segmentación.

1. Agrupar sin estandarizar las variables

Es el accidente más frecuente y el menos detectado. Si introduces en k-medias, sin estandarizar, los «ingresos (en miles, de cientos a varios miles)» y la «satisfacción (de 1 a 5)», los bloques quedan determinados solo por los ingresos, que tienen la escala grande, y la satisfacción se ignora casi por completo. Hay que estandarizar todas las variables (convertirlas a puntuaciones z) antes de agrupar. Un análisis que se olvide de esto está, casi con seguridad, equivocado.

2. Dividir solo con demográficas y quedarte con la «sensación de haber dividido»

Acabar en «dividí en veinteañeros / treintañeros / cuarentañeros». Si al dividir por franja de edad el comportamiento de compra es el mismo, eso no es segmentación, sino una simple tabulación. Las demográficas no son el eje de clasificación, sino el eje de perfilado. Respeta el orden: dividir por conducta y necesidades, describir con las demográficas.

3. Decidir el número de segmentos solo con los indicadores estadísticos

Adoptar 8 segmentos porque el coeficiente de silueta es máximo, que la organización no puede diferenciar y que quedan abandonados. Pon como límite «el número que puedes diferenciar» y deja que la estadística elija lo óptimo dentro de ese rango. De 3 a 6 es el aterrizaje realista.

4. Seguir usando para siempre un segmento creado una vez

Seguir usando hoy, con el mercado ya cambiado, un segmento creado hace dos años. Los segmentos son producto perecedero. Si cambian el mercado, los clientes o el producto, también cambian los bloques. Rehaz la agrupación periódicamente (más o menos una vez al año) y comprueba la estabilidad del segmento (condición 6).

5. Trocear en segmentos cuando el tamaño de muestra es pequeño

Si repartes N=150 en 6 segmentos, salen de media 25 personas por segmento. Las puntuaciones por segmento quedan llenas de error, y aunque digas «la satisfacción del segmento A es alta», con N=20 no significa nada. Si vas a partir de la segmentación, diseña una muestra que asegure como mínimo de 50 a 100 por segmento, y a ser posible 100 o más en cada uno. Consulta cómo decidir el tamaño de muestra necesario.

8. Encuestas de segmentación de clientes con la herramienta de encuestas Kicue

La encuesta de segmentación se divide en una fase de «medir las preguntas que sirven de base para la clasificación» y una fase de análisis de «descubrir los bloques con el análisis de clústeres». De lo que se encarga Kicue es de la primera; la segunda pasa por combinarse con herramientas estadísticas externas.

Medición de las variables de clasificación: admite el diseño de preguntas con escala de Likert / respuesta única o múltiple que miden necesidades, valores y conducta (tipos de preguntas)
Inclusión de preguntas demográficas y conductuales: obtiene en el mismo formulario los atributos que se usan para el perfilado (franja de edad, plan, frecuencia de uso)
Exportación CSV con ID de encuestado: exporta con una estructura de una fila por respuesta y todas las preguntas alineadas, lista para introducir directamente en el análisis de clústeres. Tras el análisis, también es posible volver a combinar con el CRM «qué encuestado está en qué segmento»
Tabulación GT y cruzada: la tabulación cruzada de la segmentación a priori (por franja de edad, etc.) sí es posible en el panel

⚠️ Alcance que Kicue no cubre

No tiene la función de análisis de clústeres, k-medias, clústeres jerárquicos ni análisis de clases latentes: el análisis estadístico se realiza con R (cluster, poLCA, etc.) / Python (scikit-learn) / SPSS / Latent GOLD. Kicue en sí no incorpora funciones de análisis estadístico
Tampoco tiene análisis factorial ni estandarización de variables: el preprocesamiento de la agrupación se hace en el software estadístico después de exportar
Tampoco tiene análisis de factores (KDA) por segmento: la operación consiste en pasar el CSV a una herramienta externa y correrlo por segmento
Tampoco tiene generación automática de personas: la creación de personas a partir del resultado del perfilado se hace de forma manual + herramientas de BI

Como artículos relacionados, leer en conjunto la guía de análisis de factores clave, la guía de análisis de importancia-desempeño (IPA), la guía de métodos de muestreo en encuestas, la guía de diseño y operación de preguntas de cribado y la guía de fiabilidad y validez de las encuestas permite ver el conjunto del pipeline analítico «diseño → clasificación → análisis de factores por segmento → priorización».

Resumen — 6 puntos para convertir la segmentación de clientes en un análisis utilizable

Ten presente la trampa del promedio del conjunto — al volver a correr el KDA/IPA por segmento, se ven las diferencias ocultas
Divide por conducta y necesidades, describe con las demográficas — clasificar solo con demográficas acaba en «la sensación de haber dividido»
Estandariza siempre antes de agrupar — que las variables de escala grande no secuestren los bloques
El número de segmentos tiene como límite «el número que puedes diferenciar» — los indicadores estadísticos eligen lo óptimo dentro de ese rango (de 3 a 6 es la solución realista)
Criba con las 6 condiciones (medible, accesible, sustancial, diferenciable, accionable, estable) — un bloque estadístico ≠ un segmento utilizable
Si partes de la segmentación, asegura 100 o más en cada uno — trocear una muestra pequeña la llena de error

La segmentación de clientes no tiene como objetivo «correr un análisis de clústeres sofisticado». Sin fallar en los tres puntos —estandarización, interpretabilidad y accionabilidad— es el análisis que sirve de base a la estrategia: el que te saca de la ilusión del «cliente promedio» y te permite diseñar jugadas que calan en cada bloque.

Si quieres diseñar la encuesta que sirve de base a la segmentación, ¿por qué no pruebas la herramienta de encuestas gratuita Kicue? Con el diseño de preguntas Likert / de elección que miden necesidades, conducta y atributos, y la exportación CSV con ID de encuestado, puedes empezar con una sola cuenta la parte que crea los datos de entrada del análisis de clústeres (el análisis de clústeres, el análisis factorial, el análisis de clases latentes y la estandarización de variables se operan en combinación con R / Python / SPSS / Latent GOLD).

Referencias

Smith, W. R. (1956). Product Differentiation and Market Segmentation as Alternative Marketing Strategies. Journal of Marketing, 21(1), 3-8.
Punj, G., & Stewart, D. W. (1983). Cluster Analysis in Marketing Research: Review and Suggestions for Application. Journal of Marketing Research, 20(2), 134-148.
Kamakura, W. A., & Russell, G. J. (1989). A Probabilistic Choice Model for Market Segmentation and Elasticity Structure. Journal of Marketing Research, 26(4), 379-390.
Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.
Wedel, M., & Kamakura, W. A. (2000). Market Segmentation: Conceptual and Methodological Foundations (2nd ed.). Kluwer Academic Publishers.