Agregación y prueba de significancia en encuestas — tabulación cruzada, chi-cuadrado y tamaño de efecto bien usados

"Satisfacción de hombres 75%, mujeres 80% — las mujeres están más satisfechas" entra al informe, y el revisor sénior pregunta: "¿Esa diferencia es realmente significativa?" Todo el mundo pasa por ese momento. Leer los números de una tabla y juzgar si la diferencia es relevante son dos trabajos distintos. El primero lo puede hacer cualquiera; el segundo es un oficio aparte que sorprendentemente pocos investigadores de campo ejecutan limpiamente.

Esta entrada recorre por qué la agregación y la prueba de significancia deben tratarse como pasos separados, cuándo usar agregación GT (de una variable) o tabulación cruzada, los cinco patrones de cruzada que aparecen en la práctica, el flujo de la prueba chi-cuadrado, por qué los p-valores solos no bastan (y qué aportan los tamaños de efecto), y los obstáculos editoriales que siempre revisamos. Como cuarta entrega de la serie de calidad de preguntas (redacción → piloto → limpieza), cubre el arco "diseñar → verificar → preparar → analizar".

1. Por qué agregación y prueba de significancia son pasos separados

"Parece una diferencia" vs. "es una diferencia"

Detectar "Hombres 75% / Mujeres 80%" en una cruzada y concluir "hay una diferencia" es prematuro. Con muestra pequeña esa brecha de 5 puntos cabe en el ruido de muestreo; con muestra grande es fiablemente significativa. Mismos números, conclusiones opuestas según N.

Agresti (2018) Statistical Methods for the Social Sciences lo plantea como base del análisis de encuestas en ciencias sociales: siempre comprobar primero si la diferencia observada cabe en el error de muestreo. Leer la tabla sin esa comprobación equivale estadísticamente a declarar un resultado aleatorio.

Dividir el trabajo

Paso	Qué hace	Salida
Agregación	Organizar los números (GT, cruzada)	Tablas, gráficas
Prueba de significancia	Juzgar si la diferencia es aleatoria	p-valor, tamaño de efecto
Interpretación	Traducir resultados estadísticos a decisiones	Informe, recomendaciones

Concluir solo desde la agregación es como diagnosticar golpe de calor sin termómetro porque "hoy parece caluroso". El paso de prueba es obligatorio.

2. GT vs. tabulación cruzada

Agregación GT (de una variable, Grand Total)

La más básica — para cada pregunta, cuántos respondentes eligieron cada opción.

Propósito: capturar tendencias generales
Cuándo: secciones "panorama general" del informe, comprobación de distribución por pregunta
Límite: no muestra diferencias entre segmentos

Tabulación cruzada

Cruza dos preguntas (o atributos) para mostrar patrones a nivel de segmento.

Propósito: comparar entre atributos o grupos
Cuándo: "género × satisfacción", "rango de edad × intención de compra", etc.
Límite: máximo 2 ejes (3+ se vuelve difícil de interpretar sin herramientas externas)

Cómo elegir

Pregunta a responder	Agregación recomendada
"¿Cuál es el resultado global?"	GT
"¿Hay diferencias entre segmentos?"	Cruzada
"¿Cuál es el resultado en este subconjunto?"	GT filtrada
"¿Efectos combinados de varios atributos?"	Cruzada de tres vías o multivariante (externo)

3. Cinco patrones de tabulación cruzada

El trabajo de cruzada en práctica se reparte en cinco patrones.

Patrón 1: Comparación demográfica

"Género × satisfacción", "edad × intención de compra" — segmentar por atributos demográficos. El patrón más frecuente con diferencia.

Patrón 2: Comparación temporal

Comparar la misma pregunta entre puntos temporales (2025 vs. 2026). El pan y mantequilla de los estudios de seguimiento.

Patrón 3: Comparación de grupos (experimento vs. control)

Pruebas A/B o comparaciones antes/después con "condición × resultado". Cómo se mide el impacto de marketing.

Patrón 4: Cruzada de tres vías

"Género × edad × satisfacción" — tres ejes. Las celdas se quedan finas rápido; recomendado solo a partir de N=300.

Patrón 5: GT filtrada (condicional)

GT después de filtrar ("solo respondentes que compraron el producto X", "solo usuarios con 6+ meses de antigüedad"). A menudo más limpio que una cruzada.

Fila % vs. columna %

Las cruzadas ofrecen dos vistas porcentuales:

Fila % — cada fila suma 100% (p. ej. distribución de satisfacción dentro de "hombres")
Columna % — cada columna suma 100% (p. ej. desglose por género entre "muy satisfechos")

Elige el que coincida con tu pregunta. La misma tabla puede invertir tu conclusión si la lees al revés.

4. El flujo de la prueba chi-cuadrado

La prueba estándar para "estas diferencias entre segmentos son aleatorias o significativas" en una cruzada es la prueba chi-cuadrado de independencia.

Lo básico

Hipótesis nula (H0): las dos variables son independientes (sin relación)
Hipótesis alternativa (H1): las dos variables están relacionadas (hay relación)
Decisión: rechazar H0 cuando el p-valor cae bajo el nivel de significancia preestablecido (típicamente 0,05)

Flujo de campo

Construir la cruzada (p. ej. género × satisfacción)
Ejecutar chi-cuadrado en R / Python / SPSS / Excel
Comprobar p-valor y tamaño de efecto (V de Cramér)
Confirmar que ninguna celda tenga conteo esperado bajo 5

La restricción del conteo esperado

El chi-cuadrado asume que cada celda tiene conteo esperado de 5 o más. Cuando demasiadas caen por debajo:

Cambiar a la prueba exacta de Fisher (mejor para tablas dispersas)
Colapsar celdas (agrupar "20s/30s", "40s/50s", "60+" en lugar de bandas finas)
Aumentar la muestra

Field (2018) Discovering Statistics señala que la fiabilidad de la prueba se degrada de forma medible cuando más del 20% de las celdas tienen conteo esperado bajo 5.

5. Significancia vs. tamaño de efecto — por qué p < 0,05 solo no basta

N grande hace "significativas" diferencias minúsculas

El mayor pitfall del chi-cuadrado. Con muestras grandes, incluso diferencias prácticamente irrelevantes salen estadísticamente significativas.

Ejemplo: a N=10.000, "hombres 50% / mujeres 51% intención de compra" puede dar p < 0,001. ¿Esa brecha de 1 punto es accionable para decisiones de negocio? Casi nunca.

El comunicado ASA sobre p-valores

Wasserstein & Lazar (2016) The ASA Statement on p-Values: Context, Process, and Purpose — la posición oficial de la American Statistical Association de que los p-valores por sí solos no deben dirigir conclusiones. La interpretación requiere:

Tamaño de efecto
Intervalos de confianza
Significancia sustantiva

Los tres juntos, junto al p-valor.

Qué dice el tamaño de efecto

Una medida estadística de "qué tan grande es la diferencia". Comunes en cruzadas:

V de Cramér — fuerza global de asociación en una tabla de contingencia (0–1; 0,1 débil, 0,3 medio, 0,5 fuerte)
d de Cohen — diferencia estandarizada de medias entre dos grupos (variables continuas; 0,2 pequeño, 0,5 medio, 0,8 grande)
Razón de momios / razón de riesgos — efecto entre grupos en tablas 2×2

Sullivan & Feinn (2012) Using Effect Size — or Why the P Value Is Not Enough recomienda reportar siempre p-valor y tamaño de efecto juntos en papers e informes.

Matriz práctica de decisión

p-valor	Tamaño de efecto	Interpretación
p < 0,05	Grande	Diferencia relevante — actuar
p < 0,05	Pequeño	Significativo estadísticamente, débil sustantivamente — interpretar con cautela
p ≥ 0,05	Grande	Posiblemente con poca potencia — aumentar N o argumentar desde el tamaño de efecto
p ≥ 0,05	Pequeño	Sin diferencia real — reportar como nulo

6. Visión editorial — cinco obstáculos que siempre vigilamos

De la literatura y la práctica, las cinco cosas que defenderíamos con fuerza.

1. Sobre-interpretar celdas con N bajo. Cuando una celda de cruzada cae bajo n≈30, los porcentajes rebotan. Antes de escribir "el 90% de mujeres en 20s están satisfechas", siempre comprueba la n de la celda. A N=10, un respondente mueve el % por 10 puntos — la credibilidad interpretativa es esencialmente cero.

2. La trampa de las comparaciones múltiples. "Corre un montón de cruzadas, reporta solo las significativas" es estructuralmente p-hacking. 5 pruebas aleatorias darán fiablemente 1 con p < 0,05 por azar. Aumenta el número de comparaciones y los falsos positivos escalan con ello. Pre-registra las hipótesis a probar antes de abrir los datos.

3. Concluir solo desde p < 0,05. El error más común en el campo. Empareja siempre el p-valor con un tamaño de efecto. Un informe que solo dice "p < 0,05, diferencia significativa" hizo la mitad del trabajo estadístico. Sullivan & Feinn (2012) vale la pena circular a ejecutivos para que la conversación pase a "qué tan grande es la diferencia".

4. Confundir correlación con causalidad. "Los usuarios del servicio tienen mayor satisfacción" en una cruzada no justifica "usar el servicio sube la satisfacción". Las cruzadas muestran correlación, no causalidad. Las afirmaciones causales necesitan diseños experimentales (pruebas A/B, cuasi-experimentos).

5. Cherry-picking del eje de cruzada. Por qué eje cruzas reconfigura "lo que muestran los datos". Escribe un plan de análisis previo y bloquea los ejes. Buscar ejes "interesantes" después sesga las conclusiones hacia lo que te resulta narrativamente conveniente.

7. Operaciones de agregación en la herramienta de encuestas Kicue

Kicue trae los cimientos de agregación de serie.

GT y cruzada

Agregación GT muestra resúmenes de una variable para cada pregunta en una sola pantalla, con tablas conscientes del tipo de pregunta (SA / MA / matriz / escala).

Tabulación cruzada genera cruzadas de 2 ejes en tiempo real. Toggle fila % / columna % en un clic, así lees la tabla del modo correcto para tu pregunta.

Parámetros de URL como ejes de cruzada

Los parámetros de URL — referrer, ID de campaña, ID de cliente — son utilizables como ejes de cruzada. Análisis tipo "satisfacción email vs. SNS" funcionan sin implementación adicional.

Exportación de datos crudos para prueba de significancia

Los cálculos de chi-cuadrado y tamaño de efecto no se ejecutan dentro de Kicue. El patrón estándar es usar la exportación de datos crudos (CSV / Excel) para llevar datos a R / Python / SPSS y ejecutar chisq.test() y cramersV() allí.

Combinar con filtrado de fraude

Activa "Excluir respuestas marcadas" en la vista de análisis, con la gestión de flags confirmando los casos de fraude — te da limpieza → agregación → prueba como un único flujo dentro de la herramienta.

Elegir la herramienta correcta — Los límites del plan gratuito, soporte de ramificación, capacidades IA y exportación CSV varían mucho entre herramientas. Consulta nuestra comparativa de herramientas de encuestas gratuitas para encontrar la adecuada para este enfoque.

Resumen

Checklist de agregación y prueba de significancia:

Agregación y prueba son pasos separados — nunca concluir solo desde la tabla.
GT (global) vs. cruzada (segmentos) — adapta la agregación a la pregunta.
Cinco patrones de cruzada — demográfico, temporal, grupo, tres vías, filtrado.
Chi-cuadrado para probar diferencias. Vigila la restricción de conteo esperado ≥5.
No concluyas solo del p-valor — reporta siempre el tamaño de efecto (V de Cramér, d de Cohen). Ver ASA Statement (2016).
Cinco obstáculos — sobre-lectura de N bajo, comparaciones múltiples, reporte solo de p, confusión correlación/causalidad, cherry-picking de ejes.
Kicue cubre GT y cruzada nativamente; las pruebas de significancia se hacen en R / Python tras la exportación.

La agregación organiza los números; la prueba pregunta si significan algo. Corre los dos, y solo entonces los resultados de la encuesta se vuelven material de decisión. La serie de cuatro partes sobre calidad de preguntas (redacción → piloto → limpieza → agregación/análisis) cierra aquí.

Referencias

Académicas y metodológicas

Agresti, A. (2018). Statistical Methods for the Social Sciences (5ª ed.). Pearson.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5ª ed.). SAGE.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2ª ed.). Routledge.
Wasserstein, R. L., & Lazar, N. A. (2016). El comunicado ASA sobre p-valores: contexto, proceso y propósito. The American Statistician, 70(2), 129–133.
Sullivan, G. M., & Feinn, R. (2012). Usar el tamaño de efecto — o por qué el p-valor no basta. Journal of Graduate Medical Education, 4(3), 279–282.

Organismos de estándares y centros metodológicos

Guías del sector (a título de observación)

¿Quieres llevar la agregación hasta la prueba de significancia en un único flujo? Prueba Kicue — una herramienta de encuestas online gratuita. GT y cruzada, análisis por segmento con parámetros de URL y exportación de datos crudos vienen de fábrica — Kicue gestiona la agregación, R / Python las pruebas.