Agregação e teste de significância em pesquisas — tabulação cruzada, qui-quadrado e tamanho de efeito bem usados

"Satisfação dos homens 75%, mulheres 80% — as mulheres estão mais satisfeitas" entra no relatório, e um revisor sênior pergunta: "Essa diferença é realmente significativa?" Todo mundo passa por esse momento. Ler os números numa tabela de agregação e julgar se a diferença é relevante são dois trabalhos diferentes. O primeiro qualquer um faz; o segundo é um ofício à parte que surpreendentemente poucos pesquisadores de campo executam de forma limpa.

Este texto percorre por que agregação e teste de significância devem ser tratados como passos separados, quando usar agregação GT (univariada) ou tabulação cruzada, os cinco padrões de cruzada que aparecem na prática, o fluxo do teste qui-quadrado, por que p-valores sozinhos não bastam (e o que tamanhos de efeito agregam), e os obstáculos editoriais que sempre verificamos. Como quarta parte da série de qualidade de perguntas (redação → piloto → limpeza), cobre o arco "projetar → verificar → preparar → analisar".

1. Por que agregação e teste de significância são passos separados

"Parece uma diferença" vs. "é uma diferença"

Detectar "Homens 75% / Mulheres 80%" numa cruzada e concluir "tem uma diferença" é prematuro. Com amostra pequena essa lacuna de 5 pontos cabe no ruído de amostragem; com amostra grande é confiavelmente significativa. Mesmos números, conclusões opostas dependendo de N.

Agresti (2018) Statistical Methods for the Social Sciences coloca isso como base da análise de pesquisa em ciências sociais: sempre verificar primeiro se a diferença observada cabe no erro amostral. Ler a tabela sem essa verificação equivale estatisticamente a declarar um resultado aleatório.

Dividindo o trabalho

Passo	O que faz	Saída
Agregação	Organizar os números (GT, cruzada)	Tabelas, gráficos
Teste de significância	Julgar se a diferença é aleatória	p-valor, tamanho de efeito
Interpretação	Traduzir resultados estatísticos em decisões	Relatório, recomendações

Concluir só pela agregação é como diagnosticar insolação sem termômetro porque "parece quente hoje". O passo de teste é obrigatório.

2. GT vs. tabulação cruzada

Agregação GT (univariada, Grand Total)

A mais básica — para cada pergunta, quantos respondentes escolheram cada opção.

Propósito: capturar tendências gerais
Quando: seções "panorama" de relatórios, checagem de distribuição por pergunta
Limite: não mostra diferenças entre segmentos

Tabulação cruzada

Cruza duas perguntas (ou atributos) para mostrar padrões a nível de segmento.

Propósito: comparar entre atributos ou grupos
Quando: "gênero × satisfação", "faixa etária × intenção de compra" etc.
Limite: máximo 2 eixos (3+ fica difícil de interpretar sem ferramentas externas)

Como escolher

Pergunta a responder	Agregação recomendada
"Qual o resultado geral?"	GT
"Há diferenças entre segmentos?"	Cruzada
"Qual o resultado nesse subconjunto?"	GT filtrada
"Efeitos combinados de vários atributos?"	Cruzada de três vias ou multivariada (externa)

3. Cinco padrões de tabulação cruzada para conhecer

O trabalho prático de cruzada se reparte em cerca de cinco padrões.

Padrão 1: Comparação demográfica

"Gênero × satisfação", "idade × intenção de compra" — segmentação por atributos demográficos. O padrão mais frequente disparado.

Padrão 2: Comparação temporal

Comparar a mesma pergunta entre pontos no tempo (2025 vs. 2026). O pão e a manteiga dos estudos de tracking.

Padrão 3: Comparação de grupos (experimento vs. controle)

Testes A/B ou comparações antes/depois olhando "condição × resultado". Como o impacto de marketing é medido.

Padrão 4: Cruzada de três vias

"Gênero × idade × satisfação" — três eixos. Células ficam finas rápido; recomendado só a partir de N=300.

Padrão 5: GT filtrada (condicional)

GT após filtragem ("só respondentes que compraram o produto X", "só usuários com 6+ meses de tempo"). Frequentemente uma alternativa mais limpa às cruzadas.

Linha % vs. coluna %

Cruzadas oferecem duas visões percentuais:

Linha % — cada linha soma 100% (ex.: distribuição da satisfação dentro de "homens")
Coluna % — cada coluna soma 100% (ex.: divisão por gênero entre "muito satisfeitos")

Escolha a que casa com sua pergunta. A mesma tabela pode inverter sua conclusão se você ler do lado errado.

4. O fluxo do teste qui-quadrado

O teste padrão para "essas diferenças entre segmentos são aleatórias ou significativas" numa cruzada é o teste qui-quadrado de independência.

O básico

Hipótese nula (H0): as duas variáveis são independentes (sem relação)
Hipótese alternativa (H1): as duas variáveis estão relacionadas (há relação)
Decisão: rejeitar H0 quando o p-valor cai abaixo do nível de significância pré-estabelecido (tipicamente 0,05)

Fluxo de campo

Construir a cruzada (ex.: gênero × satisfação)
Rodar qui-quadrado em R / Python / SPSS / Excel
Verificar p-valor e tamanho de efeito (V de Cramér)
Confirmar que nenhuma célula tem contagem esperada abaixo de 5

A restrição da contagem esperada

O qui-quadrado supõe que cada célula tem contagem esperada de 5 ou mais. Quando muitas caem abaixo:

Trocar pelo teste exato de Fisher (melhor para tabelas esparsas)
Colapsar células (agrupar "20s/30s", "40s/50s", "60+" em vez de bandas finas)
Aumentar amostra

Field (2018) Discovering Statistics nota que a confiabilidade do teste degrada de forma mensurável quando mais de 20% das células têm contagem esperada abaixo de 5.

5. Significância vs. tamanho de efeito — por que p < 0,05 sozinho não basta

N grande torna diferenças minúsculas "significativas"

A maior cilada do qui-quadrado. Com amostras grandes, mesmo diferenças praticamente irrelevantes saem estatisticamente significativas.

Exemplo: a N=10.000, "homens 50% / mulheres 51% intenção de compra" pode dar p < 0,001. Essa lacuna de 1 ponto é acionável para decisões de negócio? Quase nunca.

A declaração da ASA sobre p-valores

Wasserstein & Lazar (2016) The ASA Statement on p-Values: Context, Process, and Purpose — a posição oficial da American Statistical Association de que p-valores sozinhos não devem dirigir conclusões. A interpretação requer:

Tamanho de efeito
Intervalos de confiança
Significância substantiva

Os três juntos, ao lado do p-valor.

O que o tamanho de efeito diz

Uma medida estatística de "quão grande é a diferença". Comuns para cruzadas:

V de Cramér — força global de associação numa tabela de contingência (0–1; 0,1 fraca, 0,3 média, 0,5 forte)
d de Cohen — diferença padronizada de médias entre dois grupos (variáveis contínuas; 0,2 pequeno, 0,5 médio, 0,8 grande)
Razão de chances / razão de risco — efeito grupo-a-grupo em tabelas 2×2

Sullivan & Feinn (2012) Using Effect Size — or Why the P Value Is Not Enough recomenda sempre reportar p-valor e tamanho de efeito juntos em papers e relatórios.

Uma matriz prática de decisão

p-valor	Tamanho de efeito	Interpretação
p < 0,05	Grande	Diferença relevante — agir
p < 0,05	Pequeno	Significativa estatisticamente mas fraca substantivamente — interpretar com cautela
p ≥ 0,05	Grande	Possivelmente subdimensionado — aumentar N ou argumentar pelo tamanho de efeito
p ≥ 0,05	Pequeno	Sem diferença real — reportar como nulo

6. Visão editorial — cinco obstáculos que sempre vigiamos

Da literatura e da prática, as cinco coisas que defenderíamos com força.

1. Sobre-leitura de células com N baixo. Quando uma célula de cruzada cai abaixo de n≈30, os percentuais oscilam. Antes de escrever "90% das mulheres em 20s estão satisfeitas", sempre verifique o n da célula. A N=10, um respondente move o % em 10 pontos — a credibilidade interpretativa é essencialmente zero.

2. A armadilha das comparações múltiplas. "Rodar um monte de cruzadas, reportar só as significativas" é estruturalmente p-hacking. 5 testes aleatórios darão confiavelmente 1 com p < 0,05 por acaso. Aumente o número de comparações e os falsos positivos escalam junto. Pré-registre as hipóteses a testar antes de abrir os dados.

3. Concluir só de p < 0,05. A cilada mais comum no campo. Sempre pareie o p-valor com um tamanho de efeito. Um relatório que só diz "p < 0,05, diferença significativa" fez metade do trabalho estatístico. Sullivan & Feinn (2012) vale circular para executivos para que a conversa migre para "quão grande é a diferença".

4. Confundir correlação com causalidade. "Usuários do serviço têm satisfação maior" numa cruzada não justifica "usar o serviço aumenta a satisfação". Cruzadas mostram correlação, não causalidade. Afirmações causais precisam de designs experimentais (testes A/B, quase-experimentos).

5. Cherry-picking do eixo de cruzamento. Por qual eixo você cruza remodela "o que os dados mostram". Escreva um plano de análise antes e trave os eixos. Caçar eixos "interessantes" depois enviesa conclusões para o que é narrativamente conveniente.

7. Operações de agregação na ferramenta de pesquisa Kicue

A Kicue traz as fundações de agregação de série.

GT e cruzada

Agregação GT mostra resumos univariados para cada pergunta numa única tela, com tabelas conscientes do tipo de pergunta (SA / MA / matriz / escala).

Tabulação cruzada gera cruzadas de 2 eixos em tempo real. Toggle linha % / coluna % em um clique, então você lê a tabela do jeito certo para sua pergunta.

Parâmetros de URL como eixos de cruzamento

Os parâmetros de URL — referrer, ID de campanha, ID de cliente — são utilizáveis como eixos de cruzamento. Análises tipo "satisfação email vs. SNS" funcionam sem implementação extra.

Export de dados brutos para teste de significância

Cálculos de qui-quadrado e tamanho de efeito não rodam dentro da Kicue. O padrão é usar o export de dados brutos (CSV / Excel) para empurrar dados para R / Python / SPSS e rodar chisq.test() e cramersV() lá.

Combinar com filtragem de fraude

Ative "Excluir respostas flagueadas" na visão analítica, com a gestão de flags confirmando seus casos de fraude — te dá limpeza → agregação → teste como um único fluxo dentro da ferramenta.

Escolher a ferramenta certa — Os limites do plano gratuito, suporte a ramificação, capacidades IA e exportação CSV variam muito entre ferramentas. Confira nosso comparativo de ferramentas de pesquisa gratuitas para encontrar a ideal para esta abordagem.

Resumo

Checklist de agregação e teste de significância:

Agregação e teste são passos separados — nunca conclua só pela tabela.
GT (geral) vs. cruzada (segmentos) — adapte a agregação à pergunta.
Cinco padrões de cruzada — demográfico, temporal, grupo, três vias, filtrado.
Qui-quadrado para testar diferenças. Vigie a restrição de contagem esperada ≥5.
Não conclua só do p-valor — sempre reporte tamanho de efeito (V de Cramér, d de Cohen). Ver ASA Statement (2016).
Cinco obstáculos — sobre-leitura de N baixo, comparações múltiplas, reporte só de p, confusão correlação/causalidade, cherry-picking de eixos.
Kicue cobre GT e cruzada nativamente; testes de significância acontecem em R / Python após export.

Agregação organiza os números; o teste pergunta se eles significam algo. Rode os dois, e só então os resultados de pesquisa viram material de decisão. A série de quatro partes sobre qualidade de perguntas (redação → piloto → limpeza → agregação/análise) fecha aqui.

Referências

Acadêmicas e metodológicas

Agresti, A. (2018). Statistical Methods for the Social Sciences (5ª ed.). Pearson.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5ª ed.). SAGE.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2ª ed.). Routledge.
Wasserstein, R. L., & Lazar, N. A. (2016). A declaração da ASA sobre p-valores: contexto, processo e propósito. The American Statistician, 70(2), 129–133.
Sullivan, G. M., & Feinn, R. (2012). Usar tamanho de efeito — ou por que o p-valor não basta. Journal of Graduate Medical Education, 4(3), 279–282.

Órgãos de padronização e centros metodológicos

Guias do setor (como observação prática)

Quer levar a agregação até o teste de significância em um único fluxo? Experimente Kicue — uma ferramenta de pesquisa online gratuita. GT e cruzada, análise por segmento via parâmetros de URL e export de dados brutos vêm de fábrica — Kicue cuida da agregação, R / Python cuidam dos testes.