"Satisfação dos homens 75%, mulheres 80% — as mulheres estão mais satisfeitas" entra no relatório, e um revisor sênior pergunta: "Essa diferença é realmente significativa?" Todo mundo passa por esse momento. Ler os números numa tabela de agregação e julgar se a diferença é relevante são dois trabalhos diferentes. O primeiro qualquer um faz; o segundo é um ofício à parte que surpreendentemente poucos pesquisadores de campo executam de forma limpa.
Este texto percorre por que agregação e teste de significância devem ser tratados como passos separados, quando usar agregação GT (univariada) ou tabulação cruzada, os cinco padrões de cruzada que aparecem na prática, o fluxo do teste qui-quadrado, por que p-valores sozinhos não bastam (e o que tamanhos de efeito agregam), e os obstáculos editoriais que sempre verificamos. Como quarta parte da série de qualidade de perguntas (redação → piloto → limpeza), cobre o arco "projetar → verificar → preparar → analisar".
1. Por que agregação e teste de significância são passos separados
"Parece uma diferença" vs. "é uma diferença"
Detectar "Homens 75% / Mulheres 80%" numa cruzada e concluir "tem uma diferença" é prematuro. Com amostra pequena essa lacuna de 5 pontos cabe no ruído de amostragem; com amostra grande é confiavelmente significativa. Mesmos números, conclusões opostas dependendo de N.
Agresti (2018) Statistical Methods for the Social Sciences coloca isso como base da análise de pesquisa em ciências sociais: sempre verificar primeiro se a diferença observada cabe no erro amostral. Ler a tabela sem essa verificação equivale estatisticamente a declarar um resultado aleatório.
Dividindo o trabalho
| Passo | O que faz | Saída |
|---|---|---|
| Agregação | Organizar os números (GT, cruzada) | Tabelas, gráficos |
| Teste de significância | Julgar se a diferença é aleatória | p-valor, tamanho de efeito |
| Interpretação | Traduzir resultados estatísticos em decisões | Relatório, recomendações |
Concluir só pela agregação é como diagnosticar insolação sem termômetro porque "parece quente hoje". O passo de teste é obrigatório.
2. GT vs. tabulação cruzada
Agregação GT (univariada, Grand Total)
A mais básica — para cada pergunta, quantos respondentes escolheram cada opção.
- Propósito: capturar tendências gerais
- Quando: seções "panorama" de relatórios, checagem de distribuição por pergunta
- Limite: não mostra diferenças entre segmentos
Tabulação cruzada
Cruza duas perguntas (ou atributos) para mostrar padrões a nível de segmento.
- Propósito: comparar entre atributos ou grupos
- Quando: "gênero × satisfação", "faixa etária × intenção de compra" etc.
- Limite: máximo 2 eixos (3+ fica difícil de interpretar sem ferramentas externas)
Como escolher
| Pergunta a responder | Agregação recomendada |
|---|---|
| "Qual o resultado geral?" | GT |
| "Há diferenças entre segmentos?" | Cruzada |
| "Qual o resultado nesse subconjunto?" | GT filtrada |
| "Efeitos combinados de vários atributos?" | Cruzada de três vias ou multivariada (externa) |
3. Cinco padrões de tabulação cruzada para conhecer
O trabalho prático de cruzada se reparte em cerca de cinco padrões.
Padrão 1: Comparação demográfica
"Gênero × satisfação", "idade × intenção de compra" — segmentação por atributos demográficos. O padrão mais frequente disparado.
Padrão 2: Comparação temporal
Comparar a mesma pergunta entre pontos no tempo (2025 vs. 2026). O pão e a manteiga dos estudos de tracking.
Padrão 3: Comparação de grupos (experimento vs. controle)
Testes A/B ou comparações antes/depois olhando "condição × resultado". Como o impacto de marketing é medido.
Padrão 4: Cruzada de três vias
"Gênero × idade × satisfação" — três eixos. Células ficam finas rápido; recomendado só a partir de N=300.
Padrão 5: GT filtrada (condicional)
GT após filtragem ("só respondentes que compraram o produto X", "só usuários com 6+ meses de tempo"). Frequentemente uma alternativa mais limpa às cruzadas.
Linha % vs. coluna %
Cruzadas oferecem duas visões percentuais:
- Linha % — cada linha soma 100% (ex.: distribuição da satisfação dentro de "homens")
- Coluna % — cada coluna soma 100% (ex.: divisão por gênero entre "muito satisfeitos")
Escolha a que casa com sua pergunta. A mesma tabela pode inverter sua conclusão se você ler do lado errado.
4. O fluxo do teste qui-quadrado
O teste padrão para "essas diferenças entre segmentos são aleatórias ou significativas" numa cruzada é o teste qui-quadrado de independência.
O básico
- Hipótese nula (H0): as duas variáveis são independentes (sem relação)
- Hipótese alternativa (H1): as duas variáveis estão relacionadas (há relação)
- Decisão: rejeitar H0 quando o p-valor cai abaixo do nível de significância pré-estabelecido (tipicamente 0,05)
Fluxo de campo
- Construir a cruzada (ex.: gênero × satisfação)
- Rodar qui-quadrado em R / Python / SPSS / Excel
- Verificar p-valor e tamanho de efeito (V de Cramér)
- Confirmar que nenhuma célula tem contagem esperada abaixo de 5
A restrição da contagem esperada
O qui-quadrado supõe que cada célula tem contagem esperada de 5 ou mais. Quando muitas caem abaixo:
- Trocar pelo teste exato de Fisher (melhor para tabelas esparsas)
- Colapsar células (agrupar "20s/30s", "40s/50s", "60+" em vez de bandas finas)
- Aumentar amostra
Field (2018) Discovering Statistics nota que a confiabilidade do teste degrada de forma mensurável quando mais de 20% das células têm contagem esperada abaixo de 5.
5. Significância vs. tamanho de efeito — por que p < 0,05 sozinho não basta
N grande torna diferenças minúsculas "significativas"
A maior cilada do qui-quadrado. Com amostras grandes, mesmo diferenças praticamente irrelevantes saem estatisticamente significativas.
Exemplo: a N=10.000, "homens 50% / mulheres 51% intenção de compra" pode dar p < 0,001. Essa lacuna de 1 ponto é acionável para decisões de negócio? Quase nunca.
A declaração da ASA sobre p-valores
Wasserstein & Lazar (2016) The ASA Statement on p-Values: Context, Process, and Purpose — a posição oficial da American Statistical Association de que p-valores sozinhos não devem dirigir conclusões. A interpretação requer:
- Tamanho de efeito
- Intervalos de confiança
- Significância substantiva
Os três juntos, ao lado do p-valor.
O que o tamanho de efeito diz
Uma medida estatística de "quão grande é a diferença". Comuns para cruzadas:
- V de Cramér — força global de associação numa tabela de contingência (0–1; 0,1 fraca, 0,3 média, 0,5 forte)
- d de Cohen — diferença padronizada de médias entre dois grupos (variáveis contínuas; 0,2 pequeno, 0,5 médio, 0,8 grande)
- Razão de chances / razão de risco — efeito grupo-a-grupo em tabelas 2×2
Sullivan & Feinn (2012) Using Effect Size — or Why the P Value Is Not Enough recomenda sempre reportar p-valor e tamanho de efeito juntos em papers e relatórios.
Uma matriz prática de decisão
| p-valor | Tamanho de efeito | Interpretação |
|---|---|---|
| p < 0,05 | Grande | Diferença relevante — agir |
| p < 0,05 | Pequeno | Significativa estatisticamente mas fraca substantivamente — interpretar com cautela |
| p ≥ 0,05 | Grande | Possivelmente subdimensionado — aumentar N ou argumentar pelo tamanho de efeito |
| p ≥ 0,05 | Pequeno | Sem diferença real — reportar como nulo |
6. Visão editorial — cinco obstáculos que sempre vigiamos
Da literatura e da prática, as cinco coisas que defenderíamos com força.
1. Sobre-leitura de células com N baixo. Quando uma célula de cruzada cai abaixo de n≈30, os percentuais oscilam. Antes de escrever "90% das mulheres em 20s estão satisfeitas", sempre verifique o n da célula. A N=10, um respondente move o % em 10 pontos — a credibilidade interpretativa é essencialmente zero.
2. A armadilha das comparações múltiplas. "Rodar um monte de cruzadas, reportar só as significativas" é estruturalmente p-hacking. 5 testes aleatórios darão confiavelmente 1 com p < 0,05 por acaso. Aumente o número de comparações e os falsos positivos escalam junto. Pré-registre as hipóteses a testar antes de abrir os dados.
3. Concluir só de p < 0,05. A cilada mais comum no campo. Sempre pareie o p-valor com um tamanho de efeito. Um relatório que só diz "p < 0,05, diferença significativa" fez metade do trabalho estatístico. Sullivan & Feinn (2012) vale circular para executivos para que a conversa migre para "quão grande é a diferença".
4. Confundir correlação com causalidade. "Usuários do serviço têm satisfação maior" numa cruzada não justifica "usar o serviço aumenta a satisfação". Cruzadas mostram correlação, não causalidade. Afirmações causais precisam de designs experimentais (testes A/B, quase-experimentos).
5. Cherry-picking do eixo de cruzamento. Por qual eixo você cruza remodela "o que os dados mostram". Escreva um plano de análise antes e trave os eixos. Caçar eixos "interessantes" depois enviesa conclusões para o que é narrativamente conveniente.
7. Operações de agregação na ferramenta de pesquisa Kicue
A Kicue traz as fundações de agregação de série.
GT e cruzada
Agregação GT mostra resumos univariados para cada pergunta numa única tela, com tabelas conscientes do tipo de pergunta (SA / MA / matriz / escala).
Tabulação cruzada gera cruzadas de 2 eixos em tempo real. Toggle linha % / coluna % em um clique, então você lê a tabela do jeito certo para sua pergunta.
Parâmetros de URL como eixos de cruzamento
Os parâmetros de URL — referrer, ID de campanha, ID de cliente — são utilizáveis como eixos de cruzamento. Análises tipo "satisfação email vs. SNS" funcionam sem implementação extra.
Export de dados brutos para teste de significância
Cálculos de qui-quadrado e tamanho de efeito não rodam dentro da Kicue. O padrão é usar o export de dados brutos (CSV / Excel) para empurrar dados para R / Python / SPSS e rodar chisq.test() e cramersV() lá.
Combinar com filtragem de fraude
Ative "Excluir respostas flagueadas" na visão analítica, com a gestão de flags confirmando seus casos de fraude — te dá limpeza → agregação → teste como um único fluxo dentro da ferramenta.
Escolher a ferramenta certa — Os limites do plano gratuito, suporte a ramificação, capacidades IA e exportação CSV variam muito entre ferramentas. Confira nosso comparativo de ferramentas de pesquisa gratuitas para encontrar a ideal para esta abordagem.
Resumo
Checklist de agregação e teste de significância:
- Agregação e teste são passos separados — nunca conclua só pela tabela.
- GT (geral) vs. cruzada (segmentos) — adapte a agregação à pergunta.
- Cinco padrões de cruzada — demográfico, temporal, grupo, três vias, filtrado.
- Qui-quadrado para testar diferenças. Vigie a restrição de contagem esperada ≥5.
- Não conclua só do p-valor — sempre reporte tamanho de efeito (V de Cramér, d de Cohen). Ver ASA Statement (2016).
- Cinco obstáculos — sobre-leitura de N baixo, comparações múltiplas, reporte só de p, confusão correlação/causalidade, cherry-picking de eixos.
- Kicue cobre GT e cruzada nativamente; testes de significância acontecem em R / Python após export.
Agregação organiza os números; o teste pergunta se eles significam algo. Rode os dois, e só então os resultados de pesquisa viram material de decisão. A série de quatro partes sobre qualidade de perguntas (redação → piloto → limpeza → agregação/análise) fecha aqui.
Referências
Acadêmicas e metodológicas
- Agresti, A. (2018). Statistical Methods for the Social Sciences (5ª ed.). Pearson.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5ª ed.). SAGE.
- Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2ª ed.). Routledge.
- Wasserstein, R. L., & Lazar, N. A. (2016). A declaração da ASA sobre p-valores: contexto, processo e propósito. The American Statistician, 70(2), 129–133.
- Sullivan, G. M., & Feinn, R. (2012). Usar tamanho de efeito — ou por que o p-valor não basta. Journal of Graduate Medical Education, 4(3), 279–282.
Órgãos de padronização e centros metodológicos
- AAPOR (American Association for Public Opinion Research): Standard Definitions.
- Pew Research Center: Our Survey Methodology in Detail.
Guias do setor (como observação prática)
- Qualtrics: Cross Tabulation Analysis Guide.
- SurveyMonkey: How to Use Statistical Significance in Surveys.
Quer levar a agregação até o teste de significância em um único fluxo? Experimente Kicue — uma ferramenta de pesquisa online gratuita. GT e cruzada, análise por segmento via parâmetros de URL e export de dados brutos vêm de fábrica — Kicue cuida da agregação, R / Python cuidam dos testes.
