How-to

Agregação e teste de significância em pesquisas — tabulação cruzada, qui-quadrado e tamanho de efeito bem usados

A qualidade da análise se decide no que se compara e em como se julgam as diferenças. Este guia cobre o uso correto da tabulação cruzada, o fluxo do teste qui-quadrado, por que p-valores sozinhos não bastam e os obstáculos de campo — fundamentado na literatura acadêmica.

"Satisfação dos homens 75%, mulheres 80% — as mulheres estão mais satisfeitas" entra no relatório, e um revisor sênior pergunta: "Essa diferença é realmente significativa?" Todo mundo passa por esse momento. Ler os números numa tabela de agregação e julgar se a diferença é relevante são dois trabalhos diferentes. O primeiro qualquer um faz; o segundo é um ofício à parte que surpreendentemente poucos pesquisadores de campo executam de forma limpa.

Este texto percorre por que agregação e teste de significância devem ser tratados como passos separados, quando usar agregação GT (univariada) ou tabulação cruzada, os cinco padrões de cruzada que aparecem na prática, o fluxo do teste qui-quadrado, por que p-valores sozinhos não bastam (e o que tamanhos de efeito agregam), e os obstáculos editoriais que sempre verificamos. Como quarta parte da série de qualidade de perguntas (redaçãopilotolimpeza), cobre o arco "projetar → verificar → preparar → analisar".

1. Por que agregação e teste de significância são passos separados

"Parece uma diferença" vs. "é uma diferença"

Detectar "Homens 75% / Mulheres 80%" numa cruzada e concluir "tem uma diferença" é prematuro. Com amostra pequena essa lacuna de 5 pontos cabe no ruído de amostragem; com amostra grande é confiavelmente significativa. Mesmos números, conclusões opostas dependendo de N.

Agresti (2018) Statistical Methods for the Social Sciences coloca isso como base da análise de pesquisa em ciências sociais: sempre verificar primeiro se a diferença observada cabe no erro amostral. Ler a tabela sem essa verificação equivale estatisticamente a declarar um resultado aleatório.

Dividindo o trabalho

PassoO que fazSaída
AgregaçãoOrganizar os números (GT, cruzada)Tabelas, gráficos
Teste de significânciaJulgar se a diferença é aleatóriap-valor, tamanho de efeito
InterpretaçãoTraduzir resultados estatísticos em decisõesRelatório, recomendações

Concluir só pela agregação é como diagnosticar insolação sem termômetro porque "parece quente hoje". O passo de teste é obrigatório.

2. GT vs. tabulação cruzada

Agregação GT (univariada, Grand Total)

A mais básica — para cada pergunta, quantos respondentes escolheram cada opção.

  • Propósito: capturar tendências gerais
  • Quando: seções "panorama" de relatórios, checagem de distribuição por pergunta
  • Limite: não mostra diferenças entre segmentos

Tabulação cruzada

Cruza duas perguntas (ou atributos) para mostrar padrões a nível de segmento.

  • Propósito: comparar entre atributos ou grupos
  • Quando: "gênero × satisfação", "faixa etária × intenção de compra" etc.
  • Limite: máximo 2 eixos (3+ fica difícil de interpretar sem ferramentas externas)

Como escolher

Pergunta a responderAgregação recomendada
"Qual o resultado geral?"GT
"Há diferenças entre segmentos?"Cruzada
"Qual o resultado nesse subconjunto?"GT filtrada
"Efeitos combinados de vários atributos?"Cruzada de três vias ou multivariada (externa)

3. Cinco padrões de tabulação cruzada para conhecer

O trabalho prático de cruzada se reparte em cerca de cinco padrões.

Padrão 1: Comparação demográfica

"Gênero × satisfação", "idade × intenção de compra" — segmentação por atributos demográficos. O padrão mais frequente disparado.

Padrão 2: Comparação temporal

Comparar a mesma pergunta entre pontos no tempo (2025 vs. 2026). O pão e a manteiga dos estudos de tracking.

Padrão 3: Comparação de grupos (experimento vs. controle)

Testes A/B ou comparações antes/depois olhando "condição × resultado". Como o impacto de marketing é medido.

Padrão 4: Cruzada de três vias

"Gênero × idade × satisfação" — três eixos. Células ficam finas rápido; recomendado só a partir de N=300.

Padrão 5: GT filtrada (condicional)

GT após filtragem ("só respondentes que compraram o produto X", "só usuários com 6+ meses de tempo"). Frequentemente uma alternativa mais limpa às cruzadas.

Linha % vs. coluna %

Cruzadas oferecem duas visões percentuais:

  • Linha % — cada linha soma 100% (ex.: distribuição da satisfação dentro de "homens")
  • Coluna % — cada coluna soma 100% (ex.: divisão por gênero entre "muito satisfeitos")

Escolha a que casa com sua pergunta. A mesma tabela pode inverter sua conclusão se você ler do lado errado.

4. O fluxo do teste qui-quadrado

O teste padrão para "essas diferenças entre segmentos são aleatórias ou significativas" numa cruzada é o teste qui-quadrado de independência.

O básico

  • Hipótese nula (H0): as duas variáveis são independentes (sem relação)
  • Hipótese alternativa (H1): as duas variáveis estão relacionadas (há relação)
  • Decisão: rejeitar H0 quando o p-valor cai abaixo do nível de significância pré-estabelecido (tipicamente 0,05)

Fluxo de campo

  1. Construir a cruzada (ex.: gênero × satisfação)
  2. Rodar qui-quadrado em R / Python / SPSS / Excel
  3. Verificar p-valor e tamanho de efeito (V de Cramér)
  4. Confirmar que nenhuma célula tem contagem esperada abaixo de 5

A restrição da contagem esperada

O qui-quadrado supõe que cada célula tem contagem esperada de 5 ou mais. Quando muitas caem abaixo:

  • Trocar pelo teste exato de Fisher (melhor para tabelas esparsas)
  • Colapsar células (agrupar "20s/30s", "40s/50s", "60+" em vez de bandas finas)
  • Aumentar amostra

Field (2018) Discovering Statistics nota que a confiabilidade do teste degrada de forma mensurável quando mais de 20% das células têm contagem esperada abaixo de 5.

5. Significância vs. tamanho de efeito — por que p < 0,05 sozinho não basta

N grande torna diferenças minúsculas "significativas"

A maior cilada do qui-quadrado. Com amostras grandes, mesmo diferenças praticamente irrelevantes saem estatisticamente significativas.

Exemplo: a N=10.000, "homens 50% / mulheres 51% intenção de compra" pode dar p < 0,001. Essa lacuna de 1 ponto é acionável para decisões de negócio? Quase nunca.

A declaração da ASA sobre p-valores

Wasserstein & Lazar (2016) The ASA Statement on p-Values: Context, Process, and Purpose — a posição oficial da American Statistical Association de que p-valores sozinhos não devem dirigir conclusões. A interpretação requer:

  • Tamanho de efeito
  • Intervalos de confiança
  • Significância substantiva

Os três juntos, ao lado do p-valor.

O que o tamanho de efeito diz

Uma medida estatística de "quão grande é a diferença". Comuns para cruzadas:

  • V de Cramér — força global de associação numa tabela de contingência (0–1; 0,1 fraca, 0,3 média, 0,5 forte)
  • d de Cohen — diferença padronizada de médias entre dois grupos (variáveis contínuas; 0,2 pequeno, 0,5 médio, 0,8 grande)
  • Razão de chances / razão de risco — efeito grupo-a-grupo em tabelas 2×2

Sullivan & Feinn (2012) Using Effect Size — or Why the P Value Is Not Enough recomenda sempre reportar p-valor e tamanho de efeito juntos em papers e relatórios.

Uma matriz prática de decisão

p-valorTamanho de efeitoInterpretação
p < 0,05GrandeDiferença relevante — agir
p < 0,05PequenoSignificativa estatisticamente mas fraca substantivamente — interpretar com cautela
p ≥ 0,05GrandePossivelmente subdimensionado — aumentar N ou argumentar pelo tamanho de efeito
p ≥ 0,05PequenoSem diferença real — reportar como nulo

6. Visão editorial — cinco obstáculos que sempre vigiamos

Da literatura e da prática, as cinco coisas que defenderíamos com força.

1. Sobre-leitura de células com N baixo. Quando uma célula de cruzada cai abaixo de n≈30, os percentuais oscilam. Antes de escrever "90% das mulheres em 20s estão satisfeitas", sempre verifique o n da célula. A N=10, um respondente move o % em 10 pontos — a credibilidade interpretativa é essencialmente zero.

2. A armadilha das comparações múltiplas. "Rodar um monte de cruzadas, reportar só as significativas" é estruturalmente p-hacking. 5 testes aleatórios darão confiavelmente 1 com p < 0,05 por acaso. Aumente o número de comparações e os falsos positivos escalam junto. Pré-registre as hipóteses a testar antes de abrir os dados.

3. Concluir só de p < 0,05. A cilada mais comum no campo. Sempre pareie o p-valor com um tamanho de efeito. Um relatório que só diz "p < 0,05, diferença significativa" fez metade do trabalho estatístico. Sullivan & Feinn (2012) vale circular para executivos para que a conversa migre para "quão grande é a diferença".

4. Confundir correlação com causalidade. "Usuários do serviço têm satisfação maior" numa cruzada não justifica "usar o serviço aumenta a satisfação". Cruzadas mostram correlação, não causalidade. Afirmações causais precisam de designs experimentais (testes A/B, quase-experimentos).

5. Cherry-picking do eixo de cruzamento. Por qual eixo você cruza remodela "o que os dados mostram". Escreva um plano de análise antes e trave os eixos. Caçar eixos "interessantes" depois enviesa conclusões para o que é narrativamente conveniente.

7. Operações de agregação na ferramenta de pesquisa Kicue

A Kicue traz as fundações de agregação de série.

GT e cruzada

Agregação GT mostra resumos univariados para cada pergunta numa única tela, com tabelas conscientes do tipo de pergunta (SA / MA / matriz / escala).

Tabulação cruzada gera cruzadas de 2 eixos em tempo real. Toggle linha % / coluna % em um clique, então você lê a tabela do jeito certo para sua pergunta.

Parâmetros de URL como eixos de cruzamento

Os parâmetros de URL — referrer, ID de campanha, ID de cliente — são utilizáveis como eixos de cruzamento. Análises tipo "satisfação email vs. SNS" funcionam sem implementação extra.

Export de dados brutos para teste de significância

Cálculos de qui-quadrado e tamanho de efeito não rodam dentro da Kicue. O padrão é usar o export de dados brutos (CSV / Excel) para empurrar dados para R / Python / SPSS e rodar chisq.test() e cramersV() lá.

Combinar com filtragem de fraude

Ative "Excluir respostas flagueadas" na visão analítica, com a gestão de flags confirmando seus casos de fraude — te dá limpeza → agregação → teste como um único fluxo dentro da ferramenta.

Escolher a ferramenta certa — Os limites do plano gratuito, suporte a ramificação, capacidades IA e exportação CSV variam muito entre ferramentas. Confira nosso comparativo de ferramentas de pesquisa gratuitas para encontrar a ideal para esta abordagem.

Resumo

Checklist de agregação e teste de significância:

  1. Agregação e teste são passos separados — nunca conclua só pela tabela.
  2. GT (geral) vs. cruzada (segmentos) — adapte a agregação à pergunta.
  3. Cinco padrões de cruzada — demográfico, temporal, grupo, três vias, filtrado.
  4. Qui-quadrado para testar diferenças. Vigie a restrição de contagem esperada ≥5.
  5. Não conclua só do p-valor — sempre reporte tamanho de efeito (V de Cramér, d de Cohen). Ver ASA Statement (2016).
  6. Cinco obstáculos — sobre-leitura de N baixo, comparações múltiplas, reporte só de p, confusão correlação/causalidade, cherry-picking de eixos.
  7. Kicue cobre GT e cruzada nativamente; testes de significância acontecem em R / Python após export.

Agregação organiza os números; o teste pergunta se eles significam algo. Rode os dois, e só então os resultados de pesquisa viram material de decisão. A série de quatro partes sobre qualidade de perguntas (redação → piloto → limpeza → agregação/análise) fecha aqui.


Referências

Acadêmicas e metodológicas

Órgãos de padronização e centros metodológicos

Guias do setor (como observação prática)


Quer levar a agregação até o teste de significância em um único fluxo? Experimente Kicue — uma ferramenta de pesquisa online gratuita. GT e cruzada, análise por segmento via parâmetros de URL e export de dados brutos vêm de fábrica — Kicue cuida da agregação, R / Python cuidam dos testes.

Artigos relacionados

Pronto para criar sua própria pesquisa?

Envie seu arquivo de questionário e a IA gera um formulário web em 30 segundos.

Começar grátis