アンケート集計と有意差判定 — クロス集計・カイ二乗検定・効果量の使い方

「男性の満足度が 75%、女性が 80% — 女性の方が満足度が高い」と報告書に書いた瞬間、上司から「それ、本当に有意な差？」と聞かれて固まった。誰もが一度は通る経験です。集計の数字を読むことと、その差が意味のある差かを判定することは別の作業 です。前者は誰でもできても、後者を正しくやれる現場リサーチャーは意外と少ない。

本稿では、集計と有意差判定をなぜ分けて考える必要があるか、GT集計とクロス集計の使い分け、クロス集計で見るべき5パターン、カイ二乗検定の実務、p値と効果量の違い、そして編集部が必ず見る落とし穴を整理します。設問品質シリーズ（wording → pilot → cleaning）の続編として、「設計 → 検証 → 分析準備 → 実分析」の4部目に位置づけてください。

1. なぜ「集計」と「有意差判定」を分けて考える必要があるか

「差があるように見える」と「差がある」の違い

集計表で「男性 75% / 女性 80%」を見たとき、5 ポイントの差を「差がある」と判断するのは早計です。サンプルサイズが小さければこの差はランダムなばらつきの範囲内、大きければ統計的に有意——同じ数字でも結論は変わります。

Agresti (2018) Statistical Methods for the Social Sciences は、社会科学の調査データ分析の出発点として 「観察された差はサンプリング誤差の範囲内かどうか」を必ず確認する ことを推奨しています。集計表を「読む」だけで判断するのは、統計的にはランダム結果と同じ を断定するのに等しい。

集計と判定の役割分担

工程	何をする	出力
集計	数字を整理する（GT・クロス）	表・グラフ
有意差判定	差がランダムかどうかを判定	p 値・効果量
解釈	統計結果を意思決定に翻訳	レポート・推奨アクション

集計だけで結論を出すのは、温度計を見ずに「今日は暑いから熱中症だ」と診断する ようなもの。判定の工程を必ず挟む。

2. GT集計とクロス集計の使い分け

GT集計（単純集計、Grand Total）

各設問について「どの選択肢が何件選ばれたか」を見る最も基本の集計。

目的: 全体傾向の把握
使い所: 報告書冒頭の「全体像」、設問ごとの分布確認
限界: 属性間の差が見えない

クロス集計

2 つの設問（または属性）を掛け合わせ、セグメント別の傾向を見る。

目的: 属性別・群別の比較
使い所: 「性別 × 満足度」「年代 × 購入意向」など
限界: 2 軸まで（3 軸以上は解釈が困難）

使い分けの判断軸

質問のタイプ	推奨集計
「全体としてどんな結果か」	GT集計
「セグメント間で差があるか」	クロス集計
「特定の条件下での結果は」	フィルタ後の GT集計
「複数属性が組み合わさった効果は」	三重クロスまたは多変量分析（外部処理）

3. クロス集計で見るべき 5 パターン

実務でクロス集計を活用する場面は概ね 5 つに分類できます。

パターン1: 属性別比較

「性別 × 満足度」「年代 × 購入意向」など、人口統計属性で群分け。最も頻出するクロス集計。

パターン2: 時系列比較

調査時点（2025 年 vs 2026 年）で同じ設問の分布を比較。トラッキング調査の基本。

パターン3: 群間比較（実験・対照）

A/B テストや前後比較で「条件 × 結果」を見る。マーケティング施策の効果測定。

パターン4: 三重クロス

「性別 × 年代 × 満足度」のように 3 軸で見る。セルが薄くなりやすいので N=300 以上推奨。

パターン5: 条件付き集計（フィルタ後の GT）

「製品 X を購入した人だけ」「サービス利用 6 ヶ月以上の人だけ」のような条件で絞った後の集計。クロス集計の代わりに使える場合が多い。

行パーセント vs 列パーセント

クロス表では 2 種類のパーセントを切り替えられます:

行パーセント — 各行の合計を 100% とした内訳（例: 男性の中での満足度分布）
列パーセント — 各列の合計を 100% とした内訳（例: 「満足」と答えた人の男女内訳）

目的に合った方を選ぶ こと。誤った方を見ると同じ表でも逆の結論になります。

4. カイ二乗検定の実務 — 有意差をどう判定するか

クロス集計で属性間の差が「ランダムか有意か」を判定する標準的な手法が カイ二乗検定（Chi-square test of independence）。

カイ二乗検定の基本

帰無仮説（H0）: 2 変数は独立している（差はない）
対立仮説（H1）: 2 変数は関連している（差がある）
判定: p 値が事前に決めた有意水準（通常 0.05）未満なら H0 を棄却

実務での流れ

クロス表を作成（例: 性別 × 満足度）
R / Python / SPSS / Excel でカイ二乗検定を実行
p 値と効果量（Cramér's V）を確認
期待度数が 5 未満のセルがないか確認

期待度数の制約

カイ二乗検定は各セルの 期待度数が 5 以上 を前提にしています。これを下回るセルが多い場合は:

Fisher の正確検定 に切り替える（少数セル向け）
セルを統合する（年代を「20〜30代 / 40〜50代 / 60代以上」のように粗く）
サンプルを増やす

Field (2018) Discovering Statistics も、期待度数 5 未満のセルが全体の 20% を超えると検定結果の信頼性が落ちると指摘しています。

5. 有意差と効果量の違い — p < 0.05 だけでは不十分

N が大きいと小さい差でも「有意」になる

カイ二乗検定の最大の落とし穴。サンプルサイズが大きいと、実用上意味のない小さな差でも統計的に有意になる。

例: N=10,000 で「男性の購入意向 50% / 女性 51%」でも、p < 0.001 で「有意差あり」と出ることがある。この 1 ポイント差にビジネス意思決定の価値はあるか? ほぼない。

ASA Statement on p-Values

Wasserstein & Lazar (2016) The ASA Statement on p-Values: Context, Process, and Purpose は、米国統計学会が「p 値だけで結論を出してはいけない」と公式に表明した重要な文書です。p 値の解釈には:

効果量（effect size）
信頼区間
実質的意義

を併せて評価することが必須とされています。

効果量とは

「差がどれくらい大きいか」を統計的に表す指標。クロス集計でよく使われるのは:

Cramér's V — クロス表全体の関連強度（0〜1、0.1=弱、0.3=中、0.5=強）
Cohen's d — 2 群の平均値差（連続変数向け、0.2=小、0.5=中、0.8=大）
オッズ比 / リスク比 — 2x2 表での群間効果

Sullivan & Feinn (2012) Using Effect Size — or Why the P Value Is Not Enough は、論文や報告書で p 値と効果量を必ず併記する ことを推奨しています。

実務的な判断軸

p 値	効果量	解釈
p < 0.05	大	意味のある差 — アクションを取る
p < 0.05	小	統計的には有意だが実質意義は弱い — 慎重に解釈
p ≥ 0.05	大	サンプル不足の可能性 — N を増やすか効果量で議論
p ≥ 0.05	小	差はない — そのまま結論

6. 編集部の視点 — 5つの落とし穴

業界文献と現場運用を踏まえ、編集部が必ず警戒する 5 項目。

1. 少数セルでの過剰解釈。 クロス表でセルの n が 30 未満になると、その % は大きく揺れます。「20代女性で 90% が満足」と書く前に、そのセルの n が何件か を必ず確認する。N=10 なら 1 人増減で 10 ポイント動くので、解釈の信頼度はゼロに近い。

2. 多重比較の罠。 「複数のクロスを試して、有意差が出たものだけ報告する」は事実上の p-hacking。5 回試して 1 回 p < 0.05 が出る のは確率的に普通の現象。試行回数が増えると偽陽性も増えるので、事前に検定する仮説を絞り込む のが鉄則。

3. p < 0.05 だけで結論を出す。 これが現場で最頻発の問題。効果量を必ず併記する こと。p < 0.05 で「有意差あり」とだけ書いた報告書は、統計学的に半分しか仕事をしていない。Sullivan & Feinn (2012) を経営層と共有して、「差の大きさ」を議論する文化を作る。

4. 相関と因果の混同。 「サービス利用者は満足度が高い」というクロス集計結果から「サービスを利用すれば満足度が上がる」と結論するのは因果推論の誤用。クロス集計はあくまで相関 で、因果関係を主張するには A/B テスト等の実験設計が必要。

5. クロス軸の選び方の偏り。 クロス集計で何を軸にするかで「見える結論」が変わります。事前に分析計画書を書き、軸を決めておく のが堅実。後から「面白い軸」を探すと、自分にとって都合のよい結論を導きやすくなります。

7. アンケートツール Kicue での集計運用

Kicue では、集計と分析の基盤機能が標準で揃っています。

GT集計とクロス集計

GT集計は全設問の単純集計を一画面で確認できます。設問タイプ（SA / MA / マトリクス / スケール）ごとに最適な集計表が自動生成されます。

クロス集計は 2 軸の組み合わせをリアルタイム生成。行パーセント / 列パーセントの切り替え がワンクリックでできるので、目的に応じた読み方が可能です。

URL パラメータをクロス軸に

URL パラメータで取得した流入元・キャンペーン ID・顧客 ID もクロス集計の軸として利用できます。「メール経由 vs SNS経由の満足度比較」のような分析が、追加実装なしで可能です。

ローデータエクスポートで有意差検定

カイ二乗検定や効果量計算は Kicue 内では実行できません。ローデータエクスポート（CSV / Excel） を使って R / Python / SPSS に渡し、chisq.test() や cramersV() で検定を実行する運用が標準です。

不正除外と組み合わせる

集計画面の「不正回答を除外」トグルを ON にして、フラグ管理で confirmed 状態の不正回答を除外した上で集計するのが基本フロー。データクリーニング → 集計 → 検定の一貫した流れを 1 つのフォーム内で完結できます。

実装ツールの選び方

集計後の検定 / 多変量解析を R / Python / SPSS に渡す運用 では、ローデータ CSV エクスポート対応が必須。SurveyMonkey や Questant の無料プランは CSV エクスポート不可で、この運用が回せません。各ツールのデータエクスポート対応状況は無料アンケートツール 8 選比較で整理しています。

まとめ

集計と有意差判定のチェックリスト:

集計と有意差判定は別の工程 — 数字を見ただけで結論を出さない。
GT集計（全体）とクロス集計（セグメント比較）の使い分け — 質問のタイプに合わせて選ぶ。
クロス集計の 5 パターン — 属性別 / 時系列 / 群間 / 三重 / 条件付き。
カイ二乗検定 で差の有意性を判定。期待度数 5 未満 のセルに注意。
p 値だけで結論を出さない — 必ず効果量（Cramér's V、Cohen's d）を併記。ASA Statement (2016) 参照。
5 つの落とし穴 — 少数セル過剰解釈 / 多重比較 / p 値偏重 / 相関因果混同 / 軸選びの恣意性。
Kicue は GT・クロス集計を標準搭載、有意差検定は R / Python で外部処理。

集計は「数字を整える」工程、有意差判定は「その数字に意味があるかを問う」工程。両方を回せて初めて、調査データが意思決定の材料になる。設問品質シリーズの 4 部作（wording → pilot → cleaning → 集計・分析）はこれで完結します。

参考文献 (9件)

学術・方法論

Agresti, A. (2018). Statistical Methods for the Social Sciences (5th ed.). Pearson.
Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5th ed.). SAGE.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Routledge.
Wasserstein, R. L., & Lazar, N. A. (2016). p 値に関する米国統計学会の声明 — 文脈・プロセス・目的. The American Statistician, 70(2), 129–133.
Sullivan, G. M., & Feinn, R. (2012). 効果量を使う — なぜ p 値だけでは不十分か. Journal of Graduate Medical Education, 4(3), 279–282.

標準化団体・方法論センター

業界ガイド（業界観察として参照）

集計から有意差判定までを一気通貫で運用したい方は、無料のアンケートツール Kicue を試してみませんか。GT 集計・クロス集計・URL パラメータでのセグメント分析・ローデータエクスポートが標準搭載で、Kicue 側の集計から R / Python での検定までシームレスに接続できます。