リッカート尺度の設計ガイド — 5段階・7段階・9段階の使い分けと中央値の扱い

「とても満足〜とても不満」の 5 段階評価は、業界用語では リッカート尺度（Likert scale） と呼ばれる、1932 年に考案された測定法です。CSAT、NPS、CES、ブランド評価、エンゲージメントサーベイ——現代の Web アンケートで使われる評価設問のほぼ全てがリッカート尺度の派生 で、にもかかわらず 「5 段階か 7 段階か」「中央値を入れるか」 という基本論点ですら、実務の現場では場当たり的に決められがちです。

この記事では、リッカート尺度の 本質・段階数選択の学術的根拠・中央値（中立）の扱い・ラベル設計の落とし穴・データ分析時の論争 までを整理します。「何となく 5 段階」で走らせている調査が、実は段階数を変えるだけで結論が変わる ケースは珍しくありません。

1. リッカート尺度とは何か

リッカート尺度（Likert scale）は、「ある対象への態度・評価を、複数段階の選択肢から選ばせる」 測定法です。1932 年、米国の社会心理学者 Rensis Likert が博士論文 A Technique for the Measurement of Attitudes で提唱しました。

典型的な形式

Q. 当社サービスの総合満足度を教えてください
   1. とても不満
   2. やや不満
   3. どちらとも言えない
   4. やや満足
   5. とても満足

このように 「両極を否定〜肯定で配置し、間に段階を置く」 のがリッカート尺度の基本構造です。Web アンケートでよく使われる派生形には:

NPS（0〜10 の 11 段階） — Reichheld (2003) が提唱、推奨意向の測定
5 段階満足度（CSAT） — カスタマーサポート評価の標準
7 段階セマンティック・ディファレンシャル（SD） — 「明るい〜暗い」のような両極形容詞対
スライダー（連続値） — 0〜100 の連続スケール

リッカート尺度の構成要素

設計上の判断ポイントは 4 つに分解できます:

段階数 — 5 / 7 / 9 / 11 段階のどれか
中央値の有無 — 「どちらとも言えない」を入れるか
ラベル — 「とても満足」「やや満足」のような言語ラベルを全段階に付けるか、両端だけか
方向 — 「不満→満足」か「満足→不満」か（左右どちら向きか）

各論点に学術的な議論の蓄積があります。

2. なぜ「段階数」がこれほど揉めるか

リッカート尺度の段階数論争は、測定の信頼性（reliability）と妥当性（validity）、そして回答負担のトレードオフ から生じます。

段階数を増やすメリット

識別力（discrimination）が上がる — 「やや満足」と「とても満足」の差を取れる
統計的な情報量が増える — 平均値・標準偏差の計算で粒度が出る
天井効果・床効果を緩和 — 5 段階だと全員「とても満足」に張り付く現象（天井効果）を 7 段階以上に分散できる

段階数を増やすデメリット

認知負荷が上がる — 「やや満足」と「ある程度満足」の差を判断する負担
回答時間が伸びる — マトリクスで段階が多いと表示も縦に長くなる
段階間の意味のあいまい化 — 9 段階以上では中央寄りの段階が回答者に区別しづらい
データの再現性が落ちる — 同じ人が同じ質問に答えても、段階数が多いほど回答がバラつく

Cox (1980) "The Optimal Number of Response Alternatives for a Scale" が 「最適な段階数は 5〜9 の範囲」 と結論づけて以来、これが業界の通説になっています。

3. 5 段階 vs 7 段階 vs 9 段階 — 学術的な決着

主要研究の結論

研究	推奨段階数	主な根拠
Likert (1932) 原典	5 段階	5 段階で十分な識別力を確保、回答負担が最小
Cox (1980)	5〜9 段階	9 を超えると識別力の上昇が認知負荷を上回らない
Krosnick & Fabrigar (1997)	7 段階	信頼性と妥当性の両立で最適
Preston & Colman (2000)	7〜10 段階	信頼性は 7 段階以上で安定
Lozano, García-Cueto & Muñiz (2008)	4〜7 段階	4 段階以下では妥当性が低下、7 段階で頭打ち
Norman (2010)	5 または 7 段階	パラメトリック分析を行うなら 5 段階以上で十分

学術的には 5〜7 段階が「安全圏」 で、9 段階以上は識別力の上昇より認知負荷の悪化が勝ち始める というのが共通見解です。

用途別の標準

実務では用途ごとに段階数の慣習があります:

用途	標準的な段階数	理由
CSAT（顧客満足度）	5 段階	結果が直感的（5 点満点が伝わりやすい）
NPS	11 段階（0〜10）	Reichheld の方法論に固定
CES	5 または 7 段階	Dixon et al. の元論文では 5 段階
ブランド評価	7 段階	細かい違いを取りたい
エンゲージメント	5 段階	Gallup Q12 などの標準
学術調査	7 段階	信頼性係数（Cronbach's α）が安定

9 段階・11 段階を使う特殊ケース

NPS の 11 段階 — 0〜10 という具体的な数字を出すことで「人に推薦したくなる強さ」を区別できると Reichheld が主張。学術的には「11 段階の合理性」より「11 段階で運用するという業界慣習」の側面が強い
9 段階 — 学会論文・大規模パネル調査での識別力重視の場合に使われる。一般の Web アンケートではあまり推奨されない

「迷ったら 5 段階か 7 段階」 が、業界記事と学術研究の総合的な推奨です。

4. リッカート尺度に中央値（中立選択肢）は入れるべきか

「どちらとも言えない」「中立」という中央値（midpoint）を入れるかどうかは、段階数の論争と同じくらい重要な分岐点 です。

中央値を入れる（奇数段階）

メリット: 「本当に中立な回答者」が無理に肯定/否定を選ばずに済む。回答負担を軽減
デメリット: 「答えたくない」人の逃げ場 になり、satisficing が増える可能性

中央値を入れない（偶数段階）

メリット: 回答者に 態度を表明させる強制力 がある。「なんとなく中立」を排除できる
デメリット: 本当に中立な人を 無理に肯定/否定に振り分ける ことで、データを歪める

学術研究の見解

Krosnick & Fabrigar (1997) は、「中央値は基本的に入れるべき」 と結論づけています。理由は:

真に中立な回答者は存在する — 知らない / 関心がない / 経験がない場合
強制選択は測定誤差を増やす — 「なんとなく」で肯定/否定を選ばせるとノイズが増える
中央値の存在で satisficing が増える証拠は弱い — 段階数が適切なら影響は小さい

ただし、「ニュートラル回答が異常に多い場合は設問設計の問題」 であり、中央値を消すのではなく 設問文を見直すべき というのが実務の鉄則です。

5. ラベル設計の落とし穴

リッカート尺度の 「言葉のラベル」 をどう付けるかも、データ品質に直結します。

全ラベル化 vs 両端ラベル化

全ラベル化:

1. とても不満 / 2. やや不満 / 3. どちらとも言えない / 4. やや満足 / 5. とても満足

両端ラベル化:

1（とても不満）— 2 — 3 — 4 — 5（とても満足）

学術的には Krosnick & Berent (1993) で、全ラベル化の方が信頼性・妥当性が高い と示されています。理由は、回答者が 数字だけでは段階の意味を解釈できない から。全段階に言葉を付けるのが原則 です。

ラベルの「等間隔性」

「とても満足 / やや満足 / どちらとも言えない / やや不満 / とても不満」を 5 段階を等間隔と仮定 して平均値を出すケースが多いですが、本当にそうか？

Tourangeau, Rips & Rasinski (2000) は、「とても満足」と「やや満足」の心理的距離は、「やや満足」と「どちらとも言えない」の距離と等しいとは限らない と指摘しています。これがリッカート尺度を「順序尺度（ordinal）」と扱うか「間隔尺度（interval）」と扱うかの論争につながります（次のセクション参照）。

方向性の慣習

「不満 → 満足」と「満足 → 不満」のどちらが左に来るか。日本国内では 「不満が左、満足が右」が慣習 ですが、欧米のアカデミックな調査では「ポジティブが左、ネガティブが右」のケースもあります。1 つの調査内では方向を統一する こと、経年比較では方向を絶対に変えない ことが鉄則です。

6. リッカート尺度のデータは「順序尺度か間隔尺度か」 — 統計分析の論争

学術界で 50 年以上続く論争があります。リッカート尺度の回答（1〜5 などの数字）を、平均値や標準偏差を計算してよいのか?

厳格派: 「順序尺度なので平均は不適切」

リッカート尺度は本質的に 順序尺度（ordinal scale） であり、「とても満足」と「やや満足」の差は数字上は等しいが、心理的に等しいとは保証されない。だから:

平均値を計算するのは不適切 — 中央値や最頻値を使うべき
ノンパラメトリック検定（Mann-Whitney U など）を使うべき
回帰分析・t 検定は不適切

実用派: 「実質的に間隔尺度として扱える」

Norman (2010) "Likert scales, levels of measurement and the 'laws' of statistics" は、「リッカート尺度を間隔尺度と仮定してパラメトリック検定（t 検定、回帰など）を使っても、実用上ほとんど問題ない」 と結論づけています。理由:

シミュレーション研究で頑健性が確認されている — 等間隔でない仮定下でも、結果は概ね正しい
5 段階以上であれば中心極限定理が効く — サンプルが大きければ正規分布に近似できる
学術論文の大半は実質的にパラメトリック検定を使っている — 厳格派の議論は実務に追いついていない

実務での落としどころ

業界記事と学術論文の総合的な見解として:

5 段階以上のリッカートで、N=100 以上なら、平均値・標準偏差・回帰分析は実用上問題ない
ただし、論文や正式なレポートでは「リッカート尺度を間隔尺度として扱った」と明記 する
天井効果・床効果がある場合は、ノンパラメトリック検定で再確認 するのが安全

CSAT スコア（平均値）や NPS（推奨者から批判者を引く）が普通に使われているのは、この 実用派の立場が業界標準 であることの表れです。

7. 編集部の視点 — リッカート尺度設計で必ず効く 5 つの実践

業界記事と公開事例を追ってきた立場から、ここは強めに言っておきたい原則を 5 つ書きます。

1. 「迷ったら 5 段階」が無難。7 段階を選ぶなら理由を持つ。 5 段階と 7 段階のどちらを選ぶか迷う場面が多いですが、「特別な理由がないなら 5 段階」 が業界の経験則です。7 段階を選ぶなら「細かい識別が必要なケース（ブランドイメージ比較など）」 という明確な理由を文書化しておく。「なんとなく 7 段階の方が精度が高そう」で 7 段階にすると、後で 「5 段階の方が結果が直感的だった」と後悔するパターン が業界記事で繰り返し見られます。

2. 中央値は基本入れる。「ニュートラルが多すぎる」が問題なら設問文を見直す。 中央値（中立選択肢）を消して強制選択にする運用がたまにありますが、多くの場合は問題の取り違え です。「中立が多い」のは設問への関心がない / 質問が抽象的すぎる、というシグナルなので、中央値を消すのではなく設問を磨く のが正しい方向。中央値消しは Krosnick & Fabrigar の研究的にも推奨されない設計です。

3. 全ラベル化を基本にする。両端ラベルだけは「数字に頼った設計」になっている。 「1 — 2 — 3 — 4 — 5（不満〜満足）」のような両端ラベル設計を見ると、「設計コストをケチった」サイン だなと感じます。学術的には全ラベル化の方が信頼性が高いことが繰り返し示されており、全段階に言葉を付ける手間 1 分が、後の分析品質を左右する のが現実です。NPS だけは 0〜10 の数字単独で運用するのが慣習化していますが、それ以外は全ラベル化が原則です。

4. 経年比較するなら、段階数・中央値・ラベルを絶対に変えない。 過去調査と比較したい場面で、「今回は 7 段階に変えてみた」「ラベル表現を磨いた」とする変更を業界記事で繰り返し見ます。一度変えると、過去のスコアと今回のスコアが同じ尺度上にない ため、経年比較が永遠に不可能になります。変えるなら、過去調査も新しい尺度で再収集する覚悟を持つ か、変えない か、の二択です。

5. リッカートは「魔法ではない」。設問文の質が 80%、尺度設計は 20%。 段階数や中央値の議論はもちろん大事ですが、実は設問文（質問の表現）の方がはるかに結果を左右する というのが、業界の本音です。「とても満足〜とても不満」を 5 段階で聞いても 7 段階で聞いても、質問が「サービスへの満足度を教えてください」のように曖昧なら、データの意味は変わらない。まず設問文を磨いてから、尺度設計を考える 順番を間違えないでください。

8. アンケートツール Kicue でのリッカート尺度

Kicue では、リッカート尺度の運用に必要な機能を標準で備えています。

SCALE 設問タイプ

スケール設問タイプとして 4 種類を提供:

LIKERT — 標準的なリッカート尺度（5/7 段階など、段階数は柔軟に設定可能）
NPS — 11 段階（0〜10）に最適化
SLIDER — 連続値スライダー
SD — セマンティック・ディファレンシャル（両極形容詞対）

マトリクス設問との組み合わせ

複数項目をリッカート尺度で評価する場合は、マトリクス設問タイプと SCALE を組み合わせます。マトリクス設計の落とし穴はマトリクス設問の設計と落とし穴で解説しています。

実装ツールの選び方

リッカート尺度（5 段階・7 段階・10 段階）の自由なカスタマイズや、両極ラベル / 中点ラベル / 数値表示の細かな制御は、ツールによって対応範囲が異なります。各ツールの対応状況は無料アンケートツール 8 選比較で整理しています。

まとめ

リッカート尺度の設計と運用のチェックポイント:

段階数は 5 または 7 が学術的に最適 — 9 段階以上は認知負荷が識別力の上昇を上回る
中央値（中立）は基本入れる — 強制選択は測定誤差を増やす
全ラベル化が原則 — 両端ラベルだけだと信頼性が落ちる
データは実用上「間隔尺度」として扱える — Norman (2010) 以降の業界標準
経年比較するなら段階数・ラベルを絶対に変えない — 一度変えると過去比較が破壊される
設問文の質が 80%、尺度設計は 20% — 順序を間違えない

「リッカート尺度なんて 5 段階で何となく」と扱うチームと、「なぜ 5 段階か / 中央値はどうか / ラベルはどう作るか」を意図的に決めるチーム では、データの再現性に圧倒的な差が出ます。CSAT/NPS/CES の根幹をなす測定法だからこそ、設計の意図を持って運用したい領域です。

参考文献 (14件)

学術・方法論

Likert, R. (1932). A Technique for the Measurement of Attitudes. Archives of Psychology.
Cox, E. P. (1980). The Optimal Number of Response Alternatives for a Scale: A Review. Journal of Marketing Research.
Krosnick, J. A., & Fabrigar, L. R. (1997). Designing Rating Scales for Effective Measurement in Surveys. Survey Measurement and Process Quality.
Krosnick, J. A., & Berent, M. K. (1993). Comparisons of Party Identification and Policy Preferences: The Impact of Survey Question Format. American Journal of Political Science.
Preston, C. C., & Colman, A. M. (2000). Optimal Number of Response Categories in Rating Scales: Reliability, Validity, Discriminating Power, and Respondent Preferences. Acta Psychologica.
Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the Number of Response Categories on the Reliability and Validity of Rating Scales. Methodology.
Norman, G. (2010). Likert Scales, Levels of Measurement and the 'Laws' of Statistics. Advances in Health Sciences Education.
Tourangeau, R., Rips, L. J., & Rasinski, K. (2000). The Psychology of Survey Response. Cambridge University Press.

業界ベンダー・実務ガイド

国内リサーチ会社の公開知見（業界説明として参照）

リッカート尺度を含む幅広い設問タイプを使い分けながら、設計から本回収・集計まで一気通貫で実施できる無料のアンケートツール Kicue を試してみませんか。LIKERT / NPS / SLIDER / SD の 4 種の SCALE 設問タイプが標準搭載で、段階数・中央値・ラベルを自由に設定できます。