Likert-Skala richtig designen (2026) — 5, 7 oder 9 Stufen und die Mittelpunkt-Frage

Die in jeder Kundenumfrage übliche Bewertung von „sehr zufrieden bis sehr unzufrieden" ist im Fachjargon eine Likert-Skala — eine 1932 eingeführte Messtechnik. CSAT, NPS, CES, Markenbewertung, Engagement-Surveys — fast jedes Bewertungsitem in modernen Web-Umfragen ist ein Derivat der Likert-Skala, und doch werden grundlegende Fragen wie „5 Punkte oder 7?" und „Mittelpunkt einbeziehen?" in den meisten Projekten weiterhin nach Bauchgefühl entschieden.

Dieser Artikel führt durch die Essenz der Likert-Skala, die akademischen Grundlagen für die Wahl der Stufenzahl, die Mittelpunktsfrage, Fallstricke beim Label-Design und die langjährige statistische Debatte zur Datenanalyse. Umfragen, die unter dem Motto „5 Punkte, weil das immer so gemacht wird" laufen, produzieren manchmal Schlussfolgerungen, die kippen, sobald man die Skala ändert — das ist näher am Fundament, als man denkt.

1. Was eine Likert-Skala ist

Eine Likert-Skala ist ein Messinstrument, das Befragte bittet, ihre Einstellung oder Bewertung durch Auswahl aus mehreren geordneten Antwortkategorien auszudrücken. Rensis Likert schlug die Technik in seiner Doktorarbeit von 1932 A Technique for the Measurement of Attitudes vor.

Typisches Format

Q. Wie zufrieden sind Sie insgesamt mit unserem Service?
   1. Sehr unzufrieden
   2. Eher unzufrieden
   3. Neutral
   4. Eher zufrieden
   5. Sehr zufrieden

Grundstruktur: zwei gegensätzliche Pole mit gestuften Schritten dazwischen. Häufige Derivate in Web-Umfragen:

NPS (0–10, 11 Punkte) — Reichheld (2003), Empfehlungsbereitschaft
CSAT 5 Punkte — Standard für Support-Bewertung
Semantisches Differential (SD), 7 Punkte — bipolare Adjektivpaare („hell vs. dunkel")
Slider — kontinuierliche 0–100-Skala

Vier Designentscheidungen

Das Designproblem reduziert sich auf vier Entscheidungen:

Stufenzahl — 5 / 7 / 9 / 11
Mittelpunkt — „neutral" einbeziehen oder nicht
Labels — vollständiger Text auf jeder Stufe oder nur an den Enden
Richtung — „negativ → positiv" oder „positiv → negativ"

Jedes Thema hat seine eigene akademische Literatur.

2. Warum „wie viele Stufen" so viel diskutiert wird

Die Stufenzahl-Debatte entsteht aus dem Trade-off zwischen Messzuverlässigkeit, Validität und Belastung der Befragten.

Vorteile von mehr Stufen

Höhere Diskriminierung — trennt „eher zufrieden" von „sehr zufrieden"
Mehr statistische Information — feinere Granularität für Mittelwerte und Standardabweichungen
Mildert Decken- und Bodeneffekte — eine 5-Punkte-Skala, die alle nach „sehr zufrieden" drückt, kann auf 7 verteilt werden

Kosten von mehr Stufen

Höhere kognitive Last — „eher" von „ziemlich" zufrieden zu unterscheiden, kostet
Längere Antwortzeit — höhere Matrizen in vertikalen Layouts
Verschwommene mittlere Stufen — bei 9+ Punkten werden mittlere Kategorien für Befragte nicht unterscheidbar
Geringere Test-Retest-Reliabilität — dieselbe Person, dieselbe Frage, mehr Variation

Cox (1980) „The Optimal Number of Response Alternatives for a Scale" folgerte, dass die optimale Spanne 5–9 Punkte ist — und das ist seither der Branchenkonsens.

3. 5 vs. 7 vs. 9 Punkte — was die Forschung sagt

Wichtigste Befunde

Studie	Empfohlen	Begründung
Likert (1932) Original	5 Punkte	Ausreichende Diskriminierung bei minimaler Belastung
Cox (1980)	5–9 Punkte	Jenseits 9, Diskriminierungsgewinne < Belastungsgewinne
Krosnick & Fabrigar (1997)	7 Punkte	Beste gemeinsame Reliabilität + Validität
Preston & Colman (2000)	7–10 Punkte	Reliabilität stabilisiert sich bei 7+
Lozano, García-Cueto & Muñiz (2008)	4–7 Punkte	Validität fällt unter 4; Plateau bei 7
Norman (2010)	5 oder 7 Punkte	Parametrische Analyse ist bei 5+ ok

Die akademische sichere Zone liegt bei 5–7 Punkten; 9+ sieht kognitive Kosten die Diskriminierungsgewinne übersteigen.

Konventionen nach Anwendungsfall

In der Praxis variieren Konventionen je nach Anwendung:

Anwendungsfall	Standard	Warum
CSAT	5 Punkte	Intuitiv (5 von 5)
NPS	11 Punkte (0–10)	Festgelegte Methodik von Reichheld
CES	5 oder 7 Punkte	Original von Dixon et al. nutzte 5
Markenbewertung	7 Punkte	Will feinere Unterschiede
Engagement	5 Punkte	Gallup Q12 Standard
Akademische Studien	7 Punkte	Cronbachs α stabilisiert sich

Wann 9 oder 11 Punkte Sinn ergeben

NPS bei 11 Punkten — Reichheld argumentierte, dass 0–10 spezifisch die „Empfehlungsstärke" abbildet. Akademisch ist die 11-Punkte-Konvention mehr „Branchenstandard" als „nachweislich optimal".
9 Punkte — in akademischen Studien und großen Panels für maximale Diskriminierung verwendet. Generell nicht für typische Web-Umfragen empfohlen.

„5 oder 7 im Zweifel" ist der Konsens aus Forschung und Praxisliteratur.

4. Sollte man den Mittelpunkt in einer Likert-Skala einbeziehen?

Ob ein „neutraler" / „weder noch" Mittelpunkt einbezogen wird, ist ebenso wichtig wie die Stufenzahlfrage.

Mit Mittelpunkt (ungerade Skalen)

Pro: echt neutrale Befragte werden nicht zu Zustimmung/Ablehnung gezwungen. Reduziert Last.
Contra: bietet „möchte nicht antworten"-Befragten ein Versteck; potenzielles Satisficing.

Ohne Mittelpunkt (gerade Skalen)

Pro: zwingt Befragte, eine Meinung auszudrücken, eliminiert „vage neutrale" Auswahlen.
Contra: zwingt echt neutrale Personen auf eine Seite, verzerrt die Daten.

Was die Forschung empfiehlt

Krosnick & Fabrigar (1997) folgern, dass Mittelpunkte generell einbezogen werden sollten. Gründe:

Echt neutrale Befragte existieren — kein Wissen / kein Interesse / keine Erfahrung.
Erzwungene Wahl erhöht Messfehler — „vage positive" Auswahlen fügen Rauschen hinzu.
Der Beweis, dass Mittelpunkte Satisficing aufblähen, ist schwach — bei angemessener Stufenzahl ist der Effekt klein.

Allerdings: Wenn neutrale Antworten dominieren, ist die Frage das Problem, nicht der Mittelpunkt. Verfeinere die Formulierung, entferne den Mittelpunkt nicht.

5. Label-Design-Fallstricke

Wie Sie Kategorien beschriften, beeinflusst die Datenqualität direkt.

Voll beschriftet vs. nur Endpunkte

Voll beschriftet:

1. Sehr unzufrieden / 2. Eher unzufrieden / 3. Neutral / 4. Eher zufrieden / 5. Sehr zufrieden

Nur Endpunkte:

1 (sehr unzufrieden) — 2 — 3 — 4 — 5 (sehr zufrieden)

Krosnick & Berent (1993) zeigten, dass voll beschriftete Skalen höhere Reliabilität und Validität haben — Befragte können nackte Zahlen nicht zuverlässig interpretieren, also zählt das Anhängen von Sprache an jede Kategorie. Standardmäßig voll beschriften.

Die „Gleichintervall"-Annahme

Mittelwerte werden routinemäßig mit der Annahme gleichmäßig verteilter Stufen berechnet — aber sind sie das wirklich?

Tourangeau, Rips & Rasinski (2000) The Psychology of Survey Response weisen darauf hin, dass die psychologische Distanz von „sehr zufrieden" zu „eher zufrieden" nicht der Distanz von „eher zufrieden" zu „neutral" entsprechen muss. Das ist das Tor zur Ordinal-vs.-Intervall-Debatte (nächster Abschnitt).

Richtungskonventionen

Ob „negativ → positiv" oder „positiv → negativ" von links nach rechts gelesen wird, ist eine regionsabhängige Konvention. Die nicht verhandelbaren Regeln: innerhalb einer Umfrage muss die Richtung konsistent sein, und darf in einer Tracking-Studie niemals geändert werden.

6. Ordinal oder Intervall — die 50-jährige statistische Debatte

Eine seit einem halben Jahrhundert laufende akademische Debatte: Kann man Mittelwerte und Standardabweichungen aus Likert-Daten (den 1–5 Zahlen) berechnen?

Strenge Sicht: „Es ist ordinal — Mittelwerte sind unangemessen"

Eine Likert-Skala ist grundlegend ordinal — der Unterschied zwischen „sehr zufrieden" und „eher zufrieden" ist ein numerischer Schritt, aber nicht unbedingt ein psychologischer Schritt. Daher:

Mittelwerte sind unangemessen — verwende Median oder Modus.
Verwende nichtparametrische Tests (Mann-Whitney U usw.).
Regression und t-Tests sind unangemessen.

Pragmatische Sicht: „Behandle es in der Praxis als Intervall"

Norman (2010) „Likert Scales, Levels of Measurement and the 'Laws' of Statistics" folgert, dass Likert-Skalen als Intervall zu behandeln und parametrische Tests (t-Tests, Regression) anzuwenden in der Praxis im Wesentlichen kein Problem darstellt. Gründe:

Simulationsstudien zeigen Robustheit — auch wenn Intervalle nicht gleich sind, sind Ergebnisse weitgehend korrekt.
Zentraler Grenzwertsatz greift bei 5+ Punkten und großen Stichproben — Verteilungen nähern sich der Normalverteilung an.
Die überwiegende Mehrheit der publizierten Forschung verwendet parametrische Tests — die strenge Sicht hat mit der Praxis nicht Schritt gehalten.

Wo die Praxis landet

Synthese aus Forschung und Praxisliteratur:

5+ Punkte Likert mit N ≥ 100 → Mittelwerte, SDs und Regression sind in der Praxis ok.
Für Papers und formale Berichte: explizit „Likert-Daten als Intervall behandelt" angeben.
Wo Decken- oder Bodeneffekte vorliegen, mit nichtparametrischen Tests validieren.

CSAT-Mittelwerte und NPS-Subtraktion sind Routine, weil die pragmatische Sicht der Arbeitsstandard in der Branche ist.

7. Redaktioneller Blick — fünf Regeln, die wirklich Wirkung zeigen

Aus dem Verfolgen von Branchenberichten und öffentlichen Cases — fünf Punkte, auf die wir mit Nachdruck pochen würden.

1. „5 Punkte im Zweifel." Wähle 7 nur mit Begründung. Teams schwanken zwischen 5 und 7, und die praktische Heuristik ist „5, sofern kein spezifischer Grund vorliegt". Wenn Sie 7 wählen, dokumentieren Sie warum („wir brauchen feinere Diskriminierung über Markenimageelemente"). 7 zu wählen, weil es „präziser wirkt", ist das Muster, zu dem Branchenartikel zurückkehren: Teams bedauern es später, weil Ergebnisse bei 7 weniger intuitiv waren als bei 5.

2. Standardmäßig den Mittelpunkt einbeziehen. Wenn „neutral" zu hoch ist, korrigiere die Frage. Den Mittelpunkt zu entfernen, um eine Position zu erzwingen, ist eine periodische Notlösung — und meist eine Kategorienverwechslung. Übermäßige Neutralität signalisiert eine abstrakte oder wenig engagierende Frage. Schärfe die Formulierung, entferne nicht den Mittelpunkt. Das stützt auch die Forschung von Krosnick & Fabrigar.

3. Standardmäßig vollständig beschriften. Nur Endpunkte ist „eingespartes Design". Wenn man „1 — 2 — 3 — 4 — 5 (unzufrieden — zufrieden)" ohne Zwischenlabels sieht, ist das typisch ein Zeichen, dass jemand Designaufwand gespart hat. Forschung zeigt wiederholt, dass voll beschriftete Skalen höhere Reliabilität haben — die Minute, die es braucht, jeder Kategorie Sprache zu geben, kauft echte nachgelagerte Qualität. NPS ist die konventionelle Ausnahme (0–10 numerisch); alles andere: voll beschriften.

4. In Tracking-Studien Punktzahl, Mittelpunkt und Labels einfrieren — Punkt. Wir sehen Teams, die „diese Runde mal von 5 auf 7 erhöhen" oder „die Formulierung tunen" und dann gegen die Vorwelle vergleichen wollen. Einmal geändert, teilen historische und aktuelle Werte keine gemeinsame Skala mehr, und der Längsschnittvergleich ist für immer kaputt. Entweder die historische Welle auf der neuen Skala neu erheben oder gar nicht ändern.

5. Die Likert ist nicht magisch — Formulierung 80 %, Skalendesign 20 %. Stufenzahl und Mittelpunkt zählen, aber die Frageformulierung verschiebt Ergebnisse weit mehr. Egal ob „Wie zufrieden sind Sie mit unserem Service?" auf 5- oder 7-Punkte-Skala läuft, die Daten sind sinnlos, wenn die Frage zu abstrakt ist. Polieren Sie zuerst die Formulierung, dann denken Sie über die Skala nach.

8. Likert-Skalen im Umfrage-Tool Kicue

Kicue bringt skalenbezogene Fähigkeiten standardmäßig mit.

SCALE-Fragetypen

SCALE-Fragetypen gibt es in vier Geschmacksrichtungen:

LIKERT — standardmäßige Likert-Skala (5 / 7 Punkte und andere, vollständig konfigurierbar)
NPS — optimiert für das 11-Punkte-Format (0–10)
SLIDER — Slider mit kontinuierlichem Wert
SD — Semantisches Differential (bipolare Adjektivpaare)

Kombination mit Matrixfragen

Um mehrere Items auf einer gemeinsamen Likert-Skala zu bewerten, kombinieren Sie Matrixfragetypen mit SCALE. Für matrixspezifische Fallstricke siehe Matrixfragen-Design.

Zusammenfassung

Checkliste für Design und Betrieb von Likert-Skalen:

5 oder 7 Punkte ist das akademische Optimum. 9+ kostet mehr Last, als Diskriminierung gewonnen wird.
Standardmäßig den Mittelpunkt einbeziehen. Erzwungene Wahl erhöht den Messfehler.
Jede Kategorie vollständig beschriften. Nur Endpunkte reduziert die Reliabilität.
Daten in der Praxis als Intervall behandeln. Norman (2010) ist der Arbeitsstandard.
In Tracking-Studien das Skalendesign einfrieren. Änderung bricht den Längsschnittvergleich.
Formulierung zuerst, Skala danach. 80/20.

Teams, die die Likert als „5 Punkte, egal" behandeln, produzieren andere Reliabilität als Teams, die Stufenzahl, Mittelpunkt und Labels bewusst entscheiden. Es ist das fundamentale Messinstrument hinter CSAT/NPS/CES — wert, mit Absicht entworfen zu werden.

Literatur

Akademisch und methodisch

Likert, R. (1932). A Technique for the Measurement of Attitudes. Archives of Psychology.
Cox, E. P. (1980). The Optimal Number of Response Alternatives for a Scale. Journal of Marketing Research.
Krosnick, J. A., & Fabrigar, L. R. (1997). Designing Rating Scales for Effective Measurement in Surveys. Survey Measurement and Process Quality.
Krosnick, J. A., & Berent, M. K. (1993). Comparisons of Party Identification and Policy Preferences. American Journal of Political Science.
Preston, C. C., & Colman, A. M. (2000). Optimal Number of Response Categories in Rating Scales. Acta Psychologica.
Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the Number of Response Categories on the Reliability and Validity of Rating Scales. Methodology.
Norman, G. (2010). Likert Scales, Levels of Measurement and the 'Laws' of Statistics. Advances in Health Sciences Education.
Tourangeau, R., Rips, L. J., & Rasinski, K. (2000). The Psychology of Survey Response. Cambridge University Press.

Anbieter- und Praxis-Leitfäden

Wer Umfragen mit bewussten Likert-Entscheidungen end-to-end designen will, probiert das kostenlose Umfrage-Tool Kicue. LIKERT, NPS, SLIDER und SD-Fragetypen sind Standard, mit voller Kontrolle über Stufenzahl, Mittelpunkt und Label-Design.