Die in jeder Kundenumfrage übliche Bewertung von „sehr zufrieden bis sehr unzufrieden" ist im Fachjargon eine Likert-Skala — eine 1932 eingeführte Messtechnik. CSAT, NPS, CES, Markenbewertung, Engagement-Surveys — fast jedes Bewertungsitem in modernen Web-Umfragen ist ein Derivat der Likert-Skala, und doch werden grundlegende Fragen wie „5 Punkte oder 7?" und „Mittelpunkt einbeziehen?" in den meisten Projekten weiterhin nach Bauchgefühl entschieden.
Dieser Artikel führt durch die Essenz der Likert-Skala, die akademischen Grundlagen für die Wahl der Stufenzahl, die Mittelpunktsfrage, Fallstricke beim Label-Design und die langjährige statistische Debatte zur Datenanalyse. Umfragen, die unter dem Motto „5 Punkte, weil das immer so gemacht wird" laufen, produzieren manchmal Schlussfolgerungen, die kippen, sobald man die Skala ändert — das ist näher am Fundament, als man denkt.
1. Was eine Likert-Skala ist
Eine Likert-Skala ist ein Messinstrument, das Befragte bittet, ihre Einstellung oder Bewertung durch Auswahl aus mehreren geordneten Antwortkategorien auszudrücken. Rensis Likert schlug die Technik in seiner Doktorarbeit von 1932 A Technique for the Measurement of Attitudes vor.
Typisches Format
Q. Wie zufrieden sind Sie insgesamt mit unserem Service?
1. Sehr unzufrieden
2. Eher unzufrieden
3. Neutral
4. Eher zufrieden
5. Sehr zufrieden
Grundstruktur: zwei gegensätzliche Pole mit gestuften Schritten dazwischen. Häufige Derivate in Web-Umfragen:
- NPS (0–10, 11 Punkte) — Reichheld (2003), Empfehlungsbereitschaft
- CSAT 5 Punkte — Standard für Support-Bewertung
- Semantisches Differential (SD), 7 Punkte — bipolare Adjektivpaare („hell vs. dunkel")
- Slider — kontinuierliche 0–100-Skala
Vier Designentscheidungen
Das Designproblem reduziert sich auf vier Entscheidungen:
- Stufenzahl — 5 / 7 / 9 / 11
- Mittelpunkt — „neutral" einbeziehen oder nicht
- Labels — vollständiger Text auf jeder Stufe oder nur an den Enden
- Richtung — „negativ → positiv" oder „positiv → negativ"
Jedes Thema hat seine eigene akademische Literatur.
2. Warum „wie viele Stufen" so viel diskutiert wird
Die Stufenzahl-Debatte entsteht aus dem Trade-off zwischen Messzuverlässigkeit, Validität und Belastung der Befragten.
Vorteile von mehr Stufen
- Höhere Diskriminierung — trennt „eher zufrieden" von „sehr zufrieden"
- Mehr statistische Information — feinere Granularität für Mittelwerte und Standardabweichungen
- Mildert Decken- und Bodeneffekte — eine 5-Punkte-Skala, die alle nach „sehr zufrieden" drückt, kann auf 7 verteilt werden
Kosten von mehr Stufen
- Höhere kognitive Last — „eher" von „ziemlich" zufrieden zu unterscheiden, kostet
- Längere Antwortzeit — höhere Matrizen in vertikalen Layouts
- Verschwommene mittlere Stufen — bei 9+ Punkten werden mittlere Kategorien für Befragte nicht unterscheidbar
- Geringere Test-Retest-Reliabilität — dieselbe Person, dieselbe Frage, mehr Variation
Cox (1980) „The Optimal Number of Response Alternatives for a Scale" folgerte, dass die optimale Spanne 5–9 Punkte ist — und das ist seither der Branchenkonsens.
3. 5 vs. 7 vs. 9 Punkte — was die Forschung sagt
Wichtigste Befunde
| Studie | Empfohlen | Begründung |
|---|---|---|
| Likert (1932) Original | 5 Punkte | Ausreichende Diskriminierung bei minimaler Belastung |
| Cox (1980) | 5–9 Punkte | Jenseits 9, Diskriminierungsgewinne < Belastungsgewinne |
| Krosnick & Fabrigar (1997) | 7 Punkte | Beste gemeinsame Reliabilität + Validität |
| Preston & Colman (2000) | 7–10 Punkte | Reliabilität stabilisiert sich bei 7+ |
| Lozano, García-Cueto & Muñiz (2008) | 4–7 Punkte | Validität fällt unter 4; Plateau bei 7 |
| Norman (2010) | 5 oder 7 Punkte | Parametrische Analyse ist bei 5+ ok |
Die akademische sichere Zone liegt bei 5–7 Punkten; 9+ sieht kognitive Kosten die Diskriminierungsgewinne übersteigen.
Konventionen nach Anwendungsfall
In der Praxis variieren Konventionen je nach Anwendung:
| Anwendungsfall | Standard | Warum |
|---|---|---|
| CSAT | 5 Punkte | Intuitiv (5 von 5) |
| NPS | 11 Punkte (0–10) | Festgelegte Methodik von Reichheld |
| CES | 5 oder 7 Punkte | Original von Dixon et al. nutzte 5 |
| Markenbewertung | 7 Punkte | Will feinere Unterschiede |
| Engagement | 5 Punkte | Gallup Q12 Standard |
| Akademische Studien | 7 Punkte | Cronbachs α stabilisiert sich |
Wann 9 oder 11 Punkte Sinn ergeben
- NPS bei 11 Punkten — Reichheld argumentierte, dass 0–10 spezifisch die „Empfehlungsstärke" abbildet. Akademisch ist die 11-Punkte-Konvention mehr „Branchenstandard" als „nachweislich optimal".
- 9 Punkte — in akademischen Studien und großen Panels für maximale Diskriminierung verwendet. Generell nicht für typische Web-Umfragen empfohlen.
„5 oder 7 im Zweifel" ist der Konsens aus Forschung und Praxisliteratur.
4. Sollte man den Mittelpunkt in einer Likert-Skala einbeziehen?
Ob ein „neutraler" / „weder noch" Mittelpunkt einbezogen wird, ist ebenso wichtig wie die Stufenzahlfrage.
Mit Mittelpunkt (ungerade Skalen)
- Pro: echt neutrale Befragte werden nicht zu Zustimmung/Ablehnung gezwungen. Reduziert Last.
- Contra: bietet „möchte nicht antworten"-Befragten ein Versteck; potenzielles Satisficing.
Ohne Mittelpunkt (gerade Skalen)
- Pro: zwingt Befragte, eine Meinung auszudrücken, eliminiert „vage neutrale" Auswahlen.
- Contra: zwingt echt neutrale Personen auf eine Seite, verzerrt die Daten.
Was die Forschung empfiehlt
Krosnick & Fabrigar (1997) folgern, dass Mittelpunkte generell einbezogen werden sollten. Gründe:
- Echt neutrale Befragte existieren — kein Wissen / kein Interesse / keine Erfahrung.
- Erzwungene Wahl erhöht Messfehler — „vage positive" Auswahlen fügen Rauschen hinzu.
- Der Beweis, dass Mittelpunkte Satisficing aufblähen, ist schwach — bei angemessener Stufenzahl ist der Effekt klein.
Allerdings: Wenn neutrale Antworten dominieren, ist die Frage das Problem, nicht der Mittelpunkt. Verfeinere die Formulierung, entferne den Mittelpunkt nicht.
5. Label-Design-Fallstricke
Wie Sie Kategorien beschriften, beeinflusst die Datenqualität direkt.
Voll beschriftet vs. nur Endpunkte
Voll beschriftet:
1. Sehr unzufrieden / 2. Eher unzufrieden / 3. Neutral / 4. Eher zufrieden / 5. Sehr zufrieden
Nur Endpunkte:
1 (sehr unzufrieden) — 2 — 3 — 4 — 5 (sehr zufrieden)
Krosnick & Berent (1993) zeigten, dass voll beschriftete Skalen höhere Reliabilität und Validität haben — Befragte können nackte Zahlen nicht zuverlässig interpretieren, also zählt das Anhängen von Sprache an jede Kategorie. Standardmäßig voll beschriften.
Die „Gleichintervall"-Annahme
Mittelwerte werden routinemäßig mit der Annahme gleichmäßig verteilter Stufen berechnet — aber sind sie das wirklich?
Tourangeau, Rips & Rasinski (2000) The Psychology of Survey Response weisen darauf hin, dass die psychologische Distanz von „sehr zufrieden" zu „eher zufrieden" nicht der Distanz von „eher zufrieden" zu „neutral" entsprechen muss. Das ist das Tor zur Ordinal-vs.-Intervall-Debatte (nächster Abschnitt).
Richtungskonventionen
Ob „negativ → positiv" oder „positiv → negativ" von links nach rechts gelesen wird, ist eine regionsabhängige Konvention. Die nicht verhandelbaren Regeln: innerhalb einer Umfrage muss die Richtung konsistent sein, und darf in einer Tracking-Studie niemals geändert werden.
6. Ordinal oder Intervall — die 50-jährige statistische Debatte
Eine seit einem halben Jahrhundert laufende akademische Debatte: Kann man Mittelwerte und Standardabweichungen aus Likert-Daten (den 1–5 Zahlen) berechnen?
Strenge Sicht: „Es ist ordinal — Mittelwerte sind unangemessen"
Eine Likert-Skala ist grundlegend ordinal — der Unterschied zwischen „sehr zufrieden" und „eher zufrieden" ist ein numerischer Schritt, aber nicht unbedingt ein psychologischer Schritt. Daher:
- Mittelwerte sind unangemessen — verwende Median oder Modus.
- Verwende nichtparametrische Tests (Mann-Whitney U usw.).
- Regression und t-Tests sind unangemessen.
Pragmatische Sicht: „Behandle es in der Praxis als Intervall"
Norman (2010) „Likert Scales, Levels of Measurement and the 'Laws' of Statistics" folgert, dass Likert-Skalen als Intervall zu behandeln und parametrische Tests (t-Tests, Regression) anzuwenden in der Praxis im Wesentlichen kein Problem darstellt. Gründe:
- Simulationsstudien zeigen Robustheit — auch wenn Intervalle nicht gleich sind, sind Ergebnisse weitgehend korrekt.
- Zentraler Grenzwertsatz greift bei 5+ Punkten und großen Stichproben — Verteilungen nähern sich der Normalverteilung an.
- Die überwiegende Mehrheit der publizierten Forschung verwendet parametrische Tests — die strenge Sicht hat mit der Praxis nicht Schritt gehalten.
Wo die Praxis landet
Synthese aus Forschung und Praxisliteratur:
- 5+ Punkte Likert mit N ≥ 100 → Mittelwerte, SDs und Regression sind in der Praxis ok.
- Für Papers und formale Berichte: explizit „Likert-Daten als Intervall behandelt" angeben.
- Wo Decken- oder Bodeneffekte vorliegen, mit nichtparametrischen Tests validieren.
CSAT-Mittelwerte und NPS-Subtraktion sind Routine, weil die pragmatische Sicht der Arbeitsstandard in der Branche ist.
7. Redaktioneller Blick — fünf Regeln, die wirklich Wirkung zeigen
Aus dem Verfolgen von Branchenberichten und öffentlichen Cases — fünf Punkte, auf die wir mit Nachdruck pochen würden.
1. „5 Punkte im Zweifel." Wähle 7 nur mit Begründung. Teams schwanken zwischen 5 und 7, und die praktische Heuristik ist „5, sofern kein spezifischer Grund vorliegt". Wenn Sie 7 wählen, dokumentieren Sie warum („wir brauchen feinere Diskriminierung über Markenimageelemente"). 7 zu wählen, weil es „präziser wirkt", ist das Muster, zu dem Branchenartikel zurückkehren: Teams bedauern es später, weil Ergebnisse bei 7 weniger intuitiv waren als bei 5.
2. Standardmäßig den Mittelpunkt einbeziehen. Wenn „neutral" zu hoch ist, korrigiere die Frage. Den Mittelpunkt zu entfernen, um eine Position zu erzwingen, ist eine periodische Notlösung — und meist eine Kategorienverwechslung. Übermäßige Neutralität signalisiert eine abstrakte oder wenig engagierende Frage. Schärfe die Formulierung, entferne nicht den Mittelpunkt. Das stützt auch die Forschung von Krosnick & Fabrigar.
3. Standardmäßig vollständig beschriften. Nur Endpunkte ist „eingespartes Design". Wenn man „1 — 2 — 3 — 4 — 5 (unzufrieden — zufrieden)" ohne Zwischenlabels sieht, ist das typisch ein Zeichen, dass jemand Designaufwand gespart hat. Forschung zeigt wiederholt, dass voll beschriftete Skalen höhere Reliabilität haben — die Minute, die es braucht, jeder Kategorie Sprache zu geben, kauft echte nachgelagerte Qualität. NPS ist die konventionelle Ausnahme (0–10 numerisch); alles andere: voll beschriften.
4. In Tracking-Studien Punktzahl, Mittelpunkt und Labels einfrieren — Punkt. Wir sehen Teams, die „diese Runde mal von 5 auf 7 erhöhen" oder „die Formulierung tunen" und dann gegen die Vorwelle vergleichen wollen. Einmal geändert, teilen historische und aktuelle Werte keine gemeinsame Skala mehr, und der Längsschnittvergleich ist für immer kaputt. Entweder die historische Welle auf der neuen Skala neu erheben oder gar nicht ändern.
5. Die Likert ist nicht magisch — Formulierung 80 %, Skalendesign 20 %. Stufenzahl und Mittelpunkt zählen, aber die Frageformulierung verschiebt Ergebnisse weit mehr. Egal ob „Wie zufrieden sind Sie mit unserem Service?" auf 5- oder 7-Punkte-Skala läuft, die Daten sind sinnlos, wenn die Frage zu abstrakt ist. Polieren Sie zuerst die Formulierung, dann denken Sie über die Skala nach.
8. Likert-Skalen im Umfrage-Tool Kicue
Kicue bringt skalenbezogene Fähigkeiten standardmäßig mit.
SCALE-Fragetypen
SCALE-Fragetypen gibt es in vier Geschmacksrichtungen:
- LIKERT — standardmäßige Likert-Skala (5 / 7 Punkte und andere, vollständig konfigurierbar)
- NPS — optimiert für das 11-Punkte-Format (0–10)
- SLIDER — Slider mit kontinuierlichem Wert
- SD — Semantisches Differential (bipolare Adjektivpaare)
Kombination mit Matrixfragen
Um mehrere Items auf einer gemeinsamen Likert-Skala zu bewerten, kombinieren Sie Matrixfragetypen mit SCALE. Für matrixspezifische Fallstricke siehe Matrixfragen-Design.
Verwandte Designartikel
Likert-Skalen sind eng mit anderen Umfragedesignthemen verzahnt. Siehe auch unseren CSAT-Designleitfaden, NPS-Komplettleitfaden, CES-Leitfaden, Matrixfragen-Design und Frageordnungseffekte.
Das richtige Tool wählen — Free-Plan-Grenzen, Verzweigungs-Support, KI-Fähigkeiten und CSV-Export variieren stark zwischen Tools. Siehe unseren Vergleich kostenloser Umfrage-Tools, um das passende für diesen Ansatz zu finden.
Zusammenfassung
Checkliste für Design und Betrieb von Likert-Skalen:
- 5 oder 7 Punkte ist das akademische Optimum. 9+ kostet mehr Last, als Diskriminierung gewonnen wird.
- Standardmäßig den Mittelpunkt einbeziehen. Erzwungene Wahl erhöht den Messfehler.
- Jede Kategorie vollständig beschriften. Nur Endpunkte reduziert die Reliabilität.
- Daten in der Praxis als Intervall behandeln. Norman (2010) ist der Arbeitsstandard.
- In Tracking-Studien das Skalendesign einfrieren. Änderung bricht den Längsschnittvergleich.
- Formulierung zuerst, Skala danach. 80/20.
Teams, die die Likert als „5 Punkte, egal" behandeln, produzieren andere Reliabilität als Teams, die Stufenzahl, Mittelpunkt und Labels bewusst entscheiden. Es ist das fundamentale Messinstrument hinter CSAT/NPS/CES — wert, mit Absicht entworfen zu werden.
Literatur
Akademisch und methodisch
- Likert, R. (1932). A Technique for the Measurement of Attitudes. Archives of Psychology.
- Cox, E. P. (1980). The Optimal Number of Response Alternatives for a Scale. Journal of Marketing Research.
- Krosnick, J. A., & Fabrigar, L. R. (1997). Designing Rating Scales for Effective Measurement in Surveys. Survey Measurement and Process Quality.
- Krosnick, J. A., & Berent, M. K. (1993). Comparisons of Party Identification and Policy Preferences. American Journal of Political Science.
- Preston, C. C., & Colman, A. M. (2000). Optimal Number of Response Categories in Rating Scales. Acta Psychologica.
- Lozano, L. M., García-Cueto, E., & Muñiz, J. (2008). Effect of the Number of Response Categories on the Reliability and Validity of Rating Scales. Methodology.
- Norman, G. (2010). Likert Scales, Levels of Measurement and the 'Laws' of Statistics. Advances in Health Sciences Education.
- Tourangeau, R., Rips, L. J., & Rasinski, K. (2000). The Psychology of Survey Response. Cambridge University Press.
Anbieter- und Praxis-Leitfäden
- Qualtrics: Likert Scale Question Best Practices.
- SurveyMonkey: Likert Scale Design Tips.
- Pew Research Center: Question Wording.
Wer Umfragen mit bewussten Likert-Entscheidungen end-to-end designen will, probiert das kostenlose Umfrage-Tool Kicue. LIKERT, NPS, SLIDER und SD-Fragetypen sind Standard, mit voller Kontrolle über Stufenzahl, Mittelpunkt und Label-Design.
