„Welches Feature hat für Sie die höchste Priorität?" — und am Ende landet auf der Likert-Skala jedes einzelne Item bei ‚sehr wichtig'. Wer ein Jahr in der Marktforschung steckt, kennt dieses Bild. Der Moment, in dem man sich an den Kopf greift: „Alle sagen, alles ist wichtig... damit kann ich keine Entscheidung treffen."
Die Methode, die diesen Deckeneffekt (Ceiling Effect) strukturell umgeht, ist MaxDiff (Maximum Difference Scaling, Best-Worst Scaling). In diesem Beitrag fassen wir zusammen — von den Gründen, warum die Likert-Skala keine Prioritäten liefert, über die Grundstruktur von MaxDiff, die Regeln des Versuchsdesigns, die Beurteilung der Stichprobengröße, die Score-Berechnung (Count vs. hierarchische Bayes) bis hin zur Abgrenzung gegenüber Conjoint und PSM —, gestützt sowohl auf die Praxis der Implementierungsanbieter als auch auf die akademischen Originalquellen.
1. Warum die Likert-Skala keine Prioritäten liefert
Wenn Sie 10 Items mit „Bitte bewerten Sie die Wichtigkeit auf einer Skala von 1 bis 5" abfragen, landen fast alle Items bei ‚wichtig' oder ‚sehr wichtig'. Das ist die strukturelle Schwäche der Likert-Skala.
Drei Hauptursachen:
- Deckeneffekt: Wenn Befragte das Gefühl haben „alles ist wichtig", kleben sie an der oberen Grenze. Bei 10 Items mit jeweils 5 Punkten lassen sich keine Prioritäten identifizieren
- Social-Desirability-Bias: Items wie „Sicherheit", „Qualität" oder „Support", die schwer abzulehnen sind, erscheinen höher als ihre tatsächliche Priorität
- Antwortmüdigkeit: Das eintönige Vergeben von Sternchen für 10 Items wird in der zweiten Hälfte oberflächlich
Im Ergebnis sammelt sich Datenmaterial nach dem Muster „alles ist wichtig" — und Sie sitzen auf Daten, die für Entscheidungen unbrauchbar sind.
Details zur Likert-Skala selbst behandeln wir im Designleitfaden zur Likert-Skala. Für den Zweck „Ich will eine Reihenfolge erzeugen" ist die Likert-Skala strukturell ungeeignet — und genau das ist die Motivation für MaxDiff.
2. Grundstruktur von MaxDiff — Best und Worst auswählen
MaxDiff ist eine Methode, bei der jeweils 4 bis 5 Items gleichzeitig präsentiert werden und die Befragten das wichtigste (Best) sowie das unwichtigste (Worst) auswählen. Indem man dies in 10 bis 15 Blöcken wiederholt, lässt sich die relative Priorität jedes Items statistisch schätzen.
So sieht die Frage aus
Beispiel: Wenn Sie 10 Items vergleichen wollen, sehen die Befragten zwölfmal einen Bildschirm wie diesen.
Wählen Sie aus den folgenden 4 Items jeweils das wichtigste und das unwichtigste aus.
[ ] Niedriger Preis Am wichtigsten [○] Am unwichtigsten [ ]
[ ] Supportqualität Am wichtigsten [ ] Am unwichtigsten [○]
[ ] Funktionsumfang Am wichtigsten [ ] Am unwichtigsten [ ]
[ ] Bedienkomfort Am wichtigsten [ ] Am unwichtigsten [ ]
Jeder Befragte muss die Items direkt miteinander vergleichen — die Hintertür „alle bekommen 5 Punkte" wie bei der Likert-Skala gibt es nicht. So treten die relativen Stärken und Schwächen zwischen den Items klar hervor.
Warum dieses Format funktioniert
Die entscheidende Einsicht von Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis ist die psychologische Tatsache, dass „relative Auswahl für den Menschen natürlicher ist als absolute Bewertung". Wir tun uns schwer damit, festzulegen „das ist eine 7" — aber auf die Frage „Was magst du lieber, A oder B?" antworten wir sofort. MaxDiff nutzt diese kognitive Eigenschaft geradlinig aus.
3. Versuchsdesign — Regeln des Balanced Incomplete Block Design
Der Kern von MaxDiff ist das Versuchsdesign. Beim Vergleich von 10 Items können wir den Befragten unmöglich alle Kombinationen (45 Stück) zeigen, deshalb werden die Items mit dem Balanced Incomplete Block Design (BIBD, ausgewogenes unvollständiges Blockdesign) zufällig verteilt.
Grundregeln des Designs
- 4–5 Items pro Block: Zu viele machen die Auswahl schwierig, zu wenige liefern dünne Vergleichsinformation
- Jedes Item erscheint gleich oft: Wenn Sie 10 Items auf 12 Blöcke verteilen, erscheint jedes Item etwa fünfmal
- Jedes Item-Paar tritt gleich oft gemeinsam auf: Die Häufigkeit, mit der „Preis" und „Support" im selben Block landen, wird ausgeglichen
- Itempositionen randomisieren: Verhindert Reihenfolge-Effekte
Realität der Umsetzung
Ein perfektes BIBD von Hand zu rechnen ist nicht praktikabel, daher gehört der Einsatz von Spezialwerkzeugen zum Standard:
- Sawtooth Software Lighthouse / Discover: Branchenstandard-Anbieter für MaxDiff, automatische Design-Generierung
- R-Paket
support.BWS: Open Source, weit verbreitet in der Forschung - SurveyEngine / Conjoint.ly: Cloud-basiert, mit Vorlagen
Diese Werkzeuge generieren das Blockdesign automatisch aus der eingegebenen Anzahl an Items. Nicht von Hand basteln — das ist die eiserne Regel.
4. Stichprobengröße und Anzahl der Wiederholungen festlegen
„Wie viele Personen reichen?" und „Wie viele Blöcke zeige ich pro Person?" sind in der MaxDiff-Praxis die quälendsten Fragen.
Richtwerte für die Wiederholungszahl (Blöcke pro Person)
- Anzahl der Items × 3 / 4 ist die Faustregel der Branche. Beispiel: Bei 10 Items 7–8 Blöcke pro Person, bei 15 Items 11–12 Blöcke
- Zu wenige Wiederholungen machen die Schätzung auf Individualebene instabil, zu viele erhöhen die Abbruchrate durch Antwortmüdigkeit
- In der Praxis rechnet man rückwärts mit einer Bearbeitungszeit von höchstens 5–10 Minuten
Richtwerte für die Stichprobengröße
- Nur Analyse auf Gruppenebene: N = 200–300 reicht aus
- Hierarchische Bayes-Schätzung nach Segment: N ≥ 100 pro Segment, insgesamt N = 400–500
- Schätzung auf Individualebene (Detailanalyse wichtiger Kunden): N ≥ 500
Orme, B. K. (2010). Getting Started with Conjoint Analysis (2nd ed.) systematisiert das Stichprobendesign für MaxDiff auf Basis der Implementierungserfahrung von Sawtooth Software — ein Praxisbuch, das im Feld als Standardleitfaden herangezogen wird.
Details zur Berechnung der Stichprobengröße behandeln wir in Stichprobengröße für Umfragen bestimmen.
5. Score-Berechnung — Count-Analyse vs. hierarchische Bayes
Es gibt im Wesentlichen zwei Wege, aus den MaxDiff-Antwortdaten den „Prioritäts-Score je Item" zu berechnen.
Count-Analyse (einfache Variante)
- Für jedes Item zählen: „Anzahl als Best gewählt − Anzahl als Worst gewählt"
- Nach der Auszählung Items untereinander vergleichen
- In Excel machbar, einfache Interpretation — geeignet, wenn Sie eine grobe Reihenfolge auf Gruppenebene sehen wollen
Allerdings liefert die Count-Analyse keine Scores auf Individualebene und auch keinen präzisen segmentbezogenen Vergleich.
Hierarchische Bayes-Schätzung (HB, Hierarchical Bayes)
- Schätzt den individuellen Score jedes Befragten aus A-priori-Verteilung (Gruppenmittelwert) + A-posteriori-Korrektur (individuelle Auswahl)
- Da Individual-Scores entstehen, einsetzbar für Segmentierung und Clustering
- Standardmäßig mit dem HB-Modul von Sawtooth Software oder den R-Paketen
bayesm/ChoiceModelR
Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices systematisiert die mathematischen Modelle (Random-Utility-Modell, MNL) für Best-Worst-Auswahl und bildet die theoretische Grundlage der HB-Implementierung.
Auswahl in der Praxis
- Für eine Vorstandspräsentation zeigen wollen „Feature A ist dreimal so wichtig wie Feature B" → HB-Schätzung (Individual-Scores → als Mittelwert darstellen)
- Prioritäten zwischen 5 Segmenten vergleichen wollen → HB-Schätzung (segmentspezifische A-posteriori-Verteilung)
- „Was hat in Q1 oberste Priorität?" kompakt intern teilen → Count-Analyse reicht
Die theoretischen Details der Bayes-Schätzung verstehen Sie leichter im Kontrast zur Frequentistik, wenn Sie parallel Umfrageauswertung und Signifikanzprüfung — Kreuztabellen, Chi-Quadrat-Test und Effektstärke richtig einsetzen lesen.
6. Abgrenzung MaxDiff / Conjoint / PSM
Als die drei großen Methoden der Preis- und Prioritätsforschung werden MaxDiff, Conjoint und PSM häufig nebeneinander diskutiert. Sie beantworten unterschiedliche Fragen und haben jeweils ihre eigenen Einsatzfelder.
Abgrenzung MaxDiff / Conjoint / PSM
Auswahlfluss in der Praxis
- „Was entwickeln wir mit höchster Priorität?" entscheiden wollen → MaxDiff
- „Verkauft sich dieses Preis-Feature-Bundle?" sehen wollen → Conjoint
- „Sollen wir den Einstiegspreis auf 3.000, 5.000 oder 8.000 Yen setzen?" erkunden wollen → PSM
Es gibt auch Fälle, in denen man die Methoden parallel einsetzt. Mit MaxDiff Feature-Prioritäten eingrenzen, anschließend ein Conjoint mit den Top-3-Features einbauen und die Preisspanne mit PSM klären — dieses Setup ist das Standardmuster mittelgroßer Projekte.
Lesen Sie parallel die Praxis der Conjoint-Analyse und den Van Westendorp PSM Designleitfaden — dann wird die Abgrenzung der drei Geschwistermethoden sichtbar.
7. Perspektive der Redaktion — 5 Punkte, die in der MaxDiff-Implementierung garantiert wirken
Aus der Position, kontinuierlich Branchen-Cases und öffentliche Anbieter-Artikel zu verfolgen, fünf Punkte, die in der MaxDiff-Implementierung garantiert wirken.
1. Items auf 10–20 eingrenzen, bevor Sie starten
„Wir wollen alle 30 Items in MaxDiff hineinwerfen" — diese Anforderung hören Sie häufig. Aber bei 30 Items braucht es etwa 22 Blöcke pro Person, und die Antwortbelastung kollabiert. Es entspricht der Feldpraxis, vor dem MaxDiff intern „eindeutig behalten / eindeutig streichen" zu diskutieren und auf höchstens 20 Items zu reduzieren.
2. Granularität der Items angleichen
Wenn Sie „Niedriger Preis" und „Bedienbarkeit des Kontaktformulars" auf eine Stufe stellen, ist die Abstraktionsebene zu unterschiedlich — die Befragten können nicht vergleichen. Achten Sie bewusst auf einheitliche Granularität (Abstraktionsebene) der Items — zum Beispiel alles auf der Ebene „Feature-Kategorie" oder alles auf der Ebene „konkrete Touchpoints".
3. „Wichtigkeit" und „Zufriedenheit" nicht mischen
Wenn Sie in derselben Studie sowohl „Wichtigkeit" als auch „aktuelle Zufriedenheit" mit MaxDiff erfassen wollen, trennen Sie das in unterschiedliche Blöcke. Wenn Sie im selben Block „wichtig und zugleich zufriedenstellend" auswählen lassen, geraten die Befragten in Verwirrung. Wenn Sie die Kano-Modell-Analyse parallel fahren, ist es sicherer, sie als separate Studie zu designen.
4. Im Pretest die Blockanzeige auf echten Geräten prüfen
Bei MaxDiff-Blockbildschirmen kommt es häufig vor, dass Item-Texte auf Mobilgeräten umgebrochen werden und schwer lesbar sind. Vor dem Live-Start unbedingt auf iOS und Android die Darstellung prüfen. Details zum Rahmen der Vorab-Verifizierung finden Sie in der Pre-Launch-Checkliste für Umfragen.
5. Im Report das Dreigespann „Score + Rang + Effektstärke"
Wenn Sie der Führungsebene nur die Zahl „Feature A: 28,5 Punkte" zeigen, kommt nichts an. Stellen Sie „Score", „Rang" und „Ist der Unterschied zwischen Feature A und Feature B statistisch signifikant?" auf einer Seite nebeneinander. Bei HB-Schätzung lässt sich die Signifikanz intuitiv über die Überlappung der A-posteriori-Verteilungen zeigen.
8. MaxDiff-Implementierung mit dem Umfragetool Kicue
⚠️ Wichtige Voraussetzung: Kicue hat keinen dedizierten MaxDiff-Fragetyp. Im Vergleich zu spezialisierten Forschungstools (Sawtooth Software / SurveyEngine / Conjoint.ly) sind die Automatisierungsfunktionen für Design und Analyse begrenzt.
Zwei Optionen, MaxDiff in Kicue umzusetzen
Option A: Ersatzimplementierung in Kicue
Mit iterierten Blöcken aus Single-Answer-Fragen lässt sich das MaxDiff-Verhalten nachbilden:
- „Welches der folgenden 4 Items ist am wichtigsten" als Single-Answer-Frage 12-mal wiederholen
- „Welches der folgenden 4 Items ist am unwichtigsten" als Single-Answer-Frage 12-mal wiederholen
- Pro Block den Item-Satz wechseln (vorab BIBD in Excel / R generieren und in die Antwortoptionen jeder Frage einfügen)
- Nach Datensammlung CSV-Export → HB-Schätzung mit den R-Paketen
bayesm/ChoiceModelR
Diese Methode ist für „initiale Projekte ohne Budget für spezialisierte Tools" und „einfache Verifizierung mit 10–15 Items" ausreichend praxistauglich.
Option B: Parallel mit spezialisierten Tools
Für vollwertige MaxDiff-Projekte:
- Sawtooth Software Discover / Lighthouse: Branchenstandard, von Design bis HB-Analyse aus einer Hand
- SurveyEngine / Conjoint.ly: SaaS-basiert, leicht einzuführen
- Damit die eigentliche Studie durchführen und Kicue für Screening-Fragen oder zusätzliche Profiling-Fragen einsetzen
Was Kicue nicht abdeckt
- Automatische BIBD-Generierung → mit externen Tools (R
support.BWS/ Sawtooth) vorab generieren und in Kicue einfügen - Hierarchische Bayes-Schätzung → CSV-Export → R
bayesm/ Sawtooth HB-Modul - Dashboard-Darstellung von Individual-Scores → externe BI-Tools (Tableau / Looker)
- Automatische Randomisierung der Blockanzeige → mit der Optionsrandomisierungsfunktion von Kicue teilweise abgedeckt, die Ausbalancierung der Item-Paare muss manuell gesteuert werden
Als verwandte Beiträge ergeben sich beim Parallellesen von Van Westendorp PSM Designleitfaden, Praxis der Conjoint-Analyse, Designleitfaden zur Likert-Skala und Design von Screening-Fragen die Abgrenzung der drei Geschwistermethoden sowie das vorgelagerte Screening-Design für MaxDiff.
Literatur
- Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis: A novel method of measuring values in marketing research. Journal of Marketing Research, 27(4), 437-444.
- Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices. Journal of Mathematical Psychology, 49(6), 464-480.
- Orme, B. K. (2010). Getting Started with Conjoint Analysis: Strategies for Product Design and Pricing Research (2nd ed.). Research Publishers.
- Cohen, S. H. (2003). Maximum difference scaling: Improved measures of importance and preference for segmentation. Sawtooth Software Research Paper.
- Flynn, T. N., Louviere, J. J., Peters, T. J., & Coast, J. (2007). Best-worst scaling: What it can do for health care research and how to do it. Journal of Health Economics, 26(1), 171-189.
Wenn Sie Funktionspräferenzen oder Wunschlisten-Rankings mit hoher Präzision messen möchten, probieren Sie das kostenlose Umfragetool Kicue aus. Ersatzimplementierung von MaxDiff mit iterierten Single-Answer-Blöcken, Kontrolle der Anzeigereihenfolge mit der Optionsrandomisierungsfunktion, und Integration mit R / Sawtooth über CSV-Export — Sie können die anfängliche Verifizierungsphase von MaxDiff in einem einzigen Konto starten (BIBD-Generierung, hierarchische Bayes-Schätzung und Analyse auf individueller Ebene erfordern spezialisierte Tools wie Sawtooth Software / SurveyEngine / R bayesm).
