MaxDiff (Maximum Difference Scaling) Designleitfaden — Prioritäten messen

„Welches Feature hat für Sie die höchste Priorität?" — und am Ende landet auf der Likert-Skala jedes einzelne Item bei ‚sehr wichtig'. Wer ein Jahr in der Marktforschung steckt, kennt dieses Bild. Der Moment, in dem man sich an den Kopf greift: „Alle sagen, alles ist wichtig... damit kann ich keine Entscheidung treffen."

Die Methode, die diesen Deckeneffekt (Ceiling Effect) strukturell umgeht, ist MaxDiff (Maximum Difference Scaling, Best-Worst Scaling). In diesem Beitrag fassen wir zusammen — von den Gründen, warum die Likert-Skala keine Prioritäten liefert, über die Grundstruktur von MaxDiff, die Regeln des Versuchsdesigns, die Beurteilung der Stichprobengröße, die Score-Berechnung (Count vs. hierarchische Bayes) bis hin zur Abgrenzung gegenüber Conjoint und PSM —, gestützt sowohl auf die Praxis der Implementierungsanbieter als auch auf die akademischen Originalquellen.

1. Warum die Likert-Skala keine Prioritäten liefert

Wenn Sie 10 Items mit „Bitte bewerten Sie die Wichtigkeit auf einer Skala von 1 bis 5" abfragen, landen fast alle Items bei ‚wichtig' oder ‚sehr wichtig'. Das ist die strukturelle Schwäche der Likert-Skala.

Drei Hauptursachen:

Deckeneffekt: Wenn Befragte das Gefühl haben „alles ist wichtig", kleben sie an der oberen Grenze. Bei 10 Items mit jeweils 5 Punkten lassen sich keine Prioritäten identifizieren
Social-Desirability-Bias: Items wie „Sicherheit", „Qualität" oder „Support", die schwer abzulehnen sind, erscheinen höher als ihre tatsächliche Priorität
Antwortmüdigkeit: Das eintönige Vergeben von Sternchen für 10 Items wird in der zweiten Hälfte oberflächlich

Im Ergebnis sammelt sich Datenmaterial nach dem Muster „alles ist wichtig" — und Sie sitzen auf Daten, die für Entscheidungen unbrauchbar sind.

Details zur Likert-Skala selbst behandeln wir im Designleitfaden zur Likert-Skala. Für den Zweck „Ich will eine Reihenfolge erzeugen" ist die Likert-Skala strukturell ungeeignet — und genau das ist die Motivation für MaxDiff.

2. Grundstruktur von MaxDiff — Best und Worst auswählen

MaxDiff ist eine Methode, bei der jeweils 4 bis 5 Items gleichzeitig präsentiert werden und die Befragten das wichtigste (Best) sowie das unwichtigste (Worst) auswählen. Indem man dies in 10 bis 15 Blöcken wiederholt, lässt sich die relative Priorität jedes Items statistisch schätzen.

So sieht die Frage aus

Beispiel: Wenn Sie 10 Items vergleichen wollen, sehen die Befragten zwölfmal einen Bildschirm wie diesen.

Wählen Sie aus den folgenden 4 Items jeweils das wichtigste und das unwichtigste aus.

[ ] Niedriger Preis             Am wichtigsten [○]  Am unwichtigsten [ ]
[ ] Supportqualität             Am wichtigsten [ ]  Am unwichtigsten [○]
[ ] Funktionsumfang             Am wichtigsten [ ]  Am unwichtigsten [ ]
[ ] Bedienkomfort               Am wichtigsten [ ]  Am unwichtigsten [ ]

Jeder Befragte muss die Items direkt miteinander vergleichen — die Hintertür „alle bekommen 5 Punkte" wie bei der Likert-Skala gibt es nicht. So treten die relativen Stärken und Schwächen zwischen den Items klar hervor.

Warum dieses Format funktioniert

Die entscheidende Einsicht von Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis ist die psychologische Tatsache, dass „relative Auswahl für den Menschen natürlicher ist als absolute Bewertung". Wir tun uns schwer damit, festzulegen „das ist eine 7" — aber auf die Frage „Was magst du lieber, A oder B?" antworten wir sofort. MaxDiff nutzt diese kognitive Eigenschaft geradlinig aus.

3. Versuchsdesign — Regeln des Balanced Incomplete Block Design

Der Kern von MaxDiff ist das Versuchsdesign. Beim Vergleich von 10 Items können wir den Befragten unmöglich alle Kombinationen (45 Stück) zeigen, deshalb werden die Items mit dem Balanced Incomplete Block Design (BIBD, ausgewogenes unvollständiges Blockdesign) zufällig verteilt.

Grundregeln des Designs

4–5 Items pro Block: Zu viele machen die Auswahl schwierig, zu wenige liefern dünne Vergleichsinformation
Jedes Item erscheint gleich oft: Wenn Sie 10 Items auf 12 Blöcke verteilen, erscheint jedes Item etwa fünfmal
Jedes Item-Paar tritt gleich oft gemeinsam auf: Die Häufigkeit, mit der „Preis" und „Support" im selben Block landen, wird ausgeglichen
Itempositionen randomisieren: Verhindert Reihenfolge-Effekte

Realität der Umsetzung

Ein perfektes BIBD von Hand zu rechnen ist nicht praktikabel, daher gehört der Einsatz von Spezialwerkzeugen zum Standard:

Sawtooth Software Lighthouse / Discover: Branchenstandard-Anbieter für MaxDiff, automatische Design-Generierung
R-Paket support.BWS: Open Source, weit verbreitet in der Forschung
SurveyEngine / Conjoint.ly: Cloud-basiert, mit Vorlagen

Diese Werkzeuge generieren das Blockdesign automatisch aus der eingegebenen Anzahl an Items. Nicht von Hand basteln — das ist die eiserne Regel.

4. Stichprobengröße und Anzahl der Wiederholungen festlegen

„Wie viele Personen reichen?" und „Wie viele Blöcke zeige ich pro Person?" sind in der MaxDiff-Praxis die quälendsten Fragen.

Richtwerte für die Wiederholungszahl (Blöcke pro Person)

Anzahl der Items × 3 / 4 ist die Faustregel der Branche. Beispiel: Bei 10 Items 7–8 Blöcke pro Person, bei 15 Items 11–12 Blöcke
Zu wenige Wiederholungen machen die Schätzung auf Individualebene instabil, zu viele erhöhen die Abbruchrate durch Antwortmüdigkeit
In der Praxis rechnet man rückwärts mit einer Bearbeitungszeit von höchstens 5–10 Minuten

Richtwerte für die Stichprobengröße

Nur Analyse auf Gruppenebene: N = 200–300 reicht aus
Hierarchische Bayes-Schätzung nach Segment: N ≥ 100 pro Segment, insgesamt N = 400–500
Schätzung auf Individualebene (Detailanalyse wichtiger Kunden): N ≥ 500

Orme, B. K. (2010). Getting Started with Conjoint Analysis (2nd ed.) systematisiert das Stichprobendesign für MaxDiff auf Basis der Implementierungserfahrung von Sawtooth Software — ein Praxisbuch, das im Feld als Standardleitfaden herangezogen wird.

Details zur Berechnung der Stichprobengröße behandeln wir in Stichprobengröße für Umfragen bestimmen.

5. Score-Berechnung — Count-Analyse vs. hierarchische Bayes

Es gibt im Wesentlichen zwei Wege, aus den MaxDiff-Antwortdaten den „Prioritäts-Score je Item" zu berechnen.

Count-Analyse (einfache Variante)

Für jedes Item zählen: „Anzahl als Best gewählt − Anzahl als Worst gewählt"
Nach der Auszählung Items untereinander vergleichen
In Excel machbar, einfache Interpretation — geeignet, wenn Sie eine grobe Reihenfolge auf Gruppenebene sehen wollen

Allerdings liefert die Count-Analyse keine Scores auf Individualebene und auch keinen präzisen segmentbezogenen Vergleich.

Hierarchische Bayes-Schätzung (HB, Hierarchical Bayes)

Schätzt den individuellen Score jedes Befragten aus A-priori-Verteilung (Gruppenmittelwert) + A-posteriori-Korrektur (individuelle Auswahl)
Da Individual-Scores entstehen, einsetzbar für Segmentierung und Clustering
Standardmäßig mit dem HB-Modul von Sawtooth Software oder den R-Paketen bayesm / ChoiceModelR

Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices systematisiert die mathematischen Modelle (Random-Utility-Modell, MNL) für Best-Worst-Auswahl und bildet die theoretische Grundlage der HB-Implementierung.

Auswahl in der Praxis

Für eine Vorstandspräsentation zeigen wollen „Feature A ist dreimal so wichtig wie Feature B" → HB-Schätzung (Individual-Scores → als Mittelwert darstellen)
Prioritäten zwischen 5 Segmenten vergleichen wollen → HB-Schätzung (segmentspezifische A-posteriori-Verteilung)
„Was hat in Q1 oberste Priorität?" kompakt intern teilen → Count-Analyse reicht

Die theoretischen Details der Bayes-Schätzung verstehen Sie leichter im Kontrast zur Frequentistik, wenn Sie parallel Umfrageauswertung und Signifikanzprüfung — Kreuztabellen, Chi-Quadrat-Test und Effektstärke richtig einsetzen lesen.

6. Abgrenzung MaxDiff / Conjoint / PSM

Als die drei großen Methoden der Preis- und Prioritätsforschung werden MaxDiff, Conjoint und PSM häufig nebeneinander diskutiert. Sie beantworten unterschiedliche Fragen und haben jeweils ihre eigenen Einsatzfelder.

Abgrenzung MaxDiff / Conjoint / PSM

MaxDiff (Maximum Difference Scaling)

Misst die Prioritäten einzelner Items. Identifiziert aus 10–30 Features oder Wünschen „was ist am wichtigsten". Das Design ist relativ einfach, die Antwortbelastung mittel. Optimal für Feature-Priorisierung, Konzept-Screening und Eingrenzung von Attributen.

Conjoint-Analyse

Präsentiert Attributkombinationen und ermöglicht Share-Simulationen. Stark, wenn Sie Produktprofile (Preis × Feature × Marke) vergleichen. Design und Analyse sind anspruchsvoller als bei MaxDiff. Optimal für Produktkonzept-Bewertung und Messung der Preiselastizität.

Van Westendorp PSM

Fragt direkt nach 4 Preispunkten wie „zu teuer", „zu billig", „angemessen". Das Design ist am einfachsten, liefert aber nur eine „Preisspanne" — keine Feature-Prioritäten. Optimal für die Erkundung der initialen Preisspanne neuer Produkte.

Auswahlfluss in der Praxis

„Was entwickeln wir mit höchster Priorität?" entscheiden wollen → MaxDiff
„Verkauft sich dieses Preis-Feature-Bundle?" sehen wollen → Conjoint
„Sollen wir den Einstiegspreis auf 3.000, 5.000 oder 8.000 Yen setzen?" erkunden wollen → PSM

Es gibt auch Fälle, in denen man die Methoden parallel einsetzt. Mit MaxDiff Feature-Prioritäten eingrenzen, anschließend ein Conjoint mit den Top-3-Features einbauen und die Preisspanne mit PSM klären — dieses Setup ist das Standardmuster mittelgroßer Projekte.

Lesen Sie parallel die Praxis der Conjoint-Analyse und den Van Westendorp PSM Designleitfaden — dann wird die Abgrenzung der drei Geschwistermethoden sichtbar.

7. Perspektive der Redaktion — 5 Punkte, die in der MaxDiff-Implementierung garantiert wirken

Aus der Position, kontinuierlich Branchen-Cases und öffentliche Anbieter-Artikel zu verfolgen, fünf Punkte, die in der MaxDiff-Implementierung garantiert wirken.

1. Items auf 10–20 eingrenzen, bevor Sie starten

„Wir wollen alle 30 Items in MaxDiff hineinwerfen" — diese Anforderung hören Sie häufig. Aber bei 30 Items braucht es etwa 22 Blöcke pro Person, und die Antwortbelastung kollabiert. Es entspricht der Feldpraxis, vor dem MaxDiff intern „eindeutig behalten / eindeutig streichen" zu diskutieren und auf höchstens 20 Items zu reduzieren.

2. Granularität der Items angleichen

Wenn Sie „Niedriger Preis" und „Bedienbarkeit des Kontaktformulars" auf eine Stufe stellen, ist die Abstraktionsebene zu unterschiedlich — die Befragten können nicht vergleichen. Achten Sie bewusst auf einheitliche Granularität (Abstraktionsebene) der Items — zum Beispiel alles auf der Ebene „Feature-Kategorie" oder alles auf der Ebene „konkrete Touchpoints".

3. „Wichtigkeit" und „Zufriedenheit" nicht mischen

Wenn Sie in derselben Studie sowohl „Wichtigkeit" als auch „aktuelle Zufriedenheit" mit MaxDiff erfassen wollen, trennen Sie das in unterschiedliche Blöcke. Wenn Sie im selben Block „wichtig und zugleich zufriedenstellend" auswählen lassen, geraten die Befragten in Verwirrung. Wenn Sie die Kano-Modell-Analyse parallel fahren, ist es sicherer, sie als separate Studie zu designen.

4. Im Pretest die Blockanzeige auf echten Geräten prüfen

Bei MaxDiff-Blockbildschirmen kommt es häufig vor, dass Item-Texte auf Mobilgeräten umgebrochen werden und schwer lesbar sind. Vor dem Live-Start unbedingt auf iOS und Android die Darstellung prüfen. Details zum Rahmen der Vorab-Verifizierung finden Sie in der Pre-Launch-Checkliste für Umfragen.

5. Im Report das Dreigespann „Score + Rang + Effektstärke"

Wenn Sie der Führungsebene nur die Zahl „Feature A: 28,5 Punkte" zeigen, kommt nichts an. Stellen Sie „Score", „Rang" und „Ist der Unterschied zwischen Feature A und Feature B statistisch signifikant?" auf einer Seite nebeneinander. Bei HB-Schätzung lässt sich die Signifikanz intuitiv über die Überlappung der A-posteriori-Verteilungen zeigen.

8. MaxDiff-Implementierung mit dem Umfragetool Kicue

⚠️ Wichtige Voraussetzung: Kicue hat keinen dedizierten MaxDiff-Fragetyp. Im Vergleich zu spezialisierten Forschungstools (Sawtooth Software / SurveyEngine / Conjoint.ly) sind die Automatisierungsfunktionen für Design und Analyse begrenzt.

Zwei Optionen, MaxDiff in Kicue umzusetzen

Option A: Ersatzimplementierung in Kicue

Mit iterierten Blöcken aus Single-Answer-Fragen lässt sich das MaxDiff-Verhalten nachbilden:

„Welches der folgenden 4 Items ist am wichtigsten" als Single-Answer-Frage 12-mal wiederholen
„Welches der folgenden 4 Items ist am unwichtigsten" als Single-Answer-Frage 12-mal wiederholen
Pro Block den Item-Satz wechseln (vorab BIBD in Excel / R generieren und in die Antwortoptionen jeder Frage einfügen)
Nach Datensammlung CSV-Export → HB-Schätzung mit den R-Paketen bayesm / ChoiceModelR

Diese Methode ist für „initiale Projekte ohne Budget für spezialisierte Tools" und „einfache Verifizierung mit 10–15 Items" ausreichend praxistauglich.

Option B: Parallel mit spezialisierten Tools

Für vollwertige MaxDiff-Projekte:

Sawtooth Software Discover / Lighthouse: Branchenstandard, von Design bis HB-Analyse aus einer Hand
SurveyEngine / Conjoint.ly: SaaS-basiert, leicht einzuführen
Damit die eigentliche Studie durchführen und Kicue für Screening-Fragen oder zusätzliche Profiling-Fragen einsetzen

Was Kicue nicht abdeckt

Automatische BIBD-Generierung → mit externen Tools (R support.BWS / Sawtooth) vorab generieren und in Kicue einfügen
Hierarchische Bayes-Schätzung → CSV-Export → R bayesm / Sawtooth HB-Modul
Dashboard-Darstellung von Individual-Scores → externe BI-Tools (Tableau / Looker)
Automatische Randomisierung der Blockanzeige → mit der Optionsrandomisierungsfunktion von Kicue teilweise abgedeckt, die Ausbalancierung der Item-Paare muss manuell gesteuert werden

Als verwandte Beiträge ergeben sich beim Parallellesen von Van Westendorp PSM Designleitfaden, Praxis der Conjoint-Analyse, Designleitfaden zur Likert-Skala und Design von Screening-Fragen die Abgrenzung der drei Geschwistermethoden sowie das vorgelagerte Screening-Design für MaxDiff.

Literatur

Louviere, J. J., & Woodworth, G. (1990). Best-worst analysis: A novel method of measuring values in marketing research. Journal of Marketing Research, 27(4), 437-444.
Marley, A. A. J., & Louviere, J. J. (2005). Some probabilistic models for best, worst, and best-worst choices. Journal of Mathematical Psychology, 49(6), 464-480.
Orme, B. K. (2010). Getting Started with Conjoint Analysis: Strategies for Product Design and Pricing Research (2nd ed.). Research Publishers.
Cohen, S. H. (2003). Maximum difference scaling: Improved measures of importance and preference for segmentation. Sawtooth Software Research Paper.
Flynn, T. N., Louviere, J. J., Peters, T. J., & Coast, J. (2007). Best-worst scaling: What it can do for health care research and how to do it. Journal of Health Economics, 26(1), 171-189.

Wenn Sie Funktionspräferenzen oder Wunschlisten-Rankings mit hoher Präzision messen möchten, probieren Sie das kostenlose Umfragetool Kicue aus. Ersatzimplementierung von MaxDiff mit iterierten Single-Answer-Blöcken, Kontrolle der Anzeigereihenfolge mit der Optionsrandomisierungsfunktion, und Integration mit R / Sawtooth über CSV-Export — Sie können die anfängliche Verifizierungsphase von MaxDiff in einem einzigen Konto starten (BIBD-Generierung, hierarchische Bayes-Schätzung und Analyse auf individueller Ebene erfordern spezialisierte Tools wie Sawtooth Software / SurveyEngine / R bayesm).