Leitfaden für Konzepttests — Akzeptanz vor dem Launch messen

Die Ideen für ein neues Produkt sind auf drei eingedampft. Im Besprechungsraum haben sich der Favorit der lautesten Stimme und der Liebling des Vorstands durchgesetzt. Doch kaufen werden es nicht die Leute im Besprechungsraum. Erst nach dem Launch zu merken, dass „es sich nicht verkauft", ist der teuerste Fehler überhaupt.

Ein Konzepttest ist die Erhebung, bei der man die Zielkundschaft fragt „Wie findest du das?", bevor man die Idee auf den Markt bringt. Was simpel aussieht, ist es nicht: Ein einziger Designfehler, und die Zahlen lügen. „Alle Konzepte kommen auf über 70 % Kaufabsicht" — ein vertrautes Bild, aber der klassische Fall einer falsch gewählten Präsentationsform. Dieser Beitrag ordnet alles entlang des praktischen Gespürs: wann welche Präsentationsform passt, welche Standardkennzahlen man messen sollte, wie man Top-Box-Werte liest und schließlich den Normvergleich, mit dem man überhaupt erst beurteilen kann, „ob die eigenen Zahlen hoch oder niedrig sind".

1. Was ist ein Konzepttest — die Investition, die den teuersten Fehler verhindert

Ein Konzepttest ist eine Erhebung, bei der man der Zielkundschaft ein Konzept (eine Idee, die noch kein reales Produkt ist) zu einem Produkt, einer Leistung, einer Funktion oder einer Werbung präsentiert und ihre Akzeptanz bewertet. Sie verfolgt zwei Ziele.

Go-/No-Go-Entscheidung: Lohnt es sich überhaupt, das auf den Markt zu bringen? Welche von mehreren Varianten verfolgt man weiter?
Verbesserungspotenziale erkennen: Wo zündet das Konzept, und wo verfehlt es seine Wirkung?

Der größte Wert liegt darin, dass man „es schon vor dem Bauen weiß". Wer die Richtung schon vor Prototyp-Entwicklung, Lageraufbau und Werbeschaltung absichert, senkt die Fehlerkosten um Größenordnungen. Umgekehrt heißt das: Wer hier schlampig erhebt und fälschlich „das läuft" urteilt, provoziert den teuersten Fehler — den Rückzug, nachdem das Produkt schon am Markt war.

Der Konzepttest steht dabei vor der Frage „zu welchem Preis". Nachdem die Akzeptanz bestätigt ist, schnürt man mit dem Van Westendorp Price Sensitivity Meter (PSM) oder der Conjoint-Analyse die optimale Kombination aus Preis und Funktionen, und mit MaxDiff misst man die Prioritätenreihenfolge der Verkaufsargumente. Der Konzepttest ist der Einstieg in diesen Cluster der Pre-Launch-Forschung.

2. Wann welche Präsentationsform — monadisch / sequenziell monadisch / vergleichend

Die größte Designentscheidung beim Konzepttest ist „Wie zeige ich es?". Die Präsentationsform verändert die Ergebnisse massiv. Wer hier danebengreift, produziert das eingangs erwähnte „alle über 70 %" oder umgekehrt „alle niedrig".

Die drei Formen der Konzeptpräsentation

Monadisch (Monadic) — eine Person, nur eine Variante

Die Befragten werden nach Varianten aufgeteilt, und jede Person bewertet nur ein einziges Konzept in der Tiefe. Am reinsten (am wenigsten verzerrt) und der realen Kaufsituation am nächsten. Schwäche: Man braucht so viel Stichprobe wie es Varianten gibt (bei 3 Varianten das Dreifache). Für die eigentliche Entscheidung nimmt man genau das.

Sequenziell monadisch (Sequential Monadic) — eine Person, mehrere Varianten nacheinander

Eine Person bewertet mehrere Varianten eine nach der anderen. Stichproben-effizient. Schwäche: Spätere Varianten werden mit den vorherigen verglichen (Reihenfolgeeffekt). Man entschärft das, indem man die Präsentationsreihenfolge randomisiert. Der in der Praxis häufigste Kompromiss.

Vergleichende Präsentation (Comparative / Competitive) — mehrere Varianten nebeneinander

Mehrere Varianten werden gleichzeitig nebeneinander gezeigt, und man lässt „welche ist die beste?" wählen. Die relative Über- und Unterlegenheit zwischen den Varianten tritt scharf hervor. Schwäche: Stellt man alle nebeneinander, werden Unterschiede überzeichnet, und die absolute Akzeptanz (ob es sich am Markt wirklich verkauft) bleibt unklar. Eignet sich zum Screening.

Das Prinzip der Auswahl

Endgültige Go-/No-Go-Entscheidung → monadisch: Frisst Stichprobe, kommt aber dem realen Kauf am nächsten (man begegnet im Laden je einer Variante) und lässt das absolute Niveau ablesen
Begrenzte Stichprobe → sequenziell monadisch + randomisierte Reihenfolge: Der realistische Kompromiss. Gegen Reihenfolgeeffekte ist die Randomisierung Pflicht — mit den Erkenntnissen aus Reihenfolgeeffekte und das Design der Fragenreihenfolge
Erstes Screening, um aus vielen Varianten einige wenige herauszufiltern → vergleichend: Wenn man nur den relativen Rang sehen will

„Bei vergleichender Präsentation alle Varianten gezeigt und gute Bewertungen erhalten" niemals als absolutes Niveau fehlinterpretieren. Nebeneinander werden Unterschiede überzeichnet, und das hat mit dem realen Markt (wo man je einer Variante begegnet) wenig zu tun.

3. Was wird gemessen — die Standardkennzahlen des Konzepttests

Welche Kennzahlen man misst, hat sich in der Branche weitgehend gefestigt. Folgende fünf sind das Minimum, das man im Griff haben muss.

Kaufabsicht (Purchase Intent): „Würden Sie es kaufen, wenn es auf den Markt käme?" Eine 5er-Skala („würde ich auf jeden Fall kaufen" bis „würde ich auf keinen Fall kaufen") ist Standard. Die wichtigste Kennzahl
Neuartigkeit / Neuigkeit (Uniqueness / Newness): „Empfinden Sie eine Neuartigkeit, die es so bisher nicht gab?" Ist die Neuartigkeit niedrig, gibt es keinen Grund, vom bestehenden Produkt zu wechseln
Attraktivität / Gefallen (Appeal / Liking): „Wie anziehend finden Sie es insgesamt?" Das Gesamturteil des ersten Eindrucks
Relevanz / persönliche Betroffenheit (Relevance): „Passt es zu Ihren Bedürfnissen?" Auch bei hoher Neuartigkeit kauft niemand, was ihn nicht betrifft
Einzigartigkeit / Differenzierung (Differentiation): „Finden Sie, es unterscheidet sich von anderen Produkten?"

Die Balance aus Neuartigkeit × Relevanz

Besonders wichtig ist der Zielkonflikt zwischen Neuartigkeit und Relevanz.

Hohe Neuartigkeit, aber niedrige Relevanz → „Interessant, aber betrifft mich nicht." Gibt Gesprächsstoff, verkauft sich aber nicht
Hohe Relevanz, aber niedrige Neuartigkeit → „Klingt praktisch, aber das, was ich habe, reicht." Kein Wechsel
Beides hoch → das Ideal. Neu und zugleich für mich nötig

Statt sich allein an der Kaufabsicht hochzuziehen oder zu verzweifeln, sollte man „warum diese Kaufabsicht?" in Neuartigkeit und Relevanz zerlegen — dann zeigt sich die Verbesserungsrichtung (mehr Neuartigkeit hinzufügen oder die persönliche Betroffenheit stärken).

4. Wie man Top-Box-Werte liest — die Kunst des Abdiskontierens

Beim Auswerten der Kaufabsicht arbeitet man mit der Top Box / Top 2 Box (T2B). Bei einer 5er-Skala ist „würde ich auf jeden Fall kaufen" = Top Box und „würde ich auf jeden Fall kaufen + würde ich wahrscheinlich kaufen" = T2B.

Die Kaufabsicht liegt immer zu hoch

Hier lauert die größte Falle. Die in der Befragung gemessene Kaufabsicht fällt immer höher aus als das tatsächliche Kaufverhalten. „Kaufen wollen" kostet ja nichts. Dass die reale Kaufrate derer, die „auf jeden Fall kaufen" angekreuzt haben, jemals dem genannten Wert entspricht, kommt so gut wie nie vor.

In der Praxis ist es Standard, „auf jeden Fall kaufen" stark zu gewichten und „wahrscheinlich kaufen" deutlich abzudiskontieren. Manche Branchen haben einen Umrechnungsfaktor parat („welcher Anteil der T2B kauft tatsächlich", ein eigener Faktor aus früheren Ergebnissen), doch der schwankt stark je nach Produkt und Preisklasse — mit dem geliehenen Faktor eines anderen Unternehmens trifft man daneben.

Genau deshalb braucht es den „Normvergleich" (nächstes Kapitel)

Selbst wenn man abdiskontiert, braucht man einen Maßstab, um zu beurteilen, „ob die Zahl nach dem Abschlag hoch oder niedrig ist". Das ist die Norm.

5. Normvergleich — ob „70 %" hoch oder niedrig ist, lässt sich isoliert nicht sagen

Der häufigste Fehler beim Konzepttest ist, allein anhand des absoluten Score-Werts zu urteilen. „Die T2B der Kaufabsicht liegt bei 65 %, das ist hoch" — wirklich?

Das Niveau der Kaufabsicht schwankt stark je nach Kategorie, Preisklasse und Erhebungsmethode. Bei einer neuen Geschmacksrichtung im Alltagsbedarf mag T2B 70 % mittelmäßig sein, bei einem teuren langlebigen Gut sind vielleicht 40 % exzellent. Erst im Vergleich mit früheren Varianten, Wettbewerbern oder dem Kategorienschnitt (= Normen / Benchmarks), gemessen mit demselben Studiendesign, lässt sich „hoch / niedrig" sagen.

Wie man Normen aufbaut und nutzt

Eigene frühere Varianten mit gleichem Design akkumulieren: Die verlässlichste Norm. Die Scores erfolgreicher und gescheiterter früherer Produkte werden zur Bezugslinie
Innerhalb derselben Studie einen „Anker" einbauen: Lasse zusammen mit den Testvarianten ein bestehendes eigenes Erfolgsprodukt oder ein Wettbewerbsprodukt mit denselben Fragen bewerten. So weiß man unter identischen Bedingungen, „wie die neue Variante im Vergleich zum bestehenden Erfolg dasteht"
Die normative Datenbank eines Marktforschungsinstituts nutzen: Kommerzielle Norm-Datenbanken wie BASES (NielsenIQ) führen Benchmarks nach Kategorie. Allerdings methodenabhängig — also unter der Prämisse, dass man mit der Methode dieses Instituts misst

Ein einzelner Score hat fast keine Aussagekraft. Erst zusammen mit einem Vergleichsobjekt wird er zur Entscheidungsgrundlage. Das ist die eiserne Regel des Konzepttests.

6. Das Stimulus-Design (der Konzepttext) — der Kampf vor dem Messen

Gern übersehen, aber: Die „Präsentation des Konzepts (der Stimulus)" selbst entscheidet über das Ergebnis. Dieselbe Idee wird je nach Ausarbeitung des Stimulus anders bewertet.

Der Standardaufbau eines Konzepttexts

Ein guter Konzepttext hat in der Regel folgende Elemente.

Insight / Problem: „Kennen Sie diesen Frust?" (das Eingangstor der Identifikation)
Benefit: Wie das Problem gelöst wird (der gebotene Nutzen)
Reason to Believe (RTB): Warum das möglich ist (Belege, Technologie, Track Record zum Glauben)
Produktform und Nutzungsszene: Was man konkret, wann und wie nutzt

Worauf man beim Stimulus-Design achtet

Informationsmenge und Ausarbeitung über alle Varianten angleichen: Wenn nur Variante A ausgearbeitet und Variante B schludrig ist, misst man nicht das Konzept, sondern „die Geschicklichkeit der Copy". Die Fairness des Vergleichs ist alles
Keine Werbung daraus machen: Mit Übertreibungen oder Anreißern misst man nicht die nackte Kraft des Konzepts, sondern die Kraft der Werbung. Den Nutzen nüchtern vermitteln
Fachjargon und Hausvokabular streichen: In Worte, die die Zielgruppe beim ersten Lesen versteht. Eine schlechte Bewertung eines unverständlichen Stimulus ist keine Ablehnung des Konzepts, sondern ein Übermittlungsversagen

Die Ausarbeitung des präsentierten Textes geht nahtlos in die Formulierung der Fragen über. Die Prinzipien zur Vermeidung von Suggestion und Übertreibung aus dem vollständigen Leitfaden zum Formulieren von Umfragefragen greifen genau hier.

7. Die Sicht der Redaktion — fünf Dinge, die man beim Konzepttest nicht tun sollte

Aus der Position, die Branchenfälle und die Stimmen der Praktiker fortlaufend verfolgt, fünf Unfälle, die beim Konzepttest immer wieder passieren.

1. Gute Bewertungen aus vergleichender Präsentation als absolutes Niveau fehldeuten

Der häufigste Fall. Man stellt alle Varianten nebeneinander und liest „die Gewinnervariante hat T2B 75 %" als „75 % am Markt kaufen". Nebeneinander werden Unterschiede überzeichnet, ein absolutes Niveau kommt nicht heraus. Go / No-Go monadisch entscheiden, nachdem man das absolute Niveau gemessen hat. Vergleichende Präsentation nur fürs erste Screening.

2. Absolute Werte ohne Norm beurteilen

„Kaufabsicht 65 % ist hoch" — ohne Vergleichsobjekt behauptet. Je nach Kategorie und Preisklasse verschiebt sich das Niveau drastisch. Erst nebeneinandergestellt mit früheren Varianten, Wettbewerbern oder dem Kategorienschnitt im gleichen Design lässt sich hoch oder niedrig sagen. Ein einzelner Score ist keine Entscheidungsgrundlage. Mindestens einen Anker (ein bestehendes Produkt) innerhalb derselben Studie einbauen.

3. Die Kaufabsicht für bare Münze nehmen

„Auf jeden Fall kaufen 40 %" unverändert in den Businessplan übernehmen. Die Kaufabsicht liegt immer zu hoch. „Auf jeden Fall kaufen" stark gewichten, „wahrscheinlich kaufen" deutlich abdiskontieren. Den Umrechnungsfaktor aus eigenen Ergebnissen bilden — Faktoren anderer Unternehmen oder anderer Kategorien treffen daneben.

4. Die Ausarbeitung des Stimulus je Variante variieren

Nur die Favoritenvariante mit sauberem Stimulus, die Gegenvariante nachlässig. Damit misst man nicht die Kraft des Konzepts, sondern die Geschicklichkeit der Copy. Informationsmenge, Tonalität und Ausarbeitung über alle Varianten angleichen. Eine Studie, bei der die Fairness des Vergleichs zerbricht, ist sinnlos, so viel Stichprobe man auch sammelt.

5. Außerhalb der Zielgruppe fragen und sich damit zufriedengeben

Weil es leichter zu beschaffen ist, fragt man Schichten, die nicht die Zielgruppe sind (bestehende Heavy User oder Bekannte von Mitarbeitenden). Die Bewertung eines neuen Produkts ist sinnlos, wenn man nicht die Zielgruppe fragt, die wirklich kaufen soll. Die Befragten per Screening einzugrenzen ist Pflicht. Zum Design der Zielgruppe siehe Leitfaden für Design und Betrieb von Screening-Fragen.

8. Konzepttests mit dem Umfrage-Tool Kicue betreiben

Der Konzepttest teilt sich in eine Designphase („Stimuli präsentieren und Standardkennzahlen messen") und eine Analysephase („mit Normen vergleichen und per statistischem Test interpretieren"). Kicue übernimmt vor allem die erste.

Konzept-Stimuli präsentieren: Die Präsentation eines Konzepttexts (Text) lässt sich gemeinsam mit Likert-Fragen zu Kaufabsicht, Neuartigkeit, Attraktivität usw. gestalten (Fragetypen)
Verzweigung / Randomisierung für monadisches Design: Für das monadische Design (Befragte nach Varianten aufteilen) und das sequenziell monadische Design (Präsentationsreihenfolge randomisieren) bietet sich die Steuerung über Anzeigebedingungen und Verzweigungslogik an (vollständiger Leitfaden zur Verzweigungslogik)
Anker (bestehendes Produkt) mitführen: Innerhalb desselben Formulars lassen sich Bewertungsfragen zu einem bestehenden Erfolgsprodukt oder Wettbewerbsprodukt einbauen und so die Grundlage für den Normvergleich schaffen
Zielgruppen-Screening: Mit einer Screening-Frage am Anfang Personen außerhalb der Zielgruppe ausschließen
CSV-Export mit Befragten-ID: Strukturierte Daten ausgeben, um Top-Box-Auswertung und Variantenvergleich extern durchzuführen

⚠️ Was Kicue nicht abdeckt

Bei Video- und Rich-Image-Stimuli gibt es Einschränkungen: Die Präsentation aufwendiger Video-Konzepte oder feiner Packungsbilder erfordert in manchen Fällen betriebliche Behelfe wie die kombinierte Nutzung externer Hosting-Links (die Präsentationsform vorab abklären)
Keine normative Datenbank, keine Branchen-Benchmarks: Der Vergleich mit kommerziellen Normen wie BASES ist ein externer Dienst. Kicue liefert ausschließlich eigene Erhebungsdaten
Kein statistischer Signifikanztest, keine Berechnung von Umrechnungsfaktoren: Den Test auf Unterschiede in der Kaufabsicht zwischen Varianten und die Umrechnung von T2B in den realen Kauf führt man mit Excel / R / Python / SPSS durch (siehe Leitfaden zu Auswertung und Signifikanzprüfung)
Bei strenger Zell-Steuerung der Zuteilung (Quoten) gibt es Einschränkungen: Die Quotensteuerung, die die Stichprobengröße je monadischer Zelle streng angleicht, erfordert in manchen Fällen die Anbindung an einen externen Panel-Anbieter

Als verwandte Beiträge ergeben Designleitfaden zum Van Westendorp PSM, Conjoint-Analyse in der Praxis, Designleitfaden für MaxDiff, Leitfaden für Design und Betrieb von Screening-Fragen und vollständiger Leitfaden zum Formulieren von Umfragefragen zusammengelesen das ganze Bild der Pre-Launch-Pipeline: „Konzept bewerten → Preis und Funktionen schnüren → Prioritätenreihenfolge der Verkaufsargumente messen".

Fazit — sechs Punkte, die den Konzepttest zu einer verlässlichen Erhebung machen

Go / No-Go monadisch — nur monadisch lässt sich das absolute Niveau messen. Vergleichende Präsentation nur fürs erste Screening
Nicht nur auf die Kaufabsicht schauen — in Neuartigkeit × Relevanz zerlegen und die Verbesserungsrichtung ablesen
Die Top Box abdiskontieren — die Kaufabsicht liegt immer zu hoch. „Auf jeden Fall kaufen" stark gewichten, „wahrscheinlich" deutlich abdiskontieren
Erst im Vergleich mit der Norm lässt sich hoch oder niedrig sagen — ein einzelner Score ist bedeutungslos. Im gleichen Design mit früheren Varianten, Wettbewerbern und Ankern vergleichen
Die Stimuli je Variante fair ausarbeiten — nicht die Geschicklichkeit der Copy, sondern die Kraft des Konzepts messen
Die Zielgruppe fragen — per Screening eingrenzen. Wer leicht erreichbare Schichten fragt, gewinnt keine Entscheidungsgrundlage

Beim Konzepttest ist nicht „eine Befragung durchzuführen" das Ziel. Indem man die drei Punkte Präsentationsform, Normvergleich und Fairness der Stimuli nicht verfehlt, wird er zur rentabelsten Pre-Launch-Versicherung — eine, die Go / No-Go nicht über die Lautstärke im Besprechungsraum, sondern über die Stimme des Marktes entscheidet.

Wer eine Erhebung zur Konzeptbewertung vor dem Launch gestalten möchte, sollte das kostenlose Umfrage-Tool Kicue ausprobieren. Von der Präsentation des Konzepttexts und dem Design der Likert-Fragen zu Kaufabsicht, Neuartigkeit und Attraktivität über die Verzweigungslogik für die monadische Zuteilung und das Zielgruppen-Screening bis zum CSV-Export mit Befragten-ID lässt sich der Erhebungsteil eines Konzepttests mit einem einzigen Konto starten (der Vergleich mit einer normativen Datenbank, der statistische Signifikanztest und die Umrechnung von T2B in den realen Kauf laufen im Zusammenspiel mit externen Norm-Diensten oder R / Python / SPSS).

Literatur

Page, A. L., & Rosenbaum, H. F. (1992). Developing an Effective Concept Testing Program for Consumer Durables. Journal of Product Innovation Management, 9(4), 267-277.
Moore, W. L. (1982). Concept Testing. Journal of Business Research, 10(3), 279-294.
Dahan, E., & Hauser, J. R. (2002). The Virtual Customer. Journal of Product Innovation Management, 19(5), 332-353.
Morwitz, V. G., Steckel, J. H., & Gupta, A. (2007). When do purchase intentions predict sales?. International Journal of Forecasting, 23(3), 347-364.