Wie man die Stichprobengröße einer Umfrage bestimmt – statistische Grundlagen und Praxiserfahrung

„Wie viele Antworten braucht die Umfrage eigentlich, damit sie Sinn ergibt?“ – wer in der Research-Welt arbeitet, hat diese Frage entweder selbst gestellt oder wurde sie gestellt. Die ehrliche Antwort lautet: „Es gibt statistisch eine Formel, allein damit ist die Frage in der Praxis aber nicht beantwortet.“ „Nehmen wir einfach 100“ oder „Das Budget entscheidet“ – und am Ende wird im Report gekontert, die Stichprobe sei zu klein. Solche stillen Unfälle sieht man oft.

Dieser Artikel fasst die statistischen Grundlagen (Cochran-Formel, Konfidenzniveau, zulässiger Fehler), gängige Richtwerte in der Branche und die Stolperfallen kleiner Stichproben zusammen. Mit einem Blick in die statistische Literatur und in die Richtlinien der großen Anbieter wollen wir Sie in einen Zustand bringen, in dem Sie den Stichprobenumfang $N$ souverän begründen können.

1. Drei Aspekte, die die Stichprobengröße beeinflusst

Zunächst: Worauf wirkt sich die Stichprobengröße überhaupt aus?

Konfidenzniveau (confidence level): Wenn dieselbe Umfrage 100-mal durchgeführt würde, in wie vielen Fällen läge das Ergebnis im vorgegebenen Intervall? 95 % ist Branchenstandard.
Zulässiger Fehler (margin of error): wie weit das Stichprobenergebnis maximal vom „wahren“ Populationswert abweichen darf. Üblich sind ±5 %.
Repräsentativität der Stichprobe: wie gut die Stichprobe die Tendenzen der Grundgesamtheit abbildet.

Je größer die Stichprobe, desto höher das Konfidenzniveau, desto kleiner der Fehler und desto besser die Repräsentativität. Die Kosten steigen jedoch proportional, also muss man entscheiden, ab welchem Punkt zusätzliche Stichprobe keinen Mehrwert bringt. Ab hier wird es statistisch.

2. Die statistische Herleitung – die Cochran-Formel

Die klassische Formel zur Bestimmung des Stichprobenumfangs ist Cochran's Formula von William G. Cochran aus dem Jahr 1977. Sie ist bis heute in Lehrbüchern und Praxisleitfäden die Standardmethode zur Ermittlung der Stichprobengröße.

Die Cochran-Formel

Der Grundfall für eine unendlich große (oder unbekannte) Grundgesamtheit:

n_0 = \frac{Z^2 \cdot p(1 - p)}{e^2}

Die Parameter:

$n_0$ : benötigter Stichprobenumfang
$Z$ : Z-Wert zum gewünschten Konfidenzniveau ( $Z = 1{,}96$ bei 95 %, $Z = 2{,}58$ bei 99 %)
$p$ : angenommene Anteilsquote der relevanten Antwort in der Grundgesamtheit. Bei Unklarheit $p = 0{,}5$ (konservativster Wert, ergibt die größte Stichprobe)
$e$ : zulässiger Fehler (meist $e = 0{,}05$ = ±5 %)

Setzt man 95 % Konfidenz ( $Z = 1{,}96$ ), $p = 0{,}5$ , $e = 0{,}05$ ein:

n_0 = \frac{1.96^2 \times 0.5 \times 0.5}{0.05^2} = 384.16

Das heißt: Bei unendlicher Grundgesamtheit reichen rund 384 Fälle, um bei 95 % Konfidenz einen Fehler von ±5 % zu erreichen.

Korrektur bei endlicher Grundgesamtheit

Ist die Grundgesamtheit endlich (z. B. 1.000 eigene Kundinnen und Kunden), verwendet man die Finite Population Correction (FPC):

n = \frac{n_0}{1 + \dfrac{n_0 - 1}{N}}

$N$ ist die Populationsgröße. Kleinere Grundgesamtheiten benötigen proportional weniger Antworten.

Richtwerte aus der Formel

Bei 95 % Konfidenz, ±5 % Fehler, $p = 0{,}5$ :

Grundgesamtheit ( $N$ )	Benötigte Stichprobe ( $n$ )
100	80
500	217
1.000	278
10.000	370
100.000 oder mehr / unendlich	384

Ausführliche Herleitungen finden sich in der statistischen Erläuterung der Cochran-Formel oder in der Abhandlung zur Stichprobenbestimmung in der angewandten Forschung.

3. Gängige Praxis-Richtwerte

Die Cochran-Formel liefert das statistische Minimum. In der Praxis kommen jedoch weitere Überlegungen hinzu, weshalb die großen Anbieter Richtwerte veröffentlichen. Diese sind nicht streng akademisch belegt, sondern im Feld breit geteilte Referenzwerte.

Richtwerte nach Fehlerbandbreite

Ein Zusammenschluss der Erklärungen japanischer Research-Anbieter (etwa der Kolumnen von Macromill) liefert folgende Orientierung:

Stichprobe	Typischer Fehler	Praxis-Einordnung
50	etwa ±15 %	grobe Tendenz (Überblick)
100	etwa ±10 %	relativ belastbares Ergebnis
400	etwa ±5 %	hohe Präzision (Branchenstandard)
1.000	etwa ±3 %	sehr hohe Präzision, feine Unterschiede sichtbar

Der in der Branche verbreitete Satz „ $N = 400$ ist Standard“ geht direkt darauf zurück, dass ungefähr 384 die statistische Untergrenze für ±5 % Fehler bei 95 % Konfidenz ist.

Kosten-Präzision-Verhältnis – warum „rund 400“ am wirtschaftlichsten ist

Trägt man die Beziehung grafisch auf, sieht man deutlich: Die Kurve fällt in der ersten Hälfte steil und flacht in der zweiten Hälfte ab.

信頼度 95% (Z=1.96)、p=0.5 での計算

Von $N = 100$ auf $N = 400$ halbiert sich der Fehler ungefähr (9,8 % → 4,9 %), während der Schritt von $N = 400$ auf $N = 1.000$ nur noch etwa 1,8 Prozentpunkte bringt (4,9 % → 3,1 %). Die 2,5-fache Stichprobe bringt also verhältnismäßig wenig Präzisionsgewinn. Ursache ist der Term $\sqrt{n}$ in $e = 1.96 \sqrt{p(1-p)/n}$ : Für die Halbierung des Fehlers muss der Stichprobenumfang vervierfacht werden.

Deshalb gilt $N = 400$ als Branchenstandard – er liegt genau an der Stelle, an der der Präzisionsgewinn beginnt stark abzuflachen. Blickt man auf das Verhältnis von Kosten und Präzision, ist rund 400 die wirtschaftlichste Größenordnung.

Frei verfügbare Sample-Size-Rechner

Mehrere Anbieter stellen Online-Rechner bereit; die Eingabefelder (Grundgesamtheit, Konfidenz, Fehler) sind dabei einheitlich:

Alle basieren auf der Cochran-Formel; die Ergebnisse sind nahezu identisch. Das Rechnen darf das Tool übernehmen, die Wahl der Eingaben (welches Konfidenzniveau, welcher Fehler) bleibt eine menschliche Entscheidung.

4. Stichprobengrößen je nach Einsatzzweck

Der jeweilige Studientyp verlangt unterschiedliche Präzision. Branchentypische Muster:

Screening- und Explorationsstudien

Zweck: vor dem Aufstellen einer Hypothese einen groben Überblick gewinnen.
Richtwert: 30–100 Fälle.
Kriterium: Ein Fehler von ±10–15 % beeinflusst die Entscheidung nicht.

Hauptuntersuchung (entscheidungsrelevant)

Zweck: Grundlage für Produkt-, Service- oder Managemententscheidungen.
Richtwert: 300–500 Fälle insgesamt.
Kriterium: Branchenstandard von ±5 % Fehler bei 95 % Konfidenz.

Segmentvergleich

Zweck: Vergleich nach Geschlecht, Alter, Beruf oder Region.
Richtwert: mindestens 100 Fälle pro Segment (insgesamt oft 800–2.000).
Kriterium: Auch innerhalb der Segmente soll der Fehler unter ±10 % bleiben.

Tracking und Zeitreihen

Zweck: dieselbe Umfrage über Wellen hinweg wiederholen und Veränderungen verfolgen.
Richtwert: 400–1.000 Fälle pro Welle.
Kriterium: Welle-zu-Welle-Unterschiede sollen statistisch signifikant sein.

Der größte Anti-Pattern ist, die Stichprobenzahl festzulegen, ohne den Zweck zu präzisieren. Der Zweck kommt zuerst, die Zahl folgt.

5. Risiken kleiner Stichproben

Mal stehen nur 50 Fälle zur Verfügung. Wer versteht, was das statistisch bedeutet, kann bewusste Entscheidungen treffen.

Risiko 1: Weite Konfidenzintervalle

Bei $N = 50$ liegt der Fehler bei rund ±15 %. Ein Ergebnis „Kaufabsicht 40 %“ bedeutet in Wahrheit „zwischen 25 % und 55 %“. Um zu behaupten „die Kaufabsicht ist hoch“, ist die Spannweite oft zu weit.

Risiko 2: Segmentanalysen werden unmöglich

50 Fälle gesamt geteilt in Männer/Frauen ergibt 25/25, nochmal nach Altersgruppen geteilt landet man bei 5–10 Fällen pro Zelle. Segmentvergleiche sind in dieser Größenordnung statistisch praktisch bedeutungslos.

Risiko 3: Extreme Antworten dominieren

Eine einzige Extremantwort verschiebt die Gesamtscores spürbar. Besonders beim Kategorisieren offener Antworten entsteht der Eindruck, Minderheitsmeinungen seien die Mehrheit.

Szenarien, in denen kleine Stichproben ok sind

Qualitative Erkenntnisgewinnung: Für das Sammeln von „Welche Unzufriedenheiten gibt es?“ genügen $N = 30$ .
Prüfung von Hypothesen vor der Hauptstudie: Pilotumfragen.
Ergänzung bestehender Daten: Bei vorhandener großer Datenbasis gezielte Vertiefung mit kleinem $N$ .

Die eiserne Regel lautet: Kleine Stichproben, Zahlen nicht verselbstständigen.

6. Die Sicht der Redaktion – vier Fallen beim Sizing

Aus dem Verfolgen von Branchenartikeln und Praxisberichten hier die vier Sizing-Fallen, in die man immer wieder tappt. Wir formulieren sie bewusst scharf.

1. „Nehmen wir einfach 100“ birgt mehr Risiko, als viele denken. Der Stichprobenfehler bei $N = 100$ liegt bei ±10 %. Wer nicht versteht, dass „Kaufabsicht 40 %“ in Wahrheit „30–50 %“ bedeutet, macht daraus leicht eine verselbstständigte Aussage. Wer mit 100 startet, muss im Bericht unbedingt klar benennen: „Die Fehlerspanne beträgt ±10 %.“ Berichte ohne diese Angabe werden später regelmäßig als „wenig belastbar“ abgetan.

2. Nur den Gesamtumfang festlegen und Zellgrößen ignorieren. „Wir nehmen 500 gesamt“, und später stellt sich heraus: Das entscheidende Segment hat 30 Fälle. Das kommt wirklich häufig vor. Wenn Segmentanalysen geplant sind, rechnen Sie von der kleinsten Zelle rückwärts. Wer bei 40- bis 59-jährigen Frauen die Top-2-Box vergleichen will, setzt die Zelle vorab auf mindestens 100 und leitet daraus den Gesamtumfang ab.

3. Response-Rate ignorieren und nötigen Umfang mit Versendezahl verwechseln. 384 benötigte Antworten, und dann stellt jemand die Versendung auf 384 – das ist definitiv falsch. Bei einer Mail-Response-Rate von 10 % müssen 3.840 Einladungen verschickt werden. Die Versendezahl gehört immer inklusive Response-Rate rückwärts gerechnet. Siehe dazu die praktischen Hebel für mehr Antworten.

4. Der Irrglaube „mehr Stichprobe = genauer“. Größere Stichproben erhöhen die Präzision, aber eine verzerrte Stichprobe wird auch durch Masse nicht richtig. 10.000 Antworten, die nur aus den aktivsten Nutzerinnen und Nutzern stammen, sind verzerrte Daten. Wichtiger als die Größe ist die Repräsentativität. Eine repräsentative kleine Umfrage ist für Entscheidungen nützlicher als eine große, die nur einen Teil der Population erfasst.

7. Research-Design im Umfrage-Tool Kicue

Kicue bringt die für das Management der Stichprobengröße nötigen Funktionen mit.

Quotensteuerung – Zielgrößen je Segment definieren und bei Erreichen automatisch schließen (Details)
Echtzeit-Monitoring des Rücklaufs – Fortschritt je Segment in einem Dashboard (Details)
URL-Parameter-Integration – Attribute aus externen Panels übernehmen und die Verteilung gezielt steuern
Features zur Response-Rate-Steigerung – Mobile-Optimierung, Verzweigungslogik und Fortschrittsanzeigen für maximale Abschlussrate

Einmal den Fragebogen hochladen, und Design, das die Zielstichprobe effizient erreicht, wird automatisch aufgebaut.

Das richtige Tool wählen — Free-Plan-Grenzen, Verzweigungs-Support, KI-Fähigkeiten und CSV-Export variieren stark zwischen Tools. Siehe unseren Vergleich kostenloser Umfrage-Tools, um das passende für diesen Ansatz zu finden.

Fazit

Checkpoints zur Bestimmung der Stichprobengröße:

Statistische Grundlage ist die Cochran-Formel – bei 95 % Konfidenz und ±5 % Fehler rund 384 Fälle bei unendlicher Grundgesamtheit.
Mit FPC lässt sich reduzieren – 100 Personen in der Grundgesamtheit ergeben 80 Fälle, 1.000 Personen 278 Fälle.
Einsatzzweck definiert die Richtwerte – Screening 30–100, Hauptuntersuchung 300–500, Segmentvergleich mindestens 100 je Zelle.
Kleine Stichproben heißen ±15 % Fehler akzeptieren – immer die Fehlerspanne ausweisen, damit Zahlen nicht verselbstständigen.
Repräsentativität geht vor Menge – viele, aber verzerrte Antworten sind wertloser als eine repräsentative kleinere Erhebung.

Die Antwort auf „Wie viele Antworten braucht es?“ entsteht, wenn man von Zweck und Präzisionsanforderung rückwärts rechnet. Wer das zur Gewohnheit macht, kann auch unter Budget- und Zeitrestriktionen ein überzeugendes Research-Design aufstellen.

Literatur

Akademische und statistische Theorie

Determination of Sample Size and Sampling Methods in Applied Research (2021). ResearchGate.
Sample Size in Statistics: Cochran's Formula & General Tips. Statistics How To.
Cochran's Sample Size Calculator Guide. SPSS Services.

Stichproben-Guides großer Anbieter (als Branchen-Referenz zitiert)

Stichproben-Erklärungen japanischer Research-Anbieter (als Branchenwissen zitiert)

Vereinen Sie Research-Design und Stichprobenmanagement in einem Werkzeug – mit Kicue, einem kostenlosen Umfrage-Tool inklusive Quoten und Live-Monitoring.