Forschungsmethoden

Leitfaden zu Reliabilität und Validität von Umfragen — Messqualität mit Cronbachs Alpha und Konstruktvalidität sichern

Ob die in einer Umfrage erhobenen Daten 'tatsächlich das messen, was sie messen sollen', wird durch die Prüfung von Reliabilität (Reliability) und Validität (Validity) gesichert. Cronbachs Alpha (Cronbach's α), Test-Retest-Reliabilität, die drei Kategorien der Validität (Inhalts-, Konstrukt- und Kriteriumsvalidität) sowie der Einstieg in explorative Faktorenanalyse (EFA) und konfirmatorische Faktorenanalyse (CFA) — gestützt auf die wissenschaftlichen Grundlagen von Nunnally, Cronbach und Messick.

"Vor drei Monaten haben wir eine Zufriedenheitsumfrage durchgeführt, und beim Vergleich mit dem aktuellen Ergebnis hat sich der Score stark verändert — aber wir können nicht erklären, was sich geändert hat." "Ein Vorstandsmitglied fragt: 'Misst diese Kennzahl wirklich die Zufriedenheit?' und ich bleibe die Antwort schuldig." — Wer Umfragen kontinuierlich betreibt, stößt zwangsläufig auf die Frage "Wie sichert man die Messqualität?". Die Antwortbegriffe sind Reliabilität (Reliability) und Validität (Validity) — ein Feld, das in der psychometrischen Forschung und Erhebungsmethodik seit über 70 Jahren systematisch ausgebaut wird.

Dieser Beitrag behandelt die vier Kategorien der Reliabilität (interne Konsistenz, Test-Retest, Paralleltest, Interrater), die Berechnung und Schwellenwerte von Cronbachs Alpha (Cronbach's α), die drei Kategorien der Validität (Inhalts-, Konstrukt-, Kriteriumsvalidität), die Verfahren zur Prüfung der Konstruktvalidität, den Einstieg in explorative Faktorenanalyse (EFA) und konfirmatorische Faktorenanalyse (CFA) sowie die Formate für die Praxisberichterstattung — gestützt auf die Klassiker von Nunnally & Bernstein (1994), Cronbach (1951), Messick (1989) und Campbell & Fiske (1959). Wir positionieren ihn als übergeordneten Hub-Artikel, der das "messqualitätsbezogene Fundament" für die Artikel zu Likert-Skalen-Design, Fallen im Matrix-Fragedesign, Pilottest und Aggregation und Signifikanztests liefert.

1. Warum "Messqualität" überhaupt ein Thema ist

In der betrieblichen Umfragepraxis ist der folgende Ablauf zur Selbstverständlichkeit geworden: Fragen erstellen, ausliefern, aggregierte Ergebnisse anschauen, entscheiden. Dabei fehlt jedoch häufig die Voraussetzung "Messen die gesammelten Zahlen wirklich das, was wir messen wollten?".

Drei Muster der "Messfalle"

Wer Umfragen ohne Beachtung der Messqualität betreibt, läuft regelmäßig in diese Fehler:

  • Die Kennzahl schwankt mit der Zeit: "Wir haben mit denselben Fragen gemessen, aber der Score wechselt von Quartal zu Quartal stark" — niedrige Test-Retest-Reliabilität
  • Kennzahlen widersprechen sich: "Die Zufriedenheit steigt, aber der NPS sinkt" — die Konstruktvalidität ist unklar
  • Keine Korrelation mit Maßnahmen: "Wir haben eine Schulung durchgeführt, aber die Schulungszufriedenheit korreliert überhaupt nicht mit den Business-KPIs" — niedrige Kriteriumsvalidität

Das sind Designprobleme — keine Probleme der Antwortenden oder des Betriebs. Die Rolle der Reliabilitäts- und Validitätsprüfung ist es, theoretisch und statistisch zu verifizieren, "was eine Frage misst".

Reliabilität und Validität sind unterschiedliche Konzepte

Reliabilität und Validität werden häufig verwechselt, sind aber unterschiedliche Konzepte, von denen beide erfüllt sein müssen.

  • Reliabilität (Reliability): Ob die Ergebnisse stabil sind, wenn unter denselben Bedingungen wiederholt gemessen wird
  • Validität (Validity): Ob die Messwerte tatsächlich das Konstrukt repräsentieren, das gemessen werden sollte

Nunnally & Bernstein (1994) Psychometric Theory ordnet ein: "Reliabilität ist eine notwendige, aber nicht hinreichende Bedingung für Validität." Das heißt: Bei niedriger Reliabilität ist auch die Validität nicht gesichert, aber eine hohe Reliabilität garantiert keine Validität (es ist möglich, dass mit derselben Verzerrung stabil falsch gemessen wird).

2. Die vier Kategorien der Reliabilität

Reliabilität (Reliability) ist ein Konzept, das sich auf die "Stabilität" und "Konsistenz" der Messwerte bezieht. Es gibt typischerweise vier Kategorien.

Die vier Kategorien der Reliabilität

① Interne Konsistenz (Internal Consistency)
Ob mehrere Items, die dasselbe Konzept messen, in dieselbe Richtung laufen. Die Messung mit Cronbachs Alpha hat sich durchgesetzt. Berechenbar innerhalb einer einzigen Umfrage.
② Test-Retest-Reliabilität (Test-Retest Reliability)
Dieselben Antwortenden werden nach einem Zeitabstand erneut befragt, die Korrelation der Ergebnisse wird betrachtet. Sichert, dass die Kennzahl nicht zeitabhängig schwankt. Üblich ist ein Abstand von 2–4 Wochen.
③ Paralleltest-Reliabilität (Parallel-Forms Reliability)
Ein alternatives Fragenset zur Messung desselben Konzepts wird vorbereitet, die Korrelation der beiden Scores wird betrachtet. In der akademischen Forschung verbreitet, in der betrieblichen Praxis aufgrund des Aufwands selten eingesetzt.
④ Interrater-Reliabilität (Inter-rater Reliability)
Ob mehrere Bewertende denselben Gegenstand übereinstimmend einschätzen. Wird beim Kodieren offener Antworten oder beim Bewertungs-Scoring in Interviews verwendet. Berechnet z. B. mit Cohens κ.

In betrieblichen Umfragen am häufigsten verwendet werden ① interne Konsistenz (Cronbachs Alpha) und ② Test-Retest-Reliabilität.

3. Cronbachs Alpha (Cronbach's α)

Cronbachs Alpha ist die in Cronbach (1951) Coefficient alpha and the internal structure of tests vorgeschlagene Standardgröße für die interne Konsistenz. Sie nimmt Werte zwischen 0 und 1 an und zeigt, in welchem Ausmaß mehrere Items dasselbe Konzept messen.

Berechnungsidee

Cronbachs Alpha lässt sich formal so darstellen (k = Anzahl der Items, σ²ᵢ = Varianz von Item i, σ²ₜ = Varianz des Summenscores).

α = (k / (k − 1)) × (1 − Σσ²ᵢ / σ²ₜ)

Intuitiv reicht für die Praxis: "Je größer die Kovarianzen zwischen Items, desto höher α" und "Mehr Items tendieren mechanisch zu höherem α". Eine Handrechnung ist nicht praktikabel; berechnet wird mit R psych::alpha(), Python pingouin.cronbach_alpha(), SPSS Reliability Analysis, dem JASP-Reliability-Modul u. a.

Interpretation der Schwellenwerte

Die von Nunnally (1978) vorgeschlagenen und bis heute standardmäßig zitierten Schwellenwerte:

  • α ≥ 0,9: hervorragend (aber: möglicherweise redundante Items)
  • α ≥ 0,8: gut
  • α ≥ 0,7: akzeptabel (Mindestmaß für explorative Forschung)
  • α < 0,7: Verbesserungsbedarf
  • α < 0,5: hohe Wahrscheinlichkeit, dass die Items nicht dasselbe Konzept messen

Cortina (1993) What is coefficient alpha? betont jedoch: "Hohes α ≠ Eindimensionalität gesichert". Da Alpha mit der Itemzahl mechanisch steigt, ist die richtige Praxis, Alpha nicht isoliert zu beurteilen, sondern mit Faktorenanalyse zu kombinieren.

Faktoren, die Alpha erhöhen / senken

  • Mehr Items: mechanische Erhöhung von Alpha (Redundanzrisiko)
  • Höhere Inter-Item-Korrelationen: Auswahl von Items, die dasselbe Konzept treffen
  • Reverse-Coded Items: korrekt umgepolt unproblematisch, vergisst man die Umpolung, stürzt Alpha ab
  • Hohe Homogenität der Antwortenden: geringere Varianz, mitunter sinkt Alpha

4. Die drei Kategorien der Validität

Validität (Validity) ist ein Konzept, das "ob die Messwerte das Konzept, das gemessen werden sollte, repräsentieren" betrifft, und wird traditionell in drei Kategorien geteilt. Messick (1989) schlug später eine monistische Sicht vor, die diese in die "Konstruktvalidität" integriert; für das praxisnahe Verständnis ist jedoch die Drei-Kategorien-Sicht handhabbar — wir bleiben dabei.

Die drei Kategorien der Validität

① Inhaltsvalidität (Content Validity)
Ob die Fragengruppe das Themengebiet des zu messenden Konzepts umfassend abdeckt. Im Mittelpunkt steht die qualitative Bewertung durch ein Expertenpanel. Eine Quantifizierung mit dem Content Validity Index (CVI) ist möglich.
② Konstruktvalidität (Construct Validity)
Ob die Fragengruppe das theoretisch definierte Konstrukt (Construct) tatsächlich misst. Wird mit Faktorenanalyse, konvergenter und diskriminanter Validität geprüft. Kern der Validitätsprüfung.
③ Kriteriumsvalidität (Criterion Validity)
Ob die Messwerte mit externen Kriterien (Verhaltensdaten, Umsatz, Fluktuationsrate u. ä.) korrelieren. Teilt sich in Übereinstimmungsvalidität (Concurrent) und Vorhersagevalidität (Predictive).

Warum die Konstruktvalidität im Zentrum steht

Von den drei Kategorien wird in der modernen Psychometrie der Konstruktvalidität (Construct Validity) am meisten Gewicht beigemessen. Cronbach & Meehl (1955) Construct validity in psychological tests zeigten, dass bei nicht beobachtbaren latenten Variablen (Zufriedenheit, Engagement, Stress usw.) die zentrale Frage lautet, "ob ein theoretisch definiertes Konzept tatsächlich gemessen wird".

5. Verfahren zur Prüfung der Konstruktvalidität

Die zentralen Verfahren zur Prüfung der Konstruktvalidität sind die folgenden vier.

① Konvergente Validität (Convergent Validity)

Bestätigt hohe Korrelationen mit anderen Indikatoren, die als Messung desselben Konstrukts gelten. Beispiel: r ≥ 0,5 zwischen NPS und Gesamtzufriedenheit bestätigen.

② Diskriminante Validität (Discriminant Validity)

Bestätigt niedrige Korrelationen mit Indikatoren für andere Konstrukte. Beispiel: niedrige Korrelation zwischen Arbeitszufriedenheit und Schlafdauer der vorherigen Nacht. Wird gemeinsam mit der konvergenten Validität geprüft.

③ MTMM-Matrix (Multitrait-Multimethod Matrix)

In Campbell & Fiske (1959) Convergent and discriminant validation by the multitrait-multimethod matrix vorgeschlagene klassische Methode. Mehrere Konzepte (traits) werden mit mehreren Methoden (methods) gemessen, Konvergenz und Diskriminanz übersichtlich bewertet. Für die akademische Forschung.

④ Faktorenanalyse (Factor Analysis)

Das praktischste Verfahren. Mit der explorativen Faktorenanalyse (EFA) wird untersucht, in wie viele Faktoren sich eine Itemgruppe bündelt, mit der konfirmatorischen Faktorenanalyse (CFA) wird geprüft, ob die Faktorstruktur der Hypothese entspricht.

  • EFA: Faktorzahl wird nicht angenommen; die Daten bestimmen die Faktorstruktur. Bei der Entwicklung neuer Skalen.
  • CFA: Eine Hypothesen-Faktorstruktur wird aufgestellt und auf Datenpassung geprüft. Für die Validitätsprüfung bestehender Skalen.

EFA ist mit R psych::fa(), Python factor_analyzer, SPSS / JASP umsetzbar. CFA benötigt R lavaan, Python semopy, Mplus und andere SEM-Tools (Strukturgleichungsmodellierung).

Schwellenwerte der Fit-Indizes

Typische Fit-Indizes für CFA und konventionelle Schwellenwerte:

  • CFI (Comparative Fit Index): ≥ 0,95 (gut)
  • TLI (Tucker-Lewis Index): ≥ 0,95 (gut)
  • RMSEA (Root Mean Square Error of Approximation): ≤ 0,06 (gut), ≤ 0,08 (akzeptabel)
  • SRMR (Standardized Root Mean Square Residual): ≤ 0,08 (gut)

Diese Schwellenwerte stammen aus Hu & Bentler (1999) und werden bis heute standardmäßig zitiert.

6. Prüfung der Kriteriumsvalidität

Die Kriteriumsvalidität betrachtet, "ob die Messwerte mit betrieblich relevanten externen Kriterien zusammenhängen" — sie hat damit die größte praktische Bedeutung.

Übereinstimmungsvalidität (Concurrent Validity)

Korrelation mit zeitgleich gemessenen externen Kriterien. Beispiele:

  • Korrelation zwischen Mitarbeiter-Engagement-Score und der Kündigungsabsichtsrate zum gleichen Zeitpunkt
  • Korrelation zwischen Kundenzufriedenheit und der Kündigungsrate zum gleichen Zeitpunkt

Vorhersagevalidität (Predictive Validity)

Ob künftige externe Kriterien vorhergesagt werden können. Beispiele:

  • Korrelation des aktuellen NPS mit der Umsatzwachstumsrate der Folgeperiode
  • Ob das aktuelle Mitarbeiter-Engagement die Fluktuationsrate in 6 Monaten vorhersagt

Wenn Sie der Geschäftsleitung die Bedeutung Ihrer Kennzahl erklären müssen, entscheidet die Existenz von Vorhersagevaliditätsdaten über die Überzeugungskraft.

7. Berichtsformate für die Praxis

Nach der Reliabilitäts- und Validitätsprüfung folgt die Frage, wie die Ergebnisse berichtet werden. Wissenschaftliche Publikationen und Geschäftsberichte verlangen unterschiedliche Granularität.

Berichtsformat für wissenschaftliche Publikationen

In wissenschaftlichen Arbeiten (insbesondere im APA-Stil) gehören mindestens folgende Angaben in den Methodenteil.

  • Itemzahl und Alpha je Subskala (z. B. "Zufriedenheitsskala 5 Items, α = .87")
  • Bei Bedarf Test-Retest-Reliabilität, Korrelationskoeffizient und Abstand (z. B. "Test-Retest-Reliabilität nach 2 Wochen r = .82")
  • Bei CFA der vollständige Satz Fit-Indizes (CFI / TLI / RMSEA / SRMR) und Schätzwerte (z. B. "CFI = .96, RMSEA = .05")
  • Prüfung der konvergenten / diskriminanten Validität als Korrelationsmatrix oder Average Variance Extracted (AVE)

Berichtsformat für die betriebliche Berichterstattung

Beim Bericht an Geschäftsleitung und Fachabteilungen werden Fachbegriffe minimal gehalten; die für die Entscheidung notwendige Schlussfolgerung wird in drei Zeilen geschrieben.

  • "Ist die Kennzahl zeitlich stabil?" (Test-Retest-Reliabilität) → "Korrelation mit vor 3 Monaten r = .85, stabil"
  • "Was misst die Kennzahl?" (Konstruktvalidität) → "Korrelation mit NPS r = .62, funktioniert als Proxy für Zufriedenheit"
  • "Hat die Kennzahl mit dem Geschäft zu tun?" (Kriteriumsvalidität) → "Korrelation mit Kündigungsrate r = −,45, als Kündigungsprognoseindikator wirksam"

In der betrieblichen Berichterstattung steht die zur "als nächstes mögliche Aktion" führende Interpretation im Vordergrund — Alpha- und CFA-Zahlen detailliert auszuführen, ist sekundär.

8. Umsetzung in Kicue

Kicue deckt Fragenausspielung, Antwortsammlung und Roh-CSV-Export ab; die statistische Verarbeitung für die Reliabilitäts- und Validitätsprüfung wird realistisch in externen Tools ausgeführt.

Was in Kicue umgesetzt wird

  • Auslieferung mehrerer Skalenitems: Multi-Item-Messung von Konstrukten mit Likert-Skala und Matrix-Fragen
  • Betrieb von Test-Retest-Studien: erneute Auslieferung an dieselben Antwortenden nach Zeitabstand, ID-basierte Verknüpfung beim Export
  • Erhebung von Demografika / externen Kriteriumsdaten: gleichzeitige Erfassung der für die Reliabilitäts- und Validitätsprüfung benötigten Attributinformationen und Verhaltensindikatoren
  • Roh-CSV-Export: Antwortdaten auf Befragtenebene für den Import in Statistikwerkzeuge

Was in externen Tools umgesetzt wird

  • Berechnung von Cronbachs Alpha: R psych::alpha(), Python pingouin, SPSS, JASP
  • Explorative Faktorenanalyse (EFA): R psych::fa(), Python factor_analyzer, SPSS, JASP
  • Konfirmatorische Faktorenanalyse (CFA) / SEM: R lavaan, Python semopy, Mplus
  • Korrelationsanalysen (konvergent / diskriminant / kriterienbezogen): R / Python / Excel
  • Erstellung einer MTMM-Matrix: Skripte in R / Python

Empfehlung: Prüfung im Pilotstadium

Die Prüfung von Reliabilität und Validität wird idealerweise im Pilottest vor der Hauptstudie durchgeführt. Stellt sich erst in der Hauptstudie ein Problem heraus, sind Korrekturen schwierig und ein Vergleich mit historischen Daten ist nicht mehr möglich. Sicherer Betrieb: Im Pilot 100–200 Antworten sichern, mit Cronbachs Alpha und explorativer Faktorenanalyse die Struktur prüfen, dann zur Hauptstudie übergehen.


Die Prüfung von Reliabilität und Validität ist innerhalb des Studiendesigns am wissenschaftlichsten und wird am leichtesten aufgeschoben. Doch eine Kennzahl, deren Fragen "Was misst sie?" und "Wie hängt sie mit dem Geschäft zusammen?" unbeantwortet bleiben, kann die Rechenschaftspflicht gegenüber der Geschäftsleitung nicht erfüllen und ist langfristig nicht tragfähig.

Die in diesem Beitrag aufgearbeiteten Konzepte — Alpha, Faktorenanalyse, Konstruktvalidität, Kriteriumsvalidität — sind allesamt aus dem akademischen Kontext entstanden, gleichzeitig aber praktische Werkzeuge zur Sicherung der langfristigen Betriebsfähigkeit betrieblicher Umfragen. Streben Sie nicht von Anfang an Perfektion an: Beginnen Sie damit, einmalig Cronbachs Alpha für Ihre Hauptskala zu berechnen und einmalig eine Test-Retest-Reliabilität zu messen.


Literatur

Reliabilität

Validität

  • Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281-302. https://doi.org/10.1037/h0040957
  • Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81-105. https://doi.org/10.1037/h0046016
  • Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-103). American Council on Education and Macmillan.

Fit-Indizes

  • Hu, L., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling, 6(1), 1-55. https://doi.org/10.1080/10705519909540118

Branchen- und Standardisierungsgremien


Wenn Sie Umfragen mit gesicherter Messqualität betreiben möchten, probieren Sie das kostenlose Umfragetool Kicue aus. Von der Multi-Item-Konstruktion mit Likert-Skalen und Matrix-Fragen, über die Respondenten-ID-Verwaltung für Test-Retest-Studien, bis zum Roh-CSV-Export im Format, das in R / Python / SPSS / JASP eingelesen werden kann — Sie können die Grundlage für die Reliabilitäts- und Validitätsprüfung in einem einzigen Konto aufbauen.

Verwandte Artikel

Möchten Sie selbst eine Umfrage mit Kicue erstellen?

Laden Sie Ihren Fragebogen hoch, und die AI generiert in 30 Sekunden ein Web-Umfrageformular.

Kostenlos starten