"Vor drei Monaten haben wir eine Zufriedenheitsumfrage durchgeführt, und beim Vergleich mit dem aktuellen Ergebnis hat sich der Score stark verändert — aber wir können nicht erklären, was sich geändert hat." "Ein Vorstandsmitglied fragt: 'Misst diese Kennzahl wirklich die Zufriedenheit?' und ich bleibe die Antwort schuldig." — Wer Umfragen kontinuierlich betreibt, stößt zwangsläufig auf die Frage "Wie sichert man die Messqualität?". Die Antwortbegriffe sind Reliabilität (Reliability) und Validität (Validity) — ein Feld, das in der psychometrischen Forschung und Erhebungsmethodik seit über 70 Jahren systematisch ausgebaut wird.
Dieser Beitrag behandelt die vier Kategorien der Reliabilität (interne Konsistenz, Test-Retest, Paralleltest, Interrater), die Berechnung und Schwellenwerte von Cronbachs Alpha (Cronbach's α), die drei Kategorien der Validität (Inhalts-, Konstrukt-, Kriteriumsvalidität), die Verfahren zur Prüfung der Konstruktvalidität, den Einstieg in explorative Faktorenanalyse (EFA) und konfirmatorische Faktorenanalyse (CFA) sowie die Formate für die Praxisberichterstattung — gestützt auf die Klassiker von Nunnally & Bernstein (1994), Cronbach (1951), Messick (1989) und Campbell & Fiske (1959). Wir positionieren ihn als übergeordneten Hub-Artikel, der das "messqualitätsbezogene Fundament" für die Artikel zu Likert-Skalen-Design, Fallen im Matrix-Fragedesign, Pilottest und Aggregation und Signifikanztests liefert.
1. Warum "Messqualität" überhaupt ein Thema ist
In der betrieblichen Umfragepraxis ist der folgende Ablauf zur Selbstverständlichkeit geworden: Fragen erstellen, ausliefern, aggregierte Ergebnisse anschauen, entscheiden. Dabei fehlt jedoch häufig die Voraussetzung "Messen die gesammelten Zahlen wirklich das, was wir messen wollten?".
Drei Muster der "Messfalle"
Wer Umfragen ohne Beachtung der Messqualität betreibt, läuft regelmäßig in diese Fehler:
- Die Kennzahl schwankt mit der Zeit: "Wir haben mit denselben Fragen gemessen, aber der Score wechselt von Quartal zu Quartal stark" — niedrige Test-Retest-Reliabilität
- Kennzahlen widersprechen sich: "Die Zufriedenheit steigt, aber der NPS sinkt" — die Konstruktvalidität ist unklar
- Keine Korrelation mit Maßnahmen: "Wir haben eine Schulung durchgeführt, aber die Schulungszufriedenheit korreliert überhaupt nicht mit den Business-KPIs" — niedrige Kriteriumsvalidität
Das sind Designprobleme — keine Probleme der Antwortenden oder des Betriebs. Die Rolle der Reliabilitäts- und Validitätsprüfung ist es, theoretisch und statistisch zu verifizieren, "was eine Frage misst".
Reliabilität und Validität sind unterschiedliche Konzepte
Reliabilität und Validität werden häufig verwechselt, sind aber unterschiedliche Konzepte, von denen beide erfüllt sein müssen.
- Reliabilität (Reliability): Ob die Ergebnisse stabil sind, wenn unter denselben Bedingungen wiederholt gemessen wird
- Validität (Validity): Ob die Messwerte tatsächlich das Konstrukt repräsentieren, das gemessen werden sollte
Nunnally & Bernstein (1994) Psychometric Theory ordnet ein: "Reliabilität ist eine notwendige, aber nicht hinreichende Bedingung für Validität." Das heißt: Bei niedriger Reliabilität ist auch die Validität nicht gesichert, aber eine hohe Reliabilität garantiert keine Validität (es ist möglich, dass mit derselben Verzerrung stabil falsch gemessen wird).
2. Die vier Kategorien der Reliabilität
Reliabilität (Reliability) ist ein Konzept, das sich auf die "Stabilität" und "Konsistenz" der Messwerte bezieht. Es gibt typischerweise vier Kategorien.
Die vier Kategorien der Reliabilität
In betrieblichen Umfragen am häufigsten verwendet werden ① interne Konsistenz (Cronbachs Alpha) und ② Test-Retest-Reliabilität.
3. Cronbachs Alpha (Cronbach's α)
Cronbachs Alpha ist die in Cronbach (1951) Coefficient alpha and the internal structure of tests vorgeschlagene Standardgröße für die interne Konsistenz. Sie nimmt Werte zwischen 0 und 1 an und zeigt, in welchem Ausmaß mehrere Items dasselbe Konzept messen.
Berechnungsidee
Cronbachs Alpha lässt sich formal so darstellen (k = Anzahl der Items, σ²ᵢ = Varianz von Item i, σ²ₜ = Varianz des Summenscores).
α = (k / (k − 1)) × (1 − Σσ²ᵢ / σ²ₜ)
Intuitiv reicht für die Praxis: "Je größer die Kovarianzen zwischen Items, desto höher α" und "Mehr Items tendieren mechanisch zu höherem α". Eine Handrechnung ist nicht praktikabel; berechnet wird mit R psych::alpha(), Python pingouin.cronbach_alpha(), SPSS Reliability Analysis, dem JASP-Reliability-Modul u. a.
Interpretation der Schwellenwerte
Die von Nunnally (1978) vorgeschlagenen und bis heute standardmäßig zitierten Schwellenwerte:
- α ≥ 0,9: hervorragend (aber: möglicherweise redundante Items)
- α ≥ 0,8: gut
- α ≥ 0,7: akzeptabel (Mindestmaß für explorative Forschung)
- α < 0,7: Verbesserungsbedarf
- α < 0,5: hohe Wahrscheinlichkeit, dass die Items nicht dasselbe Konzept messen
Cortina (1993) What is coefficient alpha? betont jedoch: "Hohes α ≠ Eindimensionalität gesichert". Da Alpha mit der Itemzahl mechanisch steigt, ist die richtige Praxis, Alpha nicht isoliert zu beurteilen, sondern mit Faktorenanalyse zu kombinieren.
Faktoren, die Alpha erhöhen / senken
- Mehr Items: mechanische Erhöhung von Alpha (Redundanzrisiko)
- Höhere Inter-Item-Korrelationen: Auswahl von Items, die dasselbe Konzept treffen
- Reverse-Coded Items: korrekt umgepolt unproblematisch, vergisst man die Umpolung, stürzt Alpha ab
- Hohe Homogenität der Antwortenden: geringere Varianz, mitunter sinkt Alpha
4. Die drei Kategorien der Validität
Validität (Validity) ist ein Konzept, das "ob die Messwerte das Konzept, das gemessen werden sollte, repräsentieren" betrifft, und wird traditionell in drei Kategorien geteilt. Messick (1989) schlug später eine monistische Sicht vor, die diese in die "Konstruktvalidität" integriert; für das praxisnahe Verständnis ist jedoch die Drei-Kategorien-Sicht handhabbar — wir bleiben dabei.
Die drei Kategorien der Validität
Warum die Konstruktvalidität im Zentrum steht
Von den drei Kategorien wird in der modernen Psychometrie der Konstruktvalidität (Construct Validity) am meisten Gewicht beigemessen. Cronbach & Meehl (1955) Construct validity in psychological tests zeigten, dass bei nicht beobachtbaren latenten Variablen (Zufriedenheit, Engagement, Stress usw.) die zentrale Frage lautet, "ob ein theoretisch definiertes Konzept tatsächlich gemessen wird".
5. Verfahren zur Prüfung der Konstruktvalidität
Die zentralen Verfahren zur Prüfung der Konstruktvalidität sind die folgenden vier.
① Konvergente Validität (Convergent Validity)
Bestätigt hohe Korrelationen mit anderen Indikatoren, die als Messung desselben Konstrukts gelten. Beispiel: r ≥ 0,5 zwischen NPS und Gesamtzufriedenheit bestätigen.
② Diskriminante Validität (Discriminant Validity)
Bestätigt niedrige Korrelationen mit Indikatoren für andere Konstrukte. Beispiel: niedrige Korrelation zwischen Arbeitszufriedenheit und Schlafdauer der vorherigen Nacht. Wird gemeinsam mit der konvergenten Validität geprüft.
③ MTMM-Matrix (Multitrait-Multimethod Matrix)
In Campbell & Fiske (1959) Convergent and discriminant validation by the multitrait-multimethod matrix vorgeschlagene klassische Methode. Mehrere Konzepte (traits) werden mit mehreren Methoden (methods) gemessen, Konvergenz und Diskriminanz übersichtlich bewertet. Für die akademische Forschung.
④ Faktorenanalyse (Factor Analysis)
Das praktischste Verfahren. Mit der explorativen Faktorenanalyse (EFA) wird untersucht, in wie viele Faktoren sich eine Itemgruppe bündelt, mit der konfirmatorischen Faktorenanalyse (CFA) wird geprüft, ob die Faktorstruktur der Hypothese entspricht.
- EFA: Faktorzahl wird nicht angenommen; die Daten bestimmen die Faktorstruktur. Bei der Entwicklung neuer Skalen.
- CFA: Eine Hypothesen-Faktorstruktur wird aufgestellt und auf Datenpassung geprüft. Für die Validitätsprüfung bestehender Skalen.
EFA ist mit R psych::fa(), Python factor_analyzer, SPSS / JASP umsetzbar. CFA benötigt R lavaan, Python semopy, Mplus und andere SEM-Tools (Strukturgleichungsmodellierung).
Schwellenwerte der Fit-Indizes
Typische Fit-Indizes für CFA und konventionelle Schwellenwerte:
- CFI (Comparative Fit Index): ≥ 0,95 (gut)
- TLI (Tucker-Lewis Index): ≥ 0,95 (gut)
- RMSEA (Root Mean Square Error of Approximation): ≤ 0,06 (gut), ≤ 0,08 (akzeptabel)
- SRMR (Standardized Root Mean Square Residual): ≤ 0,08 (gut)
Diese Schwellenwerte stammen aus Hu & Bentler (1999) und werden bis heute standardmäßig zitiert.
6. Prüfung der Kriteriumsvalidität
Die Kriteriumsvalidität betrachtet, "ob die Messwerte mit betrieblich relevanten externen Kriterien zusammenhängen" — sie hat damit die größte praktische Bedeutung.
Übereinstimmungsvalidität (Concurrent Validity)
Korrelation mit zeitgleich gemessenen externen Kriterien. Beispiele:
- Korrelation zwischen Mitarbeiter-Engagement-Score und der Kündigungsabsichtsrate zum gleichen Zeitpunkt
- Korrelation zwischen Kundenzufriedenheit und der Kündigungsrate zum gleichen Zeitpunkt
Vorhersagevalidität (Predictive Validity)
Ob künftige externe Kriterien vorhergesagt werden können. Beispiele:
- Korrelation des aktuellen NPS mit der Umsatzwachstumsrate der Folgeperiode
- Ob das aktuelle Mitarbeiter-Engagement die Fluktuationsrate in 6 Monaten vorhersagt
Wenn Sie der Geschäftsleitung die Bedeutung Ihrer Kennzahl erklären müssen, entscheidet die Existenz von Vorhersagevaliditätsdaten über die Überzeugungskraft.
7. Berichtsformate für die Praxis
Nach der Reliabilitäts- und Validitätsprüfung folgt die Frage, wie die Ergebnisse berichtet werden. Wissenschaftliche Publikationen und Geschäftsberichte verlangen unterschiedliche Granularität.
Berichtsformat für wissenschaftliche Publikationen
In wissenschaftlichen Arbeiten (insbesondere im APA-Stil) gehören mindestens folgende Angaben in den Methodenteil.
- Itemzahl und Alpha je Subskala (z. B. "Zufriedenheitsskala 5 Items, α = .87")
- Bei Bedarf Test-Retest-Reliabilität, Korrelationskoeffizient und Abstand (z. B. "Test-Retest-Reliabilität nach 2 Wochen r = .82")
- Bei CFA der vollständige Satz Fit-Indizes (CFI / TLI / RMSEA / SRMR) und Schätzwerte (z. B. "CFI = .96, RMSEA = .05")
- Prüfung der konvergenten / diskriminanten Validität als Korrelationsmatrix oder Average Variance Extracted (AVE)
Berichtsformat für die betriebliche Berichterstattung
Beim Bericht an Geschäftsleitung und Fachabteilungen werden Fachbegriffe minimal gehalten; die für die Entscheidung notwendige Schlussfolgerung wird in drei Zeilen geschrieben.
- "Ist die Kennzahl zeitlich stabil?" (Test-Retest-Reliabilität) → "Korrelation mit vor 3 Monaten r = .85, stabil"
- "Was misst die Kennzahl?" (Konstruktvalidität) → "Korrelation mit NPS r = .62, funktioniert als Proxy für Zufriedenheit"
- "Hat die Kennzahl mit dem Geschäft zu tun?" (Kriteriumsvalidität) → "Korrelation mit Kündigungsrate r = −,45, als Kündigungsprognoseindikator wirksam"
In der betrieblichen Berichterstattung steht die zur "als nächstes mögliche Aktion" führende Interpretation im Vordergrund — Alpha- und CFA-Zahlen detailliert auszuführen, ist sekundär.
8. Umsetzung in Kicue
Kicue deckt Fragenausspielung, Antwortsammlung und Roh-CSV-Export ab; die statistische Verarbeitung für die Reliabilitäts- und Validitätsprüfung wird realistisch in externen Tools ausgeführt.
Was in Kicue umgesetzt wird
- Auslieferung mehrerer Skalenitems: Multi-Item-Messung von Konstrukten mit Likert-Skala und Matrix-Fragen
- Betrieb von Test-Retest-Studien: erneute Auslieferung an dieselben Antwortenden nach Zeitabstand, ID-basierte Verknüpfung beim Export
- Erhebung von Demografika / externen Kriteriumsdaten: gleichzeitige Erfassung der für die Reliabilitäts- und Validitätsprüfung benötigten Attributinformationen und Verhaltensindikatoren
- Roh-CSV-Export: Antwortdaten auf Befragtenebene für den Import in Statistikwerkzeuge
Was in externen Tools umgesetzt wird
- Berechnung von Cronbachs Alpha: R
psych::alpha(), Pythonpingouin, SPSS, JASP - Explorative Faktorenanalyse (EFA): R
psych::fa(), Pythonfactor_analyzer, SPSS, JASP - Konfirmatorische Faktorenanalyse (CFA) / SEM: R
lavaan, Pythonsemopy, Mplus - Korrelationsanalysen (konvergent / diskriminant / kriterienbezogen): R / Python / Excel
- Erstellung einer MTMM-Matrix: Skripte in R / Python
Empfehlung: Prüfung im Pilotstadium
Die Prüfung von Reliabilität und Validität wird idealerweise im Pilottest vor der Hauptstudie durchgeführt. Stellt sich erst in der Hauptstudie ein Problem heraus, sind Korrekturen schwierig und ein Vergleich mit historischen Daten ist nicht mehr möglich. Sicherer Betrieb: Im Pilot 100–200 Antworten sichern, mit Cronbachs Alpha und explorativer Faktorenanalyse die Struktur prüfen, dann zur Hauptstudie übergehen.
Die Prüfung von Reliabilität und Validität ist innerhalb des Studiendesigns am wissenschaftlichsten und wird am leichtesten aufgeschoben. Doch eine Kennzahl, deren Fragen "Was misst sie?" und "Wie hängt sie mit dem Geschäft zusammen?" unbeantwortet bleiben, kann die Rechenschaftspflicht gegenüber der Geschäftsleitung nicht erfüllen und ist langfristig nicht tragfähig.
Die in diesem Beitrag aufgearbeiteten Konzepte — Alpha, Faktorenanalyse, Konstruktvalidität, Kriteriumsvalidität — sind allesamt aus dem akademischen Kontext entstanden, gleichzeitig aber praktische Werkzeuge zur Sicherung der langfristigen Betriebsfähigkeit betrieblicher Umfragen. Streben Sie nicht von Anfang an Perfektion an: Beginnen Sie damit, einmalig Cronbachs Alpha für Ihre Hauptskala zu berechnen und einmalig eine Test-Retest-Reliabilität zu messen.
Literatur
Reliabilität
- Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297-334. https://doi.org/10.1007/BF02310555
- Cortina, J. M. (1993). What is coefficient alpha? An examination of theory and applications. Journal of Applied Psychology, 78(1), 98-104. https://doi.org/10.1037/0021-9010.78.1.98
- Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric Theory (3rd ed.). McGraw-Hill. https://www.mheducation.com/highered/product/psychometric-theory-nunnally-bernstein/M9780070478497.html
Validität
- Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281-302. https://doi.org/10.1037/h0040957
- Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81-105. https://doi.org/10.1037/h0046016
- Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-103). American Council on Education and Macmillan.
Fit-Indizes
- Hu, L., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling, 6(1), 1-55. https://doi.org/10.1080/10705519909540118
Branchen- und Standardisierungsgremien
- American Educational Research Association (AERA), APA, NCME: Standards for Educational and Psychological Testing.
- International Test Commission: Guidelines for Test Adaptation.
Wenn Sie Umfragen mit gesicherter Messqualität betreiben möchten, probieren Sie das kostenlose Umfragetool Kicue aus. Von der Multi-Item-Konstruktion mit Likert-Skalen und Matrix-Fragen, über die Respondenten-ID-Verwaltung für Test-Retest-Studien, bis zum Roh-CSV-Export im Format, das in R / Python / SPSS / JASP eingelesen werden kann — Sie können die Grundlage für die Reliabilitäts- und Validitätsprüfung in einem einzigen Konto aufbauen.
