Offene Umfrageantworten mit AI auswerten – Text-Mining versus LLM-Coding

Wer in der Forschung arbeitet, kennt das Gefühl: Die Auswertung der geschlossenen Fragen ist in Minuten erledigt, doch die offenen Antworten bleiben als ungeöffnete Baustelle auf dem Schreibtisch liegen. „Das lese ich mir später mal durch“ wird zu drei Wochen Verzögerung, und am Ende reicht es nur noch für ein Überfliegen. Solche Geschichten hört man, ehrlich gesagt, in jeder Branche.

In den letzten Jahren ist generative AI in den Berufsalltag eingezogen, und die Hoffnung lautet: „Damit könnten wir die offenen Antworten endlich in den Griff bekommen.“ Unser ehrliches Fazit nach dem Lesen zahlreicher Studien und Fallberichte: AI ist keine Komplettlösung, bei der man die Aufgabe einfach abgeben kann. Eine peer-reviewte Publikation aus dem Jahr 2024 berichtet zwar, dass Claude eine Genauigkeit von 93,9 % erreicht und damit menschlichen Coderinnen und Codern nahekommt. Eine andere Arbeit stellt fest, dass universelle Modelle ohne Fine-Tuning nicht praxistauglich sind. Klingt widersprüchlich, aber beides ist richtig. Dieser Artikel ordnet die beiden Richtungen Text-Mining und LLM-Coding ein und beschreibt aus Betriebssicht, was planmäßig funktioniert – und wo es mit Sicherheit hakt.

1. Zwei Ansätze zur Auswertung offener Antworten

Die Analyse offener Antworten teilt sich grob in zwei Schulen.

Ansatz 1: Text-Mining (wort- und kookkurrenzbasiert)

Der klassische Weg: häufige Wörter, Kookkurrenzen und Sentiment (positiv/negativ) werden statistisch extrahiert. Typische Schritte sind morphologische Analyse → Worthäufigkeiten → Kookkurrenznetzwerk. In Japan ist dieses Vorgehen seit langem der Standard. Stark bei quantitativen Analysen auf Wortebene, weil „welche Begriffe häufig auftauchen“ intuitiv sichtbar wird, stößt aber beim Erfassen des Kontexts schnell an Grenzen.

Ansatz 2: LLM-Coding (kontext- und bedeutungsbasiert)

Offene Antworten werden einzeln einem großen Sprachmodell wie GPT, Claude oder Gemini vorgelegt, das sie in vorab definierte Kategorien einsortiert (codiert). Seit rund 2023 wird dieser Ansatz in Wissenschaft und Praxis intensiv untersucht und erlaubt eine Einordnung, die Kontext und Bedeutung berücksichtigt.

2. Aktuelle Forschung zum LLM-Coding offener Antworten – Genauigkeit und Grenzen

Seit etwa 2024 sind mehrere peer-reviewte Studien erschienen, die die Genauigkeit von LLM-basiertem Coding offener Antworten quantitativ bewerten.

In manchen Fällen fast menschliche Präzision möglich

Die Studie von Mellon et al. (2024) in Sage hat offene Antworten aus einer britischen Sozialumfrage auf die Frage „Was ist das wichtigste Problem?“ ausgewertet. Claude-1.3 erreichte dort eine Genauigkeit von 93,9 % und kam damit nahe an die 94,7 % menschlicher Coderinnen und Coder heran. Mit ausreichend Stichprobe und einem klar definierten Codebuch können LLMs also tatsächlich an menschliches Niveau heranreichen.

Trotzdem sind die Unterschiede zwischen Fällen groß

Demgegenüber kommt eine arXiv-Studie aus 2024 beim Coding deutschsprachiger offener Antworten zur Umfragemotivation zu dem Schluss, dass universelle LLMs keine zufriedenstellende Genauigkeit liefern und erst fine-getunte Modelle ein brauchbares Niveau erreichen. Sprache, Themenkomplexität und Abstraktionsgrad der Kategorien führen zu großen Schwankungen beim erreichbaren Niveau.

LLMs haben strukturelle Schwächen

Ein PMC-Artikel von 2024 fasst die strukturellen Grenzen der LLM-gestützten Auswertung offener Antworten wie folgt zusammen:

LLMs verarbeiten jede Antwort isoliert – Kontextinformationen, die menschliche Coderinnen nutzen, wie die Konsistenz mit anderen Antworten derselben Person, das Erkennen von Tonlage und Ironie oder Rückbezüge aus Folgeschritten, stehen ihnen nicht zur Verfügung.
Schwächen bei mehrdeutigen Antworten – Antworten, die ein Mensch anhand des Kontexts einordnen könnte, werden von LLMs häufig eher zufällig zugeordnet.
Starker Einfluss der Prompt-Gestaltung – dieselben Daten liefern unter unterschiedlichen Prompts stark abweichende Ergebnisse.

Diese Schwächen werden in der Forschung immer wieder reproduziert und sind strukturell bedingt.

Ein Fehlschlag in einer großen Erhebung

Ein Whitepaper von Langer Research berichtet über das Coding offener Antworten aus dem Texas Education Poll 2024 mit einem AI-Tool: Zahlreiche Abweichungen vom menschlichen Coding, Fehlklassifikationen sowie Probleme beim Erkennen von Tonlage und Aussagerichtung. Das Dokument wird in der Branche häufig als Warnung zitiert, dass kommerzielle AI-Tools nicht automatisch das versprochene Niveau liefern.

3. Zwei Tool-Archetypen – Text-Mining versus LLM-Integration

Die Tools zur Auswertung offener Antworten lassen sich in zwei Typen einordnen. Beide Beschreibungen stützen sich auf öffentlich zugängliche Anbieterinformationen; die optimale Wahl hängt vom Einsatzzweck ab.

Typ 1: Dedizierte Text-Mining-Tools (Schwerpunkt Wörter und Kookkurrenzen)

In Japan seit Jahren verbreitet. Zentral sind morphologische Analyse, Kookkurrenznetzwerke und Häufigkeiten. In Vergleichsportalen wie IT Trend oder ASPIC werden Anbieter wie AI-Text-Mining von User Local oder Mieruka Engine als Beispiele genannt. Für Tendenzen auf Wortebene ist der Ansatz gut geeignet, bei längeren Texten oder kontextabhängigen Interpretationen stößt er jedoch durchgehend an Grenzen.

Typ 2: LLM- und AI-integrierte Tools (Schwerpunkt Kontextverständnis)

Auch klassische QDA-Tools (Qualitative Data Analysis) bauen zunehmend generative AI ein.

Zu NVivo (Lumivero) heißt es, der AI-Assistent biete Textzusammenfassungen, Coding-Vorschläge und Sentiment-Analysen.
Auch MAXQDA wird in Vergleichsartikeln als Plattform beschrieben, deren AI-Unterstützung kontinuierlich ausgebaut wird.
In Japan erklären Anbieter wie Emotion Tech explizit die Kombination aus Text-Mining und generativer AI.

Diese Einordnungen basieren auf öffentlichem Marketingmaterial und stellen keine akademisch abgesicherten Benchmarks dar. Dass klassisches Text-Mining und LLMs künftig kombiniert werden, hat sich jedoch 2025 als branchenweite Richtung etabliert.

4. Die richtige Wahl im Alltag – drei Entscheidungsachsen

Fasst man die Forschungsergebnisse und die Branchentools zusammen, entscheidet sich die Wahl des Ansatzes entlang dreier Achsen: Datenmenge, Zielsetzung und Genauigkeitsanforderung.

Achse 1: Datenvolumen

Bis etwa 500 Antworten: LLM-Coding Antwort für Antwort ist wirtschaftlich vertretbar. Kontextverständnis voll ausspielen.
500 bis einige Tausend: Hybrid – mit Text-Mining den Überblick verschaffen, auffällige Cluster per LLM vertiefen.
Mehrere Zehntausend und mehr: Text-Mining zur Dimensionsreduktion, anschließend Coding einer gezielten Stichprobe per LLM.

Achse 2: Zielsetzung

Trend-Überblick (Marketing-Einsatz): Text-Mining reicht oft aus.
Identifikation segmentspezifischer Probleme (Customer Success): Hier zeigt LLM-Coding seine Stärke.
Quantifizieren und Zeitvergleich: Kategorien vorab definieren und mit LLM plus menschlichem Coding kombiniert arbeiten.
Wenige relevante Stimmen herausarbeiten: Human-Review, unterstützt durch LLM.

Achse 3: Genauigkeitsanforderung

Direkte Entscheidungsgrundlage (Geschäftsleitung, Produktentscheidungen): zweistufig mit LLM und anschließender Human-Review.
Gefühlsmäßige Tendenz genügt: Text-Mining allein reicht meist.

Die Sicht der Redaktion – vier Leitlinien für die Praxis

Wer die Branche rund zwei Jahre lang verfolgt hat, erkennt Muster, die sich als „realistischer Kompromiss“ anbieten. Im Umkehrschluss kommt es häufig zu Projekten, in denen die AI alles übernehmen sollte und dann hinterher mühsam nachgearbeitet werden muss. Weil die Lücke zwischen Marketing-Versprechen und Alltagserfahrung noch groß ist, sagen wir es an dieser Stelle bewusst deutlich.

1. Bei vielen Antworten ist der zweistufige Ansatz Pflicht. Erst Text-Mining für den Überblick, dann LLM nur für die wichtigen Cluster. Wer sich den Aufwand sparen will und „erst einmal alles in die LLM kippt“, zahlt bei Kosten und Zeit mehr als das Doppelte. Der Erkenntnisgewinn gegenüber dem zweistufigen Vorgehen ist dabei gering.

2. Prompts nicht nach Gefühl schreiben. Mit der Haltung „das Modell wird es schon irgendwie einsortieren“ geht fast immer etwas schief. Kategoriendefinition, Beispiele und Randbedingungen sollten vorher schriftlich ausformuliert werden, bevor man irgendetwas losschickt. Wer hier abkürzt, bezahlt es später mit doppeltem Aufwand bei der Human-Review.

3. Auf eine Human-Review von 5–10 % niemals verzichten. „Hat die AI gemacht, ist also okay“ ist die gefährlichste Haltung. Genauigkeit muss vor dem Produktivbetrieb an einer Stichprobe gemessen werden. Teams, die diesen Schritt überspringen, geraten später regelmäßig in die Kritik, ihre Scores seien nicht belastbar.

4. Mehrdeutige Antworten über „unklar“ auslagern. Zwingt man das LLM zu einer Entscheidung, schleichen sich stille Fehlklassifikationen ein. Fallen solche Antworten in einen „Sonstiges“ bzw. „nicht zuordenbar“-Topf, der von Menschen geprüft wird, ist die Verlässlichkeit am Ende deutlich höher. „80 % automatisch, 20 % sorgfältig von Hand“ liefert die bessere Qualität als „100 % klassifiziert“.

5. Umgang mit offenen Antworten im Umfrage-Tool Kicue

Kicue bringt den Fragetyp „offene Antworten“ (OA/FA) als Standard mit und unterstützt Entwurf und Betrieb mithilfe von AI.

OA/FA (offene Antworten) als Fragetyp – kurze wie ausführliche Texte möglich (Details zum Fragetyp)
CSV- und Excel-Export offener Antworten – direkt in NVivo, MAXQDA oder Text-Mining-Tools importierbar
Gegenmaßnahmen gegen Verzerrungen beim Antworten – Hinweise zur Zeichenzahl, klare Kennzeichnung von Pflicht- oder Optional-Feldern, UI-Design zur Senkung von Abbrüchen (praktische Hebel für mehr Antworten)
Erkennung unlauterer Antworten – auch wenn AI-Agenten Texte in offene Felder kopieren (Funktionsweise der Betrugserkennung)

Einfach die Fragebogendatei hochladen, und Entwurf offener Antworten, Sammlung und Export lassen sich aus einer Hand abbilden.

Das richtige Tool wählen — Free-Plan-Grenzen, Verzweigungs-Support, KI-Fähigkeiten und CSV-Export variieren stark zwischen Tools. Siehe unseren Vergleich kostenloser Umfrage-Tools, um das passende für diesen Ansatz zu finden.

Fazit

Checkpoints für die AI-gestützte Analyse offener Antworten:

Zwei Ansätze – Text-Mining (Wörter und Kookkurrenzen) und LLM-Coding (Kontext und Bedeutung) – mit jeweils unterschiedlichen Stärken.
LLMs schaffen fast menschliche Genauigkeit, aber nur unter Bedingungen – ausreichend Stichprobe, klares Codebuch und gute Prompts sind Voraussetzung.
Die strukturellen Schwächen kennen – Isolation jeder Antwort, Schwäche bei Mehrdeutigkeit, Prompt-Abhängigkeit.
Kommerzielle AI-Tools müssen pro Anwendungsfall geprüft werden – veröffentlichte Fehlschläge ernst nehmen und vor dem Produktivbetrieb messen.
Zweistufiger Ansatz plus Stichproben-Review hat sich etabliert – Text-Mining für den Überblick, LLM zum Vertiefen, Mensch für die Endprüfung.

Offene Antworten galten lange als zu aufwändig auswertbar. Mit AI wächst nun der Bereich, der sich praktisch bewältigen lässt. Ein Design, das die Eigenheiten jedes Ansatzes kennt und den menschlichen Check nicht vernachlässigt, ist dabei der Standard, der sich 2026 durchsetzt.

Literatur

Wissenschaftliche Studien und Peer-Review

Mellon, J. et al. (2024). Do AIs know what the most important issue is? Using language models to code open-text social survey responses at scale. Research & Politics.
Framework-based qualitative analysis of free responses of Large Language Models: Algorithmic fidelity (2024). PMC.
AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation (2024). arXiv-Preprint.
A Large Language Model Approach to Educational Survey Feedback Analysis (2024). International Journal of Artificial Intelligence in Education.
Large Language Model for Qualitative Research – A Systematic Mapping Study (2024). arXiv-Preprint.

Branchenberichte und Anbieterinformationen

Japanische Anbieter und Tool-Informationen (als Hintergrund zur Branche zitiert)

Gestalten und betreiben Sie Fragebögen mit offenen Antworten effizient – mit Kicue — einem kostenlosen Umfrage-Tool für moderne Workflows.