Analizar respuestas abiertas de encuestas con IA: minería de texto vs. codificación con LLM

Si alguna vez has pasado una encuesta a tus clientes, conoces la sensación. El panel de preguntas de opción múltiple queda nítido y listo para compartir. Mientras tanto, la columna de texto libre se queda ahí, con cientos o miles de respuestas sin leer. «Deberíamos hacer algo con las respuestas abiertas» lleva siendo un punto pendiente del orden del día desde que se inventaron las encuestas. Tres semanas después, acabas leyéndolas en diagonal con un café, esperando que algún patrón salte a la vista. Casi nunca ocurre.

La IA generativa es el primer intento creíble de romper de verdad este cuello de botella. Pero —y esta es la parte honesta— no es la bala de plata que da a entender el marketing. Un artículo revisado por pares de 2024 reporta que Claude alcanzó el 93,9 % de precisión, casi igualando a los codificadores humanos. Otro artículo de 2024 concluye que los LLM de propósito general son insuficientes sin fine-tuning. Ambos son correctos; midieron cosas distintas. Este artículo repasa qué aporta realmente cada enfoque —minería de texto y codificación con LLM—, dónde se rompe cada uno y cómo elegir la combinación que mejor encaje con lo que intentas hacer.

1. Dos enfoques para analizar respuestas abiertas

El análisis de respuestas abiertas se divide, a grandes rasgos, en dos tradiciones.

Enfoque 1: Minería de texto (basada en palabras y co-ocurrencias)

El método clásico: análisis morfológico / tokenización → frecuencia de palabras → red de co-ocurrencias → sentimiento. Potente para análisis cuantitativo de tendencias a nivel de palabra («¿qué términos aparecen más?»), más débil en la comprensión contextual.

Enfoque 2: Codificación con LLM (basada en contexto y significado)

Pasar cada respuesta abierta a un modelo del tipo GPT / Claude / Gemini y pedirle que la clasifique según un libro de códigos predefinido. Desde 2023, la investigación académica y del sector ha empezado a caracterizar hasta qué punto funciona esto realmente.

2. Qué dice la investigación de 2024 sobre la codificación con LLM: precisión y límites

Un grupo de estudios revisados por pares de 2024 ha evaluado el rendimiento de la codificación con LLM con resultados concretos y medibles.

Los LLM pueden acercarse a la precisión humana en las condiciones adecuadas

Mellon et al. (2024), Research & Politics evaluaron la codificación con LLM de una pregunta abierta sobre «el problema más importante» en una encuesta social británica. Claude-1.3 alcanzó un 93,9 % de precisión, casi igualando el 94,7 % de los codificadores humanos. Con una muestra suficiente y un esquema de codificación claro, los LLM pueden alcanzar de forma plausible un rendimiento comparable al humano.

Pero los resultados varían mucho según el caso

Por el contrario, un estudio de arXiv de 2024 que analizaba respuestas abiertas en alemán sobre la motivación para responder encuestas concluyó que los LLM de propósito general dieron una precisión insuficiente y solo un modelo con fine-tuning alcanzó niveles satisfactorios. El idioma, la complejidad del tema y el nivel de abstracción de las categorías alteran de manera significativa la precisión alcanzable.

Los LLM tienen debilidades estructurales

Un artículo de PMC de 2024 describe las limitaciones estructurales del análisis de respuestas abiertas con LLM:

Los LLM procesan cada respuesta de forma aislada: no tienen acceso a las otras respuestas del encuestado, al tono, a la ironía ni al contexto de preguntas de seguimiento en los que se apoyan los codificadores humanos.
Mal manejo de respuestas ambiguas: las respuestas que un codificador humano resolvería gracias al contexto quedan clasificadas de forma semialeatoria por los LLM.
Alta sensibilidad al prompt: con los mismos datos y el mismo modelo pueden producirse resultados notablemente distintos según cómo se redacte el prompt.

Son límites estructurales de la codificación con LLM demostrados en repetidas ocasiones.

Un caso real de fracaso

Un white paper de Langer Research informa de que un piloto con una herramienta de IA de referencia aplicado a los datos de texto libre de la Texas Education Poll de 2024 produjo un desalineamiento importante con los codificadores humanos, una clasificación errónea generalizada e incapacidad para captar el tono o la direccionalidad. Es un caso de advertencia muy citado que muestra que no todas las herramientas comerciales de IA rinden al nivel que sugiere el marketing.

3. Dos arquetipos de herramientas: minería de texto vs. QDA integrado con LLM

Las opciones de herramientas se agrupan en dos arquetipos. Ten en cuenta que los materiales de los proveedores describen su posicionamiento y capacidades, no benchmarks validados de forma independiente: son útiles como orientación del sector, no como garantías de rendimiento.

Arquetipo 1: Herramientas dedicadas de minería de texto

Centradas en tokenización + co-ocurrencias + frecuencias. Populares en ciertas áreas del sector de la investigación por encuestas para obtener instantáneas rápidas de tendencias. Sitios de comparación como Thematic describen un amplio universo de herramientas en este espacio, aunque la mayoría de los análisis señalan su debilidad en la interpretación de textos largos y dependientes del contexto.

Arquetipo 2: Herramientas QDA tradicionales que integran IA generativa

Las plataformas QDA consolidadas están añadiendo funciones de IA:

NVivo (Lumivero) promociona su asistente de IA con resumen de textos, sugerencias de codificación y análisis de sentimiento (según sus propios materiales de producto).
MAXQDA también describe una ampliación de su soporte de IA, según las reseñas comparativas.
Delve y otros actores más recientes apuestan de forma más decidida por flujos de trabajo con la IA en el centro.

Estas descripciones provienen de proveedores y sitios de comparación, no de benchmarks independientes, pero la dirección del movimiento —combinar la minería de texto clásica con capacidades basadas en LLM— es una trayectoria del sector ampliamente compartida para 2025.

4. Elegir un enfoque en la práctica

Si juntamos la evidencia académica y el posicionamiento del sector, tres ejes tienden a guiar la elección real del enfoque.

Eje 1: Volumen de datos

Menos de 500 respuestas: codificar una a una con LLM es económicamente razonable; aprovecha la comprensión contextual.
De 500 a varios miles: híbrido — minería de texto para la forma general y codificación con LLM para profundizar en los clusters interesantes.
Decenas de miles o más: minería de texto para reducir la dimensionalidad y codificación con LLM sobre un subconjunto muestreado.

Eje 2: Propósito

Seguimiento de tendencias de mercado: a menudo basta con minería de texto.
Detección de problemas por segmento (uso en CX): la fuerza contextual de la codificación con LLM importa.
Cuantificar y comparar en el tiempo: definir categorías y codificar (LLM + humano) de manera consistente entre olas.
Encontrar un pequeño número de señales importantes: revisión humana apoyada por LLM.

Eje 3: Exigencia de precisión

Decisiones importantes (reporting ejecutivo, decisiones de producto): doble pasada de LLM + revisión humana.
Basta con una lectura direccional: la minería de texto por sí sola puede bastar.

Visión editorial: lo que de verdad recomendaríamos

Tras seguir este espacio durante dos años a través de casos públicos y comentarios del sector, un puñado de patrones ha empezado a sentirse como las respuestas «obviamente correctas» por defecto. Los equipos que salen escaldados del análisis de texto libre asistido por IA suelen compartir un mismo error: intentaron automatizarlo todo y solo descubrieron los límites del enfoque cuando llegó la factura. La distancia entre el discurso de los proveedores y la realidad del terreno sigue siendo real en 2026, así que vamos a ser claros.

1. No te saltes el enfoque de dos fases en conjuntos de datos grandes. Primero minería de texto para la forma y luego LLM en los clusters que realmente importan. Saltar directamente a una codificación íntegra con LLM sobre decenas de miles de respuestas es la forma en la que los equipos descubren, tres meses después, que se han gastado una pequeña fortuna en un resultado mediocre que apenas aporta nada más allá de lo que habría dado el enfoque de dos fases.

2. No cargues un libro de códigos «a ojo». «El LLM ya lo averiguará» es la vía rápida para destrozar la precisión. Escribe tus categorías, definiciones, ejemplos y casos límite en prosa, antes de lanzar nada. Si te parece mucho trabajo por adelantado, bien: es el trabajo que iba a hacerse igualmente; solo que así lo haces una vez y bien, en lugar de siete veces en retrabajos.

3. No te saltes la revisión por muestra. Vuelve a codificar a mano un 5–10 % y mide el nivel de acuerdo. «Me pareció razonable al revisarlo por encima» no es una métrica. Es el paso que los equipos se saltan porque «lo ha hecho la IA, tiene que estar bien» y es el paso del que depende que puedas defender los resultados en una reunión con stakeholders.

4. Deja las respuestas ambiguas en un cubo de «Otros / Indeterminado». Forzar una respuesta ruidosa en una categoría limpia solo blanquea el ruido dentro de tus gráficos. «Codificado al 100 %» suena impresionante hasta que te das cuenta de que un 20 % está mal. Preferimos con diferencia ver «80 % automatizado, 20 % codificado a mano»: esa sí es la forma de un resultado en el que se puede confiar.

5. Cómo la herramienta de encuestas Kicue da soporte al análisis de respuestas abiertas

Kicue incluye de serie tipos de pregunta abierta (OA / FA) y un flujo de diseño orientado a un despliegue fiable:

Tipos de pregunta OA / FA — admite campos de texto libre cortos y largos (referencia de tipos de pregunta).
Exportación a CSV / Excel — exporta en formatos listos para herramientas de análisis externas (NVivo / MAXQDA / plataformas dedicadas de minería de texto).
Diseño que reduce el sesgo — indicadores de número de caracteres, distinción clara entre obligatorio y opcional, UI afinada para mejorar la tasa de respuesta.
Detección de fraude en texto libre — detecta respuestas generadas por IA pegadas en los campos abiertos (visión general de la detección de fraude).

Sube tu archivo de cuestionario y la plataforma se encarga del diseño de los campos abiertos, la recogida y la exportación de principio a fin.

Elegir la herramienta correcta — Los límites del plan gratuito, soporte de ramificación, capacidades IA y exportación CSV varían mucho entre herramientas. Consulta nuestra comparativa de herramientas de encuestas gratuitas para encontrar la adecuada para este enfoque.

Recapitulación

Decisiones clave al analizar respuestas abiertas con IA:

Dos enfoques — minería de texto (palabra / co-ocurrencia) y codificación con LLM (contexto / significado), con fortalezas distintas.
Los LLM pueden acercarse a la precisión humana, pero solo en ciertas condiciones — muestras adecuadas, libro de códigos claro y prompts bien diseñados.
Conoce los límites estructurales — aislamiento, ambigüedad y sensibilidad al prompt.
Las herramientas comerciales de IA requieren verificación en tu contexto — los casos públicos de fracaso son reales: mide antes de llevar a producción.
El análisis en dos fases + revisión por muestra se está convirtiendo en práctica estándar.

Los datos de respuestas abiertas han estado históricamente infraanalizados por cuestiones de escala. Con la IA en el kit de herramientas eso está cambiando, pero el patrón ganador es conocer los límites de cada enfoque y mantener una revisión humana en el bucle, no la automatización ciega.

Referencias

Investigación académica y revisada por pares

Mellon, J., et al. (2024). Do AIs know what the most important issue is? Using language models to code open-text social survey responses at scale. Research & Politics.
Framework-based qualitative analysis of free responses of Large Language Models: Algorithmic fidelity (2024). PMC.
AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation (2024). arXiv preprint.
A Large Language Model Approach to Educational Survey Feedback Analysis (2024). International Journal of Artificial Intelligence in Education.
Large Language Model for Qualitative Research - A Systematic Mapping Study (2024). arXiv preprint.

Informes del sector e información de proveedores

Operadores y herramientas locales (referencia para contexto del sector)

Descubre Kicue — una herramienta de encuestas online gratis pensado para diseñar y operar de forma eficiente cuestionarios con preguntas abiertas.