Limpieza de datos de encuesta — detectar respuestas descuidadas y fijar umbrales de exclusión

"Recogimos N=500, volcamos los datos crudos al análisis y los outliers obvios estaban contaminando todo." Ese momento de abrir los datos y dudar si limpiar primero es universal. Aun después de afinar el diseño de preguntas, hacer un piloto cuidadoso y operar el campo principal con disciplina, una fracción de los respondentes devuelve respuestas descuidadas (careless responding). No es defecto de diseño, es un hecho de la cognición humana.

Esta entrada recorre por qué postergar la limpieza rompe el análisis, los cinco patrones de respuestas descuidadas, las tres capas de métodos de detección, cómo fijar umbrales de exclusión en la práctica, cuándo ayudan los índices multivariantes y las reglas editoriales que aplicamos siempre. Es la tercera entrega de la serie de calidad de preguntas (redacción → piloto), cubriendo el arco "diseñar → verificar → preparar el análisis".

1. Qué pasa cuando la limpieza se posterga

La incidencia de respuestas descuidadas no es trivial

Meade & Craig (2012) Identifying Careless Responses in Survey Data revisó un amplio corpus de literatura y reportó que el 8–12% de los respondentes muestra alguna forma de respuesta descuidada. Maniaci & Rogge (2014) Caring About Carelessness confirma el mismo rango. Para un estudio N=500, son 40–60 casos contaminados por defecto.

Saltarse la limpieza distorsiona:

Las medias — la preferencia por el punto medio comprime las distribuciones hacia el centro
Las correlaciones — las respuestas aleatorias diluyen las relaciones reales entre variables
El análisis de clústeres — los respondedores descuidados forman su propio pseudo-clúster, los segmentos se vuelven ininterpretables
Las diferencias entre subgrupos — cuando la negligencia se concentra en un segmento, aparecen diferencias que no son reales

DeSimone et al. (2015) Best Practice Recommendations for Data Screening enmarcan el cribado como "precondición para el análisis" y recomiendan documentar explícitamente los procedimientos de cribado en publicaciones. En el lado académico ya es estándar.

"Excluir todo" y "usar todo" fallan por igual

Dos modos de error en investigadores menos experimentados:

Sobre-exclusión — descartar todo lo que parece línea recta. Acabas cortando respondentes que genuinamente sienten "ni de acuerdo ni en desacuerdo" en todos los ítems
Sub-exclusión — "no quiero perder datos" / "la muestra se reduce" → mantener todo. Resultado: el análisis lo arrastran las respuestas descuidadas

La respuesta correcta es decidir las reglas de detección por adelantado y aplicarlas mecánicamente. Mover los umbrales después de ver los datos es estructuralmente idéntico al p-hacking.

2. Cinco patrones de respuestas descuidadas

Para sistematizar la detección hace falta una taxonomía. Curran (2016) Methods for the Detection of Carelessly Invalid Responses in Survey Data y Huang et al. (2012) Detecting and Deterring Insufficient Effort Responding sirven de guía.

Patrón 1: Línea recta (straight-lining) — misma opción en toda la matriz

Elegir la misma opción en todas las filas de una pregunta matriz. El más fácil de detectar y el más prevalente. Se concentra en puntos medios neutrales ("ni de acuerdo ni en desacuerdo") o en positivos suaves.

Patrón 2: Respuesta acelerada (speeding) — completar muy rápido

Completar sin leer las preguntas. Frecuente en respondentes de panel motivados por incentivos. Bajo 3 segundos por pregunta es el umbral típico.

Patrón 3: Respuestas aleatorias o con patrón (random / patterned)

Recorrer las opciones como 1, 2, 3, 4, 1, 2, 3, 4 o totalmente al azar. Más difícil de cazar que la línea recta.

Patrón 4: Inconsistencia lógica (logical inconsistency)

Respuestas lógicamente incompatibles entre preguntas enlazadas. "Nunca usé el servicio" → "muy satisfecho con el servicio" dos preguntas después. Se detecta construyendo pares de preguntas de control en el diseño.

Patrón 5: Estilo extremo / aquiescencia (extreme / acquiescence response style)

Elegir siempre el valor máximo (extremo positivo) o decir siempre "de acuerdo" (aquiescencia). Es más un problema de estilo de respuesta que de descuido — a veces se aborda con corrección en el análisis en vez de exclusión.

Patrón	Dificultad de detección	Incidencia típica
Línea recta	★★★ (fácil)	5–10%
Respuesta acelerada	★★★ (fácil)	3–8%
Aleatoria / con patrón	★★ (media)	1–3%
Inconsistencia lógica	★★ (media, depende del diseño)	2–5%
Extremo / aquiescencia	★ (difícil, corregible)	5–15%

Los patrones se solapan en los mismos respondentes, así que la tasa final de exclusión suele caer alrededor del 5–15% como regla práctica del sector.

3. Tres capas de detección

La literatura converge en tres capas de métodos.

Capa 1: Basada en reglas (detección automática mínima)

Juicio mecánico por umbral. Bajo coste de implementación, detección estable.

Tiempo total < N_preguntas × 3 seg → respondente acelerado
Misma opción en todas las filas de una matriz → línea recta
Conflicto con atributo obligatorio → inconsistencia
Completion 100% + todos los textos en blanco → esfuerzo bajo

La Capa 1 es detectable en tiempo real durante el campo, con fuerte eficiencia operativa. Las herramientas de encuesta principales — Kicue incluida — traen la Capa 1 de serie.

Capa 2: Índices estadísticos (detección multivariante)

Juicio estadístico de descuido a partir de patrones de respuesta multi-pregunta. Atrapa el "descuido sutil" que la Capa 1 deja pasar.

IRV (Intra-individual Response Variability, variabilidad intra-individual) — desviación estándar de las respuestas de una persona. Extremadamente baja (la misma opción todo el tiempo) o extremadamente alta (aleatorio) sospecha
Distancia de Mahalanobis — distancia respecto a la media de la muestra en espacio multidimensional. Captura outliers de patrón
Consistencia par-impar (odd-even consistency) — correlación entre ítems en posiciones impares y pares que miden el mismo constructo. Correlación baja sospecha
Sinónimos / antónimos psicométricos (psychometric synonyms / antonyms) — consistencia entre pares de frases sinónimas o antónimas

Se calculan típicamente exportando los datos crudos a R / Python / SPSS. Curran (2016) introduce el paquete R careless específico para esto.

Capa 3: Basada en modelos (detección por aprendizaje automático)

Detección de respuestas generadas por bots y agentes IA mediante modelos ML sobre logs de operación y patrones de input. La detección de agentes IA de Kicue se sitúa en esta capa (ver nuestro artículo sobre detección de fraude por agentes IA).

Capa	Dónde	Qué atrapa	Coste de cómputo
1. Basada en reglas	Dentro de la herramienta	Acelerados / línea recta / inconsistencias explícitas	Bajo
2. Índices estadísticos	R / Python (externo)	Aleatorios / descuido sutil	Medio
3. Basada en modelos	Herramienta / servicio externo	Bots / agentes IA	Alto

En la práctica: Capa 1 como base operativa + Capa 2 antes del análisis es lo realista.

4. Fijar umbrales de exclusión en la práctica

Los umbrales de detección se fijan teniendo en mente el trade-off sobre-exclusión / sub-exclusión, por adelantado.

Tres principios

Principio 1: Fija los umbrales por adelantado. No los muevas después. Ajustar umbrales tras empezar el análisis — porque la tasa de exclusión "se siente alta / baja" — sesga los resultados hacia el número que querías. Documenta el protocolo y bloquéalo.

Principio 2: Usa condiciones AND entre múltiples índices. Excluir por un solo índice incrementa los falsos positivos. Excluir solo respondentes marcados por dos o más índices (p. ej. "acelerado AND línea recta") suprime la mala clasificación.

Principio 3: Predice la tasa de exclusión por adelantado. Si el resultado se aleja mucho del 5–15% de referencia, lo más probable es que la lógica de detección o el diseño de la pregunta tengan un problema. Revisa el criterio de detección, no el umbral.

Umbrales típicos de referencia

Indicador	Umbral típico	Fuente
Tiempo de finalización (acelerado)	< N_preguntas × 3 seg	Huang et al. (2012)
Línea recta (matriz)	Todas las filas la misma opción	Curran (2016)
IRV	< 0,5 (escala de 5 puntos asumida)	Dunn et al. (2018)
Consistencia par-impar	r < 0,30	Johnson (2005)
Distancia de Mahalanobis	outliers con p < 0,001	DeSimone et al. (2015)

Son puntos de partida. Aún hay que evaluar la validez en el contexto de tu estudio — el umbral de respuesta extrema en particular varía culturalmente.

5. Cuándo usar cada índice multivariante

Los índices de la Capa 2 sirven para complementar lo que la Capa 1 no ve. Guía rápida.

IRV — encuentra "los inusualmente planos o variables"

La desviación estándar de las respuestas de una persona. Atrapa con un solo índice tanto a la línea recta (IRV ≈ 0) como al respondente totalmente aleatorio (IRV ≈ SD de distribución uniforme). Encaja bien en encuestas con muchas matrices.

Distancia de Mahalanobis — encuentra "outliers de patrón"

Distancia de un patrón de respuesta multidimensional respecto a la media de la muestra. Atrapa respondentes que parecen normales en preguntas individuales pero anómalos en combinación. Se estabiliza a partir de N=200.

Consistencia par-impar — explota el diseño

Coloca ítems que miden el mismo constructo en posiciones impares y pares y mira la correlación. Los respondedores descuidados muestran correlación baja (no notaron que el constructo se repite). Requiere preparación en diseño, pero alta precisión.

Sinónimos / antónimos psicométricos

Comprueba la consistencia de pares de frases sinónimas ("soy un líder" / "tomo la iniciativa en grupos"). También requiere preparación en diseño.

Notas sobre uso multivariante

Bajo N=100, los índices son inestables — la detección multivariante es para escala de campo principal
Mismo respondente marcado por múltiples índices — usa AND entre índices para suprimir falsos positivos
El paquete R careless calcula IRV / distancia de Mahalanobis / par-impar en una sola pasada

6. Visión editorial — cinco reglas que aplicamos siempre

De la literatura y la práctica, las cinco cosas que defenderíamos con fuerza.

1. Documenta los criterios de limpieza antes de salir a campo. "Decidir cuando empiece el análisis" es un no rotundo. Escribe umbrales, combinaciones AND, tasa de exclusión esperada antes del campo y alinea con stakeholders. Ajustar después sesga los resultados — estructuralmente idéntico al p-hacking.

2. Corre reglas + índices estadísticos en dos etapas. Solo reglas se le escapa el descuido sutil; solo estadísticos retrasa el análisis esperando a los acelerados obvios. Reglas como filtro primario durante el campo → índices estadísticos como filtro secundario tras la exportación es el patrón operativo estándar.

3. Si la tasa de exclusión cae fuera del 5–15%, sospecha del diseño. Por encima del 20% probablemente la encuesta es demasiado larga / difícil / aburrida. No aflojes los umbrales; revisa la estructura de las preguntas. La tasa de exclusión también es métrica de calidad de diseño.

4. Inserta una pregunta-trampa en el campo principal. "En esta pregunta marca la opción 3" — ítems explícitos de control de atención. Quien falla queda confirmado como inatento — detección potente. Especialmente útil en encuestas largas (no abuses — erosiona la confianza del respondente).

5. Guarda las respuestas excluidas con su razón de exclusión. No descartes del todo. Mantén las respuestas eliminadas en los datos crudos con un flag de exclusión para que el proceso de cribado sea auditable después. Misma filosofía que los reportes de screening en publicaciones académicas.

7. Operaciones de limpieza de datos en la herramienta de encuestas Kicue

Kicue trae la detección de la Capa 1 (basada en reglas) de serie.

Cuatro detectores automáticos

Detección de respondente acelerado — flag automático para finalizaciones bajo N_preguntas × 3 seg
Detección de línea recta — flag de matrices con todas las filas en la misma opción
Detección de agentes IA — patrones característicos de respuestas de ChatGPT / Claude / Gemini
Detección de bots / duplicados — navegadores headless, señales de IP / cookie / fingerprint

Las respuestas detectadas se marcan en tiempo real durante el campo y son visibles en la vista de monitoreo.

Flujo de gestión de flags

La vista de gestión de flags sigue cada flag en tres estados: pending (pendiente) → confirmed (confirmado) / dismissed (descartado). El toggle "excluir respuestas marcadas" en la vista de análisis, cuando está activo, excluye del cómputo solo las respuestas confirmadas. Las pendientes y descartadas quedan fuera de la exclusión — diseño que previene descartes accidentales.

Exportación de datos crudos para análisis multivariante

La exportación de datos crudos saca cada flag como columna del CSV. Carga en R / Python / SPSS para calcular índices estadísticos de Capa 2 como IRV y distancia de Mahalanobis. Lo que no encaja dentro de Kicue (detección descuidada avanzada) vive en el procesamiento externo posterior a la exportación.

Las comprobaciones de inconsistencia viven en el diseño

La autodetección de inconsistencia lógica no es función nativa. Las comprobaciones cruzadas entre atributos de cribado y respuestas del cuestionario principal se implementan como procesamiento posterior a la exportación. Decide qué pares vas a comprobar antes de salir a campo.

Elegir la herramienta correcta — Los límites del plan gratuito, soporte de ramificación, capacidades IA y exportación CSV varían mucho entre herramientas. Consulta nuestra comparativa de herramientas de encuestas gratuitas para encontrar la adecuada para este enfoque.

Resumen

Checklist de limpieza de datos:

La incidencia de respuestas descuidadas es 8–12% — diseña asumiendo 40–60 casos contaminados por N=500.
Cinco patrones — línea recta / acelerado / aleatorio / inconsistencia lógica / extremo·aquiescencia.
Tres capas — basada en reglas (en herramienta) / índices estadísticos (externo) / basada en modelos (bot · IA).
Documenta los umbrales antes del campo — no los muevas después. AND entre múltiples índices para suprimir falsos positivos.
Cinco reglas editoriales — pre-documentar criterios / dos etapas reglas + estadísticos / sospechar del diseño si la exclusión supera 20% / una pregunta-trampa / guardar las excluidas.
Kicue cubre detección de acelerado / línea recta / IA / bot; la Capa 2 en R / Python tras exportar.

La limpieza de datos no es "tirar datos". Es definir qué cuenta como datos analizables. Haz la exclusión transparente y predefine los criterios, y N=500 se vuelve un N=450 limpio — con credibilidad analítica sustancialmente mayor.

Referencias

Académicas y metodológicas

Meade, A. W., & Craig, S. B. (2012). Identificación de respuestas descuidadas en datos de encuestas. Psychological Methods, 17(3), 437–455.
Curran, P. G. (2016). Métodos para la detección de respuestas inválidas por descuido en datos de encuestas. Journal of Experimental Social Psychology, 66, 4–19.
DeSimone, J. A., Harms, P. D., & DeSimone, A. J. (2015). Recomendaciones de buenas prácticas para el cribado de datos. Journal of Organizational Behavior, 36(2), 171–181.
Huang, J. L., Curran, P. G., Keeney, J., Poposki, E. M., & DeShon, R. P. (2012). Detección y disuasión del esfuerzo insuficiente al responder encuestas. Journal of Business and Psychology, 27(1), 99–114.
Maniaci, M. R., & Rogge, R. D. (2014). Cuidar el descuido — la inatención del participante y sus efectos en la investigación. Journal of Research in Personality, 48, 61–83.

Organismos de estándares y centros metodológicos

Guías del sector (a título de observación)

¿Quieres operacionalizar la limpieza de datos de extremo a extremo? Prueba Kicue — una herramienta de encuestas online gratuita. Detección de acelerado / línea recta / IA / bot, gestión de flags, toggle de exclusión y exportación de datos crudos vienen de fábrica — la Capa 1 conecta limpiamente con tu pipeline de R / Python para la Capa 2.