"Recogimos N=500, volcamos los datos crudos al análisis y los outliers obvios estaban contaminando todo." Ese momento de abrir los datos y dudar si limpiar primero es universal. Aun después de afinar el diseño de preguntas, hacer un piloto cuidadoso y operar el campo principal con disciplina, una fracción de los respondentes devuelve respuestas descuidadas (careless responding). No es defecto de diseño, es un hecho de la cognición humana.
Esta entrada recorre por qué postergar la limpieza rompe el análisis, los cinco patrones de respuestas descuidadas, las tres capas de métodos de detección, cómo fijar umbrales de exclusión en la práctica, cuándo ayudan los índices multivariantes y las reglas editoriales que aplicamos siempre. Es la tercera entrega de la serie de calidad de preguntas (redacción → piloto), cubriendo el arco "diseñar → verificar → preparar el análisis".
1. Qué pasa cuando la limpieza se posterga
La incidencia de respuestas descuidadas no es trivial
Meade & Craig (2012) Identifying Careless Responses in Survey Data revisó un amplio corpus de literatura y reportó que el 8–12% de los respondentes muestra alguna forma de respuesta descuidada. Maniaci & Rogge (2014) Caring About Carelessness confirma el mismo rango. Para un estudio N=500, son 40–60 casos contaminados por defecto.
Saltarse la limpieza distorsiona:
- Las medias — la preferencia por el punto medio comprime las distribuciones hacia el centro
- Las correlaciones — las respuestas aleatorias diluyen las relaciones reales entre variables
- El análisis de clústeres — los respondedores descuidados forman su propio pseudo-clúster, los segmentos se vuelven ininterpretables
- Las diferencias entre subgrupos — cuando la negligencia se concentra en un segmento, aparecen diferencias que no son reales
DeSimone et al. (2015) Best Practice Recommendations for Data Screening enmarcan el cribado como "precondición para el análisis" y recomiendan documentar explícitamente los procedimientos de cribado en publicaciones. En el lado académico ya es estándar.
"Excluir todo" y "usar todo" fallan por igual
Dos modos de error en investigadores menos experimentados:
- Sobre-exclusión — descartar todo lo que parece línea recta. Acabas cortando respondentes que genuinamente sienten "ni de acuerdo ni en desacuerdo" en todos los ítems
- Sub-exclusión — "no quiero perder datos" / "la muestra se reduce" → mantener todo. Resultado: el análisis lo arrastran las respuestas descuidadas
La respuesta correcta es decidir las reglas de detección por adelantado y aplicarlas mecánicamente. Mover los umbrales después de ver los datos es estructuralmente idéntico al p-hacking.
2. Cinco patrones de respuestas descuidadas
Para sistematizar la detección hace falta una taxonomía. Curran (2016) Methods for the Detection of Carelessly Invalid Responses in Survey Data y Huang et al. (2012) Detecting and Deterring Insufficient Effort Responding sirven de guía.
Patrón 1: Línea recta (straight-lining) — misma opción en toda la matriz
Elegir la misma opción en todas las filas de una pregunta matriz. El más fácil de detectar y el más prevalente. Se concentra en puntos medios neutrales ("ni de acuerdo ni en desacuerdo") o en positivos suaves.
Patrón 2: Respuesta acelerada (speeding) — completar muy rápido
Completar sin leer las preguntas. Frecuente en respondentes de panel motivados por incentivos. Bajo 3 segundos por pregunta es el umbral típico.
Patrón 3: Respuestas aleatorias o con patrón (random / patterned)
Recorrer las opciones como 1, 2, 3, 4, 1, 2, 3, 4 o totalmente al azar. Más difícil de cazar que la línea recta.
Patrón 4: Inconsistencia lógica (logical inconsistency)
Respuestas lógicamente incompatibles entre preguntas enlazadas. "Nunca usé el servicio" → "muy satisfecho con el servicio" dos preguntas después. Se detecta construyendo pares de preguntas de control en el diseño.
Patrón 5: Estilo extremo / aquiescencia (extreme / acquiescence response style)
Elegir siempre el valor máximo (extremo positivo) o decir siempre "de acuerdo" (aquiescencia). Es más un problema de estilo de respuesta que de descuido — a veces se aborda con corrección en el análisis en vez de exclusión.
| Patrón | Dificultad de detección | Incidencia típica |
|---|---|---|
| Línea recta | ★★★ (fácil) | 5–10% |
| Respuesta acelerada | ★★★ (fácil) | 3–8% |
| Aleatoria / con patrón | ★★ (media) | 1–3% |
| Inconsistencia lógica | ★★ (media, depende del diseño) | 2–5% |
| Extremo / aquiescencia | ★ (difícil, corregible) | 5–15% |
Los patrones se solapan en los mismos respondentes, así que la tasa final de exclusión suele caer alrededor del 5–15% como regla práctica del sector.
3. Tres capas de detección
La literatura converge en tres capas de métodos.
Capa 1: Basada en reglas (detección automática mínima)
Juicio mecánico por umbral. Bajo coste de implementación, detección estable.
- Tiempo total < N_preguntas × 3 seg → respondente acelerado
- Misma opción en todas las filas de una matriz → línea recta
- Conflicto con atributo obligatorio → inconsistencia
- Completion 100% + todos los textos en blanco → esfuerzo bajo
La Capa 1 es detectable en tiempo real durante el campo, con fuerte eficiencia operativa. Las herramientas de encuesta principales — Kicue incluida — traen la Capa 1 de serie.
Capa 2: Índices estadísticos (detección multivariante)
Juicio estadístico de descuido a partir de patrones de respuesta multi-pregunta. Atrapa el "descuido sutil" que la Capa 1 deja pasar.
- IRV (Intra-individual Response Variability, variabilidad intra-individual) — desviación estándar de las respuestas de una persona. Extremadamente baja (la misma opción todo el tiempo) o extremadamente alta (aleatorio) sospecha
- Distancia de Mahalanobis — distancia respecto a la media de la muestra en espacio multidimensional. Captura outliers de patrón
- Consistencia par-impar (odd-even consistency) — correlación entre ítems en posiciones impares y pares que miden el mismo constructo. Correlación baja sospecha
- Sinónimos / antónimos psicométricos (psychometric synonyms / antonyms) — consistencia entre pares de frases sinónimas o antónimas
Se calculan típicamente exportando los datos crudos a R / Python / SPSS. Curran (2016) introduce el paquete R careless específico para esto.
Capa 3: Basada en modelos (detección por aprendizaje automático)
Detección de respuestas generadas por bots y agentes IA mediante modelos ML sobre logs de operación y patrones de input. La detección de agentes IA de Kicue se sitúa en esta capa (ver nuestro artículo sobre detección de fraude por agentes IA).
| Capa | Dónde | Qué atrapa | Coste de cómputo |
|---|---|---|---|
| 1. Basada en reglas | Dentro de la herramienta | Acelerados / línea recta / inconsistencias explícitas | Bajo |
| 2. Índices estadísticos | R / Python (externo) | Aleatorios / descuido sutil | Medio |
| 3. Basada en modelos | Herramienta / servicio externo | Bots / agentes IA | Alto |
En la práctica: Capa 1 como base operativa + Capa 2 antes del análisis es lo realista.
4. Fijar umbrales de exclusión en la práctica
Los umbrales de detección se fijan teniendo en mente el trade-off sobre-exclusión / sub-exclusión, por adelantado.
Tres principios
Principio 1: Fija los umbrales por adelantado. No los muevas después. Ajustar umbrales tras empezar el análisis — porque la tasa de exclusión "se siente alta / baja" — sesga los resultados hacia el número que querías. Documenta el protocolo y bloquéalo.
Principio 2: Usa condiciones AND entre múltiples índices. Excluir por un solo índice incrementa los falsos positivos. Excluir solo respondentes marcados por dos o más índices (p. ej. "acelerado AND línea recta") suprime la mala clasificación.
Principio 3: Predice la tasa de exclusión por adelantado. Si el resultado se aleja mucho del 5–15% de referencia, lo más probable es que la lógica de detección o el diseño de la pregunta tengan un problema. Revisa el criterio de detección, no el umbral.
Umbrales típicos de referencia
| Indicador | Umbral típico | Fuente |
|---|---|---|
| Tiempo de finalización (acelerado) | < N_preguntas × 3 seg | Huang et al. (2012) |
| Línea recta (matriz) | Todas las filas la misma opción | Curran (2016) |
| IRV | < 0,5 (escala de 5 puntos asumida) | Dunn et al. (2018) |
| Consistencia par-impar | r < 0,30 | Johnson (2005) |
| Distancia de Mahalanobis | outliers con p < 0,001 | DeSimone et al. (2015) |
Son puntos de partida. Aún hay que evaluar la validez en el contexto de tu estudio — el umbral de respuesta extrema en particular varía culturalmente.
5. Cuándo usar cada índice multivariante
Los índices de la Capa 2 sirven para complementar lo que la Capa 1 no ve. Guía rápida.
IRV — encuentra "los inusualmente planos o variables"
La desviación estándar de las respuestas de una persona. Atrapa con un solo índice tanto a la línea recta (IRV ≈ 0) como al respondente totalmente aleatorio (IRV ≈ SD de distribución uniforme). Encaja bien en encuestas con muchas matrices.
Distancia de Mahalanobis — encuentra "outliers de patrón"
Distancia de un patrón de respuesta multidimensional respecto a la media de la muestra. Atrapa respondentes que parecen normales en preguntas individuales pero anómalos en combinación. Se estabiliza a partir de N=200.
Consistencia par-impar — explota el diseño
Coloca ítems que miden el mismo constructo en posiciones impares y pares y mira la correlación. Los respondedores descuidados muestran correlación baja (no notaron que el constructo se repite). Requiere preparación en diseño, pero alta precisión.
Sinónimos / antónimos psicométricos
Comprueba la consistencia de pares de frases sinónimas ("soy un líder" / "tomo la iniciativa en grupos"). También requiere preparación en diseño.
Notas sobre uso multivariante
- Bajo N=100, los índices son inestables — la detección multivariante es para escala de campo principal
- Mismo respondente marcado por múltiples índices — usa AND entre índices para suprimir falsos positivos
- El paquete R
carelesscalcula IRV / distancia de Mahalanobis / par-impar en una sola pasada
6. Visión editorial — cinco reglas que aplicamos siempre
De la literatura y la práctica, las cinco cosas que defenderíamos con fuerza.
1. Documenta los criterios de limpieza antes de salir a campo. "Decidir cuando empiece el análisis" es un no rotundo. Escribe umbrales, combinaciones AND, tasa de exclusión esperada antes del campo y alinea con stakeholders. Ajustar después sesga los resultados — estructuralmente idéntico al p-hacking.
2. Corre reglas + índices estadísticos en dos etapas. Solo reglas se le escapa el descuido sutil; solo estadísticos retrasa el análisis esperando a los acelerados obvios. Reglas como filtro primario durante el campo → índices estadísticos como filtro secundario tras la exportación es el patrón operativo estándar.
3. Si la tasa de exclusión cae fuera del 5–15%, sospecha del diseño. Por encima del 20% probablemente la encuesta es demasiado larga / difícil / aburrida. No aflojes los umbrales; revisa la estructura de las preguntas. La tasa de exclusión también es métrica de calidad de diseño.
4. Inserta una pregunta-trampa en el campo principal. "En esta pregunta marca la opción 3" — ítems explícitos de control de atención. Quien falla queda confirmado como inatento — detección potente. Especialmente útil en encuestas largas (no abuses — erosiona la confianza del respondente).
5. Guarda las respuestas excluidas con su razón de exclusión. No descartes del todo. Mantén las respuestas eliminadas en los datos crudos con un flag de exclusión para que el proceso de cribado sea auditable después. Misma filosofía que los reportes de screening en publicaciones académicas.
7. Operaciones de limpieza de datos en la herramienta de encuestas Kicue
Kicue trae la detección de la Capa 1 (basada en reglas) de serie.
Cuatro detectores automáticos
- Detección de respondente acelerado — flag automático para finalizaciones bajo N_preguntas × 3 seg
- Detección de línea recta — flag de matrices con todas las filas en la misma opción
- Detección de agentes IA — patrones característicos de respuestas de ChatGPT / Claude / Gemini
- Detección de bots / duplicados — navegadores headless, señales de IP / cookie / fingerprint
Las respuestas detectadas se marcan en tiempo real durante el campo y son visibles en la vista de monitoreo.
Flujo de gestión de flags
La vista de gestión de flags sigue cada flag en tres estados: pending (pendiente) → confirmed (confirmado) / dismissed (descartado). El toggle "excluir respuestas marcadas" en la vista de análisis, cuando está activo, excluye del cómputo solo las respuestas confirmadas. Las pendientes y descartadas quedan fuera de la exclusión — diseño que previene descartes accidentales.
Exportación de datos crudos para análisis multivariante
La exportación de datos crudos saca cada flag como columna del CSV. Carga en R / Python / SPSS para calcular índices estadísticos de Capa 2 como IRV y distancia de Mahalanobis. Lo que no encaja dentro de Kicue (detección descuidada avanzada) vive en el procesamiento externo posterior a la exportación.
Las comprobaciones de inconsistencia viven en el diseño
La autodetección de inconsistencia lógica no es función nativa. Las comprobaciones cruzadas entre atributos de cribado y respuestas del cuestionario principal se implementan como procesamiento posterior a la exportación. Decide qué pares vas a comprobar antes de salir a campo.
Elegir la herramienta correcta — Los límites del plan gratuito, soporte de ramificación, capacidades IA y exportación CSV varían mucho entre herramientas. Consulta nuestra comparativa de herramientas de encuestas gratuitas para encontrar la adecuada para este enfoque.
Resumen
Checklist de limpieza de datos:
- La incidencia de respuestas descuidadas es 8–12% — diseña asumiendo 40–60 casos contaminados por N=500.
- Cinco patrones — línea recta / acelerado / aleatorio / inconsistencia lógica / extremo·aquiescencia.
- Tres capas — basada en reglas (en herramienta) / índices estadísticos (externo) / basada en modelos (bot · IA).
- Documenta los umbrales antes del campo — no los muevas después. AND entre múltiples índices para suprimir falsos positivos.
- Cinco reglas editoriales — pre-documentar criterios / dos etapas reglas + estadísticos / sospechar del diseño si la exclusión supera 20% / una pregunta-trampa / guardar las excluidas.
- Kicue cubre detección de acelerado / línea recta / IA / bot; la Capa 2 en R / Python tras exportar.
La limpieza de datos no es "tirar datos". Es definir qué cuenta como datos analizables. Haz la exclusión transparente y predefine los criterios, y N=500 se vuelve un N=450 limpio — con credibilidad analítica sustancialmente mayor.
Referencias
Académicas y metodológicas
- Meade, A. W., & Craig, S. B. (2012). Identificación de respuestas descuidadas en datos de encuestas. Psychological Methods, 17(3), 437–455.
- Curran, P. G. (2016). Métodos para la detección de respuestas inválidas por descuido en datos de encuestas. Journal of Experimental Social Psychology, 66, 4–19.
- DeSimone, J. A., Harms, P. D., & DeSimone, A. J. (2015). Recomendaciones de buenas prácticas para el cribado de datos. Journal of Organizational Behavior, 36(2), 171–181.
- Huang, J. L., Curran, P. G., Keeney, J., Poposki, E. M., & DeShon, R. P. (2012). Detección y disuasión del esfuerzo insuficiente al responder encuestas. Journal of Business and Psychology, 27(1), 99–114.
- Maniaci, M. R., & Rogge, R. D. (2014). Cuidar el descuido — la inatención del participante y sus efectos en la investigación. Journal of Research in Personality, 48, 61–83.
Organismos de estándares y centros metodológicos
- AAPOR (American Association for Public Opinion Research): Standard Definitions.
- Pew Research Center: Our Survey Methodology in Detail.
Guías del sector (a título de observación)
¿Quieres operacionalizar la limpieza de datos de extremo a extremo? Prueba Kicue — una herramienta de encuestas online gratuita. Detección de acelerado / línea recta / IA / bot, gestión de flags, toggle de exclusión y exportación de datos crudos vienen de fábrica — la Capa 1 conecta limpiamente con tu pipeline de R / Python para la Capa 2.
