Guía de métodos de muestreo en encuestas — aleatorio, estratificado, conglomerado

"¡Qué buenos resultados! Con esto ya podemos presentar el informe a dirección" —si en una sala de reuniones te han dicho eso y por dentro has pensado "espera, pero esto solo lo enviamos a los suscriptores del newsletter, así que la satisfacción puede salir alta...", cualquier responsable de investigación ha pasado por ese momento. Aunque reúnas 1.000 respuestas, si te equivocas al elegir a quién encuestas, solo estás midiendo "el humor de un segmento concreto" y las decisiones del comité ejecutivo se desvían hacia algún sitio raro —los errores de implementación en el muestreo son más fastidiosos que los errores de cálculo de puntuaciones, y después no hay forma de recuperarlos.

En este artículo organizamos lo que va antes del "cálculo del tamaño de muestra": "a quién elegir y cómo", dividido en los 4 métodos probabilísticos (aleatorio, sistemático, estratificado, por conglomerados) y los 4 no probabilísticos (por conveniencia, por cuotas, bola de nieve, voluntario). En lugar de la clasificación de libro de texto, ponemos el peso en "qué se puede ceder y qué no se puede ceder en el día a día".

1. Por qué hay casos en los que "a quién eliges" pesa más que "a cuántos preguntas"

El cálculo del tamaño de muestra es una matemática que se sostiene bajo el supuesto de que la selección es probabilística. Solo cuando cada individuo de la población es seleccionado con la misma probabilidad (o con una probabilidad conocida) tienen sentido los intervalos de confianza o las pruebas de significancia.

Pero en las encuestas online actuales, ese supuesto no se cumple en la mayoría de los casos.

Distribución a los visitantes de la propia web con un banner → sesgo de visitante del sitio
Distribución a los suscriptores del newsletter → sesgo de cliente existente
Difusión de la URL en redes sociales → sesgo de usuarios de redes sociales
Encargo a una empresa de paneles → sesgo de panelistas registrados

Todos estos son variantes del "muestreo por conveniencia (Convenience Sampling)", y aunque reúnas 1.000 respuestas, en muchos casos no cumplen el supuesto de la estadística inferencial. Es habitual ver informes que dicen "muestra 1.000, error ±3%" cuando en realidad están expresando "error ±3% de un segmento concreto".

Los detalles los tratamos en Cómo calcular el tamaño muestral de una encuesta y Cómo determinar el tamaño de la muestra bajo el ángulo de "a cuántos preguntar", pero este artículo sistematiza la fase anterior: "de entrada, cómo se eligen".

2. Probabilístico vs no probabilístico — la línea donde puedes escribir "intervalo de confianza ±3%"

Los métodos de muestreo se dividen en dos grandes familias.

Muestreo probabilístico (Probability Sampling): diseño en el que cada individuo de la población se selecciona con probabilidad conocida. Cumple los supuestos de la estadística inferencial, como intervalos de confianza o pruebas de significancia.
Muestreo no probabilístico (Non-probability Sampling): diseño en el que la probabilidad de selección de cada individuo es desconocida. No se pueden escribir, en sentido estricto, cifras del tipo "intervalo de confianza ±3%".

Donde más se nota esta distinción en la práctica es en la decisión de "escribir o no escribir el intervalo de confianza en el informe". Difundir una URL por redes sociales, reunir 1.000 respuestas y escribir "muestra N=1.000, intervalo de confianza ±3,1%" es, estrictamente hablando, incorrecto. Porque no se sabe qué individuo fue seleccionado con qué probabilidad. Si quieres escribirlo, anota "investigación exploratoria" o "valor de referencia mediante muestreo por conveniencia" —ese pequeño esfuerzo es donde el research demuestra su oficio.

3. Los 4 métodos del muestreo probabilístico

Dentro del muestreo probabilístico hay típicamente 4 variantes. Organizamos la clasificación estándar de la literatura académica.

Los 4 métodos del muestreo probabilístico

① Muestreo aleatorio simple (Simple Random Sampling, SRS)

Seleccionar N personas completamente al azar de la población. Es la forma básica de libro de texto y la que aplica la estadística inferencial de la manera más simple. Eficaz cuando se dispone de una lista completa de la población (marco muestral).

② Muestreo sistemático (Systematic Sampling)

Seleccionar desde el inicio de la lista a intervalos iguales (cada K personas). Es fácil de implementar y tiene una precisión cercana al SRS. Sin embargo, si la lista tiene periodicidad (por ejemplo, ordenada por fecha de nómina o alternando sexos), en cuanto el periodo coincide con el intervalo de selección aparece el sesgo.

③ Muestreo estratificado (Stratified Sampling)

Dividir la población en estratos (por ejemplo, edad, sexo, región) y extraer proporcionalmente de cada estrato. Tiene mayor precisión que el SRS y permite análisis por estrato. En estudios donde se planifica el análisis por subgrupos, es el estándar de facto.

④ Muestreo por conglomerados (Cluster Sampling) / multietápico

Dividir la población en conglomerados (centros escolares, regiones, organizaciones), seleccionar primero los conglomerados y después a los sujetos dentro de ellos, en un diseño de 2 o más etapas. Es la técnica para reducir costes en investigaciones geográficamente dispersas. Se usa habitualmente en encuestas escolares y en el censo nacional.

Comparación de precisión

Académicamente, el error estándar disminuye en el orden estratificado ≥ SRS = sistemático ≥ por conglomerados. El muestreo por conglomerados es el de máxima eficiencia en costes, pero la homogeneidad dentro de los conglomerados produce el "efecto de diseño (Design Effect)" que reduce la precisión.

Guía práctica de selección:

Hay lista poblacional y se necesita análisis por subgrupos → muestreo estratificado (estándar de facto)
Hay lista poblacional y se quiere avanzar de forma simple → SRS o muestreo sistemático
Geográficamente disperso y con altos costes de visita / sincronización → muestreo por conglomerados

4. Los 4 métodos no probabilísticos — donde está la mayoría de las encuestas web

La mayoría de las encuestas online son, en realidad, no probabilísticas. Si ves un informe que dice "lo hacemos con SRS", casi seguro que por detrás está corriendo un muestreo por cuotas. La razón es simple: no se tiene el censo exacto de toda la población.

Muestreo por conveniencia (Convenience Sampling): reunir a personas fáciles de alcanzar (monitores internos, seguidores en redes sociales, transeúntes). Coste mínimo, representatividad poblacional mínima.
Muestreo por cuotas (Quota Sampling): fijar objetivos del tipo "sexo 5:5, 4 tramos de edad equilibrados" y reunir hasta llenar esas casillas. Estándar de facto en investigación de mercados. Incluso los estudios de panel que dicen "lo hicimos con SRS", como el propio registro es voluntario, en la práctica son muestreo por cuotas.
Bola de nieve (Snowball Sampling): que cada respondente recomiende al siguiente. Se usa en investigaciones sobre poblaciones difíciles de alcanzar (pacientes con enfermedades específicas, profesionales especializados, comunidades concretas).
Respuesta voluntaria (Self-selection / Volunteer): se publica una URL abierta y solo responde quien quiere. Las votaciones web y consultas de opinión tienen este formato. Es el de mayor sesgo.

El clásico que sistematizó los sesgos de las encuestas web es Bethlehem (2010). Selection Bias in Web Surveys, y los 4 tipos —cobertura, no respuesta, selección, medición— siguen siendo referencia hoy en día.

"Modales mínimos" cuando usas muestreo no probabilístico

Cuando saques los resultados de un muestreo no probabilístico dentro o fuera de la empresa, anota siempre el canal de distribución, la tasa de respuesta y los límites de generalización —esta es la base de la credibilidad del oficio de research. En concreto:

Indicar el denominador del tipo "5.000 envíos al newsletter → 487 respuestas, tasa de respuesta 9,7%"
Indicar el alcance de aplicación: "los resultados reflejan tendencias de nuestros clientes actuales y no del mercado en general"
Si hay dudas sobre la representatividad por segmento, esa tabla se saca del cuerpo y se manda al anexo

Si te saltas esto, cuando después alguien te diga "en nuestros datos sale un resultado distinto" no podrás explicarte.

5. La realidad "un poco incómoda de decir" sobre los paneles online

En el día a día, tanto dentro como fuera del país, lo más usado son los paneles online (monitores registrados que mantienen las empresas de investigación). A primera vista parece que se puede decir "se envió de forma aleatoria a 1.000 personas", pero si miras la estructura hay dos etapas de autoselección corriendo por debajo.

Decidir si registrarse en el panel es una autoselección (sesgo hacia segmentos que buscan los puntos de recompensa)
Decidir si responder cuando llega la invitación a la encuesta es una autoselección (sesgo hacia segmentos con tiempo libre)

Como es un "envío aleatorio" tras estas 2 etapas, estrictamente no es muestreo probabilístico. Aun así se sigue usando en la práctica porque en coste y velocidad no hay alternativa realista —esta es la verdad.

Los "3 puntos de transparencia" que mirar al seleccionar panel

Cuando eliges una entre varias empresas de paneles, los indicadores a mirar no son los del tamaño nominal.

Tasa de activos: tiene más sentido "número de monitores activos que han respondido al menos 1 vez en los últimos 3 meses" que "1 millón de registrados".
Tasa de registro duplicado: el porcentaje de personas registradas en varios paneles a la vez. Los monitores profesionales extremos distorsionan los resultados.
Frecuencia media de respuesta: los "monitores profesionales" que responden más de 10 estudios al mes tienen patrones de respuesta peculiares por su soltura con los cuestionarios.

Las empresas que tratan estos datos como "secreto comercial" y no los muestran pueden tener la realidad de su control de calidad poco transparente.

Elección realista según el uso

Investigación B2C de consumidor general: panel grande (Macromill / Cross Marketing / Intage, etc.) con cuotas + estratificación
Investigación B2B de profesionales: panel especializado del sector, o reclutamiento directo con targeting en LinkedIn
Públicos especiales (médico, educación, enfermedades específicas): combinación de panel especializado + bola de nieve, asumiendo desde el principio los límites del muestreo no probabilístico porque la población es pequeña

6. Respuesta a "si subimos un poco más la muestra, ¿saldría significativo?"

En el día a día se repite la pregunta "como N es pequeño, si subimos un poco más la muestra ¿saldrá significancia, no?". Tiene razón a medias, y la otra mitad es una trampa. La trampa son los errores no muestrales.

Error de muestreo (Sampling Error): error aleatorio por haber extraído una muestra de la población. Disminuye en proporción inversa a la raíz cuadrada del tamaño muestral → se reduce al aumentar la muestra.
Error no muestral (Non-sampling Error): deficiencias en el diseño del cuestionario, sesgo de no respuesta, sesgos de estilo de respuesta, errores de entrada. No se reduce aumentando la muestra.

El marco que integra error muestral y no muestral es el "Total Survey Error", y Groves et al. (2009) Survey Methodology es la obra estándar de referencia.

Decisión en campo: si con N=300 "no sale significativo", lo primero que hay que sospechar no es que "N es pequeño", sino una de estas tres: "hay un problema en la redacción de la pregunta", "la selección de los participantes está sesgada", "la no respuesta se concentra en una dirección". Plantear ampliar la muestra es algo que se hace después de cerrar esas tres. Ampliar la muestra implica coste adicional, pero corregir la redacción de las preguntas es gratis y, muchas veces, su efecto es mayor que aumentar la muestra.

Los detalles los tratamos en Guía completa de limpieza de datos de encuestas, que cubre la detección del sesgo de no respuesta y de las respuestas descuidadas.

7. La mirada editorial — "lo que no se debe hacer", en concreto

Basándonos en casos del sector y experiencia de proyectos, decimos en tono firme 5 puntos que en el día a día se notan siempre.

1. No escribas "intervalo de confianza ±3%" en una captación desde tu propia web

Informes que reúnen 1.000 respuestas desde un banner en su web y escriben "error muestral ±3,1%" —se ven a menudo, pero esto, estrictamente, es inexacto. En el momento en el que hay sesgo de visitante del sitio ya no es muestreo probabilístico, así que el intervalo de confianza es un número teórico que no se aplica a la población. Si lo escribes, lo honesto es anotar "valor de referencia basado en visitantes del sitio".

2. No cortes en 7 tramos de edad × 2 sexos = 14 celdas

Hay quien al intentar muestreo estratificado se lanza directamente a "edad 7 tramos × sexo 2 = 14 celdas", pero si cada celda baja de N=20, la prueba de chi-cuadrado no funciona (aparecen celdas con frecuencia esperada menor que 5). La estratificación, en conducción segura del día a día, empieza por 3 a 5 estratos y si hace falta se subdivide.

3. Al elegir empresa de paneles, antes que "número nominal de registrados", la "tasa de activos"

"30 mil activos que han respondido al menos 1 vez en los últimos 3 meses" pesa más directamente en la calidad del estudio que "1 millón de panelistas". Sin tragarte las cifras de portada del material comercial, la regla de oro es preguntar tasa de activos, tasa de registro duplicado y distribución de la frecuencia de respuesta.

4. Incluso en muestreo no probabilístico, se puede rescatar algo con "ponderación posterior"

Ponderar los resultados de un muestreo por conveniencia ajustándolos a la distribución poblacional por sexo, edad, región, etc. (Post-stratification) sube la precisión inferencial respecto a los datos crudos. No llega al muestreo probabilístico completo, pero es "muchísimo mejor que no hacerlo". Se implementa en decenas de minutos con el paquete survey de R o la función de ponderación de SPSS.

5. Indica al inicio del informe "método de selección de participantes, canal de distribución, tasa de respuesta"

Un informe en el que solo está escrito "N=500" no le da al lector material para juzgar. Con escribir en las 3 primeras líneas "Sujetos: ◯◯ / Distribución: △△ / Tasa de respuesta: ◯◯%", los accidentes del tipo "no me di cuenta del sesgo de los datos" se reducen drásticamente. Esto no va de diseño, va de documentación operativa.

8. Operación del muestreo con la herramienta de encuestas Kicue

Funciones y patrones operativos al ejecutar el diseño de muestreo de esta guía con Kicue:

Emisión de URL de distribución: distribución por URL única, o emisión de múltiples URLs para medir el efecto por origen de distribución (envío del newsletter / redes sociales / monitores internos por URLs distintas y comparación por canal al exportar CSV).
Preguntas de filtrado (screening): diseño que excluye al inicio a los respondentes fuera de objetivo y solo deja pasar a los elegibles a la encuesta principal (utilizable como alternativa o complemento al muestreo estratificado).
Límite de respuestas: operar objetivos por cuota por sexo y edad combinándolo con las preguntas de filtrado (implementación del muestreo por cuotas).
Exportación CSV: obtener los datos integrando información del origen de distribución, respuestas de filtrado y respuestas de la encuesta principal, permitiendo análisis posterior por estrato en herramientas externas.

Rango que Kicue no cubre

⚠️ Kicue en sí mismo no dispone de funciones de muestreo probabilístico, gestión de paneles ni ponderación posterior. Lo que no se puede resolver únicamente con las funciones de Kicue y requiere operación externa, en concreto:

Obtención de muestra desde empresas de paneles: contratar con grandes empresas de paneles (Macromill / Intage / Cint, etc.), obtener la muestra y distribuir con Kicue.
Automatización del muestreo estratificado: muestreo estratificado desde la lista poblacional → la distribución por URL individual es proceso externo (procesar la lista por estratos con R / Python y luego crear la lista de distribución de correo en Kicue).
Ponderación posterior (Post-stratification): tras exportar el CSV, se realiza con el paquete survey de R o la función de ponderación de SPSS.
Cálculo del error de muestreo y del efecto de diseño: se realiza en las herramientas de análisis estadístico.

Como artículos relacionados, leer en conjunto Cómo calcular el tamaño muestral de una encuesta, Cómo determinar el tamaño de la muestra, Diseño y operación de preguntas de filtrado y Tabulación de encuestas y pruebas de significancia deja ver el punto de conexión entre el diseño de muestreo, el diseño cuantitativo y el diseño de filtrado.

Referencias

Kish, L. (1965). Survey Sampling. Wiley.
Cochran, W. G. (1977). Sampling Techniques (3rd ed.). Wiley.
Lohr, S. L. (2010). Sampling: Design and Analysis (2nd ed.). Brooks/Cole Cengage Learning.
Bethlehem, J. (2010). Selection Bias in Web Surveys. International Statistical Review, 78(2), 161-188.
Couper, M. P. (2000). Web Surveys: A Review of Issues and Approaches. Public Opinion Quarterly, 64(4), 464-494.
Groves, R. M., Fowler, F. J., Couper, M. P., Lepkowski, J. M., Singer, E., & Tourangeau, R. (2009). Survey Methodology (2nd ed.). Wiley.
Baker, R., Brick, J. M., Bates, N. A., Battaglia, M., Couper, M. P., Dever, J. A., Gile, K. J., & Tourangeau, R. (2013). Summary Report of the AAPOR Task Force on Non-probability Sampling. Journal of Survey Statistics and Methodology, 1(2), 90-143.

Si deseas operar encuestas con un diseño de muestreo adecuado, prueba la herramienta gratuita de encuestas Kicue. Distribución multi-URL para comparación por canal, preguntas de filtrado y límites de respuesta para implementación del método de cuotas, y exportación CSV que incluye información del canal — puedes ejecutar el núcleo de las operaciones de muestreo en una sola cuenta (el sourcing de paneles, el muestreo estratificado automatizado, el ponderado post-estratificación y el cálculo del efecto de diseño requieren contratos con empresas de paneles y herramientas estadísticas externas como R / SPSS / Python).