Muestreo probabilístico: muestreo aleatorio simple

Siguiendo con nuestra serie de posts dedicados al muestreo, hoy os explicamos la primera de las técnicas de muestreo probabilístico: el muestreo aleatorio simple. Esta técnica es una de las más populares y sirve de referencia a todas las demás, aunque en la práctica difícilmente puede utilizarse.

 

Muestreo aleatorio simple: Definición

El muestreo aleatorio simple es una técnica de muestreo en la que todos los elementos que forman el universo - y que por lo tanto están incluídos en el marco muestral - tienen idéntica probabilidad de ser seleccionados para la muestra. El proceso de muestreo que emplea esta técnica es equivalente a hacer un sorteo entre los individuos del universo: asignamos a cada persona un boleto, introducimos los boletos en una urna y empezamos a extraer boletos al azar. Todos los individuos que tengan un boleto extraído de la urna formarían la muestra. Obviamente, en la práctica, estos métodos pueden automatizarse mediante el uso de programas informáticos.05-3

Dependiendo de si los individuos del universo pueden ser seleccionados más de una vez en la muestra o no, hablaremos de muestreo aleatorio simple con reposición o sin reposición.


Si usamos reposición, el hecho de que seleccione un individuo al azar para la muestra no impide que este mismo individuo pueda volver a ser seleccionado. Siguiendo con el símil de la urna y los boletos, usar reposición equivale a reintroducir los boletos de los individuos seleccionados para la muestra antes de extraer el siguiente boleto.

Si, por el contrario, no usamos reposición, un individuo seleccionado para la muestra ya no entraría nuevamente en el sorteo. Un individuo solo puede aparecer una única vez en una muestra.

 

La pregunta obvia que puedes plantearte es, ¿qué es mejor, usar reposición o no usala? Responderemos esta pregunta un poco más abajo, pero antes, revisemos qué precisión logra el muestreo aleatorio simple con reposición para un tamaño de muestra dado y, alternativamente, qué tamaño de muestra necesito para garantizar cierta precisión.

 

 

Error y tamaño de muestra en muestreo aleatorio simple con reposición

Supón el siguiente caso. Tienes una población grande de N individuos (supongamos que de más de 100,000 individuos). Pones un boleto para cada individuo en una urna. Extraes un boleto, anotas la identidad del individuo y reintroduces el boleto en la urna. Repites el proceso n veces, hasta obtener una muestra de tamaño n en la que un individuo podría aparecer varias veces. Esto es poco probable si N es muy grande y n es mucho menor que N, algo habitual ya que usamos muestras para no tener que analizar todo el universo.

 

Una muestra seleccionada de esta forma tiene una propiedad muy útil: la media de cualquier variable que midamos en la muestra se parecerá a la media calculada en el total de la población. Y se parecerá de una forma muy concreta: la media en la muestra seguirá una distribución normal centrada en la media poblacional y con varianza igual a la varianza poblacional dividida por el tamaño de la muestra n. Esta relación entre muestra y población se conoce como teorema central del límite.

 

Tienes una explicación detallada en este otro post, pero te lo resumimos aquí: gracias a esta propiedad (es decir, a que sabemos cómo se relaciona la media de la muestra con la de la población) podemos calcular la probabilidad de que la media de la muestra esté dentro de un intervalo de valores. Y esto nos permite saber qué error máximo vamos a tener cuando usamos la media de la muestra como estimación de la media de la población. En concreto, se cumple que

e ZNC
σ n

donde:

 

- e es el error máximo que vamos a tener (máxima diferencia entre la media de la muestra y la media de la población).

- ZNC es el valor crítico de corte de una distribución de probabilidad normal para un nivel de confianza NC.

- σ es la desviación típica (=raiz de la varianza) de la variable que nos interesa en la población.

- n es el tamaño de muestra.

 

Si invertimos esta expresión, podemos calcular qué tamaño de muestra n necesito para garantizar que el error de estimación no supera el margen de error e con un nivel de confianza NC.

 

n ZNC2
σ2 e2

 

¿Y si no reponemos?

Sabemos calcular el error y el tamaño de muestra para el muestreo con reposición, pero, ¿cómo cambian ambos resultados si no repetimos individuos en la muestra?

Si podemos considerar que el universo es infinito o, al menos, mucho más grande que el tamaño de la muestra, no cambia absolutamente nada. Piénsalo bien: si el universo es muy grande, aunque usemos reposición, la probabilidad de que escojamos dos veces al azar al mismo individuo es casi nula. Por lo tanto, usar reposición o no usarla no da resultados diferentes.

 

Las diferencias entre ambos métodos se producen por lo tanto en situaciones en los que el tamaño de la población es pequeño. En este caso, el muestreo sin reposición toma ventaja. Intuitivamente es obvio: si el tamaño de la población es muy pequeño (digamos 30 individuos) repetir individuos en una muestra es malgastar una oportunidad de cubrir más información. En otras palabras, es ineficiente.

 

Veamos de manera más formal este resultado. Es posible demostrar que en un muestreo sin reposición, cuando el universo no se puede considerar infinito (<100,000 individuos), el tamaño de muestra necesario para un determinado margen de error es inferior al que necesitarías si el universo es infinito. En concreto, el tamaño de muestra para un universo finito se relaciona con el tamaño de muestra para universo infinito de la siguiente manera

 

n =
ninfN ninf + (N-1)

 

donde ninf es el tamaño de muestra necesario para un universo infinito y N es el tamaño del universo finito.

Sabiendo que el tamaño de muestra cuando usamos reemplazo (nr) es siempre igual al tamaño necesario para universo infinito (nr=ninf), podemos concluir que

 

n =
ninfN ninf + (N-1)
=
nrN nr + (N-1)
=
nr nr/N+ (N-1)/N
< nr

 

Por lo tanto, el tamaño de muestra necesario para acotar un mismo nivel de error es siempre más pequeño no reponemos individuos en la muestra. Y, en definitiva, tanto si lo miramos desde el punto de vista de qué técnica genera estimaciones más precisas como desde el punto de vista de qué técnica permite tener la misma precisión con menor tamaño de muestra, se puede concluir que el muestreo aleatorio simple sin reposición siempre es más eficiente.

 

Beneficios del muestreo aleatorio simple

El desarrollo de la informática ha permitido que diseñar una muestra aleatoria simple sea extremadamente rápido y fiable, siempre que tengamos el marco muestral necesario para ello, claro. La generación de números aleatorios mediante software (estrictamente son números pseudo-aleatorios) es cada vez más fiable.

 

De esta forma, al usar muestreo aleatorio simple nos aseguramos la obtención de muestras representativas, de manera que la única fuente de error que va a afectar a mis resultados va a ser el azar. Y lo que es más importante, este error debido al azar puede calcularse de forma precisa (o al menos acotarse). 

 

 

Inconvenientes del muestreo aleatorio simple

El único inconveniente es la dificultad de llevarlo a la práctica en investigaciones reales.

 

Recordemos: al ser una técnica probabilística, es necesario un marco muestral con todos los individuos y que todos ellos sean seleccionables para la muestra. Un requisito que difícilmente puede cumplirse en la mayoría de estudios de mercado y opinión reales, lo que nos obligará a emplear otras técnicas.

 

En el próximo post veremos otra técnica de muestreo probabilístico muy popular: el muestreo estratificado. ¡Os esperamos!

 

ÍNDICE: Serie Muestreo

 

  1. El muestreo: qué es y por qué funciona

  2. Muestreo probabilístico o no probabilístico

  3. Muestreo probabilístico: muestreo aleatorio simple

  4. Muestreo probabilístico: muestreo estratificado

  5. Muestreo probabilístico: muestreo sistemático

  6. Muestreo probabilístico: muestreo por conglomerados

  7. Muestreo no probabilístico: muestreo por conveniencia

  8. Muestreo no probabilístico: muestreo por cuotas

  9. Muestreo no probabilístico: muestreo por bola de nieve

 

Free ebook - The essentials online data collection

¡Suscríbete a nuestro boletín de noticias para recibir actualizaciones exclusivas y las últimas noticias!