Muestreo probabilístico: muestreo estratificado

Vimos en un post anterior la definición, las ventajas y los inconvenientes del muestreo aleatorio simple. Hoy vamos a mostraros otra técnica un poco más sofisticada: el muestreo estratificado.

 

Esta técnica, perteneciente a la familia de muestreos probabilísticos, antes de iniciar el proceso de muestreo divide toda la población objeto de estudio en diferentes subpoblaciones o estratos disjuntos, de manera que un individuo sólo puede pertenecer a un estrato. Una vez definidos los estratos, la muestra se crea seleccionando por separado individuos de cada estrato, empleando una técnica de muestreo cualquiera. Si, por ejemplo, empleamos muestreo aleatorio simple en cada estrato, hablaremos de muestreo aleatorio estratificado. Este es el caso más habitual, pero del mismo modo podríamos usar otras técnicas de muestreo en cada estrato (muestreo sistemático, aleatorio con reposición, etc.).

Muestreo estratificado esquema

Los estratos suelen crearse a partir de grupos homogéneos de individuos, que a su vez son heterogéneos entre diferentes grupos. Por ejemplo, si en un estudio esperamos encontrar un comportamiento muy diferente entre hombres y mujeres, puede ser conveniente definir dos estratos, uno por cada sexo. Si la selección de estos estratos es correcta:

 

  1. Los hombres deberían comportarse de forma parecida entre ellos.

     

  2. Las mujeres deberían comportarse de forma muy similar entre ellas.

     

  3. Hombres y mujeres deberían mostrar comportamientos dispares entre sí.

 

Si la anterior condición se cumple (estratos homogéneos internamente, heterogéneos entre sí) el uso del muestreo aleatorio estratificado reduce el error muestral respecto a un muestreo aleatorio convencional, mejorando la precisión de nuestros resultados.

 

Es relativamente habitual definir estratos de acuerdo a algunas variables sociodemográficas de la población como son edad, sexo, clase social o región geográfica. Estas variables permiten dividir fácilmente la muestra en grupos mutuamente excluyentes y, con bastante frecuencia, permiten discriminar comportamientos diferentes dentro de la población.

 

 

Tipos de muestreo estratificado

Dependiendo del tamaño que asignamos a los estratos, hablaremos de diferentes tipos de muestreo estratificado. También se acostumbra a hablar de diferentes formas de "afijación" de la muestra en estratos.

 

1. Muestreo estratificado proporcionado

Cuando dividimos una población en estratos, es habitual que el tamaño de dichos estratos sea diferente. Por ejemplo, si queremos estudiar el tanto por ciento de la población que fuma en México y pensamos que la edad puede ser un buen criterio para estratificar (es decir, pensamos que existen diferencias importantes en el hábito de fumar dependiendo de la edad), podemos definir 3 estratos: menores de 20 años, de 20 a 44 años y mayores de 44 años. Es de esperar que al dividir toda la población mexicana en estos 3 estratos no resulten grupos de igual tamaño. Efectivamente, si miramos datos oficiales, obtenemos:

 

  • Estrato 1 - Población Mexicana menor de 19 años: 42,4 millones (41,0%)
  • Estrato 2 - Población Mexicana de 20 a 44 años: 37,6 millones (36,3%)
  • Estrato 3 - Población Mexicana mayor de 44 años: 23,5 millones (22,7%)

 

Si usamos muestreo estratificado proporcionado, la muestra deberá tener estratos que guarden las mismas proporciones observadas en la población. Si en este ejemplo queremos crear una muestra de 1.000 individuos, los estratos tendrán que tener un tamaño como sigue:

 

 

 
Estrato Población

Proporción

Muestra proporcional
1 42,4M 41,0% 410
2 37,6M 36,3% 363
3 23,5M 22,7% 227

 

2. Muestreo estratificado uniforme 

Hablaremos de una afijación uniforme cuando asignamos el mismo tamaño de muestra a todos los estratos definidos, sin importar el peso que tienen esos estratos en la población. Siguiendo con el ejemplo anterior, un muestreo estratificado uniforme definiría la siguiente muestra por estrato:

 

 

 
Estrato Población

Proporción

Muestra uniforme
1 42,4M 41,0% 334
2 37,6M 36,3% 333
3 23,5M 22,7% 333


Como puedes ver, el tamaño de la muestra es igual en todos los estratos (salvo pequeñas diferencias debidas al redondeo necesario fruto de dividir 1,000 entre 3), en lugar de seguir las proporciones de la población.

 

Esta técnica favorece los estratos que tienen menos peso en la población, equiparándolos en importancia a los estratos más relevantes. Globalmente, reduce la eficiencia de nuestra muestra (menor precisión en los resultados globales), pero, como contrapartida, permite estudiar características particulares de todos los estratos con una precisión mínima mayor. En nuestro ejemplo, si queremos emitir alguna afirmación específica sobre la población del estrato 3 (mayores de 44 años), podremos hacerlo con menos error muestral si empleamos una muestra de 333 unidades que si lo hacemos con una muestra de 227 (como ocurriría en el muestreo estratificado proporcional).

 

 

3. Muestreo estratificado óptimo (respecto a la desviación estándar)

En este caso, el tamaño de los estratos en la muestra no guarda proporcionalidad con la población. Por el contrario, se trata de optimizar el tamaño muestral de cada estrato con el fin de reducir el margen de error global, teniendo en cuenta no solo el tamaño de cada estrato en la población sino su desviación estándar.

 

Esta optimización lo que hace, básicamente, es dedicar más unidades de muestra de las que corresponderían en un muestreo proporcional a aquellos estratos que tienen más variabilidad y que por lo tanto son más difíciles de estimar.

 

La forma exacta en que se calcula el tamaño óptimo de muestra por estrato es un tema un poco más técnico, pero tienes una explicación detallada en este post, por si eres de los que les gusta la estadística.

 

 

Eficiencia de los diferentes muestreos estratificados

Las preguntas inevitables son: ¿cuándo conviene emplear la estratificación?, ¿qué tipo de estratificación es más conveniente?

 

El muestreo estratificado proporcional produce siempre menor o igual error muestral que el muestreo aleatorio simple, es decir, es más preciso. La igualdad se produce cuando las medias o las proporciones que estamos analizando son iguales en todos los estratos. Por lo tanto, la estratificación produce más beneficio cuanto más diferentes sean los estratos entre sí.

 

El muestreo estratificado óptimo es siempre igual o más preciso que el muestreo estratificado proporcional. Ambos métodos son igual de precisos cuando las desviaciones típicas dentro de cada estrato son iguales, en cuyo caso ambos métodos son totalmente equivalentes. Por lo tanto, la estratificación óptima produce más beneficio cuanto más diferencias existan entre las desviaciones dentro de cada grupo, situación en la que podremos reducir el tamaño muestral de los grupos más homogéneos en beneficio de los más heterogéneos. Como contrapartida, es un método más complejo y que requiere tener mucha información a priori de la muestra que estudiamos, algo que normalmente no tenemos (rara vez conocemos las desviaciones típicas de los universos que vamos a investigar).

 

 

Tamaños de muestra requeridos por cada técnica

Las técnicas de muestreo estratificado pueden emplearse para estimar de forma más precisa parámetros de las poblaciones de interés, ya sean medias (p.e. media de cigarrillos consumidos por los fumadores de México) o proporciones (p.e. proporción de la población de México que fuma). Pero, inversamente, también pueden permitirnos reducir el tamaño de muestra requerido para lograr una estimación con un nivel de error determinado.

 

La siguiente tabla resume el tamaño de muestra requerido al emplear cada técnica, en función del error máximo que estamos dispuestos a aceptar (e) y de las características del propio universo. En estas fórmulas consideramos que el universo es de tamaño infinito. Si fuese finito, debe aplicarse un factor de corrección.

taulaPara interpretar el cuadro anterior es necesario tener en cuenta lo siguiente:

 

  • Z es el valor crítico de corte de una distribución normal para lograr un nivel de confianza deseado. Tienes más información sobre el significado de Z aquí. Los valores más frecuentes son:
  • Nivel de confianza 90% -> Z=1,645
  • Nivel de confianza 95% -> Z=1,96
  • Nivel de confianza 99% -> Z=2,575
  • L es el número de estratos en que particionamos la muestra y h es un índice que se refiere a un estrato concreto. Por lo tanto, h puede variar entre 1 y L estratos.
  • p es la proporción que buscamos en el total de la población (p.e. % de fumadores). Por lo tanto, (1-p) es la proporción  complementaria, la que no cumple el criterio buscado (% de no fumadores). Del mismo modo, ph es dicha proporción dentro de cada uno de los estratos.
  • σ2 es la varianza del dato buscado (en el caso de estimar medias) en el total de la población. Asimismo, σh2 es la varianza dentro de cada estrato.
  • e es el margen de error aceptado.
  • Wh es el peso que el estrato tiene en la muestra (tamaño del estrato respecto al total de la muestra). Si hablamos de estratificación proporcional, cada Wh es igual a la proporción que ese estrato representa en la población. Si hablamos de estratificación óptima, cada Wh se calcula en función de la dispersión dentro de cada estrato.

Es posible demostrar a partir de las fórmulas anteriores que los diferentes métodos de estratificación sólo reducen el tamaño de la muestra necesaria si los valores de pσ varían entre estratos. De lo contrario, todas las expresiones son equivalentes. Veamos un ejemplo: si tomamos la expresión de tamaño de muestra requerido para estimar una media mediante un muestreo estratificado óptimo, tenemos 

 

n = Z2
( L h=1 wh σh )2 e2

 

Si consideramos que todas las varianzas de los estratos son iguales (σh=σ) y que el tamaño de los estratos es idéntico (Wh=1/L), el resultado que obtenemos es

 

n = Z2
( L h=1 wh σh )2 e2
= Z2
( L h=1 (1/L)σ )2 e2
= Z2
((L/L)σ)2 e2
= Z2
σ2 e2

 

que coincide con el tamaño de muestra necesario para tener un error máximo e en un muestreo aleatorio simple.

 

 

Conclusiones

El muestreo estratificado es una técnica que nos permite reducir el error en nuestras estimaciones siempre y cuando tengamos cierta información a priori sobre la existencia de grupos homogéneos en la población. Esperamos que este post te haya ayudado a aclarar la utilidad de este método. En próximos posts abordaremos el muestreo sistemático.

Free ebook - The essentials online data collection

 

ÍNDICE: Serie Muestreo

 

  1. El muestreo: qué es y por qué funciona

  2. Muestreo probabilístico o no probabilístico

  3. Muestreo probabilístico: muestreo aleatorio simple

  4. Muestreo probabilístico: muestreo estratificado

  5. Muestreo probabilístico: muestreo sistemático

  6. Muestreo probabilístico: muestreo por conglomerados

  7. Muestreo no probabilístico: muestreo por conveniencia

  8. Muestreo no probabilístico: muestreo por cuotas

  9. Muestreo no probabilístico: muestreo por bola de nieve

 

 

¡Suscríbete a nuestro boletín de noticias para recibir actualizaciones exclusivas y las últimas noticias!