Muestreo probabilístico: muestreo por conglomerados

Con este post dedicado al muestreo por conglomerados cerramos el primer gran bloque de posts dedicados al muestreo probabilístico. A partir de la próxima publicación abordaremos técnicas de muestreo no probabilístico, las más habituales cuando hablamos de investigación online.

El muestreo por conglomerados es una técnica que aprovecha la existencia de grupos o conglomerados en la población que representan correctamente el total de la población en relación a la característica que queremos medir. Dicho de otro modo, estos grupos contienen toda la variabilidad de la población. Si esto sucede, podemos seleccionar únicamente algunos de estos conglomerados para conocer la información de interés del total de la población.

Podemos ver esta técnica desde otro punto de vista. Mientras que en todas las técnicas vistas hasta ahora las unidades de muestreo coinciden con las unidades a estudiar (individuos), en el muestreo por conglomerados las unidades de muestreo son grupos de unidades a estudiar (grupos de individuos), algo que puede resultar muy beneficioso en términos de coste. A cambio, es habitual obtener una menor precisión al usar esta técnica, causada por falta de heterogeneidad dentro de los conglomerados.

 

El proceso de muestreomuestreo por conglomerados esquema

El primer paso para aplicar esta técnica es definir los conglomerados. Se trata de identificar una característica que permita dividir la población en grupos disjuntos (sin solapamiento) y de forma exhaustiva (todos los individuos deben estar en un grupo), de tal manera que los grupos no difieran entre sí en relación a aquello que queremos medir. Una vez hemos definido estos conglomerados, seleccionaremos al azar algunos de ellos para estudiarlos.

Un criterio habitual para definir conglomerados es el geográfico. Por ejemplo, si queremos estudiar qué proporción de la población argentina fuma, podemos dividir el total de la población en provincias y seleccionar algunas de ellas para ser estudiadas. Si no tenemos razones de peso para pensar que el porcentaje de fumadores va a cambiar de una provincia a otra, esta solución nos permitirá concentrar el esfuerzo de muestreo en un único entorno geográfico. Si el estudio se va a hacer mediante entrevistas personales, esto representa un importante ahorro de costes de desplazamientos.

Una vez definimos los conglomerados, el siguiente paso es seleccionar los conglomerados a estudiar, ya sea mediante un muestreo aleatorio simple o sistemático.

Por último, una vez seleccionados los conglomerados a estudiar, podemos investigar a todos los sujetos que forman parte de los mismos, o bien aplicar un nuevo proceso de muestreo dentro del conglomerado, por ejemplo obteniendo una muestra mediante muestreo aleatorio simple o sistemático. Si optamos por esta posibilidad, estaremos hablando de un muestreo en dos etapas o bietápico: la primera etapa será la selección del conglomerado; la segunda, la de individuos dentro del conglomerado. Si por el contrario estudiamos todos los individuos del conglomerado, hablaremos de muestreo por conglomerados unietápico.

 

Muestreo estratificado y muestreo por conglomerados

La idea del muestreo por conglomerados recuerda a la del muestreo estratificado. En ambos casos dividimos la población en grupos. Sin embargo, los principios detrás de ambas técnicas son en cierto modo opuestos.

El muestreo estratificado es especialmente adecuado cuando los grupos (estratos) son muy homogéneos internamente y muy diferentes entre sí. En ese caso, conviene asegurar que tenemos representantes en nuestra muestra que provienen de todos los estratos. Por el contrario, el muestreo por conglomerados es muy adecuado cuando los grupos en que dividimos la población son muy similares entre sí, por lo que no hay gran diferencia entre estudiar individuos de un grupo o de otro.

Es por ello que pese a que ambas técnicas dividen la población en estratos o conglomerados, el proceso de selección de individuos es radicalmente diferente.

 

Ventajas y desventajas del muestreo por conglomerados

✔ La principal ventaja de esta técnica es de tipo operativa: seleccionar un conglomerado a estudiar suele ser más fácil y económico que hacer una muestra aleatoria o sistemática. Hemos visto por ejemplo que usar conglomerados geográficos puede representar un importante ahorro en desplazamientos de personas.

Curiosamente, es habitual hacer estudios a través de Internet en los que se sigue pensando en términos de estudiar sólo unas zonas geográficas, cuando en realidad a través de Internet no obtenemos ningún beneficio operativo; al contrario, incurrimos en mayor riesgo de tener menor precisión por diferencias entre las regiones estudiadas y el resto de la población. Esta práctica es una herencia injustificada de técnicas que eran buenas en entrevistas personales, pero que no lo son al usar otras metodologías.

✘ Como principal inconveniente, al usar muestreo por conglomerados corremos un riesgo importante: que los conglomerados no sean realmente homogéneos entre ellos. En el ejemplo anterior sobre fumadores en Argentina, podría suceder que en una de las provincias exista más propensión a fumar, por ser una región más urbana, por razones culturales, etc.

 

Eficiencia del muestreo por conglomerados 

Muestreo por conglomerados¿Cómo podemos comparar esta técnica con otras vistas con anterioridad? Lo bien o mal que va a funcionar esta técnica va a depender, de forma similar a como ocurría en el muestreo estratificado, de la relación entre la varianza dentro y fuera de los conglomerados.

Esta relación se suele expresar con un coeficiente de correlación intraconglomerados (δ), que se define como el coeficiente de correlación lineal entre todos los pares de valores de la variable objeto de estudio, medidos sobre las unidades de los conglomerados y extendido a todos los conglomerados. En definitiva, este coeficiente es una medida de la homogeneidad en el interior de los conglomerados.

Cuanto menor sea el coeficiente de homogeneidad intraconglomerados δ, mayor eficiencia arrojará el muestreo por conglomerados. Recordemos que lo ideal es que los conglomerados sean tan heterogéneos como el total de la muestra, con el fin de que la selección de un conglomerado concreto nos de la misma información que la selección de individuos al azar del total de la población.

Si comparamos el muestreo aleatorio simple con el muestreo por conglomerados, es posible demostrar que si δ=0 ambos métodos son equivalentes. Esta condición implica que los conglomerados son exactamente tan heterogéneos como el total de la población. El peor caso sería δ=+1 , mientras que el más favorable sería el de δ=-1/(M-1), donde M es el tamaño del conglomerado. Sin embargo, normalmente δ va a ser siempre mayor que 0, ya que lo normal es que las unidades de un conglomerado tengan cierto parecido entre sí.

Otra forma de ver el impacto de este problema es calcular el tamaño de muestra necesario al emplear muestreo por conglomerados para lograr la misma precisión de un muestreo aleatorio simple. Esta expresión es la siguiente:

nc = na (1 + (M-1) δ) 

donde nc es el tamaño de muestra en muestreo por conglomerados y na  es el tamaño de muestra que necesitaríamos en muestreo aleatorio simple. Por lo tanto, el factor  (1+(M-1) δ) es la variación del tamaño de muestra que necesitamos debido al uso de conglomerados. Normalmente será un incremento. Este factor se conoce como efecto de diseño.

Esperamos que este post haya sido de ayuda para entender mejor esta técnica de muestreo probabilístico. A continuación, podrás encontrar los enlaces al resto de artículos que conforman la serie:

 Free ebook - The essentials online data collection

ÍNDICE: Serie Muestreo

  1. El muestreo: qué es y por qué funciona
  2. Muestreo probabilístico o no probabilístico
  3. Muestreo probabilístico: muestreo aleatorio simple
  4. Muestreo probabilístico: muestreo estratificado
  5. Muestreo probabilístico: muestreo sistemático
  6. Muestreo probabilístico: muestreo por conglomerados
  7. Muestreo no probabilístico: muestreo por conveniencia
  8. Muestreo no probabilístico: muestreo por cuotas
  9. Muestreo no probabilístico: muestreo por bola de nieve

¡Suscríbete a nuestro boletín de noticias para recibir actualizaciones exclusivas y las últimas noticias!