Margen de error en muestras no probabilísticas

Hoy vamos a tratar en este post un tema que genera agrios debates entre investigadores, responsables de marketing y medios de comunicación. Hablaremos sobre el uso que hacemos del margen de error en las encuestas.

Demos un paso atrás. ¿Qué es el margen de error? ¿Y el nivel de confianza? En nuestro blog ya hemos hablado en detalle del margen de error y cómo calcularlo, pero en resumen, la idea es la siguiente: si estudiamos una población de individuos mediante una muestra aleatoria de los mismos, la relación entre el tamaño del universo y el tamaño de la muestra determinará la precisión de los resultados de la encuesta. Además, cuanto mayor sea el tamaño de mi muestra, el error será más pequeño. Por esta razón es habitual ver fichas técnicas de encuestas en las que se indica el tamaño de la muestra empleado (p.e. 1200 encuestas), junto a unos valores de margen de error y nivel de confianza (p. ej. +-3% de error con un nivel de confianza del 95%).

¿Dónde está el problema? En la forma en la que obtengo la muestra. Estrictamente hablando, sólo es posible determinar el margen de error si usamos muestras probabilísticas (probability sampling). En una muestra probabilística cada individuo de la población a estudiar tiene una probabilidad conocida - y no nula - de ser seleccionado para la muestra. Bajo estas condiciones, el error muestral se calcula como el efecto de estudiar sólo una parte del universo en lugar de su totalidad y por lo tanto depende fuertemente del tamaño de la muestra. Para hacer una muestra probabilística se necesita algo que se conoce como marco muestral (sampling frame), una lista de todos los individuos que pueden entrar en mi muestra.

Sin embargo, pensemos cuántas muestras cumplen el criterio anterior: conocer de antemano la probabilidad de que un individuo del universo entre en nuestra muestra y que esta probabilidad no sea nula. Desde luego, las muestras obtenidas en un panel online, no.

¿Cómo son las muestras de un panel online?

Panel Online

Los paneles online suelen usar una técnica de muestreo conocida como muestreo por cuotas que consiste en estructurar la muestra de modo proporcional a la distribución de la población a estudiar. Si sabemos que en la población el 50% son hombres y el 50% son mujeres, para una muestra de 1000 individuos, fijaremos una cuota de sexo en la que 500 participantes sean mujeres y 500 sean hombres.

En la práctica, en un panel online se suele preguntar al inicio del cuestionario a los participantes su sexo, de manera que una vez se cumple el objetivo de cada cuota se descarta a los individuos sobrantes.

El muestreo por cuotas no permite estimar el margen de error. Y aunque usásemos muestreo aleatorio simple dentro del panel (es decir, seleccionando al azar individuos del panel) tampoco podríamos hablar de una muestra probabilística, porque un panel en sí mismo es una muestra no probabilística de la población. El panel online es una especie de etapa intermedia entre el universo y la muestra que estudiamos. Es una base de datos de personas que han manifestado de antemano estar dispuestas a participar en estudios.

¿Y qué sucede con otros tipos de muestras?

busy-street-crowd-crowded-01

Pues sucede algo parecido. ¿Podemos decir que una encuesta personal hecha por la calle usa muestreo probabilístico? la respuesta en este caso también es que no, ya que encuestando por la calle no podremos llegar a todos los individuos de la población estudiada, ya que habrá personas que vivan en otras zonas a las que no podremos llegar, por poner un ejemplo de las limitaciones.

¿Y con las encuestas telefónicas? Durante mucho tiempo se ha considerado la guía telefónica como un marco muestral, lo que daría pie a pensar que podemos obtener una muestra probabilística. Sin embargo, no hay perder de vista que no todo el mundo tiene teléfono y que la llegada de la telefonía móvil ha hecho aún mucho menos precisa la información de estas guías.

Por lo tanto, lo más parecido a un muestreo probabilístico que hoy en día existe es utilizar como marco muestral los hogares. Listando todas las direcciones físicas de una población (información relativamente fiable), podemos seleccionar al azar una lista de hogares e ir a encuestar a los individuos que viven en ellos, algo que se conoce como muestro por rutas. Y aún haciendo esto, tendría otros problemas como la no respuesta (individuos a los que no podemos localizar en su domicilio o que no quieren responder a la encuesta).

...y sin embargo seguimos hablando de error muestral

Los argumentos anteriores nos dicen que, en la mayoría de los casos, no deberíamos hablar de error muestral cuando hacemos una encuesta. Y entonces, ¿por qué se sigue haciendo? La respuesta simple, tal y como concluía un interesante debate organizado por Annie Pettit: porque no hay una alternativa mejor.

Los clientes de investigación piden un número fácilmente interpretable que hable de la precisión de la muestra. Está claro que no es lo mismo hacer un estudio con 10 personas que con 1000, y de alguna manera quieren que eso quede claro, aunque desde el punto de vista estadístico no se pueda hacer ninguna afirmación respecto al margen de error esperado cuando nos salimos de las estrictas condiciones del muestreo aleatorio.

Sin embargo, en cierto modo la industria necesita una alternativa al margen de error, una medida simple pero más completa sobre la calidad de una muestra. En caso contrario, nos arriesgamos a desprestigiar nuestro trabajo. En el caso concreto de los paneles online, aunque todos usemos muestreo por cuotas, no todos los paneles hacen la selección de miembros del panel del mismo modo.

Algunos paneles, como el de Netquest, hacen grandes esfuerzos para captar panelistas a partir de múltiples fuentes. En nuestro caso, lo hacemos incentivando el registro en el panel con un regalo de bienvenida para reducir la auto-selección y evitar así un panel de opinadores profesionalizados; invirtiendo fuertemente en premiar la participación por la misma razón; o evitando sobre-encuestar a los panelistas. Pero hasta la fecha, no tenemos un estándar en el sector que permita mostrar al cliente que todos estos esfuerzos repercuten en muestras mejores. Una auténtica pena.

Para concluir este debate, una recomendación para a aquellas personas que quieran conocer con más profundidad las diferentes técnicas de muestro la lectura de este documento publicado por la SAGE. Se trata de un texto extenso y técnico, pero que sin duda merece la pena... ¡estáis avisados!! 😜