Febrero 2, 2015 | Carlos Ochoa

Margen de error en muestras no probabilísticas

Voy a tocar en este post un tema muy espinoso, que genera agrios debates entre investigadores, responsables de marketing y medios de comunicación. Voy a hablar sobre el uso que hacemos del margen de error en las encuestas.

Demos un paso atrás. ¿Qué es el margen de error y el nivel de confianza? Podéis encontrar un post en este mismo blog donde se explica con detalle esta cuestión. La idea es la siguiente: si estudio una población de individuos mediante una muestra aleatoria de los mismos, la relación entre el tamaño del universo y el tamaño de la muestra determina la precisión de los resultados de mi encuesta. Y, obviamente, cuanto mayor sea el tamaño de mi muestra, el error que cometo va a ser más pequeño. Por esta razón es habitual ver fichas técnicas de encuestas en las que se indica el tamaño de la muestra empleado (p.e. 1200 encuestas), junto a unos valores de margen de error y nivel de confianza (p.e. +-3% de error con un nivel de confianza del 95%).

¿Dónde está el problema? En la forma en la que obtengo la muestra. Estrictamente hablando, sólo es posible determinar el margen de error si usamos muestras probabilísticas (probability sampling). En una muestra probabilística cada individuo de la población a estudiar tiene una probabilidad conocida y no nula de ser seleccionado para la muestra. Bajo estas condiciones, el error muestral se calcula como el efecto de estudiar sólo una parte del universo en lugar de su totalidad y por lo tanto depende fuertemente del tamaño de la muestra. Para hacer una muestra probabilística se necesita algo que se conoce como marco muestral (sampling frame), una lista de todos los individuos que pueden entrar en mi muestra.

Sin embargo, pensemos cuantas muestras cumplen el criterio anterior: conocer de antemano la probabilidad de que un individuo del universo entre en nuestra muestra y que esta probabilidad no sea nula. Desde luego, las muestras obtenidas en un panel online, no.

margen-error- enecuestas

¿Cómo son las muestras de un panel online?

 

Los paneles online suelen usar una técnica de muestreo conocida como muestreo por cuotas. Consiste en fijar unas proporciones en nuestra muestra proporcionales a la población que deseo estudiar. Si yo sé que en la población el 50% son hombres y el 50% son mujeres, puedo fijar una cuota de sexo para mi muestra de 1000 personas, de forma que voy a exigir que 500 partcipantes sean hombres y 500 sean mujeres. En la práctica, en un panel online se invita a un grupo de panelistas a participar en el estudio, se les pregunta al inicio del cuestionario su sexo, de manera que una vez llego al objetivo de cada cuota descarto los individuos sobrantes.

El muestreo por cuotas no permite estimar el margen de error. Y aunque usásemos muestreo aleatorio simple dentro del panel (es decir, seleccionásemos al azar individuos del panel) tampoco podríamos hablar de una muestra probabilística, porque el panel en sí mismo es una muestra no probabilística de la población. El panel online es una especie de etapa intermedia entre el universo y la muestra que estudiamos. Es una base de datos de personas que han manifestado de antemano estar dispuestas a participar en estudios.

 

¿Y qué sucede con otros tipos de muestras?

Pues sucede algo parecido. ¿Podemos decir que una encuesta personal hecha por la calle usa muestreo probabilístico? No, claramente no. Encuestando por la calle no puedo llegar a todos los individuos de mi población estudiada (hay personas que viven en otras zonas a las que no llegaré, por ejemplo).

¿Y con las encuestas telefónicas? Durante mucho tiempo se ha considerado la guía telefónica como un marco muestral, lo que daría pie a pensar que podemos obtener una muestra probabilística. Sin embargo, no todo el mundo tiene teléfono y la llegada de la telefonía móvil ha hecho mucho menos precisa la información de estas guías.

Por lo tanto, lo más parecido a un muestreo probabilístico que hoy en día existe es utilizar como marco muestral los hogares. Listando todas las direcciones físicas de una población (información relativamente fiable), puedo seleccionar al azar una lista de hogares e ir a encuestar a los individuos que viven en ellos, algo que se conoce como muestro por rutas. Y aún haciendo esto, tendría otros problemas como la no respuesta (individuos que no puedo localizar nunca en su domicilio o que no quieren responder mi encuesta).

 

Y sin embargo seguimos hablando de error muestral

Los argumentos anteriores nos dicen que, en la mayoría de los casos, no deberíamos hablar de error muestral cuando hacemos una encuesta. Sin embargo, se sigue haciendo. ¿Por qué?

La respuesta simple, tal y como se concluyó en un interesante debate organizado por Annie Pettit de Peanut Labs, es porque no hay una alternativa mejor. Los clientes de investigación piden un número fácilmente interpretable que hable de la precisión de la muestra. Está claro que no es lo mismo hacer un estudio con 10 personas que con 1000, y de alguna manera quieren que eso quede claro, aunque desde el punto de vista estadístico no se pueda hacer ninguna afirmación respecto al margen de error esperado cuando nos salimos de las estrictas condiciones del muestreo aleatorio.

[youtube]https://www.youtube.com/watch?v=n7-Q6GsxAAI[/youtube]

Sin embargo, en cierto modo la industria necesita una alternativa al margen de error, una medida simple pero más completa sobre la calidad de una muestra. En caso contrario, nos arriesgamos a desprestigiar nuestro trabajo. En el caso concreto de los paneles online, aunque todos usemos muestreo por cuotas, no todos los paneles hacen la selección de miembros del panel del mismo modo. Algunos paneles, entre los que incluyo Netquest, hacemos grandes esfuerzos para captar panelistas de múltiples fuentes, incentivamos el registro en el panel con un regalo de bienvenida para reducir la auto-selección y evitar crear paneles de opinadores profesionalizados, invertimos fuertemente en premiar la participación por la misma razón, evitamos sobre-encuestar a la gente... Pero hasta la fecha, no tenemos un estándar en el sector que permita mostrar al cliente que todos estos esfuerzos repercuten en muestras mejores. Una auténtica pena.

---

Para concluir este debate, recomiendo a aquellas personas que quieran conocer con más profundidad las diferentes técnicas de muestro la lectura de este documento publicado por la SAGE. Es un documento extenso y técnico, estáis avisados ;)

 

Carlos Ochoa

Sobre el autor

Carlos Ochoa | Marketing and Innovation Manager

FREE EBOOK

The essentials of online data collection

Download ebook

Netquest Blog Archives

Search and discover over last years latest market research topics.

View the archives

Suscríbete a nuestro blog

Recibe las últimas noticias aquí o en tu correo electrónico.

Blog suscription ES

Al enviar este formulario, acepta la Política de privacidad de Netquest.