Es la última revolución que promete cambiarlo todo. La innovación que, ahora sí,
parece destinada a acabar con la encuesta: los respondientes sintéticos (“synthetic
respondents”). Mientras todavía intentamos asimilar el impacto de la inteligencia
artificial (IA) en nuestras vidas, aparecen nuevos y sorprendentes usos de esta
tecnología en distintas actividades e industrias. La IA ya se utiliza para suplir o
complementar el trabajo de traductores y editores, asesores jurídicos, programadores
informáticos, diseñadores, y un largo etcétera. Y el mundo de la investigación de
mercados no iba a ser la excepción.
¿Qué son los “synthetic respondents”?
La idea está relacionada con el concepto más general de los datos sintéticos (“synthetic data”), consistente en crear datos artificiales que imiten las características estadísticas de datos reales, sin contener información proveniente de personas reales. Estos datos suelen generarse mediante algoritmos, simulaciones o modelos estadísticos, con el fin de reproducir patrones y correlaciones de los datos reales en contextos donde obtenerlos sería imposible o demasiado
costoso. Por ejemplo, si queremos simular qué volumen de pacientes puede soportar
un sistema de atención de urgencias sanitarias de un hospital, podemos estimar los
tiempos de espera que obtendríamos para diferentes volúmenes de pacientes, usando
datos reales de a qué horas se acumulan las visitas de estos pacientes, cuanto tiempo
suele requerir su atención, etc.
El uso de “synthetic data” no es una novedad. Su uso se remonta prácticamente a
mediados del siglo XX, momento en el que se desarrollaron las técnicas estadísticas
que facilitan la obtención de datos simulados a partir de distribuciones de probabilidad
conocidas, con el poco loable fin de desarrollar la bomba atómica.
Pero ¿podrían llegar a usarse datos sintéticos para reemplazar los datos que
obtenemos de consumidores a través de encuestas? Es decir, ¿podemos obtener
“synthetic respondents”? Esto permitiría realizar análisis estadísticos y tomar
decisiones, tal como hacemos actualmente con datos obtenidos mediante encuestas,
pero a menor coste, con mayor rapidez y sin los problemas asociados a la privacidad
de la información personal.
La aparición de los Large Language Models (LLM) —como ChatGPT (OpenAI), Gemini
(Google) o Copilot (Microsoft)— abre la puerta a una idea ambiciosa: generar datos sin
depender de personas reales. Al observar la capacidad de estos modelos para responder preguntas con razonamientos coherentes y bien estructurados —en muchos
casos, indistinguibles de los que daría un ser humano—, resulta casi inevitable
plantearse su uso para simular respuestas humanas. Y, desde luego, la propuesta es
tan sugerente como prometedora.

Dos formas de usar la IA para generar synthetic respondents
¿Cómo podemos usar la IA para reemplazar las respuestas de personas reales en
estudios cuantitativos? Fundamentalmente, existen dos estrategias.
La primera es utilizar la IA para reemplazar a los respondientes de encuestas. La
idea consiste en definir los diferentes perfiles poblacionales que queremos investigar y
pedirle a la IA, mediante instrucciones detalladas facilitadas a través de “prompts” (es
decir, indicaciones textuales que orientan al modelo sobre qué y cómo debe
responder), que genere respuestas plausibles que dichos perfiles podrían proporcionar.
Por ejemplo, si realizo un estudio de movilidad urbana, podría pedirle a la IA que
responda un cuestionario sobre uso de transporte en desplazamientos diarios por la
ciudad como si fuese un hombre de 25 años, o como si fuese una mujer de 45 años. Si
le solicito múltiples respuestas para cada perfil, acabaré obteniendo un conjunto de
datos equiparable al que conseguiría mediante una encuesta tradicional.
La segunda estrategia consiste en saltarse la simulación de respuestas individuales y
pedirle al modelo que responda directamente y de forma agregada a las preguntas
de investigación. Siguiendo con el ejemplo, sería pedirle a la IA que estime qué
porcentajes de cada uno de los perfiles poblacionales utiliza cada tipo de transporte y
cuáles son las principales razones. Esta estrategia sería equivalente a recibir un
análisis final de unos datos que, en realidad, nunca hemos llegado a observar.
Cada estrategia tiene sus ventajas e inconvenientes. Generar respuestas individuales
mediante IA permite ofrece una mayor granularidad de la información. Los modelos
LLM no siempre entregan la misma respuesta ante una misma petición; generan
posibles respuestas, cada una con diferentes probabilidades de ser “correctas” o
apropiadas. Ajustando un parámetro conocido como temperatura, podemos controlar el
grado de variabilidad en las respuestas: con una temperatura baja, el modelo tiende a
dar siempre la respuesta más probable; con una temperatura alta, permite mayor
variación en las respuestas. Si fijamos una temperatura alta y repetimos varias veces la
misma solicitud, obtendremos diferentes respuestas, cuya frecuencia reflejará, de
forma aproximada, su probabilidad relativa. Podemos aprovechar esto para pedir
múltiples respuestas para un mismo perfil simulado y así capturar cierta variabilidad de
opiniones o comportamientos dentro de la población que queremos estudiar.
En otras palabras: si pedimos a un perfil simulado —por ejemplo, un hombre de 25
años— qué medio de transporte usa habitualmente, y el modelo estima un 80 % de probabilidad de que responda “transporte público” y un 20 % de que diga “transporte
privado”, con una temperatura baja y 100 repeticiones obtendríamos siempre la misma
respuesta (“transporte público”).
Por el contrario, generar respuestas agregadas nos lleva directamente al final del
proceso. Le estamos pidiendo al modelo que realice un cierto razonamiento —si se
permite el término— para estimar directamente las distribuciones de respuestas
esperables para determinadas preguntas. El modelo LLM operará aquí de forma
sustancialmente distinta: intentará estimar dichas distribuciones a partir de los datos
existentes en su entrenamiento. Siguiendo con el ejemplo, buscará información que
haya visto en sus datos de entrenamiento sobre el uso del transporte público en la
ciudad estudiada y, si no encuentra datos específicos, podría recurrir a información
disponible de ciudades con características similares. Haría algo parecido a lo que
haríamos los humanos: combinar información de fuentes secundarias con sentido
común.
Casos de uso: descripción o predicción
El principio detrás de los “synthetic respondents” tiene cierta lógica, pero ¿realmente
funciona? Aquí podemos distinguir dos casos de uso principales.
El primero podría describirse como un uso descriptivo: pedir a un modelo LLM que
estime comportamientos ya existentes. Por ejemplo, podríamos solicitarle que nos
indique qué porcentaje de la población consume bebidas energéticas o, más específicamente, una marca concreta de dichas bebidas. En estos casos, los modelos
suelen ofrecer buenos resultados, aunque lo que hacen no difiere demasiado de lo que
podríamos conseguir nosotros mismos buscando informes de consumo ya disponibles
y combinándolos con datos como el gasto publicitario o informes demográficos, entre
otros. Los modelos LLM son eficaces buscando y combinando datos con el fin de
generar respuestas coherentes. Sin embargo, este tipo de estudios suelen resolverse
actualmente con fuentes de datos secundarias, sin necesidad de recurrir a encuestas.
El verdadero problema surge con el uso predictivo: es decir, anticipar un comportamiento futuro o presente, pero no observable, incluyendo opiniones sobre temas que no han sido planteados previamente. La gran mayoría de los problemas en investigación comercial con fuentes primarias pertenecen a esta categoría: por ejemplo, qué porcentaje de la población compraría un producto nuevo, por qué los consumidores prefieren una marca sobre otra, o qué proporción recuerda haber visto una determinada campaña publicitaria.
¿Puede realmente un modelo LLM responder con precisión a este tipo de preguntas,
para las cuales no dispone de evidencia sólida en sus datos de entrenamiento ni en las
fuentes accesibles en internet?
Pruebas empíricas
El pasado mes de julio se ha celebrado el congreso bianual de la ESRA (European
Survey Research Association), un referente en la investigación metodológica de
encuestas, pero también en el desarrollo de métodos alternativos de recolección y
análisis de datos. La aplicación de la IA para complementar o reemplazar los datos de
encuesta despertó gran interés.
Uno de los tracks del congreso estuvo específicamente dedicado al tema de la
“Generación de datos sintéticos e imputación con LLM”. En particular, la primera
ponencia, a cargo de Leah von der Heyde (LMU Munich, Munich Center for Machine
Learning), presentó los resultados de un experimento destinado a evaluar la capacidad de los LLM para sustituir a los respondientes de encuestas con el fin de predecir los
resultados de las elecciones europeas de 2024. La pregunta clave del estudio era:
“Pueden los LLM predecir los resultados agregados de elecciones futuras?”.
Para responder esta pregunta, los investigadores utilizaron tres LLM para predecir el
comportamiento electoral de 26.000 votantes europeos, proporcionándoles información
individual sobre el perfil de cada votante, conforme a la composición demográfica real
de la población, y compararon las respuestas generadas con los resultados reales.
También intentaron obtener estimaciones agregadas utilizando los mismos modelos.
Los resultados fueron, en general, desastrosos. Se observaron diferencias relevantes
por país e idioma, y la precisión dependió en gran medida de que los prompts
incluyeran no solo datos sociodemográficos, sino también información actitudinal. Los
autores del estudio subrayaron la aplicabilidad limitada de las muestras sintéticas
generadas por LLMs para predecir la opinión pública, lo que arroja dudas sobre otros
posibles usos en investigación de mercados. A modo de ejemplo: el porcentaje medio
de participación electoral predicho por los modelos fue del 83 %, cuando la
realidad fue del 49 %.

Fuente: von der Heyde et al. (2025)
Pero ¿por qué fallan los datos sintéticos en este tipo de tareas? Varios investigadores
—incluidos los autores de este estudio— mencionan factores como los sesgos en los
datos de entrenamiento, la sobrerrepresentación de ciertos colectivos, la complejidad
inherente a las dinámicas sociales y políticas, la brecha digital que afecta a
determinados segmentos de la población, o las alucinaciones que a veces se producen
en las respuestas de los LLM.
Iría incluso más allá: la verdadera cuestión no es por qué fallan los datos sintéticos,
sino por qué esperaríamos que funcionaran. Los modelos LLM identifican relaciones
entre palabras (o partes de palabras, tokens) a partir de extensísimos textos de
entrenamiento, utilizando arquitecturas con millones de parámetros. En esas relaciones
se concentra tanto el conocimiento humano como, en cierta medida, la lógica que lo
articula, lo que permite a los modelos emular razonamientos humanos en sus
respuestas. Pero ¿de qué forma podría un LLM representar, de manera fiel y
representativa, comportamientos no observados?
Los resultados descritos son demoledores. Aun así, algunos proveedores ya ofrecen
soluciones basadas en “synthetic respondents”, especialmente orientadas a realizar
entrevistas cualitativas a ciertos perfiles de interés. No creo que sea casual ese
enfoque cualitativo, por dos razones:
- Los LLM son terriblemente convincentes en sus respuestas; suelen tener sentido
y lógica, sean correctas o no. - En estudios cualitativos no contamos con una verdad objetiva con la que
contrastar los resultados, así que nadie puede rebatir fácilmente el valor
aparente de la información obtenida.
El uso de “personas sintéticas” puede tener valor para el investigador, pero
probablemente esté más en proporcionar un interlocutor bien informado con quien
explorar hipótesis o debatir ideas, que en representar fielmente a un miembro típico del
colectivo de interés. Esto podría ser útil en las primeras fases de la investigación para
detectar propuestas prometeredas, pero nunca podrían reemplazar por completo los
datos generados por humanos, como apunta un estudio publicado en Harvard Business Review desarrollado por Brand, Israeli and Ngwe.
En definitiva, como señaló Nik Samoylov (Conjointly), los datos sintéticos podrían ser
algo así como la homeopatía de la investigación de mercados: no hay evidencia de que
funcionen, pero mucha gente sigue creyendo en ellos.
La IA ayudándonos con las encuestas
Pese a lo anterior, la IA parece destinada a desempeñar un rol fundamental en la
investigación de mercados. Varias ponencias en ESRA abordaron precisamente estos
posibles usos, resumidos en la presentación de Reveilhan (2025), que incluyen:
- el diseño de cuestionarios,
- su traducción y adaptación,
- el desarrollo de cuestionarios capaces de adaptarse a las respuestas de los
participantes, - la previsión y prevención de la no respuesta,
- la interpretación y codificación de respuestas abiertas,
- el control de calidad de los datos,
- la imputación de valores perdidos,
- e incluso el análisis interactivo mediante instrucciones en lenguaje natural (“talk
to data”).
En definitiva, la encuesta —a la que se ha intentado dar por muerta tantas veces (con
la irrupción de Internet, de las redes sociales, de los datos pasivos)— sigue más viva
que nunca y, paradójicamente, podría salir reforzada con la llegada de la IA.
Referencias:
Brand, J., Israeli, A., & Ngwe, D. (2025, July 18). Using Gen AI for early-stage market
research. Harvard Business Review. https://hbr.org/2025/07/using-gen-ai-for-early- stage-market-researchstage-market-research
Reveilhac, M. (2025, July 17). Advancing survey research through AI and machine
learning: Current applications and future directions [Conference session]. European Survey Research Association (ESRA) Conference 2025, Utrecht, Netherlands.
https://www.europeansurveyresearch.org/conf2025/prog.php?sess=137#main
von der Heyde, L., Haensch, A.-C., Wenz, A., & Ma, B. (2024). United in diversity?
Contextual biases in LLM‑based predictions of the 2024 European Parliament elections
(Version 2) [Preprint]. arXiv. https://doi.org/10.48550/arXiv.2409.09045

