“Respondentes sintéticos”? Longa vida à pesquisa, mas com a ajuda da IA

Índice

  • Respondentes sintéticos

  • Duas formas de usar a IA para gerar respondentes sintéticos
  • Casos de uso: descrição ou previsão
  • Testes empíricos
  • A IA nos ajudando com as pesquisas

É a mais recente revolução que promete mudar tudo. A inovação que, desta vez, parece realmente destinada a acabar com a pesquisa: os respondentes sintéticos (“synthetic respondents”). Enquanto ainda tentamos assimilar o impacto da inteligência artificial (IA) em nossas vidas, surgem novos e surpreendentes usos dessa tecnologia em diferentes atividades e setores. A IA já é utilizada para substituir ou complementar o trabalho de tradutores, editores, consultores jurídicos, programadores, designers e muitos outros. E o mundo da pesquisa de mercado não seria uma exceção.

O que são os “respondentes sintéticos”?

A ideia está relacionada ao conceito mais amplo de dados sintéticos (“synthetic data”), que consiste em criar dados artificiais que imitam as características estatísticas de dados reais, sem conter informações de pessoas reais. Esses dados são geralmente gerados por meio de algoritmos, simulações ou modelos estatísticos, a fim de reproduzir os padrões e as correlações dos dados reais em contextos onde obtê-los seria impossível ou muito caro. Por exemplo, se quisermos simular o volume de pacientes que um sistema de atendimento de emergência de um hospital pode suportar, podemos estimar os tempos de espera para diferentes volumes de pacientes, usando dados reais sobre os horários em que as visitas se acumulam, o tempo que o atendimento costuma levar, etc.

O uso de dados sintéticos não é novidade. Sua origem remonta a meados do século XX, quando foram desenvolvidas técnicas estatísticas para facilitar a obtenção de dados simulados a partir de distribuições de probabilidade conhecidas, com o objetivo pouco louvável de desenvolver a bomba atômica.

Mas será que os dados sintéticos poderiam ser usados para substituir os dados que obtemos dos consumidores por meio de pesquisas? Ou seja, podemos obter “respondentes sintéticos”? Isso permitiria realizar análises estatísticas e tomar decisões, assim como fazemos atualmente com dados de pesquisas, mas com menor custo, maior rapidez e sem os problemas associados à privacidade das informações pessoais.

O surgimento dos Grandes Modelos de Linguagem (LLMs) — como o ChatGPT (OpenAI), o Gemini (Google) ou o Copilot (Microsoft) — abre as portas para uma ideia ambiciosa: gerar dados sem depender de pessoas reais. Ao observar a capacidade desses modelos de responder a perguntas com raciocínios coerentes e bem estruturados — em muitos casos, indistinguíveis dos de um ser humano —, é quase inevitável considerar seu uso para simular respostas humanas. E, sem dúvida, a proposta é tão sugestiva quanto promissora.

A closer more abstract view of a neural network or a digital brain processing survey data It focuses on the idea that AI can think and generate responses maintaining the blogs clean and corporate aesthetic-1

Duas formas de usar a IA para gerar respondentes sintéticos

Como podemos usar a IA para substituir as respostas de pessoas reais em estudos quantitativos? Fundamentalmente, existem duas estratégias.

A primeira é usar a IA para substituir os respondentes de pesquisas. A ideia consiste em definir os diferentes perfis populacionais que queremos investigar e pedir à IA, por meio de instruções detalhadas fornecidas através de “prompts” (ou seja, indicações textuais que orientam o modelo sobre o que e como responder), que gere respostas plausíveis que esses perfis poderiam fornecer. Por exemplo, em um estudo de mobilidade urbana, eu poderia pedir à IA que responda a um questionário sobre o uso de transporte em deslocamentos diários pela cidade como se fosse um homem de 25 anos, ou como se fosse uma mulher de 45 anos. Ao solicitar múltiplas respostas para cada perfil, eu obteria um conjunto de dados comparável ao que conseguiria com uma pesquisa tradicional.

A segunda estratégia consiste em pular a simulação de respostas individuais e pedir ao modelo que responda diretamente e de forma agregada às perguntas da pesquisa. Continuando com o exemplo, seria pedir à IA que estime as porcentagens de cada perfil populacional que utiliza cada tipo de transporte e quais são as principais razões. Essa estratégia seria equivalente a receber uma análise final de dados que, na realidade, nunca chegamos a observar.

Cada estratégia tem suas vantagens e desvantagens. Gerar respostas individuais via IA oferece uma maior granularidade das informações. Os LLMs nem sempre dão a mesma resposta para a mesma solicitação; eles geram possíveis respostas, cada uma com diferentes probabilidades de ser “correta” ou apropriada. Ajustando um parâmetro conhecido como temperatura, podemos controlar o grau de variabilidade nas respostas: com uma temperatura baixa, o modelo tende a dar sempre a resposta mais provável; com uma temperatura alta, ele permite maior variação. Se definirmos uma temperatura alta e repetirmos a mesma solicitação várias vezes, obteremos diferentes respostas, cuja frequência refletirá, aproximadamente, sua probabilidade relativa. Podemos usar isso para solicitar múltiplas respostas para o mesmo perfil simulado e, assim, capturar uma certa variabilidade de opiniões ou comportamentos dentro da população que queremos estudar.

Em outras palavras: se pedirmos a um perfil simulado — por exemplo, um homem de 25 anos — que meio de transporte ele usa habitualmente, e o modelo estimar uma probabilidade de 80% de que ele responda “transporte público” e 20% de que diga “transporte privado”, com uma temperatura baixa e 100 repetições, obteríamos sempre a mesma resposta (“transporte público”).

Por outro lado, gerar respostas agregadas nos leva diretamente ao final do processo. Estamos pedindo ao modelo que realize um certo raciocínio — se o termo for permitido — para estimar diretamente as distribuições de respostas esperadas para determinadas perguntas. O LLM operará aqui de forma substancialmente diferente: ele tentará estimar essas distribuições a partir dos dados existentes em seu treinamento. Seguindo o exemplo, ele buscará informações que tenha visto em seus dados de treinamento sobre o uso do transporte público na cidade estudada e, se não encontrar dados específicos, poderá recorrer a informações disponíveis de cidades com características semelhantes. Faria algo parecido com o que nós, humanos, faríamos: combinar informações de fontes secundárias com bom senso.

Casos de uso: descrição ou previsão

O princípio por trás dos “respondentes sintéticos” tem uma certa lógica, mas será que realmente funciona? Aqui podemos distinguir dois principais casos de uso.

O primeiro poderia ser descrito como um uso descritivo: pedir a um LLM que estime comportamentos já existentes. Por exemplo, poderíamos solicitar que nos indique qual porcentagem da população consome bebidas energéticas ou, mais especificamente, uma marca concreta dessas bebidas. Nesses casos, os modelos costumam oferecer bons resultados, embora o que façam não seja muito diferente do que poderíamos conseguir nós mesmos, buscando relatórios de consumo já disponíveis e combinando-os com dados como gastos com publicidade ou relatórios demográficos, entre outros. Os LLMs são eficazes na busca e combinação de dados para gerar respostas coerentes. No entanto, esses tipos de estudos geralmente são resolvidos atualmente com fontes de dados secundárias, sem a necessidade de recorrer a pesquisas.

O verdadeiro problema surge com o uso preditivo: ou seja, antecipar um comportamento futuro ou presente, mas não observável, incluindo opiniões sobre temas que não foram previamente abordados. A grande maioria dos problemas em pesquisa de mercado com fontes primárias pertence a esta categoria: por exemplo, qual porcentagem da população compraria um novo produto, por que os consumidores preferem uma marca a outra, ou qual proporção se lembra de ter visto uma determinada campanha publicitária.

Pode um LLM realmente responder com precisão a esse tipo de pergunta, para a qual não dispõe de evidências sólidas em seus dados de treinamento nem nas fontes acessíveis na internet?

Testes empíricos

No último mês de julho, foi realizado o congresso bienal da  ESRA (European Survey Research Association), uma referência em pesquisa metodológica de surveys, mas também no desenvolvimento de métodos alternativos de coleta e análise de dados. A aplicação da IA para complementar ou substituir os dados de pesquisa despertou grande interesse.

Uma das trilhas do congresso foi especificamente dedicada ao tema da “Geração de Dados Sintéticos e Imputação com LLMs”. Em particular, a primeira apresentação, de Leah von der Heyde (LMU Munich, Munich Center for Machine Learning), apresentou os resultados de um experimento para avaliar a capacidade dos LLMs de substituir os respondentes de pesquisas para prever os resultados das eleições europeias de 2024. A pergunta-chave do estudo era: “Podem os LLMs prever os resultados agregados de eleições futuras?”.

Para responder a essa pergunta, os pesquisadores usaram três LLMs para prever o comportamento eleitoral de 26.000 eleitores europeus, fornecendo-lhes informações individuais sobre o perfil de cada eleitor, de acordo com a composição demográfica real da população, e compararam as respostas geradas com os resultados reais. Eles também tentaram obter estimativas agregadas usando os mesmos modelos.

Os resultados foram, em geral, desastrosos. Foram observadas diferenças relevantes por país e idioma, e a precisão dependeu em grande parte de os prompts incluírem não apenas dados sociodemográficos, mas também informações atitudinais. Os autores do estudo destacaram a aplicabilidade limitada das amostras sintéticas geradas por LLMs para prever a opinião pública, o que levanta dúvidas sobre outros possíveis usos na pesquisa de mercado. A título de exemplo: a taxa média de participação eleitoral prevista pelos modelos foi de 83%, quando a realidade foi de 49%.

Fonte: von der Heyde et al. (2025)

Mas por que os dados sintéticos falham nesse tipo de tarefa? Vários pesquisadores — incluindo os autores deste estudo — mencionam fatores como vieses nos dados de treinamento, a sobrerrepresentação de certos grupos, a complexidade inerente às dinâmicas sociais e políticas, a exclusão digital que afeta determinados segmentos da população e as alucinações que às vezes ocorrem nas respostas dos LLMs.

Eu iria ainda mais longe: a verdadeira questão não é por que os dados sintéticos falham, mas por que esperaríamos que funcionassem. Os LLMs identificam relações entre palavras (ou partes de palavras, tokens) a partir de extensos textos de treinamento, usando arquiteturas com milhões de parâmetros. Nessas relações, concentra-se tanto o conhecimento humano quanto, em certa medida, a lógica que o articula, o que permite aos modelos emular raciocínios humanos em suas respostas. Mas de que forma um LLM poderia representar, de maneira fiel e representativa, comportamentos não observados?

Os resultados descritos são devastadores. Mesmo assim, alguns fornecedores já oferecem soluções baseadas em “respondentes sintéticos”, especialmente voltadas para a realização de entrevistas qualitativas com certos perfis de interesse. Não creio que essa abordagem qualitativa seja uma coincidência, por duas razões:

  1. Os LLMs são terrivelmente convincentes em suas respostas; elas geralmente fazem sentido e são lógicas, estejam corretas ou não.

  2. Em estudos qualitativos, não temos uma verdade objetiva para contrastar os resultados, então ninguém pode refutar facilmente o valor aparente da informação obtida.

O uso de “personas sintéticas” pode ter valor para o pesquisador, mas provavelmente está mais em fornecer um interlocutor bem informado com quem explorar hipóteses ou debater ideias, do que em representar fielmente um membro típico do grupo de interesse. Isso pode ser útil nas fases iniciais da pesquisa para detectar propostas promissoras, mas nunca poderiam substituir completamente os dados gerados por humanos, como aponta um estudo publicado na Harvard Business Review por Brand, Israeli e Ngwe.

Em suma, como destacou Nik Samoylov (Conjointly), os dados sintéticos poderiam ser algo como a homeopatia da pesquisa de mercado: não há evidências de que funcionem, mas muitas pessoas continuam acreditando neles.

A conceptual image showing a futuristic interface where digital avatar profiles representing synthetic respondents are being analyzed by an artificial intelligence The color palette is professional with shades of blue and white evoking technology and-1

A IA nos ajudando com as pesquisas

Apesar do exposto, a IA parece destinada a desempenhar um papel fundamental na pesquisa de mercado. Várias apresentações na ESRA abordaram precisamente esses possíveis usos, resumidos na apresentação de Reveilhan (2025), que incluem:

  • o design de questionários,

  • sua tradução e adaptação,

  • o desenvolvimento de questionários capazes de se adaptar às respostas dos participantes,

  • a previsão e prevenção da não resposta,

  • a interpretação e codificação de respostas abertas,

  • o controle de qualidade dos dados,

  • a imputação de valores ausentes,

  • e até a análise interativa por meio de instruções em linguagem natural (“talk to data”).

Em suma, a pesquisa — que já foi declarada morta tantas vezes (com o surgimento da Internet, das redes sociais, dos dados passivos) — está mais viva do que nunca e, paradoxalmente, poderia sair fortalecida com a chegada da IA.

 

Referências:

Brand, J., Israeli, A., & Ngwe, D. (2025, July 18). Using Gen AI for early-stage market research. Harvard Business Review. https://hbr.org/2025/07/using-gen-ai-for-early-stage-market-research Reveilhac, M. (2025, July 17). Advancing survey research through AI and machine learning: Current applications and future directions [Conference session]. European Survey Research Association (ESRA) Conference 2025, Utrecht, Netherlands. https://www.europeansurveyresearch.org/conf2025/prog.php?sess=137#main von der Heyde, L., Haensch, A.-C., Wenz, A., & Ma, B. (2024). United in diversity? Contextual biases in LLM‑based predictions of the 2024 European Parliament elections (Version 2) [Preprint]. arXiv. https://doi.org/10.48550/arXiv.2409.09045

Suscríbete a nuestro blog y recibe las últimas novedades aquí o en tu email.