O ChatGPT pode acabar com as pesquisas de mercado com humanos?

Apesar de tentadores, LLMs ainda não conseguem gerar respostas completamente confiáveis. Mas combinação entre amostras sintéticas e humanos começam a se tornar viáveis
31 março 2025
O Chat GPT pode acabar com as pesquisas de mercado com humanos?
Juliana Cavallari
Juliana
Cavallari

Diretora de Contas, Brasil

Entre em contato

Na era da inteligência artificial generativa, será que as amostras sintéticas irão tomar conta do mercado de pesquisas? Será que as amostras sintéticas vão substituir os entrevistados humanos? Ou atuar como um complemento às respostas dos painéis? Ou, ainda mais importante, os dados gerados são de qualidade suficientemente alta?

Antes, é preciso entender o que é amostra sintética: ela é produzida por meio de IA generativa ou, mais comumente, modelagem preditiva, e são respostas parecidas com as humanas, com base nos conjuntos de dados disponíveis. Em vez de fazermos perguntas para um participante humano real, a IA generativa (modelos grandes de linguagem como o GPT-4) ou modelos preditivos são usados como substitutos.

Essas amostras são compostas por esses dados sintéticos, que por sua vez podem ser gerados de diferentes formas: podem ser utilizados para aumentar dados existentes, criar dados e simular cenários futuros.

Cientistas de dados têm inserido dados preditivos há décadas para muitos propósitos, inclusive no campo da pesquisa de mercado – mas dados sintéticos levam isso ao próximo nível, pretendendo representar as atitudes ou comportamentos de um indivíduo ou grupo.

Os dados sintéticos podem oferecer muitos benefícios para a pesquisa de mercado, incluindo aumentar o tamanho da amostra e a diversidade ao imitar populações difíceis de alcançar a baixo custo, criar ideias e soluções através de modelagem preditiva e acelerar o processo de pesquisa.

No entanto, os dados e amostras sintéticos também apresentam grandes riscos. Na pesquisa de mercado, conjuntos de dados sintéticos podem introduzir viés ou distorções de forma que não refletem com precisão as características e preferências de uma população-alvo. Portanto, é crucial entender os casos de uso, as metodologias de solução e os frameworks de avaliação antes de confiar em dados sintéticos para informar decisões comerciais importantes.

Um elemento essencial para alimentar um algoritmo gerador de dados sintéticos é uma abundância de “dados reais”. Confiar exclusivamente em um Large Language Model (LLM) disponível no mercado muitas vezes é uma estratégia ruim. É vital começar com uma fonte de dados de alta qualidade que seja muito específica para o problema em questão e usar isso para treinar um algoritmo gerador de dados sintéticos.

 

ChatGPT pode responder pesquisas?

Para confirmarmos isso, recentemente fizemos testes comparando os resultados gerados pelo GPT-4. Comparamos dados de uma pesquisa de cerca de 5 mil respondentes a perguntas sobre um produto de luxo e suas atitudes em relação à tecnologia com respostas dadas pela ferramenta de IA.

Usamos marcadores demográficos de nossa amostra humana, como localização geográfica, idade, etnia, renda, educação etc., como parte de nosso “condicionamento de prompt” para o GPT-4 garantir que suas respostas fossem comparáveis às respostas da pesquisa daquele perfil de respondente. Em efeito, portanto, criamos uma “amostra sintética” com características demográficas idênticas à nossa amostra humana.

Nossa conclusão é que, no momento, a amostra sintética, conforme gerada por esses LLM pré-treinados, tem viés, falta variação e nuance tanto na análise qualitativa quanto quantitativa. Por si só, como está, ainda não está pronta para ser usada como um complemento para amostras humanas.

 

Combinando amostras humanas e sintéticas

Amostras sintéticas criadas exclusivamente por LLMs prontos estão longe de atender à qualidade dos dados exigidos para pesquisa de mercado. É possível, porém, encontrar o equilíbrio certo entre colaboração entre máquina e humano para fornecer uma fonte de dados confiável.

Existem três principais casos de uso que vemos neste campo:

- Impulsionamento de Amostra: é possível pegar um conjunto de dados de pesquisa em uma categoria específica e aumentar o conjunto de dados com mais respondentes em um ou mais subgrupos (que, por exemplo, podem estar sub-representados ou serem caros para recrutar). As respostas sintéticas podem ser aumentadas via agrupamento de respondentes ou via respondentes individuais.  Se pensarmos em um conjunto de dados de pesquisa como uma tabela onde as linhas são respondentes e as colunas são perguntas da pesquisa, estamos tentando criar sinteticamente “novas linhas”, correspondentes aos respondentes de pequenos subgrupos.

- Aumento Preditivo: considerações sobre o comprimento da pesquisa muitas vezes significam que precisamos tomar decisões difíceis sobre quais perguntas podemos acomodar. Podemos preencher algumas lacunas em nossos dados com base em outros respondentes históricos da pesquisa ou, de fato, com dados de perfil que já temos em nosso painel, para fornecer campos adicionais (modelados) junto com os dados base da pesquisa coletada.

- Gêmeos Digitais: ao longo do tempo, acumulamos um grande número de dados para respondentes individuais. Muitas vezes temos anos de dados atitudinais e comportamentais de alta qualidade sobre nossos painelistas mais leais. Podemos aproveitar essas informações históricas para ajustar modelos de IA que então nos permitam “estender” além das perguntas anteriores da pesquisa para novas categorias, comportamentos e tópicos.

No caso da Kantar, por exemplo, complementamos nossa rede programática de mais de 170 milhões de painelistas humanos em mais de 100 mercados com o Qubed, nossa tecnologia contra fraude construída a partir de 3 redes neurais profundas, e design empático de pesquisas, para garantir que estamos criando comunidades de painelistas reais e engajados que fornecem os dados de maior qualidade e mais significativos.

Os dados sintéticos têm muito potencial, mas a indústria tem muito mais trabalho a fazer para construir soluções tecnicamente e metodologicamente sólidas. Embora pretendamos aproveitar ao máximo o potencial de alguns dos algoritmos e tecnologias mais recentes, como líderes responsáveis na indústria, também precisamos abordar as principais questões e desafios que os dados sintéticos apresentam, como sua precisão e viés, sua viabilidade em situações particulares e sua robustez. Essas são as questões que estamos ativamente explorando e testando com nossos clientes e emitiremos mais orientações à medida que estiverem disponíveis.

Entre em contato