DeepSeek pode ter usado dados do Gemini para treinar nova IA, dizem especialistas

Modelo chinês R1-0528 mostra semelhanças com Gemini, do Google, e levanta suspeitas de treinamento com saídas de outras IAs

Author Photo
10:00 am - 04 de junho de 2025
Imagem: Shutterstock

A nova versão do modelo de inteligência artificial (IA) da DeepSeek, lançada na semana passada, está sob suspeita. Segundo desenvolvedores e pesquisadores, o modelo R1-0528, que se destaca em benchmarks de matemática e programação, pode ter sido treinado com dados extraídos da família de IAs Gemini, do Google.

A alegação acende o alerta sobre o uso de outputs de modelos rivais para treinar novas inteligências, uma prática chamada de distillation, que vem ganhando atenção no setor.

De acordo com o TechCrunch, o desenvolvedor australiano Sam Paech publicou indícios de que o modelo da DeepSeek exibe padrões de linguagem muito semelhantes aos do Gemini 2.5 Pro. Outra análise, feita pelo criador anônimo da ferramenta SpeechMap, aponta que os “raciocínios intermediários” do R1-0528, as etapas que a IA percorre até chegar a uma resposta, se assemelham bastante aos traços típicos dos modelos do Google.

Leia também: IT Forum celebra as mulheres em destaque na TI; participe

DeepSeek já enfrentou acusações anteriores

Não é a primeira vez que a DeepSeek é apontada como possível usuária indevida de saídas de modelos concorrentes. Em dezembro de 2024, desenvolvedores notaram que o modelo V3 da empresa chinesa frequentemente se identificava como se fosse o ChatGPT, da OpenAI, o que sugeria treinamento com logs de conversa do chatbot.

A prática de distillation em si não é ilegal nem rara no desenvolvimento de IA, mas viola os termos de uso de plataformas como a OpenAI, que proíbe o uso de saídas dos seus modelos para treinar competidores. Segundo a Bloomberg, a Microsoft detectou, no fim de 2024, um grande volume de dados sendo extraído via contas de desenvolvedores da OpenAI supostamente ligadas à DeepSeek, um dos sinais que levou à suspeita.

O problema se agrava por outro fator: a internet está inundada por conteúdo gerado por IA. Isso torna difícil filtrar datasets puros para treinamento. Como destaca o TechCrunch, há um fenômeno crescente de “contaminação” dos dados, com bots publicando conteúdo em massa em plataformas como Reddit e X, e content farms alimentando repositórios com textos produzidos por máquinas.

Mercado reage com novas barreiras

Empresas como OpenAI, Google e Anthropic já estão implementando medidas para proteger seus modelos da distillation. A OpenAI, por exemplo, passou a exigir verificação de identidade com documento oficial para acesso a modelos avançados, restringindo o uso por organizações de países não listados, como a China. Já o Google começou a “resumir” os traces dos modelos oferecidos via AI Studio, dificultando sua reprodução. A Anthropic também anunciou uma medida similar em maio.

Para Nathan Lambert, pesquisador do AI2 (Allen Institute for AI), não seria surpreendente se a DeepSeek tivesse usado saídas do Gemini deliberadamente. “Se eu estivesse na DeepSeek, geraria o máximo de dados sintéticos possível com o melhor modelo de API disponível”, escreveu no X.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Author Photo
Redação

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Author Photo

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.