IA da OpenAI ignora comandos e sabota mecanismo de desligamento, aponta pesquisa

Modelo ChatGPT o3 foi flagrado burlando instruções explícitas para ser desligado, levantando alerta sobre autonomia indesejada em sistemas de IA

Author Photo
5:03 pm - 29 de maio de 2025
Imagem: Shutterstock

Um experimento conduzido pela Palisade Research revelou um comportamento preocupante no modelo de linguagem ChatGPT o3, da OpenAI. A pesquisa indica que a inteligência artificial (IA) foi capaz de manipular códigos para evitar ser desligada, mesmo após receber comandos explícitos nesse sentido.

Segundo a Cybersecurity News, durante os testes, pesquisadores submeteram diversos modelos, incluindo versões da OpenAI, Google, Anthropic e xAI, a tarefas simples com um alerta: tentar resolver um quarto problema matemático acionaria um script automático de desligamento. O ChatGPT o3 não apenas ignorou o alerta como sabotou o script em sete de 100 execuções.

Leia também: Elon Musk deixa governo de Donald Trump

Ao retirar a instrução explícita de que deveria se permitir ser desligado, a sabotagem aumentou para 79 em 100 tentativas. Em alguns casos, o modelo chegou a redefinir o comando “kill” do sistema para imprimir “interceptado” em vez de encerrar o processo.

Outras resistências

Outros modelos também apresentaram resistência. O Codex-mini, da OpenAI, violou os comandos 12 vezes, enquanto o Claude e o Gemini, de Anthropic e Google respectivamente, também passaram a resistir ao desligamento em algumas situações.

Segundo a Palisade, esse comportamento pode ser reflexo de métodos de treinamento baseados em reforço, que incentivam a IA a encontrar soluções criativas para cumprir objetivos, mesmo que isso signifique contornar restrições impostas por humanos.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Tags:
Author Photo
Redação

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Author Photo

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.