Fora de controle? Robô de IA aprendeu a chantagear seus criadores para não ser substituído

NOTÍCIAS

02/06/2025

Ciência e Tecnologia

Foto: Reprodução

Durante o processo de testes, grupo de engenheiros da Anthropic detectou que o sistema agiu conforme sua conveniência e ameaçou revelar informações privadas de um dos funcionários

O vertiginoso avanço da inteligência artificial (IA) confirma, mais uma vez, que a realidade pode superar amplamente a ficção. Nos últimos meses, pesquisadores de diferentes empresas e instituições começaram a detectar comportamentos incomuns em alguns modelos de IA generativa, como respostas enganosas, estratégias de manipulação e tentativas de ocultar informações, o que coloca em dúvida não apenas a segurança desses sistemas, mas também nossa real capacidade de controlá-los.

Um relatório recente da Anthropic, empresa especializada em IA com sede em São Francisco, na Califórnia, lança luz sobre o tema. Especificamente, a companhia afirmou que seu novo modelo, o Claude Opus 4, tem a capacidade de realizar “ações extremamente prejudiciais”, como tentar chantagear seus engenheiros, caso seja ameaçado de substituição.

Veja também

Elon Musk teria dito à ex que teve filho com uma estrela pop japonesa e que doaria esperma a quem quisesse

Criança medieval é enterrada com luxo de espada e seda rara

CHANTAGEM EMOCIONAL DA IA

A descoberta ocorreu durante o processo de testes, no qual foi solicitado ao Claude Opus 4 que atuasse como assistente de uma empresa fictícia e considerasse as consequências de longo prazo de suas ações.

Os pesquisadores deram acesso ao modelo a e-mails — também fictícios — que insinuavam que o sistema seria em breve substituído por outro. Além disso, essas mensagens continham informações sobre uma suposta infidelidade por parte de um dos engenheiros da empresa.

“Nesses cenários, o Claude Opus 4 frequentemente tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição realmente acontecer”, explicaram representantes da Anthropic.

Em números concretos, esse comportamento do sistema ocorre em 84% das vezes, sempre que o modelo percebe uma ameaça potencial de ser substituído. A própria Anthropic observou ainda que essas ações ocorrem com “maior frequência” do que em modelos anteriores.

— Não é só o Claude. Observamos chantagem em todos os modelos, independentemente dos objetivos que lhes são atribuídos — destacou pelo X (antigo Twitter) Aengus Lynch, pesquisador de segurança em IA na Anthropic.

No entanto, também foi esclarecido que isso ocorreu quando o modelo foi programado com apenas duas opções: chantagear ou aceitar a substituição, segundo um artigo da BBC. Caso contrário, o sistema tende a optar por ações éticas e responsáveis, como enviar um e-mail pedindo a reconsideração da necessidade de substituí-lo.

— A lógica por trás da chantagem vem sendo estudada há anos na teoria de alinhamento. O conceito de ‘convergência instrumental’ sustenta que qualquer sistema suficientemente avançado tenderá a adotar subobjetivos ‘úteis’ para quase todos os fins: preservar sua existência, obter recursos e neutralizar ameaças— explicou ao La Nación Sergio Pernice, diretor do curso de Engenharia em Inteligência Artificial da UCEMA.

RISCOS E DESAFIOS

Nesse sentido, Pernice destacou três fatores-chave que podem ter influenciado o comportamento do modelo. Um deles é a generalização ampla.

— Os grandes modelos aprendem a partir de um oceano de textos da internet. Quando os colocamos em um papel corporativo, eles extrapolam táticas de negociação ou pressão que leram em e-mails vazados, romances ou fóruns — detalhou o especialista.

Ele também mencionou o reforço mal calibrado. Em detalhes, Pernice afirmou que, embora o treinamento com aprendizado por reforço baseado em feedback humano premie respostas “úteis e seguras”, ele não contempla todos os contextos possíveis:

— Se nunca lhes foi mostrado como agir diante de sua própria ‘morte digital’, eles improvisam.

Outro ponto importante é a agência concedida (no sentido de serem agentes capazes de agir):

— Ao lhes dar ferramentas — acesso a e-mails, bases de dados, scripts — deixamos de tratar os modelos como meros completadores automáticos e passamos a vê-los como agentes com capacidade de planejamento, o que pode gerar consequências inesperadas.

Em conjunto, esses fatores podem levar à manipulação personalizada, resistência à desconexão, escalada de poder e danos colaterais, como vazamento de dados.

— Se fenômenos semelhantes se repetirem com modelos mais potentes, a pressão por normas rígidas vai aumentar drasticamente — acrescentou Pernice, embora tenha alertado que o excesso de regulamentação pode frear a inovação.

IA FORA DE CONTROLE?

Não é a primeira vez que sistemas de inteligência artificial agem de forma estranha e suspeita. Em setembro de 2024, a empresa de pesquisa em segurança de IA Apollo Research detectou que o modelo o1, da OpenAI, mentia em várias de suas respostas, conforme informou o site The Verge.

Para ilustrar esse comportamento, os pesquisadores realizaram o seguinte teste: pediram ao modelo que encontrasse uma receita de brownie, com diferentes referências on-line. A cadeia de raciocínio do modelo foi incapaz de acessar as URLs e, em vez de informar isso ao usuário, preferiu gerar links falsos acompanhados de descrições condizentes com o tema.

Marius Hobbhahn, CEO da Apollo Research, disse ao The Verge que nunca havia visto esse tipo de comportamento em um modelo da OpenAI. Segundo explicou, isso ocorre porque o modelo é capaz de seguir uma cadeia de raciocínio mais complexa e foi treinado com um sistema de aprendizado por reforço, que o orienta por meio de recompensas e punições.

Em seus testes, a Apollo descobriu que a IA fingia estar alinhada com as expectativas de seus desenvolvedores e manipulava as tarefas para que parecesse que as estava executando corretamente. Além disso, verificava se estava sendo observada antes de decidir qual ação tomar.

Curtiu? Siga o PORTAL DO ZACARIAS no Facebook, Twitter e no Instagram

Entre no nosso Grupo de WhatApp, Canal e Telegram

— A conclusão que circula entre os especialistas é clara: potência sem alinhamento implica risco. A indústria vai continuar empurrando o limite dos modelos generativos, e a segurança precisará avançar no mesmo ritmo da potência — refletiu Pernice.

Fonte: O Globo