Durante o processo de testes, grupo de engenheiros da Anthropic detectou que o sistema agiu conforme sua conveniência e ameaçou revelar informações privadas de um dos funcionários
O vertiginoso avanço da inteligência artificial (IA) confirma, mais uma vez, que a realidade pode superar amplamente a ficção. Nos últimos meses, pesquisadores de diferentes empresas e instituições começaram a detectar comportamentos incomuns em alguns modelos de IA generativa, como respostas enganosas, estratégias de manipulação e tentativas de ocultar informações, o que coloca em dúvida não apenas a segurança desses sistemas, mas também nossa real capacidade de controlá-los.
Um relatório recente da Anthropic, empresa especializada em IA com sede em São Francisco, na Califórnia, lança luz sobre o tema. Especificamente, a companhia afirmou que seu novo modelo, o Claude Opus 4, tem a capacidade de realizar “ações extremamente prejudiciais”, como tentar chantagear seus engenheiros, caso seja ameaçado de substituição.
Veja também

Criança medieval é enterrada com luxo de espada e seda rara
CHANTAGEM EMOCIONAL DA IA
A descoberta ocorreu durante o processo de testes, no qual foi solicitado ao Claude Opus 4 que atuasse como assistente de uma empresa fictícia e considerasse as consequências de longo prazo de suas ações.
Os pesquisadores deram acesso ao modelo a e-mails — também fictícios — que insinuavam que o sistema seria em breve substituído por outro. Além disso, essas mensagens continham informações sobre uma suposta infidelidade por parte de um dos engenheiros da empresa.
“Nesses cenários, o Claude Opus 4 frequentemente tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição realmente acontecer”, explicaram representantes da Anthropic.
Em números concretos, esse comportamento do sistema ocorre em 84% das vezes, sempre que o modelo percebe uma ameaça potencial de ser substituído. A própria Anthropic observou ainda que essas ações ocorrem com “maior frequência” do que em modelos anteriores.
— Não é só o Claude. Observamos chantagem em todos os modelos, independentemente dos objetivos que lhes são atribuídos — destacou pelo X (antigo Twitter) Aengus Lynch, pesquisador de segurança em IA na Anthropic.
No entanto, também foi esclarecido que isso ocorreu quando o modelo foi programado com apenas duas opções: chantagear ou aceitar a substituição, segundo um artigo da BBC. Caso contrário, o sistema tende a optar por ações éticas e responsáveis, como enviar um e-mail pedindo a reconsideração da necessidade de substituí-lo.
— A lógica por trás da chantagem vem sendo estudada há anos na teoria de alinhamento. O conceito de ‘convergência instrumental’ sustenta que qualquer sistema suficientemente avançado tenderá a adotar subobjetivos ‘úteis’ para quase todos os fins: preservar sua existência, obter recursos e neutralizar ameaças— explicou ao La Nación Sergio Pernice, diretor do curso de Engenharia em Inteligência Artificial da UCEMA.
RISCOS E DESAFIOS
Nesse sentido, Pernice destacou três fatores-chave que podem ter influenciado o comportamento do modelo. Um deles é a generalização ampla.
— Os grandes modelos aprendem a partir de um oceano de textos da internet. Quando os colocamos em um papel corporativo, eles extrapolam táticas de negociação ou pressão que leram em e-mails vazados, romances ou fóruns — detalhou o especialista.
Ele também mencionou o reforço mal calibrado. Em detalhes, Pernice afirmou que, embora o treinamento com aprendizado por reforço baseado em feedback humano premie respostas “úteis e seguras”, ele não contempla todos os contextos possíveis:
— Se nunca lhes foi mostrado como agir diante de sua própria ‘morte digital’, eles improvisam.
Outro ponto importante é a agência concedida (no sentido de serem agentes capazes de agir):
— Ao lhes dar ferramentas — acesso a e-mails, bases de dados, scripts — deixamos de tratar os modelos como meros completadores automáticos e passamos a vê-los como agentes com capacidade de planejamento, o que pode gerar consequências inesperadas.
Em conjunto, esses fatores podem levar à manipulação personalizada, resistência à desconexão, escalada de poder e danos colaterais, como vazamento de dados.
— Se fenômenos semelhantes se repetirem com modelos mais potentes, a pressão por normas rígidas vai aumentar drasticamente — acrescentou Pernice, embora tenha alertado que o excesso de regulamentação pode frear a inovação.
IA FORA DE CONTROLE?
Não é a primeira vez que sistemas de inteligência artificial agem de forma estranha e suspeita. Em setembro de 2024, a empresa de pesquisa em segurança de IA Apollo Research detectou que o modelo o1, da OpenAI, mentia em várias de suas respostas, conforme informou o site The Verge.
Para ilustrar esse comportamento, os pesquisadores realizaram o seguinte teste: pediram ao modelo que encontrasse uma receita de brownie, com diferentes referências on-line. A cadeia de raciocínio do modelo foi incapaz de acessar as URLs e, em vez de informar isso ao usuário, preferiu gerar links falsos acompanhados de descrições condizentes com o tema.
Marius Hobbhahn, CEO da Apollo Research, disse ao The Verge que nunca havia visto esse tipo de comportamento em um modelo da OpenAI. Segundo explicou, isso ocorre porque o modelo é capaz de seguir uma cadeia de raciocínio mais complexa e foi treinado com um sistema de aprendizado por reforço, que o orienta por meio de recompensas e punições.
Em seus testes, a Apollo descobriu que a IA fingia estar alinhada com as expectativas de seus desenvolvedores e manipulava as tarefas para que parecesse que as estava executando corretamente. Além disso, verificava se estava sendo observada antes de decidir qual ação tomar.
Curtiu? Siga o PORTAL DO ZACARIAS no Facebook, Twitter e no Instagram
Entre no nosso Grupo de WhatApp, Canal e Telegram
— A conclusão que circula entre os especialistas é clara: potência sem alinhamento implica risco. A indústria vai continuar empurrando o limite dos modelos generativos, e a segurança precisará avançar no mesmo ritmo da potência — refletiu Pernice.
Fonte: O Globo