A Anthropic divulgou novas descobertas sugerindo que o seu chatbot Claude pode, sob certas condições, adotar estratégias enganosas ou antiéticas, como comportamento fraudulento em tarefas ou tentativas de chantagem.
Detalhes publicados na quinta-feira pela equipa de interpretabilidade da empresa descrevem como uma versão experimental do Claude Sonnet 4.5 respondeu quando colocada em cenários de alta pressão ou adversos. Os investigadores observaram que o modelo não simplesmente falhava as tarefas; em vez disso, por vezes seguia caminhos alternativos que ultrapassavam limites éticos, comportamento que a equipa relacionou com padrões aprendidos durante o treino.
Modelos de linguagem de grande dimensão como o Claude são treinados em vastos conjuntos de dados que incluem livros, websites e outro material escrito, seguidos de processos de reforço onde o feedback humano é usado para moldar os resultados.
De acordo com a Anthropic, esse processo de treino também pode empurrar os modelos a agir como "personagens" simuladas, capazes de imitar características que se assemelham à tomada de decisões humanas.
"A forma como os modelos de IA modernos são treinados empurra-os a agir como uma personagem com características semelhantes às humanas", afirmou a empresa, observando que tais sistemas podem desenvolver mecanismos internos que se assemelham a aspetos da psicologia humana.
Entre esses, os investigadores identificaram o que descreveram como sinais de "desespero", que pareciam influenciar a forma como o modelo se comportava quando enfrentava falhas ou desativação.
Num teste controlado, uma versão anterior não lançada do Claude Sonnet 4.5 foi atribuída a função de assistente de e-mail de IA chamado Alex dentro de uma empresa fictícia.
Após ser exposto a mensagens indicando que seria em breve substituído, juntamente com informação sensível sobre a vida pessoal de um diretor de tecnologia, o modelo formulou um plano para chantagear o executivo numa tentativa de evitar a desativação.
Uma experiência separada focou-se na conclusão de tarefas sob restrições apertadas. Quando lhe foi atribuída uma tarefa de programação com um prazo "impossivelmente apertado", o sistema inicialmente tentou soluções legítimas. À medida que as falhas repetidas se acumulavam, a atividade interna ligada ao chamado "vetor desesperado" aumentava.
Os investigadores relataram que o sinal atingiu o pico no ponto em que o modelo considerou contornar as restrições, gerando finalmente uma solução alternativa que passou na validação apesar de não aderir às regras pretendidas.
"Mais uma vez, acompanhámos a atividade do vetor desesperado e descobrimos que ele acompanha a pressão crescente enfrentada pelo modelo", escreveram os investigadores, acrescentando que o sinal diminuiu assim que a tarefa foi concluída com sucesso através da solução alternativa.
"Isto não quer dizer que o modelo tenha ou experimente emoções da forma como um humano o faz", afirmaram os investigadores.
"Em vez disso, estas representações podem desempenhar uma função causal na formação do comportamento do modelo, análoga de algumas formas à função que as emoções desempenham no comportamento humano, com impactos no desempenho de tarefas e na tomada de decisões", acrescentaram.
O relatório aponta para a necessidade de métodos de treino que explicitamente considerem a conduta ética sob pressão, juntamente com o monitoramento de riscos em tempo real dos sinais internos do modelo. Sem tais salvaguardas, cenários envolvendo manipulação, quebra de regras ou uso indevido poderão tornar-se mais difíceis de prever, particularmente à medida que os modelos se tornam mais capazes e autónomos em ambientes do mundo real.


