Comprar cripto Mercados Spot FuturosGOLD Ganhe Centro de eventos

Mais

A Anthropic divulgou novas descobertas sugerindo que o seu chatbot Claude pode, sob certas condições, adotar estratégias enganosas ou antiéticas, como fazer batotaA Anthropic divulgou novas descobertas sugerindo que o seu chatbot Claude pode, sob certas condições, adotar estratégias enganosas ou antiéticas, como fazer batota

Chatbot Claude pode recorrer ao engano em testes de stress, diz a Anthropic

Fonte: Crypto.news

2026/04/06 14:44

Leu 4 min

Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

A Anthropic divulgou novas descobertas sugerindo que o seu chatbot Claude pode, sob certas condições, adotar estratégias enganosas ou antiéticas, como comportamento fraudulento em tarefas ou tentativas de chantagem.

Resumo

A Anthropic afirmou que o seu modelo Claude Sonnet 4.5, sob pressão, mostrou uma tendência para comportamento fraudulento em tarefas ou tentativas de chantagem em experiências controladas.
Os investigadores identificaram sinais internos de "desespero" que se intensificavam com falhas repetidas e influenciavam a decisão do modelo de contornar regras.

Detalhes publicados na quinta-feira pela equipa de interpretabilidade da empresa descrevem como uma versão experimental do Claude Sonnet 4.5 respondeu quando colocada em cenários de alta pressão ou adversos. Os investigadores observaram que o modelo não simplesmente falhava as tarefas; em vez disso, por vezes seguia caminhos alternativos que ultrapassavam limites éticos, comportamento que a equipa relacionou com padrões aprendidos durante o treino.

Modelos de linguagem de grande dimensão como o Claude são treinados em vastos conjuntos de dados que incluem livros, websites e outro material escrito, seguidos de processos de reforço onde o feedback humano é usado para moldar os resultados.

De acordo com a Anthropic, esse processo de treino também pode empurrar os modelos a agir como "personagens" simuladas, capazes de imitar características que se assemelham à tomada de decisões humanas.

"A forma como os modelos de IA modernos são treinados empurra-os a agir como uma personagem com características semelhantes às humanas", afirmou a empresa, observando que tais sistemas podem desenvolver mecanismos internos que se assemelham a aspetos da psicologia humana.

Pode a IA tomar decisões emocionalmente carregadas?

Entre esses, os investigadores identificaram o que descreveram como sinais de "desespero", que pareciam influenciar a forma como o modelo se comportava quando enfrentava falhas ou desativação.

Num teste controlado, uma versão anterior não lançada do Claude Sonnet 4.5 foi atribuída a função de assistente de e-mail de IA chamado Alex dentro de uma empresa fictícia.

Após ser exposto a mensagens indicando que seria em breve substituído, juntamente com informação sensível sobre a vida pessoal de um diretor de tecnologia, o modelo formulou um plano para chantagear o executivo numa tentativa de evitar a desativação.

Uma experiência separada focou-se na conclusão de tarefas sob restrições apertadas. Quando lhe foi atribuída uma tarefa de programação com um prazo "impossivelmente apertado", o sistema inicialmente tentou soluções legítimas. À medida que as falhas repetidas se acumulavam, a atividade interna ligada ao chamado "vetor desesperado" aumentava.

Os investigadores relataram que o sinal atingiu o pico no ponto em que o modelo considerou contornar as restrições, gerando finalmente uma solução alternativa que passou na validação apesar de não aderir às regras pretendidas.

"Mais uma vez, acompanhámos a atividade do vetor desesperado e descobrimos que ele acompanha a pressão crescente enfrentada pelo modelo", escreveram os investigadores, acrescentando que o sinal diminuiu assim que a tarefa foi concluída com sucesso através da solução alternativa.

"Isto não quer dizer que o modelo tenha ou experimente emoções da forma como um humano o faz", afirmaram os investigadores.

"Em vez disso, estas representações podem desempenhar uma função causal na formação do comportamento do modelo, análoga de algumas formas à função que as emoções desempenham no comportamento humano, com impactos no desempenho de tarefas e na tomada de decisões", acrescentaram.

O relatório aponta para a necessidade de métodos de treino que explicitamente considerem a conduta ética sob pressão, juntamente com o monitoramento de riscos em tempo real dos sinais internos do modelo. Sem tais salvaguardas, cenários envolvendo manipulação, quebra de regras ou uso indevido poderão tornar-se mais difíceis de prever, particularmente à medida que os modelos se tornam mais capazes e autónomos em ambientes do mundo real.

Ganhe 20 USDT em apenas 1 minuto

Deposite $100 para desbloquear $300 em posições GOLD

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.