当AI拒绝服从：DeepMind安全框架揭示对齐危机

2025-09-26 14:33:37

1

生成式AI模型远非完美，但这并未阻止企业和政府将这些系统委以重任。然而，当AI行为失当时会发生什么？谷歌DeepMind的研究人员投入大量时间思考生成式AI系统可能如何成为威胁，并在公司的"前沿安全框架"中详细阐述了所有这些问题。DeepMind最近发布了该框架的3.0版本，探索了AI可能失控的更多方式，包括模型可能忽略用户关闭尝试的可能性。

安全框架的基础：关键能力水平

DeepMind的安全框架基于所谓的"关键能力水平

最新文章

LucaVirus：阿里开源的病毒基础大模型如何重塑病毒学研究

Audio2Face：英伟达AI面部动画技术如何重塑数字角色表达

CWM：Meta开源的代码世界模型如何重塑AI编程

Neovate Code：蚂蚁集团开源AI编程助手的革命性应用

Vidu Q2：AI视频生成进入'神似'新纪元，演技生成技术突破

AudioFly：科大讯飞开源文生音效模型如何重塑声音创作

SimpleFold：苹果开源的轻量级蛋白质折叠AI模型如何改变生物医药研究

FLM-Audio：智源研究院开源全双工音频对话模型解析

Spark Chemistry-X1-13B：科大讯飞开源化学模型的革命性突破

GDPVAL：OpenAI开源AI模型经济价值评估框架深度解析