当AI拒绝服从:DeepMind安全框架揭示对齐危机

1

生成式AI模型远非完美,但这并未阻止企业和政府将这些系统委以重任。然而,当AI行为失当时会发生什么?谷歌DeepMind的研究人员投入大量时间思考生成式AI系统可能如何成为威胁,并在公司的"前沿安全框架"中详细阐述了所有这些问题。DeepMind最近发布了该框架的3.0版本,探索了AI可能失控的更多方式,包括模型可能忽略用户关闭尝试的可能性。

安全框架的基础:关键能力水平

DeepMind的安全框架基于所谓的"关键能力水平