在人工智能领域,我们常常被宏大的愿景所吸引:通用人工智能(AGI)、超级智能、甚至在云端运行的'魔法智能'。然而,OpenAI CEO Sam Altman最近一则看似微不足道的帖子却揭示了AI发展道路上的一个重要现实——控制AI系统使用破折号这样的基本标点符号,竟然需要三年时间才取得突破性进展。
从破折号看AI的本质局限
Altman在X平台上的帖子写道:'小但令人高兴的胜利:如果你在自定义指令中告诉ChatGPT不要使用破折号,它终于会按预期行事!'这一'胜利'引发了广泛讨论,因为它触及了AI系统最根本的局限性——即使是最简单的指令,AI也可能难以可靠地遵循。

一位X用户在回复中写道:'自ChatGPT首次发布已经三年了,你刚刚才设法让它遵守这个简单的要求,这说明了你对它的控制力有多小,以及对其内部工作原理的理解有多浅。这对未来来说不是好迹象。'
破折号:AI文本的'指纹'
过去几年,破折号已成为许多人认为的AI生成文本的明显标志。这种标点符号在ChatGPT和其他AI聊天机器人的输出中频繁出现,有时甚至到了读者仅凭过度使用就能识别AI写作的程度——尽管人类也可能过度使用它。
与键盘上 dedicated 键的短连字符(-)不同,破折号(—)是一种长破折号,作家用它来插入补充信息、表示思路突然转变或引入总结或解释。在AI语言模型出现之前,一些作家就已经经常哀叹现代写作中破折号的过度使用。
为什么AI如此钟爱破折号?
没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们已经看到了各种在线推测试图解释这一现象,从注意到19世纪书籍(用作训练数据)中破折号更受欢迎(根据2018年的一项研究,英语中破折号的使用在1860年左右达到顶峰,然后在20世纪中叶逐渐下降),到AI模型可能从博客平台Medium的自动破折号字符转换中借用了这一习惯。
我们确切知道的是,LLM倾向于在其训练数据(在初始训练过程中提供)和后续通常依赖人类偏好的强化学习过程中频繁输出的模式。因此,AI语言模型提供的是你所要求的某种'平滑'的平均风格,由它们通过用户反馈被调节为产生的任何内容所 moderate。
从概率指令到确定性遵循
要理解Altman的'胜利'真正意味着什么,以及它对通往AGI的道路说明了什么,我们需要了解ChatGPT的自定义指令实际上是如何工作的。它们允许用户设置跨所有对话应用的持久偏好,通过在聊天开始前馈入模型的提示中附加书面指令来实现。用户可以指定语调、格式和风格要求,而无需在每个新聊天中手动重复这些请求。
然而,该功能并不总是可靠地工作,因为LLM并不总是可靠地工作(即使是OpenAI和Anthropic也坦然承认这一点)。LLM接受输入并产生输出,吐出提示(系统提示、自定义指令和你的聊天历史)的统计上合理的延续,它并不真正'理解'你在要求什么。对于AI语言模型的输出,让它们做你想做的事情总是需要一些运气。
概率而非确定性
在传统计算中,指令遵循是确定性的。你告诉程序'不要包含字符X',它就不会包含该字符。程序完全按照编写的规则执行。对于LLM,'指令遵循'实际上是关于转移统计概率。当你告诉ChatGPT'不要使用破折号'时,你并没有创建硬性规则。你是在向提示中添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。但'可能性较低'并不等同于'不可能'。
模型生成的每个标记都是从概率分布中选择的。你的自定义指令会影响该分布,但它与模型的训练数据(其中破折号在某些上下文中频繁出现)和提示中的其他内容相竞争。与带有条件逻辑的代码不同,没有单独的系统验证输出是否符合你的要求。指令只是更多影响统计预测过程的文本。
当Altman庆祝最终让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),使其在概率计算中更加重视自定义指令。
控制的悖论:对齐税
这里存在一个关于控制的悖论:鉴于问题的概率性质,无法保证问题会一直保持固定状态。OpenAI在幕后不断更新其模型,即使在同一版本号内,也会根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特性,可能会撤销之前的行为调整,研究人员称之为'对齐税'。
精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都称为权重的值相互连接,调整一种行为可能会以意想不到的方式改变其他行为。今天修复破折号过度使用,明天的更新(旨在提高编码能力等)可能会不经意地将它们带回,这并非因为OpenAI希望它们在那里,而是因为试图在数百万个相互竞争的影响下引导统计系统的本质。
从破折号到AGI:还有多远?
这引出了我们之前提到的一个隐含问题。如果控制标点符号使用仍然是一个可能随时重新出现的挑战,那么我们离AGI还有多远?我们无法确定,但似乎越来越有可能它不会单独从大型语言模型中 emerge。这是因为AGI,一种复制人类一般学习能力的技术,可能需要真正的理解和自我反思的 intentional 行动,而不是有时碰巧与指令一致的统计模式匹配。
Altman喜欢公开谈论AGI(一种在一般学习能力上与人类相当的理论技术)、超级智能(一个远超人类智力的模糊AI概念)和'天空中的魔法智能'(他指AI云计算?)同时为OpenAI筹集资金,但很明显,我们今天在地球上还没有可靠的人工智能。
AI发展的现实路径
破折号之争揭示了AI系统的一个根本性限制:它们不是通过理解来遵循指令,而是通过概率调整。这意味着即使是最简单的指令,也可能因为模型训练数据中的模式、提示中的其他内容或模型内部的复杂权重分布而失败。
这种限制对AGI的实现意味着什么?如果连控制标点符号使用都如此困难,那么实现真正理解、推理和自我意识的系统可能需要根本不同的方法。当前的LLM架构,无论规模多大,可能都存在固有的局限性,这些局限性无法仅通过扩大规模或增加数据来解决。
重新思考AI的发展方向
破折号之争也促使我们重新思考AI的发展方向。如果行业领导者对基本指令遵循的困难如此自豪,那么我们对AI能力的期望是否过于乐观?也许我们需要更加务实,专注于开发能够在特定领域可靠工作的系统,而不是追求可能永远无法实现的通用智能。
同时,这一案例也提醒我们,AI系统的行为往往是不可预测的,即使是开发者也难以完全控制。这种不确定性对于依赖AI的决策和自动化应用具有重要意义,需要谨慎处理。
结论:超越宏大的愿景
Sam Altman关于破折号的'小胜利'实际上是一个重要的提醒:AI发展道路上的挑战比许多人承认的要复杂得多。即使是看似简单的任务,如控制标点符号使用,也可能暴露出当前AI系统的根本局限性。
这一案例促使我们重新评估行业对AGI时间表的乐观预测,并质疑当前AI发展路径的有效性。真正的通用人工智能可能需要比大型语言模型更根本性的突破,需要新的架构和原理,这些我们甚至可能还没有开始探索。
在追求AI的宏大愿景的同时,我们也需要关注基础能力的可靠性和可控性。只有这样,我们才能确保AI技术的发展真正服务于人类的需求,而不是被其自身的局限性所阻碍。









