在人工智能发展的宏大叙事中,我们常常被引导着关注那些宏伟的目标——人工通用智能(AGI)、超级智能,甚至是Sam Altman所描述的'天空中的魔法智能'。然而,最近OpenAI CEO Sam Altman的一则帖子却揭示了一个令人深思的现实:即使是控制一个简单的标点符号——破折号(em dash)的使用,对于当今最先进的AI模型来说,仍然是一项需要'胜利'庆祝的成就。
破折号:AI文本的'指纹'
破折号(em dash)已成为近年来许多人认为AI生成文本的明显标志。这种标点符号在ChatGPT和其他AI聊天机器人的输出中频繁出现,有时到了读者仅凭过度使用就能识别AI写作的程度——尽管人类也可能过度使用它。

Altman在X(前Twitter)上发布消息称,ChatGPT已开始遵循自定义指令,避免使用破折号。他写道:'小但令人高兴的胜利:如果你在自定义指令中告诉ChatGPT不要使用破折号,它终于会按预期行事!'
这条帖子发布于OpenAI最新GPT-5.1 AI模型发布两天后,收到了用户的混合反应。那些多年来一直努力让聊天机器人遵循特定格式偏好的用户,对此反应不一。这个'小胜利'提出了一个很大的问题:如果世界上最宝贵的AI公司在多年尝试后,仍难以控制像标点符号使用这样简单的事情,那么人们所说的人工通用智能(AGI)可能比行业某些人声称的要遥远得多。

一位X用户在回复中写道:'自从ChatGPT首次推出已经三年了,你直到现在才设法让它遵守这个简单的要求,这说明了你对它的控制有多小,以及你对它内部工作原理的理解有多少。这对未来来说不是好迹象。'
破折号为何如此重要?
要理解Altman的'胜利'真正意味着什么,以及它对通向AGI的道路有何启示,我们需要首先了解什么是破折号,以及为什么它如此重要。
与连字符(hyphen)不同——连字符是用于连接单词或单词部分的短标点符号,键盘上有专用键(-)——破折号是一种长破折号,用特殊字符(—)表示,作者用它来插入补充信息、表示思路突然转变,或引入总结或解释。
在AI语言模型出现之前,一些作家就经常哀叹现代写作中破折号的过度使用。在2011年Slate的一篇文章中,作家Noreen Malone认为作家用破折号'代替正确构造句子',并且过度依赖它'阻碍了真正高效的写作'。ChatGPT发布前的各种Reddit帖子中,作家们要么在争论破折号使用的适当礼仪,要么承认他们频繁使用破折号是一种有罪快感。
2021年,r/FanFiction subreddit的一位作家写道:'很长一段时间以来,我对破折号上瘾了。它们会渗透到我写的每个段落中。我喜欢那条清晰的直线,它给了我借口将细节或想法塞入一个本来有序的段落。即使在写作障碍两年后回来写作,我立即塞入尽可能多的破折号。'
由于AI聊天机器人倾向于过度使用破折号,检测工具和人类读者已经学会将破折号使用作为一种模式来识别,这给那些自然在工作中偏爱这种标点符号的少数作家带来了问题。因此,一些记者抱怨说AI正在'杀死'破折号。
AI为何偏爱破折号?
没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们已经看到网上有广泛的推测试图解释这一现象,从注意到破折号在用作训练数据的19世纪书籍中更受欢迎(根据2018年的一项研究,英语中破折号的使用在1860年左右达到顶峰,然后在20世纪中期下降),或者也许AI模型从博客平台Medium上的自动破折号字符转换中借用了这种习惯。
我们确切知道的一件事是,LLM倾向于在其训练数据(在初始训练过程中输入)和随后的强化学习过程中输出频繁出现的模式,该过程通常依赖于人类偏好。因此,AI语言模型为您提供了一种'平滑化'的平均风格,无论您要求它们提供什么内容,都通过它们通过用户反馈被调节为产生的内容。
因此,最合理的解释仍然是,在互联网大量示例上训练的AI模型对专业风格写作的请求,会 heavily倾向于训练数据中的主流风格,其中破折号在正式写作、新闻文章和编辑内容中频繁出现。也有可能在通过人类反馈(称为RLHF)训练期间,无论出于何种原因,包含破折号的响应获得了更高的评分。也许是因为这些输出在评估者看来显得更复杂或引人入胜,但这只是推测。
从指令遵循到AGI的鸿沟
要理解Altman的'胜利'真正意味着什么,以及它对通向AGI的道路有何启示,我们需要了解ChatGPT的自定义指令实际上是如何工作的。它们允许用户设置跨所有对话应用的持久偏好,方法是将书面指令附加在聊天开始前输入模型的提示中。用户可以指定语调、格式和风格要求,而无需在每个新聊天中手动重复这些请求。
然而,该功能并不总是可靠地工作,因为LLM并不可靠地工作(即使OpenAI和Anthropic也 freely 承认这一点)。LLM接受输入并产生输出,吐出提示(系统提示、自定义指令和您的聊天历史)的统计上合理的延续,它并不真正'理解'您在要求什么。对于AI语言模型输出,总有一些运气成分在让它们做您想要的事情。
在我们的非正式测试中,使用自定义指令的GPT-5.1确实遵循了我们不产生破折号的请求。但尽管Altman声称如此,X用户的反应似乎表明,当请求未放在自定义指令中时,使用该功能的体验仍然各不相同。
所以,如果LLM是统计文本生成框,'指令遵循'甚至意味着什么?这是解开从LLM到AGI的假设路径的关键。对于LLM来说,遵循指令的概念从根本上不同于我们通常认为的具有通用智能的人类遵循指令的方式,甚至是传统的计算机程序。
在传统计算中,指令遵循是确定性的。您告诉程序'不要包含字符X',它就不会包含该字符。程序完全按照编写的规则执行。对于LLM,'指令遵循'实际上是关于转移统计概率。当您告诉ChatGPT'不要使用破折号'时,您不是在创建硬性规则。您正在向提示中添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。但'可能性降低'不等于'不可能'。
模型生成的每个标记都是从概率分布中选择的。您的自定义指令会影响该分布,但它与模型的训练数据(其中破折号在特定上下文中频繁出现)和提示中的所有其他内容竞争。与具有条件逻辑的代码不同,没有单独的系统根据您的要求验证输出。指令只是影响统计预测过程的更多文本。
当Altman庆祝最终让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),在概率计算中更重视自定义指令。
控制的悖论:概率与确定性
这里有一个关于控制的讽刺:鉴于问题的概率性质,无法保证问题会保持固定。OpenAI在幕后不断更新其模型,即使在同一版本号内,根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特征,可能会撤销先前的行为调整,研究人员称之为'对齐税(alignment tax)'。
精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为权重的值相互连接,调整一个行为可能会以意想不到的方式改变其他行为。今天解决破折号过度使用问题,明天的更新(旨在提高,比如说,编码能力)可能会无意中让它们回来,不是因为OpenAI希望它们在那里,而是因为试图在数百万个相互竞争的影响下引导统计系统的本质。
这引出了我们之前提到的一个隐含问题。如果控制标点符号使用仍然是一项可能随时重新出现的挑战,我们距离AGI还有多远?我们无法确定,但似乎越来越有可能它不会仅从大型语言模型中涌现。因为AGI是一种复制人类通用学习能力的技术,可能需要真正的理解和自我反思的意图行动,而不仅仅是统计模式匹配,有时恰好与指令一致。
超越LLM:AGI的真正挑战
当前AI模型在遵循简单指令方面的困难,揭示了从LLM到AGI可能需要跨越的认知鸿沟。AGI不仅需要能够生成连贯的文本,还需要真正的理解、推理、自我意识和适应能力。而目前的LLM,无论多么先进,本质上仍然是基于统计模式的文本生成器,它们没有真正的理解或意图。
Altman和OpenAI经常谈论AGI、超级智能和'天空中的魔法智能',但这些概念与当前AI技术的能力之间存在着巨大的差距。控制破折号使用的困难只是这一差距的一个缩影,它表明我们还有很长的路要走。
结论:重新审视AI发展的现实
Sam Altman关于ChatGPT终于能够遵循破折号使用规则的'小胜利',实际上是对当前AI技术局限性的一个坦诚承认。它提醒我们,即使是最先进的AI模型在处理看似简单的任务时仍然面临挑战,更不用说实现真正的通用智能了。
在追求AGI的宏伟叙事中,我们需要保持现实的期望,认识到当前技术的局限性,同时继续探索突破这些限制的新方法。也许,真正的AGI之路不在于更大的模型或更多的计算资源,而在于对智能本质的更深刻理解——理解什么是理解,什么是意图,什么是真正的认知。
正如一位用户所说:'如果你直到现在才设法让它遵守这个简单的要求,这说明了你对它的控制有多小,以及你对它内部工作原理的理解有多少。这对未来来说不是好迹象。'这可能是对当前AI发展状态最准确的评估之一。

在AI技术的快速发展中,我们需要保持批判性思维,既不过度乐观也不过度悲观。破折号的故事提醒我们,在追求人工智能的终极目标时,我们可能需要重新审视什么是真正的智能,以及我们如何衡量和实现它。









