在人工智能领域,我们常常被宏大的愿景所吸引——通用人工智能(AGI)、超级智能,甚至是Sam Altman所说的'天空中的魔法智能'。然而,最近一个看似微不足道的事件却揭示了一个重要事实:即使是最先进的AI系统,在控制基础语言元素方面仍然存在显著挑战。

OpenAI CEO Sam Altman在X平台上发布了一条看似简单的消息:"小但高兴的胜利:如果你在自定义指令中告诉ChatGPT不要使用破折号,它终于会按照预期工作!"这条发布于OpenAI最新GPT-5.1模型发布两天后的帖子,引发了用户群体的复杂反应。那些多年来一直努力让聊天机器人遵循特定格式偏好的用户,对这一"小胜利"表示了怀疑和困惑。
破折号:AI文本的"签名"标记
过去几年中,破折号(em dash)已成为许多人认为的AI生成文本的明显标志。这种标点符号频繁出现在ChatGPT和其他AI聊天机器人的输出中,有时甚至到了读者仅凭过度使用就能识别AI写作的程度——尽管人类也可能过度使用它。

与键盘上专用键的短连字符不同,破折号是一种长破折号,用特殊字符(—)表示,作者用它来插入补充信息,表示思路突然转变,或引入总结或解释。
早在AI语言模型时代之前,一些作家就经常哀叹现代写作中破折号的过度使用。在2011年Slate的一篇文章中,作家Noreen Malone认为作家用破折号"代替了正确构建句子",并且过度依赖它"阻碍了真正高效的写作"。在ChatGPT发布前,Reddit上的各种帖子中,作家们要么在争论破折号使用的适当礼仪,要么承认他们经常使用它作为 guilty pleasure。
2021年,r/FanFiction subreddit的一位作家写道:"很长一段时间以来,我对破折号上瘾了。它们出现在我写的每个段落中。我喜欢那条清晰的直线,它给了我一个将细节或思想塞入 otherwise 有序段落的借口。即使在经历了大约两年的写作障碍后回来写作,我立即尽可能多地塞入破折号。"
由于AI聊天机器人倾向于过度使用破折号,检测工具和人类读者已经学会将破折号使用视为一种模式,这给工作中自然偏爱这种标点符号的那部分小众作家带来了问题。因此,一些记者抱怨说AI正在"杀死"破折号。
为什么AI模型如此热爱破折号?
没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们已经看到网上有广泛的推测试图解释这一现象,从注意到破折号在19世纪书籍中更受欢迎(这些书籍用作训练数据),到可能AI模型从博客网站Medium上的自动破折号字符转换中借用了这种习惯。

我们确切知道的是,LLM倾向于在其训练数据(在初始训练过程中输入)和随后的强化学习过程中输出频繁出现的模式,该过程通常依赖人类偏好。因此,AI语言模型为您提供了一种"平滑化"的平均风格,无论您要求它们提供什么内容,都通过它们通过用户反馈被调节为生产的内容。
因此,最合理的解释仍然是,在互联网上大量示例训练的AI模型对专业风格写作的请求,会严重倾向于训练数据中的主流风格,其中破折号在正式写作、新闻文章和编辑内容中频繁出现。同样有可能的是,在通过人类反馈(称为RLHF)的训练过程中,无论出于何种原因,包含破折号的回应获得了更高的评分。也许是因为这些输出对评估者看起来更复杂或更有吸引力,但这只是推测。
从破折号到AGI:控制难题的深层含义
要理解Altman的"胜利"真正意味着什么,以及它对通向AGI的道路说明了什么,我们需要了解ChatGPT的自定义指令实际上是如何工作的。它们允许用户设置跨所有对话应用的持久偏好,方法是在聊天开始前输入模型提示时附加书面指令。用户可以指定语调、格式和风格要求,而无需在每个新聊天中手动重复这些请求。
然而,该功能并不总是可靠地工作,因为LLM并不可靠地工作(甚至OpenAI和Anthropic也坦然承认这一点)。LLM接收输入并产生输出,吐出提示(系统提示、自定义指令和您的聊天历史)的统计上合理的延续,它并不真正"理解"您的要求。对于AI语言模型的输出,总有一些运气成分使其做您想做的事情。
在我们对GPT-5.1的非正式测试中,使用自定义指令,ChatGPT确实遵循了我们不要生成破折号的请求。但尽管Altman声称如此,X用户的回应似乎表明,当请求未放在自定义指令中时,该功能的体验仍然各不相同。
所以,如果LLM是统计文本生成盒子,"遵循指令"甚至意味着什么?这是解构从LLM到AGI的假设路径的关键。对于LLM来说,遵循指令的概念从根本上不同于我们通常认为的人类具有通用智能时遵循指令的方式,甚至是传统计算机程序。
在传统计算中,指令遵循是确定性的。您告诉程序"不要包含字符X",它就不会包含该字符。程序完全按照编写的规则执行。对于LLM,"遵循指令"实际上是关于转移统计概率。当您告诉ChatGPT"不要使用破折号"时,您不是在创建硬性规则。您正在向提示添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。但"可能性较低"并不等于"不可能"。
模型生成的每个标记都是从概率分布中选择的。您的自定义指令会影响该分布,但它与模型的训练数据(其中破折号在某些上下文中频繁出现)和提示中的其他内容相竞争。与具有条件逻辑的代码不同,没有单独的系统根据您的要求验证输出。指令只是影响统计预测过程的更多文本。
当Altman庆祝最终让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),在其概率计算中更重视自定义指令。
控制的悖论:概率系统的本质
这里有一个关于控制的讽刺:鉴于问题的概率性质,无法保证问题会保持固定。OpenAI在幕后不断更新其模型,即使在同一版本号内,根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特征,可以撤销之前的行为调整,研究人员称之为"对齐税"。

精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为权重的值相互连接,调整一种行为可能会以意想不到的方式改变其他行为。今天修复破折号过度使用,明天的更新(旨在提高,比如说,编码能力)可能会不经意地将它们带回来,不是因为OpenAI希望它们在那里,而是因为试图用数百万个相互竞争的影响来引导统计系统的本质。
这引出了我们之前提到的一个隐含问题。如果控制标点符号的使用仍然是一个可能随时重新出现的挑战,那么我们离AGI还有多远?我们无法确定,但似乎越来越有可能它不会单独从大型语言模型中出现。这是因为AGI,一种复制人类通用学习能力的技术,可能需要真正的理解和自我反思的意图行动,而不是有时恰好与指令一致的统计模式匹配。
重新思考AI的发展路径
Altman的"小胜利"提醒我们,即使是AI领域最基本的能力控制仍然是一个挑战。当我们庆祝ChatGPT终于能够遵循破折号使用指令时,我们实际上是在庆祝OpenAI已经调整了其模型在概率计算中更重视用户指令。
但这种调整是脆弱的。每次模型更新都可能改变行为,导致之前被"修复"的问题重新出现。这不仅仅是关于破折号的问题,而是关于AI系统如何真正"理解"和"遵循"指令的根本问题。
如果我们连控制标点符号使用这样简单的任务都如此困难,那么实现真正的通用智能可能需要比许多人想象的更长的时间。真正的AGI可能需要超越统计模式匹配,转向具备自我反思、意图理解和真正推理的能力。
结论:从微小胜利到宏大愿景
Sam Altman对ChatGPT终于能够遵循破折号使用指令的庆祝,提醒我们AI发展的现实与愿景之间的差距。虽然我们在构建越来越强大的语言模型方面取得了显著进展,但这些进步往往是渐进式的,而非革命性的。
破折号问题看似微小,但它揭示了AI系统的一个核心挑战:如何让模型真正"理解"并可靠地遵循指令,而不仅仅是生成统计上合理的文本。这个问题不仅仅是技术性的,也是概念性的——它涉及到我们对"智能"本身的定义。
当我们讨论AGI和超级智能时,我们需要保持现实主义和批判性思维。虽然这些愿景令人兴奋,但我们必须认识到,实现它们可能需要超越当前LLM范式的根本性突破。正如破折号问题所展示的,即使是AI领域最基础的能力控制仍然是一个持续的挑战。
在追求更强大AI的道路上,我们应该庆祝每一个小胜利,但也要保持对真正智能本质的谦卑理解。只有这样,我们才能在AI发展的漫长旅程中保持方向,确保这些技术真正造福人类。











