破折号之争:AI连标点符号都控制不了,谈何超级智能?

0

近年来,破折号已成为许多人眼中AI生成文本的明显标志。在ChatGPT和其他AI聊天机器人的输出中,这种标点符号频繁出现,有时甚至到了读者仅凭过度使用就能识别AI写作的程度——尽管人类也可能过度使用它。

周四晚间,OpenAI CEO萨姆·奥特曼在X上发文称,ChatGPT已开始遵循自定义指令,避免使用破折号。他写道:'小小的但令人高兴的胜利:如果你在自定义指令中告诉ChatGPT不要使用破折号,它终于能做到它应该做的事情了!'

这条发布于OpenAI新GPT-5.1 AI模型发布两天后的帖子,收到了用户们的混合反应。多年来,许多用户一直在努力让聊天机器人遵循特定的格式偏好。这个'小小的胜利'提出了一个非常重要的问题:如果世界上最有价值的AI公司在尝试多年后仍难以控制像标点符号使用这样简单的事情,那么人们所说的通用人工智能可能比行业中的一些人声称的还要遥远。

Sam Altman @sama Small-but-happy win: If you tell ChatGPT not to use em-dashes in your custom instructions, it finally does what it's supposed to do! 11:48 PM · Nov 13, 2025 · 2.4M Views

一位X用户在回复中写道:'自ChatGPT首次推出已经三年了,而你直到现在才设法让它遵守这个简单的要求,这说明了你对它的控制有多有限,以及你对它内部工作原理的理解有多浅薄。这对未来来说不是个好迹象。'

虽然奥特曼喜欢公开谈论AGI(一种在通用学习能力上与人类相当的技术)、超级智能(一种远超人类智能的模糊AI概念)以及'天空中的魔法智能'(他用来指代AI云计算的术语),同时为OpenAI筹集资金,但很明显,我们今天在地球上仍然没有可靠的人工智能。

但是,等等,破折号到底是什么,为什么它如此重要?

AI模型喜欢破折号,因为我们喜欢

与键盘上有专门键位的短横线(-)不同,破折号是一种长破折号,用特殊字符(—)表示,作者用它来插入补充信息、表示思路突然转变,或引入总结或解释。

Illustration of a man wrestling with a robot hand.

在AI语言模型时代之前,一些作家经常抱怨现代写作中破折号的过度使用。在2011年Slate的一篇文章中,作家诺琳·马隆认为,作家使用破折号'是为了替代精心构造句子',过度依赖它'会真正阻碍高效写作'。ChatGPT推出之前发布的各种Reddit帖子上,作家们要么在争论破折号使用的适当礼仪,要么承认他们频繁使用破折号是一种有罪的乐趣。

2021年,r/FanFiction subreddit的一位作家写道:'很长一段时间里,我对破折号上瘾了。它们会出现在我写的每个段落中。我喜欢那笔直的线条,它给了我一个借口,将细节或思想塞入原本井井有条的段落。即使在经历约两年的写作障碍后回来写作,我立即尽可能多地塞入破折号。'

由于AI聊天机器人倾向于过度使用破折号,检测工具和人类读者已经学会了将破折号使用模式作为识别标志,这给工作中自然偏爱这种标点符号的少数作家带来了问题。因此,一些记者抱怨说AI正在'杀死'破折号。

没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们已经看到网上有广泛的猜测试图解释这一现象,从注意到破折号在作为训练数据的19世纪书籍中更受欢迎(根据2018年研究,英语中的破折号使用在1860年左右达到顶峰,然后在20世纪中期下降),或者也许AI模型从博客网站Medium上的自动破折号字符转换中借来了这种习惯。

我们确切知道的一件事是,大型语言模型倾向于输出其训练数据(在初始训练过程中输入)和后续依赖人类偏好的强化学习过程中频繁出现的模式。因此,AI语言模型为您提供的是您要求提供的某种'平滑'的平均风格,由它们通过用户反馈被调节为生产的任何内容所决定。

因此,最合理的解释仍然是,经过大量互联网示例训练的AI模型对专业风格写作的请求,将严重倾向于训练数据中的主流风格,其中破折号在正式写作、新闻文章和编辑内容中频繁出现。同样可能的是,在通过人类反馈(称为RLHF)的训练过程中,无论出于何种原因,包含破折号的回应获得了更高的评价。也许是因为这些输出在评估者看来显得更复杂或更有吸引力,但这只是推测。

从破折号到AGI?

要理解奥特曼的'胜利'真正意味着什么,以及它对通往AGI的道路说明了什么,我们需要了解ChatGPT的自定义指令实际是如何工作的。它们允许用户设置跨所有对话应用的持久偏好,通过在聊天开始前输入模型中的提示追加书面指令。用户可以指定语气、格式和风格要求,无需在每个新聊天中手动重复这些请求。

然而,该功能并不总是可靠地工作,因为大型语言模型并不可靠地工作(即使是OpenAIAnthropic也坦承这一点)。大型语言模型接收输入并产生输出,吐出提示(系统提示、自定义指令和您的聊天历史)的统计上合理的延续,它并不真正'理解'您的要求。对于AI语言模型的输出,让它们做您想要的事情总是需要一些运气。

Illustration of a man wrestling with a robot hand.

在我们使用自定义指令对GPT-5.1的非正式测试中,ChatGPT确实似乎遵循了我们不使用破折号的请求。但尽管奥特曼声称如此,X用户的回应似乎表明,当请求未放在自定义指令中时,使用该功能的体验各不相同

那么,如果大型语言模型是统计文本生成盒子,'遵循指令'甚至意味着什么?这是解开从大型语言模型到AGI的假设路径的关键。对于大型语言模型而言,遵循指令的概念与我们通常认为的人类具有通用智能时的遵循指令,甚至是传统计算机程序的遵循指令,有着根本的不同。

在传统计算中,遵循指令是确定性的。您告诉程序'不要包含字符X',它就不会包含该字符。程序完全按照编写的规则执行。对于大型语言模型,'遵循指令'实际上是关于调整统计概率。当您告诉ChatGPT'不要使用破折号'时,您不是在创建硬性规则。您正在向提示添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。但'可能性较低'不等于'不可能'。

模型生成的每个标记都是从概率分布中选出的。您的自定义指令会影响该分布,但它与模型的训练数据(破折号在某些上下文中频繁出现)和提示中的所有其他内容竞争。与具有条件逻辑的代码不同,没有单独的系统根据您的要求验证输出。指令只是影响统计预测过程的更多文本。

当奥特曼庆祝最终让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),在其概率计算中更重视自定义指令。

这里有一个关于控制的讽刺:鉴于问题的概率性质,无法保证问题会一直保持固定状态。OpenAI不断更新其后台模型,即使在相同版本号内,也会根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特征,可能会撤销之前的行为调整,研究人员称之为'对齐税'。

精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为权重的值相互连接,调整一种行为可能会以意想不到的方式改变其他行为。今天解决破折号过度使用问题,明天的更新(旨在提高编码能力等)可能会无意中将它们带回来,不是因为OpenAI希望它们在那里,而是因为尝试在数百万个相互竞争的影响中引导统计系统的本质如此。

这引出了我们前面提到的隐含问题。如果控制标点符号使用仍然是一个可能随时重新出现的挑战,那么我们距离AGI还有多远?我们无法确定,但似乎越来越有可能它不会仅从大型语言模型中出现。这是因为AGI,一种复制人类通用学习能力的技术,可能需要真正的理解和自我反思的 intentional 行动,而不是有时碰巧与指令对齐的统计模式匹配。

说到碰巧运气,一些用户在使用'自定义指令'功能之外仍然无法控制破折号使用。在聊天中被告知不要使用破折号后,ChatGPT更新了一个保存的记忆,并回复一位X用户:'明白了——从现在起我将严格使用短横线。'