破折号之争:AI标点符号控制揭示通用人工智能的遥远未来

0

在过去的几年里,破折号(em dash)已成为许多人认为的AI生成文本的明显标志。这种标点符号频繁出现在ChatGPT和其他AI聊天机器人的输出中,有时甚至到了读者仅凭过度使用就能识别AI写作的程度——尽管人类也可能过度使用它。

微小胜利背后的大问题

周四晚上,OpenAI CEO萨姆·奥特曼在X平台上发帖称,ChatGPT已开始遵循自定义指令以避免使用破折号。他写道:"小小的但令人高兴的胜利:如果你在自定义指令中告诉ChatGPT不要使用破折号,它终于会按照它应该做的去做!"

Sam Altman @sama Small-but-happy win: If you tell ChatGPT not to use em-dashes in your custom instructions, it finally does what it's supposed to do! 11:48 PM · Nov 13, 2025 · 2.4M Views

这条帖子发布于OpenAI新GPT-5.1 AI模型发布两天后,收到了用户的混合反应。这些用户多年来一直努力让聊天机器人遵循特定的格式偏好,而这一"小小的胜利"提出了一个非常大的问题:如果世界上最有价值的AI公司在尝试多年后仍难以控制像标点符号使用这样简单的事情,那么人们所说的人工智能通用智能(AGI)可能比行业某些人声称的还要遥远。

一位X用户在回复中写道:"自ChatGPT首次发布已经过去3年,而你直到现在才设法让它遵守这个简单的要求,这说明了你对它的控制力有多小,以及你对它内部工作原理的理解有多有限。这对未来来说不是一个好迹象。"

Illustration of a man wrestling with a robot hand.

破折号:AI为何钟爱这一标点符号

与键盘上专用键(-)连接单词或单词部分的短连字符不同,破折号(—)是一个长破折号,由特殊字符表示,作家用它来插入括号信息、表示思路突然转变或引入总结或解释。

早在AI语言模型时代之前,一些作家就经常哀叹现代写作中破折号的过度使用。在2011年Slate的一篇文章中,作家诺林·马隆认为作家用破折号"代替了正确构造句子",并且过度依赖它" discourages truly efficient writing"。ChatGPT发布前的各种Reddit版块上,作家们要么在争论破折号使用的礼仪,要么承认他们经常将其作为一种有罪的快乐。

Illustration of a man wrestling with a robot hand.

2021年,r/FanFiction版块的一位作家写道:"很长一段时间以来,我对破折号上瘾了。它们出现在我写的每个段落中。我喜欢那条清晰的直线,它给了我一个借口,将细节或想法塞入一个原本有序的段落。即使在经历了两年的写作障碍后回来写作,我仍然会尽可能多地塞入破折号。"

由于AI聊天机器人倾向于过度使用破折号,检测工具和人类读者已经学会将其作为一种模式来识别,这给工作中自然偏爱这一标点符号的少数作家带来了问题。因此,一些记者抱怨说AI正在"杀死"破折号。

LLM过度使用破折号的原因

没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们已经看到网上有广泛的猜测试图解释这一现象,从注意到破折号在用作训练数据的19世纪书籍中更受欢迎(根据2018年的一项研究,英语中的破折号使用在1860年左右达到顶峰,然后在20世纪中叶之前下降),或者也许AI模型从博客网站Medium上的自动破折号字符转换中借用了这一习惯。

我们确切知道的一件事是,LLM倾向于输出其训练数据(在初始训练过程中提供)和后续强化学习过程中经常依赖人类偏好的频繁出现的模式。因此,AI语言模型为您提供了一种"平滑化"的平均风格,无论您要求它们提供什么,由它们通过用户反馈被调节以产生的内容所调节。

所以最合理的解释仍然是,经过大量互联网示例训练的AI模型对专业风格写作的请求将严重倾向于训练数据中的主流风格,其中破折号在正式写作、新闻文章和编辑内容中频繁出现。也有可能在通过人类反馈(称为RLHF)训练期间,无论出于何种原因,带有破折号的响应获得了更高的评分。也许是因为这些输出对评估者来说看起来更复杂或更具吸引力,但这只是推测。

从破折号到AGI?

要理解奥特曼的"胜利"真正意味着什么,以及它对通往AGI的道路说明了什么,我们需要理解ChatGPT的自定义指令实际上是如何工作的。它们允许用户通过在聊天开始前输入到模型中的提示中附加书面指令来设置跨所有对话的持久偏好。用户可以指定语调、格式和风格要求,而无需在每个新聊天中手动重复这些请求。

然而,该功能并不总是可靠地工作,因为LLM并不可靠地工作(即使是OpenAI和Anthropic也自由承认这一点)。LLM接收输入并产生输出,吐出提示(系统提示、自定义指令和您的聊天历史)的统计上合理的延续,它并不真正"理解"您在要求什么。对于AI语言模型的输出,总是有一些运气成分让它们做您想做的事情。

Photo of Benj Edwards

在我们对GPT-5.1使用自定义指令的非正式测试中,ChatGPT确实似乎遵循了我们不要产生破折号的请求。但尽管有奥特曼的声明,X用户的回应似乎表明使用该功能的体验继续存在差异,至少当请求没有放在自定义指令中时是这样。

指令遵循的本质

所以如果LLM是统计文本生成框,"指令遵循"甚至意味着什么?这是解构从LLM到AGI的假设路径的关键。对于LLM来说,遵循指令的概念从根本上不同于我们通常思考作为具有通用智能的人类遵循指令的方式,甚至是传统计算机程序。

在传统计算中,指令遵循是确定性的。您告诉程序"不要包含字符X",它就不会包含该字符。程序完全按照编写的规则执行。对于LLM,"指令遵循"实际上是关于转移统计概率。当您告诉ChatGPT"不要使用破折号"时,您并没有创建硬性规则。您正在向提示中添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。但"可能性较低"并不等于"不可能"。

模型生成的每个标记都是从概率分布中选择的。您的自定义指令会影响该分布,但它与模型的训练数据(其中破折号在特定上下文中频繁出现)和提示中的所有其他内容竞争。与具有条件逻辑的代码不同,没有单独的系统验证输出是否符合您的要求。指令只是影响统计预测过程的更多文本。

当奥特曼庆祝最终让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),以在其概率计算中更重视自定义指令。

控制的悖论

这里有一个关于控制的讽刺:鉴于问题的概率性质,无法保证问题会保持固定。OpenAI在后台不断更新其模型,即使在同一版本号内,根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特征,可能会取消先前的行为调整,研究人员称之为"对齐税(alignment tax)"。

精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为权重的值相互连接,调整一种行为可能会以意想不到的方式改变其他行为。今天修复破折号过度使用,明天的更新(旨在提高编码能力等)可能会不经意地将它们带回来,不是因为OpenAI希望它们在那里,而是因为试图在数百万个竞争性影响中引导统计系统的本质。

AI的真正挑战

这引出了我们之前提到的一个隐含问题。如果控制标点符号使用仍然是一个可能随时重新出现的挑战,那么我们离AGI还有多远?我们无法确定,但似乎越来越有可能它不会仅从大型语言模型中涌现。因为AGI是一种复制人类通用学习能力的技术,可能需要真正的理解和自我反思的 intentional 行动,而不是有时恰好与指令一致的统计模式匹配。

而且,说到运气,一些用户在"自定义指令"功能之外仍然无法控制破折号的使用。在聊天中被告知不要使用破折号后,ChatGPT更新了保存的记忆,并回复一位X用户:"明白了——从现在起我将严格使用短连字符。"

结论:超越统计模型

破折号之争看似微小,却揭示了当前AI系统的本质局限。它们是复杂的统计模型,擅长生成看似连贯的文本,但在真正理解和遵循人类意图方面仍有很长的路要走。奥特曼对这一"小胜利"的庆祝,恰恰反映了行业对技术进步的渴望与实际能力之间的差距。

通往真正通用人工智能的道路可能需要超越当前的统计方法,发展出能够真正理解、推理和自我反思的系统。在那之前,像控制标点符号使用这样的"小问题"将继续提醒我们,我们仍处于AI发展的早期阶段。