破折号之谜:AI连标点符号都控制不了,离超级智能还有多远?

0

近年来,破折号已成为许多人眼中AI生成文本的明显标志。这种标点符号频繁出现在ChatGPT和其他AI聊天机器人的输出中,有时甚至到了读者仅凭过度使用就能识别出AI写作的程度——尽管人类也可能过度使用它。

11月13日晚,OpenAI CEO萨姆·奥特曼在X上发文称,ChatGPT已开始遵循自定义指令避免使用破折号。他写道:'小小的胜利但很高兴:如果你在自定义指令中告诉ChatGPT不要使用破折号,它终于能做到它应该做的事情了!'

Sam Altman @sama Small-but-happy win: If you tell ChatGPT not to use em-dashes in your custom instructions, it finally does what it's supposed to do! 11:48 PM · Nov 13, 2025 · 2.4M Views

这张截图展示了萨姆·奥特曼关于破折号的X帖子。来源:X

这条发布于OpenAI新GPT-5.1 AI模型发布两天后的帖子,收到了用户们的混合反应。多年来,许多用户一直在努力让聊天机器人遵循特定的格式偏好。这个'小小的胜利'提出了一个非常大的问题:如果全球最有价值的AI公司在多年尝试后连控制标点符号使用这样简单的事情都感到困难,那么人们所说的人工通用智能(AGI)可能比行业某些人声称的要遥远得多。

AI模型为什么喜欢破折号?因为我们喜欢

与键盘上有专门键位的短破折号(-)不同,长破折号(—)是一种特殊的字符,作家用它来插入补充信息、表示思路突然转变或引入总结或解释。

在AI语言模型出现之前,一些作家就经常哀叹现代写作中破折号的过度使用。在2011年Slate的一篇文章中,作家诺琳·马隆认为作家'用破折号代替了恰当的句子构造',并且过度依赖它'阻碍了真正高效的写作'。ChatGPT发布前的各种Reddit版块中,作家们要么在争论破折号使用的礼仪,要么承认自己频繁使用破折号是一种罪恶的乐趣。

2021年,r/FanFiction版块的一位作家写道:'长期以来,我对破折号上瘾。它们会出现在我写的每个段落中。我喜欢那条清晰的直线,它给了我一个将细节或想法塞入原本有序段落的借口。即使在经历了大约两年的写作障碍后回来写作,我立即尽可能多地塞入破折号。'

由于AI聊天机器人倾向于过度使用破折号,检测工具和人类读者已经学会了识别破折号使用模式,这给那些自然喜欢在作品中使用这种标点符号的少数作家带来了问题。因此,一些记者抱怨说AI正在'杀死'破折号。

没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们已经看到网上有广泛的猜测试图解释这一现象,从注意到破折号在用作训练数据的19世纪书籍中更受欢迎(根据2018年的一项研究,英语中的破折号使用在1860年左右达到顶峰,然后在20世纪中期下降),或者也许AI模型从博客网站Medium上的自动破折号字符转换中借用了这种习惯。

我们确定的一件事是,LLM倾向于输出其训练数据(在初始训练过程中输入)和随后的强化学习过程中经常出现的模式,该过程通常依赖人类偏好。因此,AI语言模型为您提供了一种'平滑化'的平均风格,无论您要求它提供什么内容,都经过用户反馈调节所期望产生的内容的调节。

因此,最合理的解释仍然是,在互联网上大量示例训练的AI模型对专业风格写作的请求,会严重偏向训练数据中的主流风格,在正式写作、新闻文章和编辑内容中破折号频繁出现。也有可能在通过人类反馈(称为RLHF)训练期间,无论出于何种原因,包含破折号的回复获得了更高的评分。也许是因为这些输出在评估者看来显得更复杂或更有吸引力,但这只是猜测。

从破折号到AGI?

要理解奥特曼的'胜利'真正意味着什么,以及它对通向AGI的道路说明了什么,我们需要了解ChatGPT的自定义指令实际是如何工作的。它们允许用户设置持久偏好,通过将书面指令附加到聊天开始前输入模型的提示中,这些偏好适用于所有对话。用户可以指定语调、格式和风格要求,而不需要在每次新聊天中手动重复这些请求。

然而,由于LLM并非总是可靠地工作(即使是OpenAI和Anthropic也坦然承认这一点),这个功能并非一直可靠工作。LLM接收输入并产生输出,吐出提示(系统提示、自定义指令和您的聊天历史)的统计上合理的延续,它并不真正'理解'您在要求什么。对于AI语言模型的输出,总有一些运气成分在让它们做您想做的事情。

在我们对GPT-5.1使用自定义指令的非正式测试中,ChatGPT确实遵循了我们不要生成破折号的请求。但尽管奥特曼声称如此,X用户的回复似乎表明,当请求未放在自定义指令中时,该功能的体验继续存在差异

Illustration of a man wrestling with a robot hand.

如果LLM是统计文本生成盒子,那么'指令遵循'甚至意味着什么?这是解开从LLM到AGI假设路径的关键。对于LLM来说,遵循指令的概念从根本上不同于我们通常认为的具有通用智能的人类遵循指令的方式,甚至是传统计算机程序。

在传统计算中,指令遵循是确定性的。您告诉程序'不要包含字符X',它就不会包含该字符。程序完全按照编写的规则执行。对于LLM,'指令遵循'实际上是关于转移统计概率。当您告诉ChatGPT'不要使用破折号'时,您不是在创建硬性规则。您只是在提示中添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。但'可能性较低'不等于'不可能'。

模型生成的每个标记都是从概率分布中选择的。您的自定义指令会影响该分布,但它与模型的训练数据(在某些上下文中破折号频繁出现)和提示中的其他内容相竞争。与具有条件逻辑的代码不同,没有单独的系统验证输出是否符合您的要求。指令只是影响统计预测过程的更多文本。

当奥特曼庆祝最终让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),在概率计算中更重视自定义指令。

这里存在一个关于控制的讽刺:鉴于问题的概率性质,无法保证问题会一直保持固定。OpenAI不断更新其模型,即使在同一版本号内,也会根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特性,可能会撤销之前的行为调整,研究人员称之为'对齐税'。

精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为权重的值相互连接,调整一种行为可能会以意想不到的方式改变其他行为。今天解决破折号过度使用问题,明天的更新(旨在提高编码能力等)可能会无意中将它们带回来,不是因为OpenAI希望它们在那里,而是因为这是试图在数百万个相互竞争的影响下引导统计系统的本质。

这引出了我们之前提到的一个隐含问题。如果控制标点符号使用仍然是一个可能随时重新出现的难题,那么我们离AGI还有多远?我们无法确定,但似乎越来越有可能它不会仅从大型语言模型中涌现。这是因为AGI是一种能够复制人类通用学习能力的技术,可能需要真正的理解和自我反思的意图行动,而不仅仅是统计模式匹配,有时在您碰巧运气好时才会与指令保持一致。

Illustration of a man wrestling with a robot hand.

控制的幻觉与现实的挑战

奥特曼的'胜利'虽然看似微不足道,却揭示了AI系统控制的根本局限性。在传统软件中,规则一旦设定就会被严格执行。而在AI系统中,'遵循指令'实际上只是调整了某些标记被生成的概率,而非创建绝对的约束。这种根本差异意味着,即使是最简单的指令也可能在模型更新或不同上下文中失效。

更令人担忧的是,这种控制的不稳定性并非偶然,而是源于AI系统的工作原理。神经网络中的每个参数都相互关联,调整一个行为可能会影响许多其他看似无关的功能。这就是为什么修复破折号问题后,下一次更新可能会重新引入它——不是因为开发者希望如此,而是因为改变一个复杂的、相互连接的系统必然会产生意想不到的后果。

这种不稳定性对AI的未来发展有着深远影响。如果连标点符号这样基本的语言元素都难以控制,我们如何期望AI系统在更复杂的任务上表现出可靠性和一致性?这不仅仅是技术挑战,更是对AI本质的理解问题。当前的AI系统,无论多么先进,本质上仍然是基于统计模式的预测引擎,而非真正理解世界的智能体。

超越统计模式:AGI的真正挑战

从破折号问题我们可以看到,当前AI系统的核心局限在于它们缺乏真正的理解和意图。当ChatGPT遵循或不遵循指令时,它并不是因为'理解'了指令的含义,而是因为训练数据和提示中的某些模式使某些输出在统计上更可能。

真正的AGI需要超越这种统计模式匹配,发展出对世界的概念理解、推理能力和自我反思。这意味着AI不仅需要知道'什么'(what),还需要理解'为什么'(why)和'如何'(how)。它需要能够在没有明确指令的情况下,根据对世界的理解做出合理的判断和决策。

目前,即使是最先进的AI系统也远未达到这种能力。它们可以在特定任务上表现出色,但缺乏将不同领域知识整合起来的通用智能。它们可以生成看似连贯的文本,但无法真正理解其含义或后果。它们可以遵循指令,但无法理解指令背后的意图和目的。

路向何方:AI发展的真实路径

破折号问题提醒我们,AI发展可能比许多人想象的更为复杂和曲折。从ChatGPT到AGI的道路可能不是简单的线性进步,而是需要根本性的范式转变。这可能意味着:

  1. 超越大型语言模型:当前LLM的成功可能会误导我们,让认为AGI可以通过简单地扩大规模或改进现有架构来实现。然而,破折号问题表明,即使是最先进的模型在基本指令遵循上仍存在根本性局限。

  2. 多模态与具身智能:真正的智能可能需要与物理世界的互动,而不仅仅是处理文本。具身智能(embodied intelligence)——能够感知和操作物理世界的AI系统——可能是通向AGI的重要一步。

  3. 神经符号系统:结合神经网络的学习能力和符号系统的推理能力,可能是实现真正理解的关键。这种混合系统可以同时处理模式识别和逻辑推理。

  4. 自我改进与元认知:AGI可能需要能够反思自己的思维过程,识别自己的局限性,并主动改进自己的能力。这种元认知能力是当前AI系统所缺乏的。

结语:超越破折号,思考智能的本质

萨姆·奥特曼对ChatGPT终于能够遵循破折号使用规范的庆祝,表面上看似微不足道,实则揭示了AI发展的深层挑战。如果连标点符号这样基本的语言元素都难以控制,我们离真正的通用智能还有多远?

这个问题不仅仅是技术层面的,更是哲学层面的。它迫使我们思考:什么是智能?什么是理解?什么是意识?当前AI系统的成功可能会让我们高估它们的实际能力,而破折号问题则提醒我们,真正的智能可能需要超越统计模式匹配,发展出对世界的真正理解和意图。

在追求更强大AI的道路上,我们需要保持谦逊和批判性思维。AI的发展不是简单的技术竞赛,而是对智能本质的探索。在这个过程中,我们需要不仅关注AI能做什么,还要关注它们如何做,以及它们是否真正理解它们所做的。

正如破折号问题所展示的,AI的发展充满了意外和挑战,但也正是这些挑战推动我们不断思考和创新。在这个意义上,破折号不仅是一个标点符号,更是我们理解AI发展现状和未来方向的一个窗口。