破折号困境：AI为何连标点符号都无法真正控制？

在人工智能发展的宏大叙事中，我们常常被引导着关注那些令人惊叹的突破和远大的愿景——通用人工智能(AGI)、超级智能，甚至是Sam Altman所称的"天上的魔法智能"。然而，最近一个看似微小的事件却揭示了AI发展道路上的一个深刻挑战：OpenAI CEO Sam Altman公开庆祝ChatGPT终于能够遵循用户指令避免使用破折号(em dashes)。

这一"小而快乐的胜利"背后，实际上隐藏着一个关于AI本质和发展前景的严肃问题。如果世界最有价值的AI公司在多年努力后，连控制标点符号使用这样的简单任务都如此困难，那么我们距离真正的人类级AI还有多远？本文将从多个角度剖析这一现象，揭示AI发展面临的深层次挑战。

从破折号看AI的"小胜利"

2025年11月，Sam Altman在X平台(前Twitter)上发帖称："小而快乐的胜利：如果你在自定义指令中告诉ChatGPT不要使用破折号，它终于会按照要求做了！"这条帖子发布在OpenAI最新GPT-5.1模型发布两天后，引发了用户的混合反应。

Sam Altman关于破折号的帖子

许多用户多年来一直努力让聊天机器人遵循特定的格式偏好，而Altman的"小胜利"引发了一个非常重大的问题：如果最有价值的AI公司在多年尝试后，连控制标点符号使用这样的简单任务都如此困难，那么人们所说的通用人工智能(AGI)可能比行业内一些人声称的要遥远得多。

一位X用户在回复中写道："从ChatGPT首次发布已经过去3年，你们现在才设法让它遵守这个简单的要求，这充分说明你们对它的控制有多有限，以及对其内部工作原理的理解有多浅薄。这对未来来说不是好迹象。"

破折号：为何它如此重要？

要理解这一争论的意义，首先需要了解什么是破折号以及为什么它如此重要。

破折号(em dash)是一种长破折号，用特殊字符(—)表示，作者用它来插入补充信息、表示思路突然转变，或引入总结或解释。相比之下，连字符(hyphen)是一种较短的标点符号，用于连接单词或单词的一部分，键盘上有一个专门的键(-)。

在AI语言模型出现之前，一些作家就经常抱怨现代写作中破折号的过度使用。在2011年Slate的一篇文章中，作家Noreen Malone认为作家使用破折号"代替了正确构造句子"，过度依赖它"阻碍了真正高效的写作"。在ChatGPT发布前的各种Reddit论坛上，作家们要么在争论破折号使用的适当礼仪，要么承认自己频繁使用破折号是一种罪恶的乐趣。

2021年，r/FanFiction论坛的一位作家写道："很长一段时间里，我对破折号上瘾了。它们会出现在我写的每个段落中。我喜欢那条清晰的直线，它给了我一个将细节或想法塞入原本有序段落的借口。即使在经历了大约两年的写作障碍后重新开始写作，我仍然会尽可能多地塞入破折号。"

AI为何偏爱破折号？

由于AI聊天机器人倾向于过度使用破折号，检测工具和人类读者已经学会了将破折号使用视为一种模式，这给工作中自然偏爱这一标点符号的少数作家带来了问题。因此，一些记者抱怨AI正在"杀死"破折号。

没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们已经看到网上有广泛的推测试图解释这一现象，从注意到破折号在用作训练数据的19世纪书籍中更受欢迎(根据2018年的一项研究，英语中破折号的使用在1860年左右达到顶峰，然后在20世纪中叶下降)，或者也许AI模型从博客平台Medium的自动破折号字符转换中借用了这种习惯。

我们确切知道的一件事是，LLM倾向于在其训练数据(在初始训练过程中输入)和后续通常依赖人类偏好的强化学习过程中频繁输出的模式。因此，AI语言模型为您提供了一种"平滑化"的平均风格，无论您要求它们提供什么内容，都通过用户反馈调节它们被训练产生的输出。

因此，最合理的解释仍然是，在大量互联网示例上训练的AI模型对专业写作的请求将严重倾向于训练数据中的主流风格，其中破折号在正式写作、新闻文章和编辑内容中频繁出现。也有可能在通过人类反馈(称为RLHF)训练期间，无论出于何种原因，包含破折号的响应获得了更高的评分。也许是因为这些输出在评估者看来显得更复杂或更有吸引力，但这只是推测。

从破折号到AGI：还有多远？

要理解Altman的"胜利"真正意味着什么，以及它对通向AGI的道路说明了什么，我们需要了解ChatGPT的自定义指令实际上是如何工作的。它们允许用户设置跨所有对话应用的持久偏好，方法是在聊天开始前输入模型之前，将书面指令附加到提示中。用户可以指定语调、格式和风格要求，而无需在每个新聊天中手动重复这些请求。

然而，这一功能并不总是可靠地工作，因为LLM并不总是可靠地工作(即使是OpenAI和Anthropic也坦率承认这一点)。LLM接受输入并产生输出，吐出提示(系统提示、自定义指令和您的聊天历史)的统计上合理的延续，它并不真正"理解"您在要求什么。对于AI语言模型的输出，让它们做您想要的事情总是涉及一些运气。

在我们对GPT-5.1使用自定义指令的非正式测试中，ChatGPT确实似乎遵循了我们不要产生破折号的请求。但尽管有Altman的声明，X用户的反应似乎表明，当请求未放在自定义指令中时，该功能的体验仍然各不相同。

如果LLM是统计文本生成工具，那么"指令跟随"甚至意味着什么？这是解构从LLM到AGI的假设路径的关键。对于LLM来说，遵循指令的概念从根本上不同于我们通常认为的具有通用智能的人类遵循指令的方式，甚至是传统的计算机程序。

在传统计算中，指令遵循是确定性的。您告诉程序"不要包含字符X"，它就不会包含该字符。程序完全按照编写的规则执行。对于LLM，"指令跟随"实际上是关于转移统计概率。当您告诉ChatGPT"不要使用破折号"时，您不是在创建硬性规则。您是在向提示中添加文本，使与破折号相关的标记在生成过程中被选中的可能性降低。但"可能性较低"并不等于"不可能"。

模型生成的每个标记都是从概率分布中选出的。您的自定义指令影响该分布，但它与模型的训练数据(其中破折号在某些上下文中频繁出现)和提示中的所有其他内容竞争。与具有条件逻辑的代码不同，没有单独的系统根据您的要求验证输出。指令只是影响统计预测过程的更多文本。

当Altman庆祝最终让GPT避免使用破折号时，他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能是通过强化学习或微调)，使其在概率计算中更重视自定义指令。

控制的悖论

这里存在一个关于控制的悖论：鉴于问题的概率性质，无法保证问题会保持固定。OpenAI在幕后持续更新其模型，即使在同一版本号内，也会根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特性，可能会撤销先前的行为调整，研究人员称之为"对齐税(alignment tax)"。

精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为权重的值相互连接，调整一种行为可能会以意想不到的方式改变其他行为。今天修复破折号过度使用，明天的更新(旨在改进编码能力)可能会无意中将它们带回来，不是因为OpenAI希望它们在那里，而是因为试图在数百万个相互竞争的影响中引导统计系统的本质如此。

指令跟随的本质

在传统编程中，指令遵循是明确的：您告诉程序"不要做X"，程序就不会做X。指令被精确翻译为机器可执行的代码，结果具有确定性。

然而，对于LLM，"指令跟随"是一个完全不同的概念。当您告诉ChatGPT"不要使用破折号"时，您实际上是在向提示中添加文本，这会影响模型生成破折号相关标记的概率。您不是在创建一个硬性规则，而是在调整概率分布。

每个标记都是根据概率分布从词汇表中选择的。您的指令会影响这个分布，但它与训练数据中已经建立的模式竞争，这些模式可能更喜欢使用破折号。此外，指令只是提示的一部分，与提示中的所有其他元素一起影响模型的输出。

这就是为什么即使Altman宣布"胜利"，一些用户仍然无法在聊天中直接控制破折号使用的原因。当在聊天中被要求不要使用破折号时，ChatGPT可能会更新保存的记忆并回复"明白了——从现在开始我会严格使用短连号"，但这并不保证在后续响应中会持续遵守。

AGI的真正挑战

破折号困境揭示了通往AGI道路上的一个核心挑战：真正的理解与统计模式匹配之间的区别。

AGI需要的是真正的理解、自我反思和有意的行动，而不仅仅是有时碰巧与指令对齐的统计模式匹配。如果连控制标点符号使用都如此困难，那么构建一个能够真正理解人类意图、进行推理并做出明智决策的系统，难度要大得多。

当前的AI模型，无论多么先进，本质上仍然是基于统计模式的文本生成器。它们可以模仿语言，但并不真正理解语言背后的概念和含义。这就是为什么它们可以遵循某些指令(如避免使用破折号)，但无法真正理解为什么这些指令重要，也无法将这些理解应用到新情境中。

超越LLM：AGI的路径

破折号困境表明，AGI不太可能仅从大型语言模型中涌现。我们需要的是超越当前统计范式的方法，可能包括:

真正的理解机制：开发能够真正理解概念及其之间关系的系统，而不仅仅是识别统计模式。
更好的推理能力：构建能够进行逻辑推理、因果推理和反事实推理的系统，而不仅仅是基于相关性进行预测。
自我意识和元认知：开发能够了解自身局限性、识别知识差距并主动寻求填补这些差距的系统。
多模态整合：结合视觉、听觉、触觉等多种感官输入，形成对世界的更全面理解。
持续学习和适应：构建能够从少量示例中学习、适应新环境并转移知识的系统，而仅仅依赖于大规模预训练。

结论：微小问题，重大启示

Sam Altman对ChatGPT终于能够遵循破折号格式规则的庆祝，表面上看似是一个微不足道的成就，但实际上揭示了AI发展面临的深刻挑战。

如果连控制标点符号使用都如此困难，那么我们距离真正的人类级AI还有多远？答案可能比许多人想象的要远得多。当前的AI系统，无论多么先进，本质上仍然是基于统计模式的文本生成器，它们可以模仿语言，但并不真正理解语言背后的概念和含义。

通往AGI的道路可能需要我们重新思考AI的基本范式，超越当前的统计方法，开发能够真正理解、推理和学习的系统。这不仅是技术挑战，也是概念挑战，需要我们对智能本身有更深入的理解。

在追求AGI的宏伟目标时，我们不应忽视这些看似微小的挑战。它们就像冰山一角，揭示了水面下更大的问题。只有解决了这些基础问题，我们才能真正迈向通用人工智能的未来。