在过去几年中,破折号已成为许多人认为的AI生成文本的明显标志。这一标点符号频繁出现在ChatGPT和其他AI聊天机器人的输出中,有时甚至到了读者仅凭过度使用就能识别AI写作的程度——尽管人类也可能过度使用它。
周四晚间,OpenAI首席执行官山姆·奥特曼在X上发文称,ChatGPT已开始遵循自定义指令来避免使用破折号。他写道:'小小的但令人高兴的胜利:如果你在自定义指令中告诉ChatGPT不要使用破折号,它终于按照预期行事了!'

该帖子发布于OpenAI新GPT-5.1 AI模型发布两天后,收到了用户们的混合反应。这些用户多年来一直努力让聊天机器人遵循特定的格式偏好,而这一'小小的胜利'提出了一个非常大的问题:如果全球最有价值的AI公司在尝试多年后仍难以控制像标点符号使用这样简单的事情,那么人们所称的人工智能通用智能(AGI)可能比行业某些人声称的要遥远得多。
一位X用户在回复中写道:'自ChatGPT首次发布已经三年了,你直到现在才设法让它遵守这个简单的要求,这说明了你对它的控制力有多小,以及你对它内部工作原理的理解有多浅。这对未来来说不是好迹象。'
AI模型为何钟爱破折号?因为我们也是如此
与键盘上专用键存在的短横线(-)不同,破折号(—)是一个长破折号,由特殊字符表示,作家用它来插入补充信息,表示思路突然转变,或引入总结或解释。
在AI语言模型时代之前,一些作家经常哀叹现代写作中破折号的过度使用。在2011年Slate的一篇文章中,作家诺琳·马隆(Noreen Malone)认为,作家使用破折号'代替了适当构造句子',而对它的过度依赖'阻碍了真正高效的写作'。ChatGPT发布前的各种Reddit论坛上,作家们要么在争论正确使用破折号的礼仪,要么承认自己频繁使用破折号是一种罪恶的乐趣。

2021年,r/FanFiction子论坛的一位作家写道:'长期以来,我对破折号上瘾了。它们出现在我写的每个段落中。我喜欢那条清晰的直线,它给了我一个借口,将细节或想法塞入一个原本有序的段落中。即使在经历了两年的写作障碍后回来写作,我立即尽可能多地塞入破折号。'
由于AI聊天机器人倾向于过度使用破折号,检测工具和人类读者已经学会将破折号使用模式作为识别AI文本的标志,这给那些自然偏爱在作品中使用这一标点符号的少数作家带来了问题。因此,一些记者抱怨说AI正在'杀死'破折号。
没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们已经看到网上有广泛的推测试图解释这一现象,从注意到19世纪书籍中破折号更受欢迎(这些书籍被用作训练数据)——根据2018年的一项研究,英语中的破折号使用在1860年左右达到顶峰,然后在20世纪中期逐渐下降——或者也许AI模型从博客平台Medium上的自动破折号字符转换中借来了这个习惯。
我们确切知道的一件事是,LLM倾向于输出训练数据(在初始训练过程中输入)和随后的强化学习过程中经常出现的模式,该过程通常依赖于人类偏好。因此,AI语言模型提供的是某种'平滑化'的平均风格,无论你要求它们提供什么,都经过用户反馈产生的条件调节。
因此,最合理的解释仍然是,在互联网上大量示例训练的AI模型对专业写作的请求将严重倾向于训练数据中的主流风格,其中破折号在正式写作、新闻文章和编辑内容中频繁出现。也有可能,通过人类反馈(称为RLHF)的训练过程中,无论出于何种原因,包含破折号的回答获得了更高的评分。也许是因为这些输出在评估者看来显得更复杂或更有吸引力,但这只是推测。
从破折号到AGI?
要理解奥特曼的'胜利'真正意味着什么,以及它对AGI之路说明了什么,我们需要了解ChatGPT的自定义指令实际上是如何工作的。它们允许用户设置适用于所有对话的持久偏好,方法是在聊天开始前输入的提示中附加书面指令。用户可以指定语气、格式和风格要求,而无需在每次新聊天中手动重复这些请求。
然而,这一功能并不总是可靠地工作,因为LLM并不总是可靠地工作(甚至OpenAI和Anthropic都坦然承认这一点)。LLM接收输入并产生输出,吐出提示(系统提示、自定义指令和你的聊天历史)的统计上合理的延续,它并不真正'理解'你在要求什么。对于AI语言模型的输出,总是存在一些运气成分,让它们做你想要的事情。
在我们对GPT-5.1使用自定义指令的非正式测试中,ChatGPT确实遵循了我们不要生成破折号的请求。但尽管有奥特曼的声明,X用户的反应似乎表明,当请求未放在自定义指令中时,该功能的体验仍然各不相同。

所以,如果LLM是统计文本生成盒子,'遵循指令'甚至意味着什么?这是解开从LLM到AGI的假设路径的关键。对于LLM来说,遵循指令的概念从根本上不同于我们通常对具有通用智能的人类甚至传统计算机程序的指令遵循的理解。
在传统计算中,指令遵循是确定性的。你告诉程序'不要包含字符X',它就不会包含该字符。程序完全按照编写的规则执行。对于LLM,'遵循指令'实际上是关于转移统计概率。当你告诉ChatGPT'不要使用破折号'时,你并没有创建硬性规则。你是在向提示中添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。但'可能性降低'不等于'不可能'。
模型生成的每个标记都是从概率分布中选出的。你的自定义指令会影响该分布,但它与模型的训练数据(在某些上下文中破折号频繁出现)和提示中的其他内容相竞争。与具有条件逻辑的代码不同,没有单独的系统根据你的要求验证输出。指令只是更多影响统计预测过程的文本。
当奥特曼庆祝最终让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),使其在概率计算中更重视自定义指令。
这里存在一个关于控制的讽刺:鉴于问题的概率性质,无法保证问题会一直保持固定。OpenAI在幕后不断更新其模型,即使在同一版本号内,也会根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特性,可能会撤销之前的行为调整,研究人员称之为'对齐税'。
精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为权重的值相互连接,调整一种行为可能会以意外方式改变其他行为。今天修复破折号过度使用,明天的更新(旨在改进编码能力)可能会无意中将它们带回来,不是因为OpenAI希望它们在那里,而是因为试图在数百万种相互竞争的影响下引导统计系统的本质。
这引出了我们前面提到的隐含问题。如果控制标点符号使用仍然是一项可能随时重新出现的挑战,那么我们距离AGI还有多远?我们无法确定,但似乎越来越有可能它不会仅从大型语言模型中涌现。这是因为AGI,一种复制人类通用学习能力的技术,可能需要真正的理解和自我反思的 intentional 行动,而不是有时恰好与指令一致的统计模式匹配。
而说到运气,一些用户在使用'自定义指令'功能之外控制破折号使用方面仍然没有运气。在一次聊天中被要求不要使用破折号后,ChatGPT更新了一个保存的记忆,并向一位X用户回复:'明白了——从现在开始我将严格使用短横线。'
AI控制的本质:统计概率与确定性指令
OpenAI的最新突破引发了一个更深层的问题:我们是否在用错误的框架评估AI能力?当奥特曼将控制破折号使用视为一项成就时,他实际上是在庆祝AI系统终于能够以足够高的概率遵循简单指令。这揭示了当前AI技术的核心局限:它们不是在'理解'指令,而是在调整统计分布以产生期望的结果。
传统软件编程与AI指令遵循之间的区别至关重要。在编程中,指令是绝对的、明确的,结果是可预测的。而在AI系统中,指令只是影响概率分布的因素之一,与训练数据中的固有模式、模型架构和其他提示元素竞争。这就是为什么即使是最简单的指令也可能在不同时间或不同上下文中产生不一致的结果。
这种根本性差异解释了为什么AI系统在看似简单的任务上挣扎——如避免使用特定标点符号。模型没有'知道'破折号是什么或为什么应该避免它;它只是根据训练数据中的模式和当前提示中的指令调整其输出概率。这种机制在处理复杂任务时可能表现出色,但在需要精确控制的简单任务上却显得笨拙。
超越标点符号:AI系统的更广泛挑战
破折号问题只是冰山一角,反映了AI系统面临的更广泛挑战。从数学计算到事实核查,从逻辑推理到创造性写作,AI在需要精确性、一致性和可靠性的任务上经常表现出色,但在需要细微差别、上下文理解和真正'理解'的任务上则步履蹒跚。
这些挑战不仅仅是技术性的,还涉及我们对智能本身的定义。如果智能包括能够理解指令背后的意图、适应新情境、从有限经验中学习并应用知识到全新领域的能力,那么当前的AI系统仍然距离这一目标遥远。它们擅长在已知模式内操作,但在需要真正创新或深度理解的领域则表现不佳。
通向AGI的道路:需要什么突破?
从破折号问题看通向AGI的道路,我们可以识别出几个关键突破点:
真正的理解而非模式匹配:当前AI系统通过识别和复制训练数据中的模式来工作,而AGI需要能够理解概念之间的关系,而不仅仅是统计相关性。
一致的指令遵循:开发能够可靠遵循复杂指令的架构,而不仅仅是调整概率分布。
自我修正能力:创建能够识别自身错误并主动纠正的系统,而不需要外部干预。
跨领域知识迁移:实现将一个领域学到的知识应用到全新领域的能力,而不仅仅是重新组合已知概念。
这些突破可能需要全新的架构、训练方法和评估框架,而不仅仅是扩大现有模型的规模或数据量。正如破折号问题所表明的,规模本身并不能解决基本的能力差距。
结论:标点符号背后的深刻启示
山姆·奥特曼对ChatGPT终于能够遵循破折号指令的庆祝,表面上是一个技术小成就,但实际上揭示了AI发展面临的深刻挑战。如果控制标点符号使用这样的基础任务仍需数年努力且结果不稳定,那么实现真正的通用智能可能比许多人想象的要复杂得多。
破折号问题提醒我们,当前AI系统的成功更多是统计上的奇迹而非理解力的体现。它们在模式识别和内容生成方面令人印象深刻,但在需要真正理解、一致性和可靠性的领域仍存在根本性局限。
随着AI技术的不断发展,我们需要重新评估我们的期望和评估标准。真正的进步不应仅体现在能够生成更连贯或更有说服力的文本上,而应体现在能够真正理解、推理和适应的能力上。只有这样,我们才能逐步接近通用人工智能的愿景,而不仅仅是创造出越来越擅长模仿人类文本的统计系统。









