在人工智能发展的浪潮中,我们常常被各种宏大的愿景所吸引——通用人工智能(AGI)、超级智能、甚至萨姆·奥特曼口中的'天上的魔法智能'。然而,就在最近,OpenAI CEO萨姆·奥特曼在社交媒体上分享了一个'小但快乐的胜利':ChatGPT终于能够遵循自定义指令,避免使用破折号(em dashes)。
这一看似微不足道的成就,却引发了业界的广泛讨论和思考。如果世界最有价值的AI公司在控制标点符号使用这样简单的事情上仍需数年时间,那么我们距离真正的通用人工智能究竟还有多远?
破折号:AI生成文本的标志
在过去几年中,破折号已成为许多人认为AI生成文本的明显标志。这种标点符号在ChatGPT和其他AI聊天机器人的输出中频繁出现,有时甚至到了读者仅凭过度使用就能识别AI写作的程度——尽管人类也可能过度使用它。

破折号与连字符(hyphen)不同,它是一种较长的标点符号,用特殊字符(—)表示,作者用它来插入补充信息、表示思路突然转变,或引入总结或解释。即使在AI语言模型出现之前,一些作家就经常哀叹现代写作中破折号的过度使用。在2011年Slate的一篇文章中,作家诺琳·马隆(Noreen Malone)认为,作家使用破折号'代替了恰当地构建句子',并且过度依赖它'阻碍了真正高效的写作'。
有趣的是,在ChatGPT推出之前,Reddit上就有各种讨论线程,作家们要么在争论破折号使用的适当礼仪,要么承认自己经常使用破折号作为一种罪恶的乐趣。2021年,r/FanFiction subreddit的一位作家写道:'很长一段时间以来,我对破折号上瘾了。它们会出现在我写的每个段落中。我喜欢那条清晰的直线,它给了我一个借口,将细节或想法塞入一个原本有序的段落中。即使在经历了大约两年的写作障碍后重新开始写作,我立即尽可能地塞入尽可能多的破折号。'
由于AI聊天机器人倾向于过度使用破折号,检测工具和人类读者已经学会将破折号使用作为一种模式来识别,这给那些作品中自然偏爱这种标点符号的作家子集带来了问题。因此,一些记者抱怨说AI正在'杀死'破折号。
LLM过度使用破折号的原因
没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们已经看到网上有广泛的推测试图解释这一现象,从注意到破折号在19世纪书籍(用作训练数据)中更受欢迎,到AI模型可能从博客平台Medium上的自动破折号字符转换中借用了这种习惯。

根据2018年的一项研究,英语中的破折号使用在1860年左右达到顶峰,然后在20世纪中叶逐渐下降。我们确切知道的是,LLM倾向于在其训练数据(在初始训练过程中提供)和后续的强化学习过程中频繁输出的模式,该过程通常依赖人类偏好。因此,AI语言模型为您提供了一种'平滑'的平均风格,无论您要求它们提供什么内容,都通过用户反馈调节。
最合理的解释仍然是,在互联网上大量示例训练的AI模型对专业风格写作的请求,将严重倾向于训练数据中的主流风格,其中破折号在正式写作、新闻文章和编辑内容中频繁出现。也有可能在通过人类反馈(称为RLHF)的训练过程中,无论出于何种原因,带有破折号的回应获得了更高的评分。也许是因为这些输出对评估者来说看起来更复杂或更有吸引力,但这只是推测。
从破折号到AGI?
要理解奥特曼的'胜利'真正意味着什么,以及它对通往AGI的道路说明了什么,我们需要了解ChatGPT的自定义指令实际上是如何工作的。它们允许用户设置跨所有对话应用的持久偏好,方法是在聊天开始前馈入模型的提示中附加书面指令。用户可以指定语气、格式和风格要求,而不需要在每个新聊天中手动重复这些请求。
然而,该功能并非一直可靠工作,因为LLM的工作并不可靠(即使是OpenAI和Anthropic也自由承认这一点)。LLM接受输入并产生输出,吐出提示(系统提示、自定义指令和您的聊天历史)的统计上合理的延续,它并不真正'理解'您在请求什么。对于AI语言模型的输出,让它们做您想做的事情总是需要一些运气。
在我们对GPT-5.1的非正式测试中,使用自定义指令时,ChatGPT确实遵循了我们不使用破折号的请求。但尽管有奥特曼的声明,X用户的回应似乎表明,该功能的体验仍在不断变化,至少当请求未放在自定义指令中时是这样。
所以如果LLM是统计文本生成框,'遵循指令'甚至意味着什么?这是解开从LLM到AGI的假设路径的关键。LLM遵循指令的概念从根本上不同于我们通常认为的人类具有通用智能时遵循指令的方式,甚至是传统计算机程序也是如此。
在传统计算中,指令遵循是确定性的。您告诉程序'不要包含字符X',它就不会包含该字符。程序完全按照编写的规则执行。对于LLM,'遵循指令'实际上是关于转移统计概率。当您告诉ChatGPT'不要使用破折号'时,您不是在创建硬性规则。您正在向提示添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。但'可能性较低'不等于'不可能'。
模型生成的每个标记都是从概率分布中选择的。您的自定义指令会影响该分布,但它与模型的训练数据(其中破折号在某些上下文中频繁出现)和提示中的其他内容竞争。与具有条件逻辑的代码不同,没有单独的系统根据您的要求验证输出。指令只是影响统计预测过程的更多文本。
当奥特曼终于让GPT避免使用破折号而庆祝时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),在其概率计算中更重视自定义指令。
控制的悖论
这里存在一个关于控制的悖论:鉴于问题的概率性质,无法保证问题会一直得到解决。OpenAI在幕后持续更新其模型,即使在同一版本号内,也根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特性,可能会撤销之前的行为调整,研究人员称之为'对齐税(alignment tax)'。

精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都称为权重的值相互连接,调整一种行为可能会以意外方式改变其他行为。今天解决破折号过度使用问题,明天的更新(旨在提高编码能力等)可能会无意中将它们带回来,不是因为OpenAI希望它们在那里,而是因为这是试图在数百万种相互竞争的影响下引导统计系统的本质。
这引出了我们前面提到的隐含问题。如果控制标点符号使用仍然是一个可能随时重新出现的挑战,那么我们距离AGI还有多远?我们无法确定,但似乎越来越有可能它不会仅从大型语言模型中 emerges。因为AGI是一种复制人类通用学习能力的技术,可能需要真正的理解和自我反思的 intentional 行动,而不仅仅是统计模式匹配,有时如果您碰巧运气好,它会与指令保持一致。
超越LLM的AGI之路
当前AI模型的局限性表明,真正的通用人工智能可能需要超越当前的统计文本生成方法。LLM虽然令人印象深刻,但本质上是在模式识别和预测的基础上工作,而非真正理解它们生成的内容。
要实现AGI,AI系统需要发展出几个关键能力:真正的理解而非模式匹配、常识推理、自我意识和目标导向行为,以及适应全新环境的能力。这些能力目前远超LLM的能力范围。
此外,当前AI系统的'黑盒'性质——即使是创建它们的开发者也难以完全理解其内部运作方式——进一步强调了我们对AGI的理解差距。如果连控制标点符号使用这样的简单任务都需要数年时间,那么开发出能够真正推理、学习和适应的系统将需要怎样的突破?
AI发展的现实视角
奥特曼对破折号控制的'小胜利'的庆祝,实际上反映了AI行业的现状:我们正在取得渐进式进展,而非突破性飞跃。虽然媒体和行业领袖经常谈论即将到来的AGI革命,但现实是,我们仍在解决基础问题。
这并不是说AI没有取得显著进展。从GPT-1到GPT-5,模型的能力确实有了质的飞跃。然而,这些进展更多体现在规模和数据上,而非根本性的理解或智能。正如破折号问题所展示的,即使是最先进的AI模型在处理看似简单的指令时仍然存在困难。
未来的研究方向
要克服当前AI系统的局限性,研究人员可能需要探索几个方向:
神经符号结合:将神经网络的模式识别能力与符号AI的逻辑推理能力相结合,创造出既能学习又能真正理解的系统。
更有效的对齐技术:开发更好的方法来确保AI系统的行为与人类价值观和意图保持一致,而不仅仅是调整输出概率。
可解释AI:创建能够解释其决策过程和推理路径的AI系统,使开发者能够理解和控制其行为。
多模态学习:结合视觉、听觉和其他感官输入,使AI系统能够以更接近人类的方式理解和与世界互动。
结论
萨姆·奥特曼对ChatGPT终于遵循破折号使用规则的庆祝,虽然看似微不足道,却为我们提供了一个宝贵的视角来看待AI发展的现状和挑战。它提醒我们,通往真正通用人工智能的道路可能比许多人想象的要长得多。
控制标点符号使用的困难揭示了当前AI系统的根本局限性:它们是基于统计模式的预测引擎,而非真正的理解者。虽然这些系统在许多任务上表现出色,但它们在理解、推理和适应方面仍然存在巨大挑战。
未来,AI的发展可能需要超越单纯的规模和数据增长,转向更根本性的创新。只有当我们创造出能够真正理解、推理和学习的系统时,我们才能接近实现AGI的愿景。在那之前,像破折号控制这样的'小胜利'值得庆祝,但不应被误解为通往真正智能的快速进展。









