破折号背后的AI困境:从ChatGPT格式控制看通用人工智能的遥远路途

0

在人工智能领域,一个看似微小的格式问题却揭示了当前AI系统的根本局限性。OpenAI首席执行官Sam Altman近日在社交媒体上庆祝ChatGPT终于能够遵循用户关于破折号使用的自定义指令,这一"小胜利"却引发了行业内外对AI真正能力的深刻思考。如果世界最有价值的AI公司在控制如此简单的标点符号使用方面仍面临挑战,那么我们距离真正的通用人工智能(AGI)究竟还有多远?

破折号:AI文本的"指纹"

过去几年中,破折号(em dash)已成为许多人识别AI生成文本的明显标志。这种标点符号频繁出现在ChatGPT和其他AI聊天机器人的输出中,有时甚至到了读者仅凭过度使用就能识别AI写作的程度——尽管人类也可能过度使用它。

Illustration of a man wrestling with a robot hand

与键盘上 dedicated key 的连字符不同,破折号是一种长破折号,用特殊字符(—)表示,作者用它来插入补充信息、表示思路突然转变或引入总结或解释。在AI语言模型出现之前,一些作家就经常抱怨现代写作中破折号的过度使用。2011年《Slate》杂志的一篇文章中,作家Noreen Malone认为作家们用破折号"代替了恰当的句子结构",过度依赖它"阻碍了真正高效的写作"。

AI为何偏爱破折号?

没有人确切知道为什么大型语言模型(LLM)倾向于过度使用破折号。我们看到了广泛的在线推测试图解释这一现象,从注意到19世纪书籍(用作训练数据)中破折号更受欢迎(根据2018年的一项研究,英语中破折号的使用在1860年左右达到顶峰,然后在20世纪中叶逐渐下降),到AI模型可能从博客平台Medium的自动破折号字符转换中借用了这一习惯。

我们确定的一件事是,LLM倾向于在其训练数据(在初始训练过程中输入)和后续依赖人类偏好的强化学习过程中频繁输出的模式。因此,AI语言模型为您提供了一种"平滑"的平均风格,无论您要求它提供什么,都受到它通过用户反馈被调节为产生的内容的限制。

最合理的解释仍然是,在互联网海量示例上训练的AI模型对专业风格写作的请求将严重倾向于训练数据中的主流风格,其中破折号在正式写作、新闻文章和编辑内容中频繁出现。同样可能的是,在通过人类反馈(称为RLHF)的训练过程中,无论出于何种原因,包含破折号的响应获得了更高的评级。也许是因为这些输出对评估者来说看起来更复杂或更有吸引力,但这只是推测。

从破折号到AGI:漫长的道路

要理解Altman的"胜利"真正意味着什么,以及它对通向AGI的道路说明了什么,我们需要理解ChatGPT的自定义指令实际上是如何工作的。它们允许用户设置跨所有对话应用的持久偏好,通过在聊天开始前输入模型的提示中附加书面指令来实现。用户可以指定语气、格式和风格要求,而无需在每个新聊天中手动重复这些请求。

然而,该功能并不总是可靠地工作,因为LLM并不可靠工作(即使是OpenAI和Anthropic也坦然承认这一点)。LLM接收输入并产生输出,吐出提示(系统提示、自定义指令和您的聊天历史)的统计上合理的延续,它并不真正"理解"您在要求什么。对于AI语言模型的输出,让它们做您想要的事情总是涉及一些运气。

在我们对GPT-5.1使用自定义指令的非正式测试中,ChatGPT确实遵循了我们不使用破折号的请求。但尽管Altman声称如此,X用户的回应似乎表明,当请求未放在自定义指令中时,该功能的体验仍然各不相同。

如果LLM是统计文本生成盒子,那么"指令遵循"甚至意味着什么?这是解开从LLM到AGI的假设路径的关键。对于LLM来说,遵循指令的概念从根本上不同于我们通常认为的具有通用智能的人类遵循指令的方式,甚至是传统计算机程序遵循指令的方式。

在传统计算中,指令遵循是确定性的。您告诉程序"不要包含字符X",它就不会包含该字符。程序完全按照编写的规则执行。对于LLM,"指令遵循"实际上是关于转移统计概率。当您告诉ChatGPT"不要使用破折号"时,您不是在创建硬性规则。您是在向提示中添加文本,使与破折号相关联的标记在生成过程中被选中的可能性降低。但"可能性较低"并不等同于"不可能"。

模型生成的每个标记都是从概率分布中选择的。您的自定义指令会影响该分布,但它与模型的训练数据(其中破折号在特定上下文中频繁出现)和提示中的所有其他内容竞争。与带有条件逻辑的代码不同,没有单独的系统根据您的要求验证输出。指令只是影响统计预测过程的更多文本。

当Altman庆祝终于让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),在其概率计算中更重视自定义指令。

控制的悖论:AI系统的本质挑战

这里存在一个关于控制的悖论:鉴于问题的概率性质,无法保证问题会一直得到解决。OpenAI在幕后不断更新其模型,即使在相同的版本号内,也会根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特性,可能会撤销之前的行为调整,研究人员称之为"对齐税"。

精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为权重的值相互连接,调整一种行为可能会以意外方式改变其他行为。今天修复破折号过度使用,明天的更新(旨在提高编码能力等)可能会无意中将它们带回来,不是因为OpenAI希望它们在那里,而是因为试图在数百万个相互竞争的影响下引导统计系统的本质就是如此。

这引出了我们之前提到的一个隐含问题。如果控制标点符号使用仍然是一个可能随时重新出现的挑战,那么我们距离AGI还有多远?我们无法确定,但似乎越来越有可能它不会仅从大型语言模型中 emerge。因为AGI是一种复制人类通用学习能力的技术,可能需要真正的理解和自我反思的意图行动,而不仅仅是统计模式匹配,有时如果您碰巧运气好,它会与指令保持一致。

AI进步的真正衡量标准

Altman喜欢公开谈论AGI(一种在通用学习能力上与人类相当的理论技术)、超级智能(一种远超人类智能的AI模糊概念)和"天上的魔法智能"(他指AI云计算?)同时为OpenAI筹集资金,但很明显,我们在今天仍然没有地球上可靠的通用人工智能。

一位X用户在回复中写道:"ChatGPT首次发布已经3年了,而你刚刚才设法让它遵守这个简单的要求,这说明了你对它的控制有多小,以及你对它内部工作原理的理解有多少。这对未来来说不是好迹象。"

Sam Altman's post about em dashes on X

这一"小胜利"实际上暴露了AI系统的一个基本挑战:它们不是按照规则运行,而是根据概率生成输出。即使是最简单的指令,如"不要使用破折号",也需要复杂的调整才能可靠地工作,而且这种调整可能随时被新的更新所颠覆。

超越统计模式:真正的智能需要什么?

如果我们连控制标点符号使用都如此困难,那么实现真正的通用人工智能需要什么?答案可能在于超越当前的统计模式匹配方法,向真正的理解和推理能力发展。

真正的智能不仅仅是生成看起来合理的文本;它涉及对世界的理解、因果关系的把握、常识推理以及根据目标灵活调整行为的能力。这些能力在当前的AI系统中仍然非常有限。

结论:AI发展的现实视角

Sam Altman对ChatGPT终于能够控制破折号使用的庆祝,实际上揭示了一个重要真相:我们距离真正的通用人工智能仍然非常遥远。虽然AI技术在不断进步,但当前的系统仍然面临着基本挑战,即使是控制简单的格式规则。

这并不意味着AI没有价值或不会继续发展。相反,它提醒我们,真正的智能是一个复杂的多方面现象,不能简单地通过增加模型规模或数据量来实现。我们需要新的方法、新的架构和新的理解,才能创造出真正具有通用智能的系统。

在追求AGI的道路上,我们需要保持现实的期望,同时继续探索和创新。正如破折号问题所展示的,AI的进步往往是渐进的,充满意想不到的挑战,但也充满了解决问题的可能性。未来的AI发展不仅需要技术突破,还需要对智能本质的更深刻理解。