破折号之争:AI语言模型与人类智能的鸿沟

0

在人工智能发展的浪潮中,一个看似微小的标点符号使用问题,却揭示了一个深刻的技术挑战:OpenAI CEO Sam Altman近日庆祝ChatGPT终于能够遵循用户关于避免使用破折号(em dashes)的指令。这一"小小的胜利"背后,折射出AI语言模型在基础指令遵循上的长期困难,以及通往真正人类级智能道路上的重重障碍。

破折号:AI文本生成的"签名"标记

过去几年,破折号(em dashes)已成为许多人识别AI生成文本的明显标志。这种标点符号在ChatGPT和其他AI聊天机器人的输出中频繁出现,有时甚至到了读者仅凭过度使用就能识别AI写作的地步——尽管人类作者也可能过度使用它。

与连字符(hyphen)不同,破折号是一种更长的标点符号(—),用于插入补充信息、表示思路突然转变或引入总结解释。在AI语言模型出现之前,一些作家就已频繁抱怨现代写作中破折号的过度使用。2011年《Slate》的一篇文章中,作家Noreen Malone认为作家使用破折号"代替了正确构造句子",而对它的过度依赖"阻碍了真正高效的写作"。

AI与标点符号的博弈

图:AI与标点符号使用之间的复杂关系

为什么AI模型偏爱破折号?

没有人确切知道为什么大型语言模型(LLMs)倾向于过度使用破折号。我们已经看到网上有广泛的推测试图解释这一现象,从注意到破折号在用作训练数据的19世纪书籍中更受欢迎(根据一项2018年研究,英语中破折号的使用在1860年左右达到顶峰,然后在20世纪中期逐渐下降),或者也许AI模型从博客平台Medium上的自动破折号字符转换中养成了这个习惯。

我们可以确定的一件事是,LLMs倾向于输出其训练数据(在初始训练过程中输入)和随后的强化学习过程中经常看到的模式,该过程通常依赖人类偏好。因此,AI语言模型为您提供的是您要求提供的某种"平滑化"的平均风格,由它们通过用户反馈被调节为产生的任何内容所决定。

最合理的解释仍然是,在互联网上大量示例训练的AI模型对专业风格写作的请求会严重偏向训练数据中的主流风格,其中破折号在正式写作、新闻文章和编辑内容中频繁出现。同样可能的是,在通过人类反馈(称为RLHF)进行训练期间,无论出于何种原因,包含破折号的响应获得了更高的评分。也许是因为这些输出在评估者看来显得更复杂或更具吸引力,但这只是推测。

从破折号到AGI:距离有多远?

要理解Altman的"胜利"真正意味着什么,以及它对通往AGI的道路说明了什么,我们需要理解ChatGPT的自定义指令实际上是如何工作的。它们允许用户设置跨所有对话应用的持久偏好,方法是在聊天开始前输入模型的提示中附加书面指令。用户可以指定语气、格式和风格要求,而无需在每个新聊天中手动重复这些请求。

然而,该功能并不总是可靠地工作,因为LLMs并不可靠地工作(即使OpenAIAnthropic也 freely 承认这一点)。LLM接收输入并产生输出,吐出提示(系统提示、自定义指令和您的聊天历史)的统计上合理的延续,它并不真正"理解"您在要求什么。对于AI语言模型输出,总是有一些运气成分在让它们做您想要的事情。

AI与人类指令遵循的对比

图:AI与人类在遵循指令方面的根本差异

在我们的非正式测试中,使用自定义指令的GPT-5.1确实遵循了我们不生成破折号的请求。但尽管有Altman的声明,X用户的反应似乎表明,当请求未放在自定义指令中时,该功能的体验继续 vary

概率与确定性:AI指令遵循的本质

如果LLMs是统计文本生成盒子,那么"指令遵循"甚至意味着什么?这是解开从LLMs到AGI的假设路径的关键。对于LLM来说,遵循指令的概念从根本上不同于我们通常认为的具有通用智能的人类遵循指令的方式,甚至是传统计算机程序。

在传统计算中,指令遵循是确定性的。您告诉程序"不要包含字符X",它就不会包含该字符。程序完全按照编写的规则执行。对于LLMs,"指令遵循"实际上是关于转移统计概率。当您告诉ChatGPT"不要使用破折号"时,您不是在创建硬性规则。您是在向提示添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。但"可能性较低"不等于"不可能"。

模型生成的每个标记都是从概率分布中选择的。您的自定义指令影响该分布,但它与模型的训练数据(其中破折号在某些上下文中频繁出现)和提示中的所有其他内容竞争。与具有条件逻辑的代码不同,没有单独的系统根据您的要求验证输出。指令只是影响统计预测过程的更多文本。

当Altman庆祝最终让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),在其概率计算中更重视自定义指令。

控制的悖论:AI的不稳定性

这里存在一个关于控制的悖论:鉴于问题的概率性质,无法保证问题会保持固定。OpenAI持续更新其模型,即使在同一版本号内,也会根据用户反馈和新训练运行调整输出。每次更新都带来不同的输出特性,可能会取消先前的行为调整,这种现象研究人员称为"对齐税"。

AI模型的内部工作机制

图:Sam Altman关于破折号使用的社交媒体帖子

精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为权重的值相互连接,调整一种行为可能会以意想不到的方式改变其他行为。今天解决破折号过度使用,明天的更新(旨在提高,比如说,编码能力)可能会无意中将它们带回来,不是因为OpenAI希望它们在那里,而是因为试图在数百万个相互竞争的影响下引导统计系统的本质。

超越语言模型:AGI的真正挑战

这引出了我们前面提到的隐含问题。如果控制标点符号的使用仍然是一个可能随时重新出现的困难,那么我们离AGI还有多远?我们无法确定,但似乎越来越有可能它不会仅从大型语言模型中涌现。因为AGI是一种复制人类通用学习能力的技术,它可能需要真正的理解和自我反思的 intentional 行动,而不是有时恰好与指令对齐的统计模式匹配。

Altman喜欢公开谈论AGI(一种在通用学习能力上与人类相当的假设技术)、超级智能(一种远超人类智能的模糊AI概念)和"天空中的魔法智能"(他指的AI云计算?)同时为OpenAI筹集资金,但很明显,我们今天在地球上仍然没有可靠的人工智能。

重新思考AI发展路径

破折号之争提醒我们,当前AI技术的局限性比许多人愿意承认的要深刻。虽然大型语言模型在文本生成方面取得了显著进展,但它们在真正理解和遵循人类指令方面仍存在根本性局限。这表明,从当前AI技术到真正人类级智能的差距可能比业界宣称的更为遥远。

未来的AI发展可能需要超越纯粹的统计模式匹配,向真正的理解和推理能力迈进。这可能需要全新的架构、训练方法和评估标准,而不仅仅是扩大模型规模或增加训练数据。正如一位X用户在回复中写道:"ChatGPT首次推出已经3年了,你直到现在才设法让它遵守这个简单的要求,这说明了你对它的控制有多小,以及你对它内部工作原理的理解有多少。这对未来来说不是个好迹象。"

结论:超越标点符号的AI思考

Sam Altman对ChatGPT终于能够遵循破折号使用规则的庆祝,实际上是对一个基础技术挑战的承认。在追求更高级AI能力的道路上,我们首先需要解决最基本的指令遵循问题。这不仅仅是关于标点符号的技术细节,而是关于AI系统如何理解、尊重并执行人类意图的根本问题。

随着AI技术的不断发展,我们需要重新审视什么是真正的"智能",以及如何衡量AI系统的进步。破折号之争提醒我们,真正的AI进步不应仅看其生成文本的能力,而应看其理解人类意图并可靠地遵循指令的能力。只有这样,我们才能在追求更高级AI能力的道路上取得实质性进展,而不是仅仅停留在表面的"小胜利"上。