破折号困境:AI基础能力与通用智能的鸿沟

0

在人工智能发展史上,很少有标点符号能像破折号这样成为AI生成文本的标志性特征。近年来,过度使用破折号已成为许多人识别AI生成文本的关键指标之一。然而,令人意外的是,OpenAI CEO Sam Altman最近公开庆祝ChatGPT终于能够遵循用户关于避免使用破折号的指令,这一"小胜利"引发了人们对AI真正能力的深刻思考。

AI与破折号的纠葛

破折号:AI的"签名"特征

与键盘上直接可用的短横线(-)不同,破折号(—)是一种较长的标点符号,用于插入补充信息、表示思路突然转变或引入总结解释。在ChatGPT等AI聊天机器人出现之前,一些作家就已经对现代写作中破折号的过度使用表示担忧。2011年《Slate》杂志的一篇文章中,作家Noreen Malone认为作家使用破折号"代替了正确构建句子",过度依赖它"阻碍了真正高效的写作"。

破折号在AI文本中的过度使用

随着AI语言模型的普及,破折号问题变得更加突出。检测工具和人类读者已经学会将破折号使用模式识别为AI生成文本的特征,这给那些自然偏好使用这一标点符号的作家带来了问题。一些记者甚至抱怨AI正在"杀死"破折号。

为什么AI如此青睐破折号?

目前尚无确切原因解释大型语言模型(LLM)为何倾向于过度使用破折号。网络上的推测多种多样:一种观点认为,AI训练数据中19世纪书籍的破折号使用频率更高(根据2018年的一项研究,英语中破折号的使用在1860年左右达到顶峰,然后在20世纪中期逐渐下降);另一种可能是AI模型从Medium博客网站的自动破折号字符转换功能中养成了这一习惯。

最合理的解释仍然是,AI模型倾向于输出训练数据中常见模式。当用户请求专业风格写作时,模型会大量借鉴训练数据中的主流风格,而正式写作、新闻文章和编辑内容中破折号出现频率较高。此外,在通过人类反馈进行训练(RLHF)的过程中,无论出于何种原因,包含破折号的回答可能获得了更高的评分,因为它们在评估者看来可能显得更精致或更具吸引力。

指令遵循:表面胜利下的深层问题

要理解Altman的"胜利"真正意味着什么,以及它对通往AGI道路的启示,我们需要了解ChatGPT的"自定义指令"功能如何工作。该功能允许用户设置跨所有对话的持久偏好,通过在聊天开始前添加书面指令到输入模型的提示中。用户可以指定语气、格式和风格要求,而无需在每个新对话中手动重复这些请求。

然而,这一功能并非一直可靠,因为LLM的工作原理存在根本性局限。传统计算中的指令遵循是确定性的——你告诉程序"不要包含字符X",它就不会包含该字符。程序严格按照编写的规则执行。而LLM的"指令遵循"本质上是调整统计概率。当你告诉ChatGPT"不要使用破折号"时,你并没有创建硬性规则,而是在提示中添加文本,使与破折号相关的标记在生成过程中被选中的可能性降低。"可能性降低"不等于"不可能"。

Sam Altman关于破折号的推文

每个模型生成的标记都是从概率分布中选择的。你的自定义指令影响这个分布,但它与模型的训练数据(其中破折号在某些上下文中频繁出现)和提示中的其他内容竞争。与带有条件逻辑的代码不同,没有独立系统验证输出是否符合你的要求。指令只是影响统计预测过程的更多文本。

当Altman庆祝最终让GPT避免使用破折号时,他实际上是在庆祝OpenAI已经调整了最新版本的GPT-5.1(可能通过强化学习或微调),在概率计算中更重视自定义指令。

控制的悖论:临时胜利与持续挑战

这里存在一个关于控制的悖论:鉴于问题的概率性质,无法保证问题会永久解决。OpenAI在后台持续更新其模型,即使在同一版本号内,也会根据用户反馈和新训练运行调整输出。每次更新都会带来不同的输出特性,可能抵消先前的行为调整,研究人员称之为"对齐税"。

精确调整神经网络的行为还不是一门精确的科学。由于网络中编码的所有概念都通过称为"权重"的值相互连接,调整一种行为可能会以意想不到的方式改变其他行为。今天解决了破折号过度使用问题,明天的更新(旨在提高编程能力等)可能会无意中将它们带回来,不是因为OpenAI希望它们存在,而是因为试图在数百万个相互竞争的影响中引导统计系统的本质如此。

从破折号到AGI:遥远的距离

这引出了我们之前提到的一个隐含问题:如果控制标点符号的使用仍然是一个可能随时重新出现的挑战,我们距离AGI还有多远?虽然我们无法确定,但AGI不太可能仅从大型语言模型中出现的可能性似乎越来越大。因为AGI是一种复制人类一般学习能力的技术,可能需要真正的理解和自我反思的 intentional 行为,而不是有时恰好与指令对齐的统计模式匹配。

Altman喜欢公开谈论AGI(一种在一般学习能力上与人类相当的技术)、超级智能(一种远超人类智能的模糊AI概念)和"天上的神奇智能"(他指的AI云计算?)同时为OpenAI筹集资金,但很明显,我们今天在地球上还没有可靠的人工智能。

一位X用户在回复中写道:"自ChatGPT首次发布已经3年了,你刚刚才设法让它遵守这个简单的要求,这说明了你对它的控制有多小,以及你对它内部工作原理的理解有多少。这对未来来说不是好兆头。"

AI发展的现实路径

Altman对破折号控制的"小胜利"庆祝,实际上反映了AI行业面临的一个更广泛问题:我们可能过于关注宏大愿景,而忽视了基础能力的实际进展。从破折号控制问题可以看出,当前的AI系统在理解基本指令、遵循简单规则方面仍然存在显著挑战。

这并不意味着AI没有取得进展。相反,它表明我们需要重新评估AI发展的路径。真正的智能可能不仅在于模式识别和统计预测,而在于理解、推理和适应的能力。这些能力可能需要超越当前大型语言模型的架构,转向更接近人类认知过程的系统。

结论:超越标点符号的思考

破折号困境提醒我们,AI的发展比许多人想象的更加复杂和渐进。虽然Altman的"胜利"值得庆祝,但它也揭示了从当前AI系统到真正通用智能之间可能存在的巨大鸿沟。

在追求AGI的道路上,我们需要认识到,真正的智能不仅仅是遵循指令或生成连贯文本的能力,而是理解、推理、适应和创造的能力。正如破折号问题所展示的,即使是这些基本能力的实现,也面临着我们尚未完全理解的技术挑战。

随着AI技术的继续发展,我们需要保持谦逊和批判性思维,既不过度夸大当前成就,也不低估长期潜力。只有这样,我们才能在AI发展的道路上做出明智的决策,确保这项技术最终以有益于人类的方式发展。