AI模型迭代式评估:从小步快跑到卓越性能飞跃

1

在人工智能(AI)应用项目中,自动化评估(evals)的实施往往滞后,许多团队过度依赖人工评估,这是一个普遍存在的问题。究其原因,构建完善的评估体系被视为一项巨大的投资,需要创建大量的示例、设计并验证复杂的指标。然而,这种观念忽略了评估体系建设的迭代本质。本文旨在探讨如何通过迭代的方式构建AI评估体系,降低初期投入,逐步实现评估流程的自动化。

评估体系的迭代构建

构建评估体系不应被视为一项必须一次性完成的任务。相反,团队可以从一个快速且不完善的初始版本开始,例如仅包含少量示例和未经优化的指标。随着项目的进展,逐步迭代并改进评估体系。这种方法能够将评估的负担从人工逐渐转移到自动化评估,从而提高效率并降低成本。

构建评估体系的难点在于,对于许多AI应用场景,特别是在自由文本交互中,不存在唯一的正确答案。以客户服务聊天机器人为例,每次系统更新后,团队通常需要人工审查大量的输出示例,以判断系统是否有所改进。尽管诸如“LLM-as-judge”的技术有所帮助,但要使其有效运作,需要对提示语、上下文等细节进行微调,这进一步加剧了构建评估体系的复杂性。

因此,建议采取不同的评估体系构建方法。即使初始评估体系只能提供部分、不完整或带有噪音的系统性能指标,也是可以接受的。这些初始评估可以作为人工评估的补充,而非替代品。随着时间的推移,团队可以逐步调整评估方法,缩小评估输出与人工判断之间的差距。

迭代改进的具体方法

  1. 示例数量的迭代:初始评估集合可以从少量示例开始,例如5个。随着项目的进展,可以逐渐增加示例数量。如果发现某些示例过于简单或过于困难,对区分不同版本的系统性能没有帮助,可以将其移除。

Cartoon of two coworkers coding; one struggles with evaluations, the other iterates quickly through model updates and test cases.

  1. 评估维度的迭代:初始评估可以仅关注系统性能的某个子集,或者测量与系统性能相关的狭窄指标。例如,在客户支持场景中,如果聊天机器人需要在对话的特定时刻调用API进行退款并生成适当的消息,初始评估可以只关注API调用是否正确,而暂不考虑消息的质量。类似地,如果聊天机器人应该推荐特定产品,初始评估可以只关注机器人是否提到了该产品,而无需评估其描述。

只要评估输出与整体性能相关,就可以在初期只关注部分指标。关键在于确保所选指标能够提供有价值的信息,并随着时间的推移进行改进。

双迭代循环

开发过程应包含两个并行迭代循环:

  • 迭代改进系统性能:通过自动化评估和人工判断相结合的方式,不断优化系统性能。
  • 迭代改进评估体系:使评估体系的输出更贴近人工判断。

与AI领域的许多事物一样,我们通常无法一次性将其做好。因此,最好快速构建一个初始的端到端系统,然后通过迭代进行改进。这种方法已经广泛应用于AI系统的构建中,同样也适用于评估体系的构建。

成功评估的标准

一个成功的评估体系应满足以下标准:

  • 如果系统A的性能明显优于系统B(根据专业人工判断),则评估体系应给予系统A明显更高的分数。
  • 如果系统A和系统B的性能相似,则它们的评估分数应相似。

每当系统A和系统B的评估结果与上述标准相矛盾时,都表明评估体系存在“误差”,需要进行调整,以使其能够正确地对系统进行排序。这种理念与机器学习算法构建中的错误分析类似。不同之处在于,我们关注的是评估体系的“误差”,而不是机器学习算法输出的错误(例如,输出不正确的标签)。我们的目标是改进评估体系,使其能够有效地帮助我们选择最佳系统。

结论

纯粹依赖人工判断是项目启动的有效方式。然而,对于许多团队而言,将评估体系构建为一个快速原型,并通过迭代使其更加成熟,能够更早地实施评估,并加速项目的进展。

评估体系的未来展望

构建一个有效的评估体系不仅仅是为了改进当前的AI系统,更是为了未来的发展奠定基础。随着AI技术的不断进步,评估的需求也会不断变化。一个灵活、可迭代的评估体系能够帮助团队快速适应新的挑战和机遇,确保AI系统始终能够满足用户的需求。

案例分析

以一个电商平台的推荐系统为例。该系统最初依赖人工评估来判断推荐结果是否相关。然而,随着用户数量的增加,人工评估的效率越来越低。为了解决这个问题,团队开始构建一个自动化评估体系。他们首先定义了一些关键指标,例如点击率、转化率和用户满意度。然后,他们使用历史数据来训练一个模型,该模型可以预测用户对不同推荐结果的满意度。最初,该模型的准确率并不高,但团队通过不断迭代和改进,最终使其能够有效地替代人工评估。这个案例表明,即使是一个复杂的系统,也可以通过迭代的方式构建一个有效的评估体系。

数据佐证

根据一项针对AI项目评估的调查,超过70%的团队认为自动化评估是提高效率的关键。然而,只有不到30%的团队拥有完善的自动化评估体系。这表明,自动化评估仍然是一个有待开发的领域。通过采用迭代的方法,更多的团队可以构建出适合自身需求的自动化评估体系,从而提高AI项目的成功率。

总之,构建评估体系是一个持续改进的过程。通过采用迭代的方法,团队可以降低初期投入,逐步实现评估流程的自动化,并最终构建出一个能够有效支持AI系统开发的评估体系。

Andrew