AI模型迭代:评估体系构建也需迭代思维

1

在人工智能(AI)驱动的时代,模型迭代已成为常态。然而,在GenAI应用项目中,自动化评估(evals)的部署常常滞后,对人工评估的依赖程度过高。构建自动化评估体系被视为一项巨大的投资,需要创建大量的示例、设计并验证复杂的指标,这让许多团队望而却步。实际上,评估体系的建设也应被视为一个迭代过程,从快速而简易的实现开始,逐步完善。本文旨在探讨如何以迭代的方式构建评估体系,从而减轻人工评估的负担,加速AI应用的开发进程。

Cartoon of two coworkers coding; one struggles with evaluations, the other iterates quickly through model updates and test cases.

评估体系的重要性与挑战

在构建如客户服务聊天机器人等GenAI应用时,由于输出结果的多样性,很难找到唯一的正确答案。因此,许多团队不得不依赖人工评估来判断系统的改进效果。尽管诸如“LLM-as-judge”等技术有所帮助,但其有效实施需要精细的调整,例如选择合适的提示语、提供恰当的上下文等。这些因素使得构建评估体系看似需要大量的前期投入,导致团队更倾向于依赖人工评估。

然而,这种做法忽略了评估体系的真正价值——通过自动化手段加速开发流程,并提高系统性能。因此,我们需要转变观念,将评估体系的建设视为一个持续改进的过程,而非一次性的大规模投入。

迭代式评估体系构建的实践

构建快速、不完整但能有效反映系统性能的评估体系是完全可行的。这些评估体系可以作为人工评估的补充,而非替代品。随着时间的推移,我们可以逐步调整评估方法,使其输出结果与人工判断更加一致。以下是一些可行的实践方法:

  1. 从小规模示例集开始:

    初始阶段,评估集中只需包含少量的示例(例如5个),然后随着时间的推移逐步增加。同时,可以根据实际情况删除过于简单或过于困难的示例,以确保示例集能够有效区分不同版本系统的性能。

  2. 关注关键性能维度:

    评估体系可以从关注系统性能的某个子集开始,或者测量与系统性能相关的狭窄线索。例如,在客户支持场景中,如果聊天机器人需要在对话中调用API并生成回复消息,可以先评估API调用是否正确,而暂不关注消息的质量。类似地,对于产品推荐场景,可以先评估聊天机器人是否提到了目标产品,而暂不关注其描述是否准确。

    只要评估结果与整体性能相关,就可以在初期阶段只关注部分关键指标。

  3. 双迭代循环开发流程:

开发过程应包含两个并行的迭代循环:

  • 迭代改进系统性能,通过自动化评估和人工判断相结合的方式进行衡量。
  • 迭代改进评估体系,使其与人工判断更加一致。

在AI开发中,我们常常无法一次性构建完美的系统。因此,快速构建一个初步的端到端系统,然后通过迭代进行改进,是一种更有效的方法。同样的道理也适用于评估体系的建设。

评估体系成功的关键要素

一个成功的评估体系应满足以下标准:

  • 如果系统A的性能明显优于系统B(根据专业人士的判断),则评估体系应给予系统A更高的评分。
  • 如果系统A和系统B的性能相似,则评估体系应给予它们相似的评分。

当评估体系的结果与上述标准不符时,就意味着评估体系存在“错误”,需要对其进行调整,以确保其能够正确地对系统进行排序。这种理念与机器学习算法中的错误分析类似,但关注点在于评估体系的“错误”,而非机器学习算法的输出错误。

案例分析:电商推荐系统的迭代式评估

假设一家电商公司正在开发一个基于GenAI的商品推荐系统。起初,该团队采用人工评估的方式,即由人工审核员浏览推荐结果,判断推荐的商品是否符合用户的兴趣。这种方式效率低下,且难以保证评估的一致性。

为了提高效率,该团队决定构建一个迭代式的评估体系。第一步,他们选取了100个用户作为评估样本,并收集了这些用户的历史购买记录和浏览行为数据。然后,他们设计了一个简单的评估指标:推荐的商品是否属于用户过去购买或浏览过的商品类别。如果推荐的商品属于该类别,则认为推荐是相关的,否则认为是不相关的。

基于这个简单的评估指标,团队构建了一个自动化评估工具。该工具可以自动分析推荐结果,并计算推荐的相关性得分。起初,该评估工具的准确率并不高,但团队并没有放弃。他们通过不断地分析评估结果和人工审核结果之间的差异,逐步改进评估指标。例如,他们发现用户可能对过去购买过的商品类别不感兴趣,因此他们引入了“新鲜度”指标,即推荐的商品是否属于用户最近没有购买或浏览过的商品类别。

经过多次迭代,该团队的自动化评估工具的准确率逐渐提高,最终达到了与人工审核员相当的水平。这大大提高了推荐系统的开发效率,并加速了系统的迭代过程。

结论与展望

纯粹依赖人工判断是项目启动的有效方式,但对于许多团队而言,将评估体系构建为一个快速原型并迭代至更成熟的阶段,可以让他们更早地进行评估并加速项目进展。

评估体系的迭代式构建是GenAI应用开发的关键。通过从小规模、关注关键指标的评估体系开始,并不断地进行迭代和改进,我们可以逐步减轻人工评估的负担,提高开发效率,并最终构建出更强大的AI系统。在未来,随着AI技术的不断发展,评估体系的构建将变得更加自动化和智能化,为AI应用的开发带来更大的便利。

Andrew Huang