AndroidGen:智谱技术赋能LLM Agent,革新AI任务处理方式

3

在人工智能领域,Agent技术正日益成为研究和应用的热点。近日,智谱技术团队推出了一款名为AndroidGen的框架,旨在提升基于大型语言模型(LLM)的Agent能力,尤其是在数据资源相对匮乏的情况下。这一框架的独特之处在于,它能够通过收集人类任务轨迹来训练语言模型,从而开发出无需人工标注轨迹的Agent,这无疑为LLM在复杂任务中的应用开辟了新的道路。

AndroidGen

AndroidGen的核心功能剖析

AndroidGen的功能亮点颇多,其中最引人注目的是其无需人工标注的数据收集与训练机制。传统的Agent训练往往依赖于大量的人工标注数据,这不仅耗时耗力,而且成本高昂。而AndroidGen通过收集人类在完成任务时的轨迹,并基于这些轨迹来训练语言模型,极大地降低了数据标注的成本和难度。

此外,AndroidGen还通过四个核心模块——ExpSearch、ReflectPlan、AutoCheck和StepCritic——来增强Agent的任务执行能力。这些模块各司其职,协同工作,使得Agent在面对复杂任务时能够更加游刃有余。

  • ExpSearch(经验搜索):该模块通过检索已完成的类似轨迹,为LLM提供上下文学习的机会。这意味着Agent可以借鉴过往的经验,从而提升其在类似任务中的表现。更重要的是,ExpSearch还能够帮助Agent实现从简单任务到复杂任务的泛化,使其能够应对更加多样化的挑战。
  • ReflectPlan(反思计划):该模块赋予Agent自我反思的能力。Agent可以对当前的环境进行评估,并根据评估结果来更新其计划状态。这种反思能力对于增强Agent的长期推理能力至关重要,使其能够在复杂环境中做出更加明智的决策。
  • AutoCheck(自动检查):该模块旨在主动验证Agent的每一个操作的有效性。通过自动检查,可以及时发现并纠正操作失误,从而降低因操作失误导致任务失败的风险。这对于确保Agent的可靠性和稳定性具有重要意义。
  • StepCritic(步骤评估):该模块将任务分解为多个子目标,并提供逐步轨迹评估。这意味着Agent可以对每一个步骤的执行情况进行评估,并根据评估结果进行调整。此外,StepCritic还为模型优化提供了细粒度标签,为模型的进一步改进提供了有力支持。

除了以上四个核心模块,AndroidGen还构建了一个高效的数据收集管道。该管道能够生成大量高质量的Android浏览轨迹,为Agent的训练提供充足的数据保障。

AndroidGen的技术原理探究

AndroidGen的技术原理主要体现在模型训练和数据收集流程两个方面。

在模型训练方面,AndroidGen采用了LoRA技术,针对自动构建的数据集对GLM-4-9B和Llama-3-70B进行微调,从而得到Android Agent模型。值得一提的是,该模型无需人工标注轨迹,而是通过将轨迹中的每一步作为独立样本进行训练,充分利用了数据集中的信息。此外,AndroidGen还将规划和执行步骤混合起来进行微调,使得LLM能够同时具备规划和执行的能力。

数据收集流程同样至关重要。AndroidGen的数据收集流程包括以下几个步骤:

  1. 任务制定:基于GPT-4o,根据AndroidWorld中的指令生成约300条任务指令。
  2. Agent采样:基于AndroidWorld和GPT-4o,对每个任务的轨迹进行采样。
  3. 轨迹记录:记录每一步的环境和操作信息,构建可复现的Android导航轨迹。
  4. 轨迹评估:使用StepCritic对记录的轨迹进行评估,确保每个子目标都已完成。
  5. 轨迹增强:扩充高质量数据集,最终构建一个包含1000多个轨迹的数据集。

通过以上步骤,AndroidGen能够高效地收集和处理数据,为Agent的训练提供有力支持。

AndroidGen的性能表现评估

为了评估AndroidGen的性能,研究团队进行了一系列实验。结果表明,AndroidGen在AndroidWorld基准测试中表现出色。具体来说,AndroidGen显著提升了相同基础模型Agent的能力,与M3A和SeeAct相比,性能提升更为显著。此外,AndroidGen + GPT-4o的平均得分达到了46.8,远超其他组合。更令人惊喜的是,模型参数更小且开源的GLM-4-9B + AndroidGen的平均得分,甚至超过了模型参数更大且闭源的GPT-4o + M3A。

除了AndroidWorld基准测试,研究团队还在AitW(Android in the Wild)和八款全球流行的移动应用程序(如Google Maps、YouTube等)中对AndroidGen进行了评测。结果表明,AndroidGen在真实设备环境中对自然语言指令的理解和交互能力同样表现出色。

这些实验结果充分证明了AndroidGen的有效性和优越性。

AndroidGen的应用前景展望

AndroidGen的应用场景十分广泛。例如,通过自然语言指令,Agent可以自动完成如发送邮件、设置提醒、查询信息等任务。此外,Agent还可以在不同应用之间进行交互,完成如从一个应用复制数据到另一个应用等操作。在Android设备上,Agent可以根据用户指令进行导航,例如打开特定的应用、查找文件等。更重要的是,通过自然语言理解,Agent能够与用户进行交互,提供更智能的用户体验。

随着人工智能技术的不断发展,Agent技术将在更多领域发挥重要作用。而AndroidGen作为一款优秀的Agent框架,无疑将为Agent技术的发展注入新的活力。

总结

AndroidGen的出现,为基于LLM的Agent技术带来了新的突破。它不仅降低了数据标注的成本和难度,还通过四个核心模块显著提升了Agent的任务执行能力。随着AndroidGen的不断发展和完善,我们有理由相信,它将在未来的智能化应用中发挥越来越重要的作用。