AGUVIS:香港大学联手 Salesforce 推出统一纯视觉 GUI 自动化框架

5

在数字化的浪潮中,人机交互的界面(GUI)自动化正变得日益重要。香港大学与 Salesforce 联手推出的 AGUVIS,正是一款旨在革新 GUI 自动化领域的创新框架。它采用纯视觉方法,摆脱了对传统代码和复杂配置的依赖,为自主智能体在各种平台上的操作开辟了新的可能性。

AGUVIS:统一视觉的 GUI 自动化框架

AGUVIS 的核心在于其“统一”性。它不再区分网页、桌面应用或移动设备等不同平台的差异,而是将所有 GUI 都视为图像,从而实现跨平台的通用操作。这种方法不仅简化了开发流程,还极大地提高了自动化智能体的适应性和灵活性。

该框架通过图像观察和自然语言指令的关联,使智能体能够理解用户的意图,并将其转化为对 GUI 元素的具体操作。这意味着,用户只需用自然语言描述他们想要完成的任务,AGUVIS 就能自动识别相关的界面元素,并执行相应的操作。

更重要的是,AGUVIS 结合了显式规划和推理能力。这意味着,智能体不仅能够执行简单的指令,还能分析复杂的环境,并生成有效的操作步骤。例如,在预订机票时,AGUVIS 能够自动填写出发地、目的地、日期等信息,并选择合适的航班。

AI快讯

AGUVIS 的主要功能

AGUVIS 的功能非常强大,可以应用于各种场景。以下是其主要功能的详细介绍:

  1. 跨平台自主 GUI 交互

AGUVIS 能够在各种平台上自主执行 GUI 任务,包括网站、桌面应用和移动设备。这意味着,无论用户使用的是哪种平台,AGUVIS 都能提供一致的自动化体验。例如,用户可以使用 AGUVIS 自动填写各种在线表格,或者自动管理他们的社交媒体账户。

  1. 图像观察与自然语言指令关联

AGUVIS 能够将自然语言指令映射到视觉界面元素,从而实现基于图像的交互。这意味着,用户只需用自然语言描述他们想要完成的任务,AGUVIS 就能自动识别相关的界面元素,并执行相应的操作。例如,用户可以说“点击搜索按钮”,AGUVIS 就能自动找到并点击网页上的搜索按钮。

  1. 显式规划与推理

AGUVIS 集成了规划和推理能力,使智能体能够分析环境并生成有效的操作步骤。这意味着,AGUVIS 不仅能够执行简单的指令,还能处理复杂的任务。例如,在预订酒店时,AGUVIS 能够自动比较不同酒店的价格和评价,并选择最合适的酒店。

  1. 大规模数据集构建

AGUVIS 依赖于大规模数据集进行训练。这些数据集包含多模态推理和基础的 GUI 代理轨迹,能够帮助智能体更好地理解和操作 GUI 界面。通过不断学习这些数据,AGUVIS 能够不断提高其自动化能力。

AGUVIS 的技术原理

AGUVIS 的技术原理是其强大功能的基石。以下是其主要技术原理的详细介绍:

  1. 纯视觉框架

AGUVIS 采用纯视觉方法,将界面观察统一为图像,将指令基础到图像坐标,从而提高跨环境的泛化能力。这意味着,AGUVIS 不再依赖于具体的代码或配置,而是通过图像识别和处理来实现自动化。

  1. 统一动作空间

AGUVIS 使用标准化的动作空间和插件系统,在不同平台间进行一致的学习与交互。这意味着,AGUVIS 能够轻松地适应不同的 GUI 界面,并执行相应的操作。

  1. 视觉-语言模型(VLM)

AGUVIS 使用 VLM 作为基础,例如 Qwen2-VL,来处理任意分辨率的高分辨率图像,并动态转换为视觉令牌。这意味着,AGUVIS 能够处理各种复杂的 GUI 界面,并从中提取有用的信息。

  1. 两阶段训练范式

AGUVIS 采用两阶段训练范式,包括基础训练和规划与推理训练。基础训练专注于使模型理解和与单个 GUI 截图中的对象交互,而规划与推理训练则引入更复杂的决策制定和推理过程。通过这种训练方式,AGUVIS 能够不断提高其自动化能力。

  1. 内省式独白(Inner Monologue)

AGUVIS 在训练中生成详细的内省式独白,包含观察描述、思考和低级动作指令,从而模拟代理的思考过程、提升其规划能力。这意味着,AGUVIS 能够更好地理解用户的意图,并生成更有效的操作步骤。

  1. 插件系统

AGUVIS 拥有一个灵活的插件系统,可以为不能直接映射到现有动作空间的动作提供灵活性,让模型能够适应新环境和任务。这意味着,AGUVIS 能够轻松地扩展其功能,并适应新的应用场景。

AGUVIS 的应用场景

AGUVIS 的应用场景非常广泛,可以应用于各种领域。以下是一些具体的应用场景:

  1. 自动化测试

在软件开发中,AGUVIS 可以自动化测试各种图形用户界面,包括网站、桌面应用和移动应用,从而确保软件的稳定性和可靠性。例如,AGUVIS 可以自动测试网页上的各种表单,或者自动测试移动应用上的各种功能。

  1. 虚拟助手

AGUVIS 可以作为虚拟助手,帮助用户自动化日常的计算机任务,如日程管理、邮件处理和数据输入。例如,AGUVIS 可以自动提醒用户即将到来的会议,或者自动回复用户的邮件。

  1. 业务流程自动化

在企业中,AGUVIS 可以自动化执行特定的业务流程,如财务报告生成、客户数据管理等,从而提高工作效率。例如,AGUVIS 可以自动生成财务报告,或者自动更新客户数据。

  1. 教育和培训

AGUVIS 可以创建交互式教育软件,模拟真实世界的 GUI 操作,用于教学和培训目的。例如,AGUVIS 可以模拟操作各种软件,从而帮助学生更好地学习。

  1. 客户服务自动化

在客户服务领域,AGUVIS 可以自动处理客户请求,基于 GUI 界面提供快速响应和解决方案。例如,AGUVIS 可以自动回答客户的常见问题,或者自动解决客户遇到的问题。

AGUVIS 的项目地址

如果您对 AGUVIS 感兴趣,可以访问以下项目地址了解更多信息:

AGUVIS 的未来展望

AGUVIS 的出现,为 GUI 自动化领域带来了新的希望。它采用纯视觉方法,摆脱了对传统代码和复杂配置的依赖,为自主智能体在各种平台上的操作开辟了新的可能性。随着技术的不断发展,AGUVIS 将在更多领域得到应用,为人们的生活和工作带来更多便利。

未来的 AGUVIS,或许能够像科幻电影中的智能助手一样,理解我们的每一个指令,自动完成各种复杂的任务。它将成为我们数字生活的得力助手,让我们能够更加专注于创造和创新。