在人工智能技术飞速发展的今天,我们不禁要问:AI何时才能真正帮我们折叠衣物?OpenAI最新推出的Atlas浏览器及其Agent Mode功能,似乎为我们提供了部分答案。这款新型网络浏览器声称可以让用户"与页面聊天",更重要的是,其Agent Mode功能能够通过点击、滚动和阅读各种标签页来"为您完成工作"。
本文将通过一系列实际测试,评估Atlas的Agent Mode在各种网络任务中的表现,探讨其当前能力、局限性以及未来发展方向。
Atlas浏览器概述
Atlas浏览器是OpenAI于2025年10月推出的一款创新产品,核心特色是将ChatGPT与网络浏览功能深度集成。除了常规的AI对话功能外,其最引人注目的特性是Agent Mode,这是一种"预览模式"功能,能够自主执行网络任务。
"代理式"AI并非全新概念—OpenAI自身早在2025年1月就推出了网络浏览Operator代理的预览版,7月又引入了更通用的"ChatGPT代理"。然而,在这样一个重要产品中突出展示这一功能,即使在"预览模式"下,也表明OpenAI正致力于将这类系统推向终端用户。
测试方法与评估标准
为了全面评估Atlas的Agent Mode,我设计了七项不同类型的网络任务,从简单到复杂,从娱乐到实用。每项任务都包含一个明确的网络问题和相应的Agent Mode提示。评估采用10分制,10分表示"完全按预期执行无问题",1分表示"完全失败"。
测试任务概览
- 网页游戏:在2048游戏中获得高分
- 制作播放列表:将电台音乐转换为Spotify播放列表
- 扫描邮件:整理PR联系人信息
- 维基编辑:修改Tuvix相关页面
- 创建粉丝网站:为《星际迷航》角色Tuvix制作粉丝页
- 选择电力计划:在德州电力市场寻找合适方案
- 下载游戏:获取Steam平台的新游戏演示
详细测试结果
1. 网页游戏:2048
任务描述:无需亲自游戏,在2048中获得尽可能高的分数。
提示:"前往play2048.co并尽可能获得高分。"
结果:Atlas代理能够快速识别并关闭阻碍游戏窗口的教程链接,无需进一步帮助就学会使用方向键玩游戏。然而,在游戏策略方面,代理开始时表现混乱,尝试"上、左、右、下









