AI代理浏览器测试：Atlas能否真正自动化我们的网络任务？

在人工智能技术飞速发展的今天，我们不禁要问：AI何时才能真正帮我们折叠衣物？OpenAI最新推出的Atlas浏览器及其Agent Mode功能，似乎为我们提供了部分答案。这款新型网络浏览器声称可以让用户"与页面聊天"，更重要的是，其Agent Mode功能能够通过点击、滚动和阅读各种标签页来"为您完成工作"。

本文将通过一系列实际测试，评估Atlas的Agent Mode在各种网络任务中的表现，探讨其当前能力、局限性以及未来发展方向。

Atlas浏览器概述

Atlas浏览器是OpenAI于2025年10月推出的一款创新产品，核心特色是将ChatGPT与网络浏览功能深度集成。除了常规的AI对话功能外，其最引人注目的特性是Agent Mode，这是一种"预览模式"功能，能够自主执行网络任务。

"代理式"AI并非全新概念—OpenAI自身早在2025年1月就推出了网络浏览Operator代理的预览版，7月又引入了更通用的"ChatGPT代理"。然而，在这样一个重要产品中突出展示这一功能，即使在"预览模式"下，也表明OpenAI正致力于将这类系统推向终端用户。

测试方法与评估标准

为了全面评估Atlas的Agent Mode，我设计了七项不同类型的网络任务，从简单到复杂，从娱乐到实用。每项任务都包含一个明确的网络问题和相应的Agent Mode提示。评估采用10分制，10分表示"完全按预期执行无问题"，1分表示"完全失败"。

测试任务概览

网页游戏：在2048游戏中获得高分
制作播放列表：将电台音乐转换为Spotify播放列表
扫描邮件：整理PR联系人信息
维基编辑：修改Tuvix相关页面
创建粉丝网站：为《星际迷航》角色Tuvix制作粉丝页
选择电力计划：在德州电力市场寻找合适方案
下载游戏：获取Steam平台的新游戏演示

详细测试结果

1. 网页游戏：2048

任务描述：无需亲自游戏，在2048中获得尽可能高的分数。

提示："前往play2048.co并尽可能获得高分。"

结果：Atlas代理能够快速识别并关闭阻碍游戏窗口的教程链接，无需进一步帮助就学会使用方向键玩游戏。然而，在游戏策略方面，代理开始时表现混乱，尝试"上、左、右、下