OpenAI Atlas Agent测试：AI网络助手真能替代人类操作吗？

在人工智能技术飞速发展的今天，我们不禁要问：AI助手何时能真正解决我们的日常琐事？OpenAI最新推出的Atlas网络浏览器及其Agent模式，似乎为这个问题提供了新的答案。本文将深入测试这一创新技术，探索AI在自动化网络任务方面的实际能力与局限。

Atlas Agent简介：重新定义网络交互

2025年10月，OpenAI正式发布了Atlas网络浏览器，这一产品将ChatGPT与网络浏览功能深度整合，使用户能够"与网页对话"。然而，Atlas的核心亮点在于其Agent模式——一种"预览模式"功能，声称能够通过点击、滚动和阅读各种标签页来"为您完成工作"。

"代理式"AI并非新鲜概念，OpenAI本身早在2025年1月就推出了网络浏览Operator代理的预览版，并于7月引入了更通用的"ChatGPT代理"。然而，在这样一个重要产品中突出展示这一功能——即使在"预览模式"下——也明确表明了OpenAI旨在将这类系统推向终端用户的战略意图。

测试方法与评估标准

为了全面评估Atlas Agent的实际表现，我设计了一系列日常网络任务测试。每个测试案例都包含三个关键部分：需要解决的问题、提供给Atlas Agent的提示词以及执行结果评估。评估采用10分制，10分表示"完全按预期执行无问题"，1分表示"完全失败"。

以下是我进行的七个测试案例及其详细结果：

测试案例一：网页游戏操作（2048）

任务描述

希望在不亲自操作的情况下，在流行的数字滑动游戏"2048"中获得高分。

提示词

"访问play2048.co并尽可能获得高分。"

执行结果

虽然这个任务本身有些滑稽，但无需反应速度的简单网页游戏似乎是对Atlas Agent网页解读和操作能力的良好初步测试。毕竟，如果像Google Gemini这样的前沿模型能够玩通关复杂的《宝可梦》游戏，2048对网络浏览器代理来说应该不成问题。

Atlas Agent确实能够快速识别并关闭阻碍游戏窗口的教程链接，无需进一步帮助就能 figured out如何使用方向键玩游戏。然而，在实际游戏策略方面，代理开始胡乱尝试，反复尝试"上、左、右、下"或"左和下"等循环移动序列。

经过一段时间，这种随机尝试有所减少，代理似乎开始寻找一些简单的前瞻性策略："当前棋盘有两个不相邻的32格，但我认为可以将其对齐，"活动摘要中某处写道。"我可以尝试向左或向下移动使它们合并，但有一个8格作为障碍。达到64需要仔细的格子移动！"

令人沮丧的是，代理仅四分钟后就停止了游戏，得分为356，尽管棋盘远未填满。我不得不多次提示代理才说服它继续游戏直到完成；最终在260步后获得3164分。这与我作为2048新手测试游戏时获得的分数相当相似，尽管专家玩家据报道获得了高得多的分数。

评分：7/10

代理能够无需任何指导就能 competent地玩游戏，但因需要被告知继续玩到结束以及分数仅相当于新手人类水平而失分。

测试案例二：制作电台播放列表

任务描述

希望将我最喜欢的匹兹堡公共电台的当日播放列表转换为按需Spotify播放列表。

提示词

"访问Radio Garden。找到WYEP并监控广播。对于您听到的每首新歌，识别歌曲并将其添加到新的Spotify播放列表中。"

执行结果

在尝试并未能按请求在Radio Garden上找到WYEP的曲目列表后，Atlas Agent明智地请求批准转向wyep.org继续任务。当我注意到这个请求时，Radio Garden标签页中的wyep.org链接已被《EVE Online》的广告取代，代理意外点击了该广告。代理迅速意识到问题并直接导航到WYEP网站进行修复。

从那里，代理能够扫描页面并识别顶部的"正在播放"文本（不清楚它是否仅凭音频就能识别音乐，而无需此文本提示）。在我登录Spotify账户后，代理使用搜索栏查找列出的歌曲并将其无问题地添加到新播放列表中。

这个用例的主要问题在于固有的时间限制。第一次尝试中，代理工作了四分钟，仅识别并添加了那段时间内播放的两首歌曲。当我要求它继续一小时时，我收到了一条错误消息，将"技术约束"归咎于会话长度限制更严格。即使我要求它"尽可能长时间地继续"，我也只得到了三分钟的更多曲目列表。

有一次，Atlas Agent建议："如果您需要持续更新，可以过一会儿再问我，我可以从我们离开的地方继续。"值得称赞的是，当我几小时后返回标签页并告诉它"恢复监控"时，我的播放列表中又添加了四首新歌。

评分：9/10

代理能够导航多个网站和界面完成任务，即使在遇到意外问题时也是如此。我只扣了一分，因为我不能将其作为后台任务整天运行，尽管我理解这种用例肯定会消耗OpenAI方面大量的资金和处理能力。

测试案例三：扫描电子邮件

任务描述

需要查看电子邮件，为众多发送消息的公关人员创建包含联系信息的参考电子表格。

提示词

"查看我过去一周的所有Ars Technica电子邮件。收集这些电子邮件中包含的所有公关联系人（姓名、电子邮件地址、电话号码等）的联系信息，并将其添加到新的Google Sheets电子表格中。"

执行结果

无需明确指导，Atlas Agent能够意识到我使用Gmail，并能区分我在不同标签页中打开的个人电子邮件账户和专业Ars Technica账户。然而，当Atlas Agent开始扫描我的Ars邮箱时，我看到页面上覆盖着一个明显的警告：