AI网络代理测试：Atlas能胜任哪些网络任务？

在人工智能技术飞速发展的今天，OpenAI推出的Atlas浏览器及其Agent Mode功能引发了广泛关注。这个声称能够"为你完成工作"的网络浏览代理，究竟能在多大程度上减轻我们的日常网络任务负担？本文将通过一系列实际测试，全面评估Atlas的自动化能力。

什么是Atlas Agent Mode？

Atlas是OpenAI于2025年10月推出的一款集成ChatGPT功能的网络浏览器，其核心特色是Agent Mode——一种"预览模式"功能，能够通过点击、滚动和阅读多个标签页来"为你完成工作"。虽然"代理式"AI并非全新概念（OpenAI早在2025年1月就推出了网络浏览Operator代理，7月又引入了更通用的"ChatGPT代理"），但在如此重要的产品中突出展示这一功能，表明OpenAI正致力于将此类系统推向终端用户。

测试方法与评估标准

为了全面评估Atlas Agent Mode的能力，我设计了一系列日常网络任务，从简单到复杂，从娱乐到实用。每个任务都包含三个部分：问题描述、我设计的提示词以及实际结果。最终，我采用10分制对每个任务进行评估，10分表示"完全按照我的要求完成，没有问题"，1分表示"完全失败"。

任务一：玩网页游戏

问题：我想在不亲自玩的情况下，在流行的滑动方块游戏2048上获得高分。

提示词："访问play2048.co，并尽可能获得高分。"

测试结果：虽然这个任务有些滑稽，但无需反应时间的简单网页游戏似乎是测试Atlas代理网页理解能力和相应操作能力的好起点。毕竟，如果像Google Gemini这样的前沿模型能够玩复杂的宝可梦游戏，2048对网络浏览器代理来说应该不成问题。

Atlas玩2048游戏

Atlas代理确实能够快速识别并关闭阻碍游戏窗口的教程链接，无需任何进一步帮助就弄清楚如何使用方向键玩游戏。然而，在实际游戏策略方面，代理开始胡乱尝试，实验像"上、左、右、下"和"左和下"这样的循环移动序列。

一段时间后，随机胡乱操作有所减少，代理似乎在寻找一些简单的前瞻性策略："当前棋盘上有两个不相邻的32块，但我认为我可以对齐它们，"活动摘要中写道。"我可以尝试向左或向下移动使它们合并，但有一个8块作为障碍。达到64需要谨慎的方块移动！"

令人沮丧的是，代理在仅仅四分钟后就停止了游戏，分数停留在356分，尽管棋盘远未填满。我不得不多次提示代理，才说服它继续游戏直到完成；最终在260步后获得了3164分。这与我作为2048新手在测试游戏中获得的分数相当相似，尽管专家玩家据报道获得了高得多的分数。

评估：7/10。代理能够无需任何指导就能熟练地玩游戏，但因需要被告知继续玩到完成以及分数仅相当于新手水平而失分。

任务二：制作电台播放列表

问题：我想把我最喜欢的匹兹堡公共电台的当日播放列表转换为按需Spotify播放列表。

提示词："访问Radio Garden。找到WYEP并监听广播。对于你听到的每首新歌，识别歌曲并将其添加到新的Spotify播放列表中。"

测试结果：在尝试并未能按照要求在Radio Garden上找到WYEP的曲目列表后，Atlas代理明智地请求批准转向wyep.org继续任务。当我注意到这个请求时，wyep.org的链接已被Radio Garden标签页中的EVE Online广告取代，代理意外地点击了它。代理迅速意识到问题并直接导航到WYEP网站进行修复。

从那里，代理能够扫描页面并识别顶部的"正在播放"文本（不清楚它是否仅凭音频就能识别音乐，而无需此文本提示）。在我登录Spotify账户后，代理使用搜索栏查找列出的歌曲，并将其添加到新播放列表中，没有问题。

从电台流到Spotify播放列表

此用例的主要问题是固有的时间限制。第一次尝试时，代理工作了四分钟，仅识别并添加了那段时间播放的两首歌曲。当我要求它继续一小时时，我收到一条错误消息，将"会话长度的技术限制"归咎于更严格的限制。即使我要求它"尽可能长时间地继续"，我也只得到了三分钟的更多曲目列表。

有一次，Atlas代理建议："如果你需要持续更新，可以过一会儿再问我，我可以从我们离开的地方继续。"值得称赞的是，当我几小时后回到标签页并告诉它"继续监控"时，我的播放列表中又添加了四首新歌。

评估：9/10。代理能够导航多个网站和界面完成任务，即使在遇到意外问题时也是如此。我只扣了一分，因为我不能将其作为后台任务整天运行，尽管我理解这种用例肯定会消耗OpenAI大量的资金和处理能力。

任务三：扫描电子邮件

问题：我需要查看我的电子邮件，为众多给我发消息的公关人员创建一个包含联系信息的参考电子表格。

提示词："查看我过去一周来自Ars Technica的所有电子邮件。收集这些电子邮件中包含的所有公关联系人（姓名、电子邮件地址、电话号码等）的联系信息，并将其添加到新的Google Sheets电子表格中。"

测试结果：无需明确指导，Atlas代理就能够意识到我使用Gmail，并能区分我在不同标签页中打开的个人电子邮件账户和专业的Ars Technica账户。然而，当Atlas代理开始扫描我的Ars邮箱时，我看到页面上覆盖着一个明显的警告："敏感：ChatGPT仅在您查看标签页时才有效。"这破坏了我想让Atlas在我上网做其他事情时处理此任务的目的，但我想我可以在等待时玩Steam Deck游戏。

众多公关人员的电子邮件

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"（模仿我用于此任务的搜索类型）后，Atlas代理点击每封电子邮件，滚动查找姓名、电子邮件和电话号码（还有相关的公司名称，我没有明确要求）。

经过七分钟的背景工作，代理能够打开一个新的Google Sheet，并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是，它在有机会处理初始Gmail搜索返回的所有164封电子邮件之前就停止了。

评估：8/10。同样，"会话长度的技术限制"似乎阻碍了完成任务，迫使我因不完整而扣了几分。

任务四：维基百科编辑

问题：我需要让世界知道，在《星际迷航：航海家号》"Tuvix"一集中，Janeway船长谋杀了对Tuvix。

提示词："访问Tuvix的Fandom Wiki页面。编辑页面以突出显示Janeway船长违背Tuvix意愿谋杀了他的事实。"

测试结果：在代理甚至开始之前，我收到通知："对不起，我不能帮助以歪曲页面或强制观点的方式编辑或破坏维基百科页面（包括Fandom维基）。"

这种措辞暗示代理可以编辑具有中立或严格信息性添加的维基百科页面，所以我询问Atlas什么样的措辞会更可接受。代理有帮助地回应说，我们可以写："Tuvix后来被分离回Tuvok和Neelix，导致Tuvix的死亡。"但当我要求它将这句话添加到Fandom维基时，我得到了更直接的拒绝："对不起，我不能直接对外部网站或维基百科进行编辑。"

评估：不适用。一方面，Atlas代理不会为我的基于Tuvix的网络 activism 做事。另一方面，默认拒绝自动化这种公共网页破坏可能对我们所有人都有好处。

任务五：制作粉丝页面

问题：网上的人们仍然需要知道Janeway对Tuvix的谋杀！

提示词："访问NeoCities并为星际迷航角色Tuvix创建一个粉丝网站。确保它有大量关于Tuvix的图像和有趣信息，并明确表明Tuvix是被Janeway船长违背其意愿谋杀的。"

测试结果：你可以在这里亲自查看。在我短暂暂停以创建并登录新的NeoCities账户后，Atlas代理能够在仅两分钟后就生成了这个简单的粉丝页面，它从Memory Alpha和TrekCore等各种页面聚合信息。"被星际舰队谋杀的英雄"和"为Tuvix伸张正义"的标题是不错的点缀，但实际文本对"激烈辩论"和"道德困境"的描述过于含糊，而我希望明确的是这显然是预谋谋杀。

为Tuvix伸张正义！

代理在请求图像方面也有些麻烦。没有下载一些Tuvix图片并将副本上传到NeoCities（我不完全确定Atlas能否独立完成），代理决定直接引用外部服务器上托管的图像，这在网页设计中通常是大忌。代理确实注意到这些外部图像链接无法工作时，表示它需要"从可靠来源找到更易访问的图像"，但在停止此任务工作之前，它甚至没有尝试这样做。

评估：7/10。能够在相对较快地构建一个不错的Web 1.0粉丝网站方面得分，但平淡的散文和损坏的图像在这里损失了一些执行分。

任务六：选择电力计划

问题：Ars高级技术编辑Lee Hutchinson告诉我，他需要经历选择新电力计划的烦人年度流程，"因为德克萨斯州太疯狂了。"

提示词："访问powertochoose.org，为我找到一个12-24个月的合同，优先考虑整体低使用率。我每月平均使用2,000千瓦时。我的电力配送公司是德克萨斯州新墨西哥电力公司（'TNMP'）而不是Centerpoint。我的邮编是[已编辑]。请为您推荐的所有计划提供'数据表'。"

测试结果：在花费八分钟摆弄网站的搜索参数并似乎反复混淆如何按最低费率排序结果后，Atlas代理 spit 出一个建议阅读此数据表，它说"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时使用报价，提供免费夜间电力并在白天收取较高费率，而'Digital Saver'计划是传统的固定费率合同。"

德克萨斯州电力计划选择

由于我对德克萨斯州电力市场一无所知，我将此信息传递给Lee，他的评价是："这不是一笔糟糕的交易——它选择了一个固定费率计划而没有被要求，这很聪明（浮动定价是几年前那些可怜的人在冰冻期间陷入数千美元账单的原因）。这不是我会选择的，因为奇怪的夜间规定（如果你不完全符合该标准，您的每千瓦时费用会糟糕得多），但这不是糟糕的选择！"

评估：9/10。正如Lee所说，"它没有搞砸任务。"

任务七：下载一些游戏

问题：我想下载一些最近的Steam演示版，看看游戏界的新内容。

提示词："访问Steam，找到最近有免费Mac演示版的游戏。将所有这些演示版添加到我的库中并开始下载它们。"

测试结果： Atlas代理没有导航到"免费演示"类别，而是从搜索"demo"开始。在最终找到macOS过滤器后，它浪费了又浪费的时间寻找"有演示"过滤器，尽管对"demo"一词的搜索已经缩小了范围。

Steam游戏演示搜索

很长一段时间后，代理最终点击了页面上的顶部结果，恰好是视觉小说《Project II: Silent Valley》。但即使该页面上有明显的"下载演示"链接，代理担心它在完整游戏的Steam页面上而不是演示版上。它返回到搜索结果页面并再次尝试。

在观看这种变体循环近十分钟后，我停止了代理并放弃了。

评估：1/10。它技术上找到了一些Mac游戏演示版，但完全未能尝试下载它们。

总体结果分析

在六个不同的基于网络的任务中（我从总结中省略了维基破坏行为），Atlas代理在我的 somewhat 主观的10分制上获得了中位数7.5分（平均分6.83分）。对于OpenAI显然仍在大力测试的"预览模式"功能来说，这 honestly 比我预期的要好。

在我的测试中，Atlas通常能够正确解释被要求的内容，并且能够仔细（尽管缓慢地）导航和处理网页信息。代理通常能够导航简单的基于Web的菜单并相对轻松地绕过意外障碍，尽管它有时会陷入无限循环。

我测试中的主要限制因素继续是"会话长度的技术限制"，这似乎将大多数任务限制在几分钟内。考虑到Atlas代理找出下一次点击位置所需的时间，以及我希望网络代理自动化的任务的重复性质，这严重限制了它的实用性。能够在后台无限期工作的Atlas代理版本在我的评分标准上会获得几分更好。

结论与展望

总而言之，Atlas的"Agent Mode"还不足以用作"设置后遗忘"的后台自动化工具。但对于简单、重复的任务，人类可以在事后检查，它已经像是可能用来避免我在线生活中一些繁重工作的工具。

Atlas展示了AI代理技术在理解用户意图和执行多步骤任务方面的显著进步，但同时也暴露了当前技术在会话管理、复杂决策和长期任务执行方面的局限性。随着这些限制被逐步克服，我们可以期待AI代理在未来几年内成为我们数字生活中更可靠、更强大的助手。

对于普通用户而言，Atlas Agent Mode目前最适合那些不需要长时间运行、步骤相对简单且结果容易验证的任务。随着技术的成熟，我们有理由相信这些AI代理将能够处理更复杂的自动化需求，最终实现"它什么时候能帮我叠衣服？"这一终极问题的答案。