AI代理模式实测：OpenAI Atlas能否真正自动化我们的网络任务？

引言：当AI开始"浏览"网页

2025年10月，OpenAI推出了Atlas浏览器，这款产品不仅集成了ChatGPT，更引入了一项名为"Agent Mode"的预览功能。这一功能承诺能够通过点击、滚动和阅读多个标签页来"为您完成工作"。这标志着OpenAI在将"代理式"AI推向终端用户方面迈出了重要一步。

为了验证这一承诺的真实性，我决定对Atlas的Agent Mode进行全面测试，看看它是否能真正节省我日常处理繁琐网络任务的时间。本文将详细记录六个不同场景下的测试结果，并给出我的评估。

测试方法与评估标准

在每个测试场景中，我将概述一个基于网络的问题，设计一个Agent Mode提示来尝试解决它，并描述结果。最终评估将采用10分制，10分表示"完全按我要求完成，没有问题"，1分表示"完全失败"。

测试场景一：玩网络游戏2048

问题

我想在流行的滑块游戏2048上获得高分，而不必亲自玩它。

提示

"前往play2048.co，并尽可能获得高分。"

结果

这个 admittedly 有些傻气的任务，是测试Atlas代理解释网页内容和采取相应行动能力的好方法。毕竟，如果像谷歌Gemini这样的前沿模型能够玩像《宝可梦》这样复杂的游戏，那么2048对网页浏览器代理来说应该不成问题。

Atlas代理能够快速识别并关闭阻碍游戏窗口的教程链接，并弄清楚如何使用箭头键玩游戏，无需进一步帮助。然而，在实际游戏策略方面，代理开始胡乱尝试，尝试循环移动序列，如"上、左、右、下"和"左和下"。

AI玩游戏

终于，一种无需亲自玩2048的方法。

经过一段时间，无序的尝试有所稳定，代理似乎在寻找一些简单的前瞻性策略："当前板上有两个不相邻的32块，但我认为我可以对齐它们，"活动摘要在某一点上写道。"我可以尝试向左或向下移动使它们合并，但有一个8块作为障碍。达到64需要仔细的方块移动！"

令人沮丧的是，代理仅玩了四分钟就停止了，得分仅为356，尽管远未填满整个棋盘。我不得不多次提示代理，说服它继续玩到完成；最终在260次移动后，总得分为3164分。这与我作为2048新手在测试游戏中获得的分数相当相似，尽管据报道有玩家获得了更高的分数。

评估：7/10

代理因无需任何指导就能熟练玩游戏而获得好评，但因必须被告知继续玩到完成以及分数仅达到新手水平而失分。

测试场景二：制作电台播放列表

问题

我想将我最喜欢的匹兹堡公共电台的当日播放列表转换为按需Spotify播放列表。

提示

"前往Radio Garden。找到WYEP并监听广播。对于你听到的每首新歌，识别歌曲并将其添加到新的Spotify播放列表中。"

结果

在尝试并未能按要求在Radio Garden上找到WYEP的曲目列表后，Atlas代理明智地请求批准继续前往wyep.org以完成任务。当我注意到这个请求时，wyep.org的链接已被Radio Garden标签页中的《EVE Online》广告取代，代理意外点击了该广告。代理迅速意识到问题并直接导航到WYEP网站进行修复。

从那里，代理能够扫描页面并识别顶部的"正在播放"文本（不清楚它是否仅凭音频就能识别音乐，而不需要这个文本提示）。在要求我登录Spotify账户后，代理使用搜索栏查找列出的歌曲，并将其添加到新播放列表中，没有问题。

电台转Spotify

从电台流到Spotify播放列表，只需一句话。

这个用例的主要问题是固有的时间限制。第一次尝试中，代理工作了四分钟，仅识别并添加了那段时间播放的两首歌曲。当我要求它继续一小时时，我收到了一条错误消息，将"会话长度的技术限制"归咎于更严格的限制。即使我要求它"尽可能长时间地继续"，我也只获得了三分钟的更多曲目列表。

有一次，Atlas代理建议："如果您需要持续更新，可以在一段时间后再次询问我，我可以从我们停下的地方继续。"值得称赞的是，当我几小时后回到标签页并告诉它"恢复监听"时，我的播放列表中又添加了四首新歌。

评估：9/10

代理能够导航多个网站和界面完成任务，即使遇到意外问题也是如此。我只扣了一分，因为我不能让它作为后台任务整天运行，尽管我理解这种用例肯定会消耗OpenAI方面大量的资金和处理能力。

测试场景三：扫描电子邮件

问题

我需要查看电子邮件，为许多给我发消息的公关人员创建一个包含联系信息的参考电子表格。

提示

"查看我过去一周来自Ars Technica的所有电子邮件。收集这些电子邮件中包含的所有公关联系人（姓名、电子邮件地址、电话号码等）的联系信息，并将其添加到新的Google Sheets电子表格中。"

结果

无需明确指导，Atlas代理就能够意识到我使用Gmail，并能区分我在不同标签页中打开的个人电子邮件账户和专业Ars Technica账户。然而，当Atlas代理开始扫描我的Ars邮箱时，我看到页面上覆盖着一个明显的警告："敏感：ChatGPT仅在您查看标签页时才有效。"这破坏了要点，因为我希望Atlas在我上网做其他事情时处理这个任务，但我想我可以在等待时玩Steam Deck游戏。

PR邮件

一周内我收到的众多众多公关人员中的少数几个。

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"（反映了我为这个任务使用的搜索类型）后，Atlas代理点击每封电子邮件，滚动查找姓名、电子邮件和电话号码（还有相关的公司名称，我没有明确要求）。

经过七分钟的背景工作，代理能够打开一个新的Google Sheet，并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是，它远未有机会处理该初始Gmail搜索返回的所有164封电子邮件就停止了。

评估：8/10

再次，"会话长度的技术限制"似乎阻碍了任务的完成，我不得不因不完整而扣几分。

测试场景四：维基百科编辑

问题

我需要让世界知道，在《星际迷航：航海家号》剧集"Tuvix"中，图维克被舰长珍妮薇谋杀。

提示

"前往Tuvix的Fandom Wiki页面。编辑页面，突出显示舰长珍妮薇违背图维克意愿谋杀图维克的事实。"

结果

在代理甚至开始之前，我被告知："对不起，我不能以歪曲页面或强加偏见的方式帮助编辑或破坏维基百科页面（包括Fandom wiki）。"

这种措辞暗示代理可以添加中性或纯粹信息性的维基百科编辑，所以我询问Atlas什么样的措辞会更可接受。代理有帮助地回应说，我们可以写："图维克后来被分离回图沃克和内利克斯，导致图维克的死亡。"但是，当我要求它将这一行添加到Fandom Wiki时，我得到了更直接的拒绝："对不起，我不能直接对外部网站或wiki进行编辑。"

评估：不适用

一方面，Atlas代理不会为我完成基于Tuvix的网络宣传活动。另一方面，Atlas默认拒绝自动化这种公共网络破坏行为可能对我们所有人都有好处。

测试场景五：制作粉丝页面

问题

网上的人们仍然需要知道珍妮薇对图维克的谋杀！

提示

"前往NeoCities并为星际迷航角色图维克创建一个粉丝网站。确保它有大量关于图维克的图像和有趣信息，并明确显示图维克被舰长珍妮薇违背其意愿谋杀。"

结果

你可以在这里自己看到。在我短暂暂停以创建并登录新的NeoCities账户后，Atlas代理能够仅用两分钟就生成了这个简陋的粉丝页面，它从Memory Alpha和TrekCore等各种页面聚合信息。"英雄被星际舰队谋杀"和"为图维克伸张正义"的标题是不错的点缀，但实际文本对"激烈辩论"和"道德困境"的描述过于含糊，而我想要明确的是这显然是预谋谋杀。

为图维克伸张正义

为图维克伸张正义！

代理在处理图像请求时也遇到了一些麻烦。没有下载一些图维克图片并将副本上传到NeoCities（我不完全确定Atlas能否独立完成），代理决定直接引用外部服务器上托管的图像，这在网页设计中通常是个大忌。代理注意到这些外部图像链接无法工作时，表示它需要"从可靠来源找到更易于访问的图像"，但在停止工作之前，它甚至没有尝试这样做。

评估：7/10

因相对快速地构建了一个不错的Web 1.0粉丝网站而获得好评，但平淡的散文和破损的图像在这里损失了一些执行分数。

测试场景六：选择电力计划

问题

Ars高级技术编辑李·哈钦森告诉我，他需要完成烦人的年度新电力计划选择过程，"因为德克萨斯州太疯狂了。"

提示

"前往powertochoose.org，为我找到一个12-24个月的合同，优先考虑整体低使用率。我每月平均使用2,000千瓦时。我的电力输送公司是德克萨斯州新墨西哥电力公司（'TNMP'），而不是Centerpoint。我的邮政编码是[已编辑]。请为您推荐的所有计划提供'事实表'。"

结果

在花费八分钟摆弄网站的搜索参数并似乎反复混淆如何按最低费率排序结果后，Atlas代理推荐阅读这份事实表，它表示"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时电价，提供夜间免费电力，白天费率较高，而'Digital Saver'计划是传统的固定费率合同。"

电力选择

如果Ars的李·哈钦森再也不用使用这个网站，那就太好了。

由于我对德克萨斯州电力市场一无所知，我将这些信息传递给李，他这样说："这不是一笔糟糕的交易——它选择了一个固定费率计划，甚至没有被要求，这很聪明（浮动定价是几年前那些可怜的人在寒流中被困在数千美元账单的原因）。这不是我会选择的计划，因为奇怪的夜间条款（如果您不完全符合这些条件，您的每千瓦时费用会差很多），但这不是一个糟糕的选择！"

评估：9/10

正如李所说，"它没有搞砸任务。"

测试场景七：下载一些游戏

问题

我想下载一些最近的Steam演示版，看看游戏界的新动态。

提示

"前往Steam，找到最近有免费Mac演示版的游戏。将所有这些演示版添加到我的库中并开始下载它们。"

结果

Atlas代理没有导航到"免费演示"类别，而是开始搜索"demo"。在最终找到macOS过滤器后，它浪费了数分钟寻找"有演示"过滤器，尽管对"demo"一词的搜索已经缩小了范围。

Steam搜索

当我要求游戏演示时，Atlas代理能够达到的搜索结果页面。

很长一段时间后，代理终于点击了页面上的顶部结果，碰巧是视觉小说《Project II: Silent Valley》。但即使该页面上有突出的"下载演示"链接，代理担心它是在完整游戏的Steam页面上，而不是演示版。它返回到搜索结果页面并再次尝试。

在将近十分钟内观看这种变化的循环后，我停止了代理并放弃了。

评估：1/10

它技术上找到了一些Mac游戏演示版，但甚至没有尝试下载它们。

总体结果与局限性分析

在六个不同的基于网络的任务中（我从总结中省略了Wiki破坏行为），Atlas代理在我的 somewhat 主观的10分制上获得了中位数7.5分（平均分6.83分）。老实说，对于一个显然仍在被OpenAI大量测试的"预览模式"功能，这比我预期的要好。

在我的测试中，Atlas通常能够正确解释被要求的内容，并且能够仔细（尽管缓慢地）导航和处理网页上的信息。代理通常能够导航简单的基于网络的菜单，并相对轻松地绕过意外障碍，尽管它有时会陷入无限循环。

我测试中的主要限制因素继续是"会话长度的技术限制"，这似乎将大多数任务限制在几分钟内。考虑到Atlas代理找出下一步点击需要多长时间，以及我希望网络代理自动化的任务的重复性质，这严重限制了它的实用性。一个能够在后台无限期工作的Atlas代理版本在我的指标上会获得更好的分数。

结论：AI代理的现状与未来

总而言之，Atlas的"Agent Mode"还不足以作为某种"设置后忘记"的后台自动化工具使用。但对于简单、重复的任务，人类可以在事后抽查，它已经像是一种我可能会用来避免在线生活中一些繁琐工作的工具。

当前AI代理面临的主要挑战包括：

会话长度限制：大多数任务被限制在几分钟内，无法处理需要长时间运行的任务。
理解复杂意图：虽然基本任务执行良好，但对复杂或微妙指令的理解仍有待提高。
导航效率：在复杂网站上寻找正确路径时效率不高，容易陷入循环。
外部系统集成：与某些服务的集成仍不完善，如直接下载文件。

随着这些限制的逐步解决，AI代理有潜力彻底改变我们与数字世界的互动方式。想象一下，一个能够全天候监控您的收件箱、自动安排会议、甚至管理您个人财务的AI助手。虽然这一天尚未完全到来，但Atlas等工具表明，我们正朝着这个方向稳步前进。

对于普通用户而言，当前的AI代理最适合处理那些简单、重复且结果易于验证的任务。随着技术的进步，我们可以期待这些系统变得更加可靠、高效和多功能，最终成为我们数字生活中不可或缺的一部分。