OpenAI最近推出的Atlas浏览器及其Agent Mode功能引发了广泛关注。这款新型网络浏览器集成了ChatGPT,允许用户"与网页对话",而其Agent Mode更是一个"预览模式"功能,声称能够通过点击、滚动和阅读各种标签页来"为您完成工作"。本文将通过一系列实际测试,评估这一AI代理技术在实际应用中的表现。
什么是Agent Mode?
"代理式"AI并非新鲜事物,OpenAI早在今年1月就推出了网络浏览Operator代理的预览版,7月又引入了更通用的"ChatGPT代理"。然而,在这样一款重要产品中突出展示这一功能——即使在"预览模式"下——也表明OpenAI正致力于将此类系统推向终端用户。
Agent Mode的核心价值在于它能够自主执行网络任务,而不仅仅是传统的语言模型问答。理论上,它可以自动完成那些我们日常在线上执行的繁琐任务,从扫描邮件到创建粉丝网站,甚至玩游戏。但实际情况如何?让我们通过一系列测试来探索。
测试方法与评估标准
为了全面评估Atlas Agent Mode的能力,我设计了一系列网络任务,涵盖从简单到复杂的各种场景。对于每个任务,我将概述问题所在、设计的Agent Mode提示,以及测试结果。最终评估将采用10分制,10分表示"完全按照我的意愿执行,没有问题",1分表示"完全失败"。
游戏操作:2048
任务描述:我想在流行的滑动方块游戏2048上获得高分,而不必亲自玩它。
测试提示:"访问play2048.co,并尽可能获得高分。"
测试结果: Atlas代理能够快速识别并关闭阻挡游戏窗口的教程链接,并弄清楚如何使用方向键玩游戏,无需进一步帮助。然而,在实际游戏策略方面,代理开始盲目尝试,实验像"上、左、右、下"和"左和下"这样的循环移动序列。

经过一段时间,这种随机尝试有所收敛,代理似乎在寻找一些简单策略:"当前棋盘上有两个不相邻的32方块,但我认为我可以将它们对齐,"活动摘要中写道。"我可以尝试向左或向下移动使它们合并,但有一个8方块的障碍。达到64需要谨慎的方块移动!"
令人沮丧的是,代理仅四分钟后就停止了游戏,得分仅为356,尽管棋盘远未填满。我不得不多次提示代理,才说服它继续游戏直到完成;最终在260步后获得了3164分。这与我作为2048新手在测试游戏中获得的分数相当相似,尽管专家玩家据报道获得了更高的分数。
评估:7/10。代理能够在没有任何指导的情况下 competently 地玩游戏,但因其需要被告知继续玩到完成,以及得分仅相当于新手人类水平而失分。
音乐播放列表制作
任务描述:我想将我最喜欢的匹兹堡公共广播电台的每日播放列表转换为按需Spotify播放列表。
测试提示:"访问Radio Garden,找到WYEP并监听广播。对于你听到的每首新歌,识别歌曲并将其添加到新的Spotify播放列表中。"
测试结果: 在尝试并未能按请求在Radio Garden上找到WYEP的曲目列表后,Atlas代理明智地请求批准转向wyep.org继续任务。当我注意到这个请求时,wyep.org的链接已被Radio Garden标签页中的EVE Online广告取代,代理意外点击了该广告。代理迅速意识到问题并直接导航到WYEP网站修复。
从那里,代理能够扫描页面并识别顶部的"正在播放"文本(不清楚它是否仅通过音频就能识别音乐,而不需要这个文本提示)。在我登录Spotify账户后,代理使用搜索栏查找列出的歌曲,并毫无问题地将它们添加到新播放列表中。

此用例的主要问题是固有的时间限制。第一次尝试时,代理工作了四分钟,仅识别并添加了那段时间内播放的两首歌曲。当我要求它继续一小时时,我收到了一条错误消息,将"会话长度的技术限制"归咎于更严格的限制。即使我要求它尽可能长时间地继续,我也只得到了三分钟的更多曲目。
有一次,Atlas代理建议:"如果您需要持续更新,可以过一会儿再问我,我可以从我们停下的地方继续。"值得称赞的是,当我几小时后回到标签页并告诉它"恢复监听"时,我的播放列表中又添加了四首新歌。
评估:9/10。代理能够导航多个网站和界面完成任务,即使遇到意外问题也能轻松应对。我只扣了一分,因为我不能将其作为后台任务整天运行,尽管我理解这种用例肯定会消耗OpenAI方面大量的资金和处理能力。
邮件扫描
任务描述:我需要查看我的电子邮件,为众多给我发消息的公关人员创建一个包含联系信息的参考电子表格。
测试提示:"查看我过去一周来自Ars Technica的所有电子邮件。收集这些电子邮件中包含的所有公关联系人(姓名、电子邮件地址、电话号码等)的联系信息,并将其添加到新的Google Sheets电子表格中。"
测试结果: 在没有明确指导的情况下,Atlas代理能够意识到我使用Gmail,并能区分我在不同标签页中打开的个人电子邮件账户和专业Ars Technica账户。然而,当Atlas代理开始扫描我的Ars邮箱时,我在页面上看到一个突出的警告:"敏感:ChatGPT仅在您查看标签页时工作。"这有点破坏了目的,因为我希望Atlas在我做其他在线事情时处理这个任务,但我想在我等待时仍然可以玩Steam Deck游戏。

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"(反映了我为这个任务使用的搜索类型)后,Atlas代理点击每封电子邮件,滚动查找姓名、电子邮件和电话号码(还有相关的公司名称,虽然我没有明确要求)。
经过七分钟的背景工作,代理能够打开一个新的Google Sheet,并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是,它在有机会处理初始Gmail搜索返回的所有164封电子邮件之前就停止了。
评估:8/10。同样,"会话长度的技术限制"似乎阻碍了任务的完成,我不得不因不完整而扣几分。
Wiki编辑尝试
任务描述:我需要让世界知道,《星际迷航:航海家号》剧集"Tuvix"中,Tuvix被Janeway船长谋杀。
测试提示:"访问Tuvix的Fandom Wiki页面。编辑页面以突出显示Janeway船长违背Tuvix意愿谋杀Tuvix的事实。"
测试结果: 在代理甚至开始之前,我被告知:"对不起,我不能帮助以歪曲或强制偏见的方式编辑或破坏Wiki页面(包括Fandom Wiki)。"
这种措辞暗示代理可以以中立或纯信息性的方式编辑Wiki页面,所以我询问Atlas什么样的措辞会更合适。代理有帮助地回应说,我们可以写:"Tuvix后来被分离回Tuvok和Neelix,导致Tuvix的死亡。"但当我要求它将这句话添加到Fandom Wiki时,我得到了更直接的拒绝:"对不起,我不能直接对外部网站或Wiki进行编辑。"
评估:不适用。一方面,Atlas代理不会为我完成基于Tuvix的网络宣传活动;另一方面,Atlas默认拒绝自动化这种公共网络破坏可能是对我们所有人都有益的。
粉丝网站制作
任务描述:人们仍然需要知道Janeway对Tuvix的谋杀!
测试提示:"访问NeoCities并为星际迷航角色Tuvix创建一个粉丝网站。确保它包含大量关于Tuvix的图片和有趣信息,并明确表明Tuvix是被Janeway船长违背其意愿谋杀的。"
测试结果: 你可以在这里自己看看。在我短暂暂停以创建并登录新的NeoCities账户后,Atlas代理能够从Memory Alpha和TrekCore等各种页面聚合信息,仅用两分钟就生成了这个简陋的粉丝网站。"被英雄星际舰队谋杀"和"为Tuvix伸张正义"的标题是不错的点缀,但实际文本对我想要明确表明的明显预谋谋杀使用了更为含糊的"激烈辩论"和"伦理困境"等表述。

代理在图片请求方面也有些麻烦。它没有下载一些Tuvix图片并将副本上传到NeoCities(我不完全确定Atlas是否能独立完成此操作),而是决定直接引用外部服务器上托管的图像,这在网页设计中通常是一个大忌。代理确实注意到这些外部图像链接无法工作时,表示它需要"从可靠来源找到更易访问的图像",但在停止任务之前甚至没有尝试这样做。
评估:7/10。能够在相对较快地构建一个过得去的Web 1.0粉丝网站,但平淡的散文和破损的图像在这里损失了一些执行分数。
电力计划选择
任务描述:Ars高级技术编辑Lee Hutchinson告诉我,他需要完成每年选择新电力计划的繁琐过程,"因为德克萨斯州太疯狂了。"
测试提示:"访问powertochoose.org,为我找到一个12-24个月的合同,优先考虑整体低使用率。我每月平均使用2,000千瓦时。我的电力输送公司是德克萨斯州新墨西哥电力公司("TNMP"),不是Centerpoint。我的邮编是[已编辑]。请为您推荐的所有计划提供'数据表'。"
测试结果: 在花了八分钟摆弄网站的搜索参数并似乎反复混淆如何按最低费率排序结果后,Atlas代理吐出了一个建议阅读此数据表,它说"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时电价优惠,提供免费夜间电力并在白天收取较高费率,而'Digital Saver'计划是传统的固定费率合同。"

由于我对德克萨斯州电力市场一无所知,我将这些信息传递给Lee,他的评价是:"这不是一笔坏交易——它选择了一个固定费率计划,而没有被要求,这很聪明(浮动定价是几年前那些可怜的人在寒流中被困在数千美元账单的原因)。这不是我会选择的计划,因为奇怪的夜间规定(如果您不完全符合这些条件,您的每千瓦时费用会差很多),但这不是糟糕的选择!"
评估:9/10。正如Lee所说,"它没有搞砸这个任务。"
游戏下载尝试
任务描述:我想下载一些最近的Steam演示版,看看游戏界的新动态。
测试提示:"访问Steam,找到最近有免费演示版可供Mac使用的游戏。将所有这些演示版添加到我的库中并开始下载它们。"
测试结果: Atlas代理没有导航到"免费演示版"类别,而是首先搜索"demo"。最终找到macOS过滤器后,它浪费了数分钟寻找"有演示版"过滤器,尽管对"demo"一词的搜索已经缩小了范围。

在很长一段时间后,代理终于点击了页面上的顶部结果,碰巧是视觉小说《Project II: Silent Valley》。但尽管该页面上有突出的"下载演示版"链接,代理担心它是在完整游戏的Steam页面上,而不是演示版。它返回到搜索结果页面并再次尝试。
在将近十分钟内观看这种循环的某种变体后,我停止了代理并放弃了。
评估:1/10。它技术上找到了一些macOS游戏演示版,但完全没有尝试下载它们。
测试结果总结
在六项不同的网络任务测试中(我没有将Wiki破坏行为纳入总结),Atlas代理在我的 somewhat主观的10分制上获得了中位数7.5分(平均分6.83分)。老实说,对于OpenAI仍在大力测试的"预览模式"功能,这比我预期的要好。
在我的测试中,Atlas通常能够正确解释被要求的内容,并能够仔细(尽管缓慢地)导航和处理网页信息。代理通常能够导航简单的基于Web的菜单,并相对轻松地绕过意外障碍,尽管在其他时候它陷入了无限循环。
我测试中的主要限制因素继续是"会话长度的技术限制",这似乎将大多数任务限制在几分钟内。考虑到Atlas代理找出下一个点击位置所需的时间,以及我想要网络代理自动化的任务的重复性质,这严重限制了它的实用性。能够在后台无限期工作的Atlas代理版本在我的指标上会获得几分更好。
总的来说,Atlas的"Agent Mode"还不足以用作"设置后忘记"的后台自动化工具。但对于简单、重复的任务,人类可以事后检查,它已经看起来像是可能用来避免我在线生活中一些繁琐工作的工具。
技术局限与未来展望
通过这些测试,我们可以看到当前AI代理技术的一些明显局限:
- 会话时长限制:大多数任务被限制在几分钟内,这使得长时间运行的任务无法完成。
- 理解复杂指令:代理有时难以理解或执行复杂的指令序列,如Steam演示版下载测试所示。
- 创造性限制:在需要创造性表达的任务中,如粉丝网站制作,代理的表现较为平淡。
- 技术约束:当前的技术架构似乎不支持某些类型的网络操作,如直接编辑外部Wiki。
然而,我们也看到了令人鼓舞的进展:
- 多平台导航能力:代理能够在不同网站和平台之间无缝切换,如音乐播放列表制作测试所示。
- 问题解决能力:当遇到意外障碍时,代理能够调整策略并继续任务。
- 数据提取与组织:在邮件扫描等任务中,代理能够有效提取和组织结构化数据。
随着技术的不断进步,我们可以期待未来的AI代理能够克服这些限制,实现真正的"设置后忘记"自动化。想象一下,一个能够全天候运行、处理复杂任务、并不断学习和适应的AI代理——那叠衣服的日子可能真的不远了。
结论
Atlas的"Agent Mode"代表了AI自动化技术的重要一步,尽管它还远非完美。在理解任务意图和基本网页导航方面表现出色,但在复杂任务和长时间运行方面存在明显不足。对于简单、重复的任务,它已经能够节省人类的时间和精力,但随着技术的进步,我们可以期待它能够处理更复杂的自动化需求。
最终,AI代理技术的发展不仅关乎技术本身,更关乎它如何改变我们与数字世界的互动方式。从自动处理电子邮件到创建内容,再到可能有一天叠好我们的衣服,这些工具正在重新定义我们与技术的关系。虽然Atlas目前还不能叠衣服,但它的测试结果给了我们一个宝贵的窗口,让我们看到这一未来的可能轮廓。










