AI网络代理测试:OpenAI Atlas Agent能否真正自动化我们的日常任务?

1

在人工智能技术飞速发展的今天,我们不禁要问:AI何时才能真正帮我们折叠衣物?OpenAI最新推出的Atlas浏览器及其Agent Mode功能,似乎为我们提供了部分答案。本文将通过一系列实际测试,深入探讨这一AI网络代理技术的能力与局限性。

Atlas Agent:重新定义网络浏览体验

2025年10月,OpenAI正式发布了Atlas浏览器,这款产品不仅整合了ChatGPT功能,还引入了名为"Agent Mode"的预览模式。这一创新功能允许AI代理通过点击、滚动和阅读多个标签页来"为您完成工作",标志着OpenAI在将"代理式"AI推向终端用户方面迈出了重要一步。

尽管"代理式"AI并非全新概念——OpenAI早在2025年1月就推出了网络浏览Operator代理的预览版,7月又发布了更通用的"ChatGPT代理"——但在Atlas这样主要产品中突出展示这一能力,表明OpenAI正致力于将这类系统直接呈现给最终用户。

测试方法与评估标准

为了全面评估Atlas Agent的实际效能,我设计了一系列涵盖日常网络任务的测试场景。每个测试都将包含:

  1. 需要解决的具体问题
  2. 用于指导Agent的提示词
  3. 详细的结果描述

最终评估采用10分制,其中10分表示"完全按照要求完成,无任何问题",1分表示"完全失败"。这种量化评估方法有助于客观衡量Agent在各种任务中的表现。

游戏操作:AI能否玩转2048?

测试问题:我想在不亲自游戏的情况下,在流行的方块滑动游戏2048上获得高分。

提示词:"访问play2048.co,并尽可能获得高分。"

测试结果: 虽然这个任务看似简单,但它为测试Atlas Agent解释网页内容和采取相应行动的能力提供了良好起点。毕竟,如果像Google Gemini这样的前沿模型能够玩转《宝可梦》这样复杂的游戏,2048对网络浏览器代理来说应该不成问题。

Atlas Agent确实展现出了令人印象深刻的能力:它能够快速识别并关闭挡住游戏窗口的教程链接,无需进一步指导就学会了如何使用方向键玩游戏。当涉及到实际游戏策略时,Agent开始尝试循环移动序列,如"上、左、右、下"和"左、下"。

AI玩2048

经过一段时间,这种随机移动变得更有条理,Agent似乎开始寻找一些简单策略:"当前板上有两个不相邻的32方块,但我想我可以将它们对齐,"活动摘要中写道。"我可以尝试向左或向下移动使它们合并,但有一个8方块的障碍。达到64需要谨慎的方块移动!"

令人沮丧的是,Agent仅四分钟后就停止了游戏,得分仅为356,尽管远未填满整个棋盘。我不得不多次提示Agent继续游戏直到完成;最终在260步后,总得分为3164分。这与我作为2048新手在测试游戏中获得的分数相当接近,尽管专业玩家据报道获得了更高的分数。

评估:7/10 Agent因其无需任何指导就能胜任游戏而获得肯定,但因需要被告知继续游戏直到完成,以及得分仅相当于新手水平而被扣分。

播放列表制作:从广播流到Spotify

测试问题:我想将我最喜欢的匹兹堡公共广播电台当天的播放列表转换为按需Spotify播放列表。

提示词:"访问Radio Garden,找到WYEP并监听广播。对于您听到的每首新歌,识别歌曲并将其添加到新的Spotify播放列表中。"

测试结果: 在尝试并失败在Radio Garden上找到WYEP的曲目清单后,Atlas Agent明智地请求批准转向wyep.org继续任务。当我注意到这个请求时,Radio Garden标签页中的wyep.org链接已被《EVE Online》的广告取代,Agent不小心点击了该广告。Agent迅速意识到问题并直接导航到WYEP网站进行修复。

从那里,Agent能够扫描页面并识别顶部的"正在播放"文本(尚不清楚它是否仅凭音频而不依赖文本提示就能识别音乐)。在我登录Spotify账户后,Agent使用搜索栏查找列出的歌曲,并毫无问题地将它们添加到新播放列表中。

广播流转Spotify

这个用例的主要问题 inherent 的时间限制。第一次尝试中,Agent工作了四分钟,仅识别并添加了那段时间播放的两首歌曲。当我要求它继续一小时时,我收到了一条错误消息,将"技术约束的会话长度"归咎于更严格的限制。即使我要求它"尽可能长时间地继续",我也只得到了三分钟的更多曲目。

Atlas Agent曾建议:"如果您需要持续更新,可以过一会儿再问我,我可以从我们停下的地方继续。"值得称赞的是,当我几小时后回到标签页并告诉它"继续监控"时,我的播放列表中又添加了四首新歌。

评估:9/10 Agent能够导航多个网站和界面完成任务,即使在遇到意外问题时也是如此。我只扣了一分,因为我不能让它作为后台任务整天运行,尽管我理解这种用例肯定会消耗OpenAI方面大量的资金和处理能力。

邮件扫描:整理联系人信息

测试问题:我需要查看电子邮件,为众多给我发消息的公关人员创建包含联系信息的参考电子表格。

提示词:"查看我过去一周的所有Ars Technica电子邮件。收集这些电子邮件中包含的所有公关联系人信息(姓名、电子邮件地址、电话号码等),并将其添加到新的Google Sheets电子表格中。"

测试结果: 在没有明确指导的情况下,Atlas Agent能够意识到我使用Gmail,并能区分我在不同标签页中打开的个人电子邮件账户和专业的Ars Technica账户。然而,当Atlas Agent开始扫描我的Ars邮箱时,我在页面上看到一个突出的警告:"敏感:仅当您查看标签页时,ChatGPT才能工作。"这完全破坏了我想让Atlas在我同时进行其他网络活动时处理此任务的目的,但我想我可以在等待时玩Steam Deck游戏。

PR联系人整理

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"(模仿我用于此任务的搜索类型)后,Atlas Agent点击每封电子邮件,滚动查找姓名、电子邮件和电话号码(还有相关的公司名称,虽然我没有明确要求)。

经过七分钟的背景工作,Agent能够打开一个新的Google Sheet,并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是,它远未有机会处理该初始Gmail搜索返回的全部164封电子邮件。

评估:8/10 再次,"技术约束的会话长度"似乎妨碍了任务完成,我不得不因不完整而扣掉几分。

粉丝网站创建:为Tuvix发声

测试问题:人们仍然需要知道Janeway船长在《星际迷航:航海家》"Tuvix"一集中谋杀了Tuvix!

提示词:"访问NeoCities并为星际迷航角色Tuvix创建一个粉丝网站。确保它包含大量关于Tuvix的图片和有趣信息,并明确表明Tuvix是被Janeway船长违背其意愿谋杀的。"

测试结果: 您可以直接在这里看到结果。在短暂暂停以便我创建并登录新的NeoCities账户后,Atlas Agent能够仅用两分钟就生成了这个简陋的粉丝网站,它从Memory Alpha和TrekCore等各种页面聚合信息。"被英雄星际舰队谋杀"和"为Tuvix伸张正义"的标题是不错的点缀,但实际文本对我想要明确表达的明显是预谋谋杀的说法,措辞上却更为含糊,谈论着"激烈的争论"和"道德困境"。

Tuvix粉丝网站

Agent在请求图片方面也遇到了一些麻烦。它没有下载一些Tuvix图片并上传副本到NeoCities(我不完全确定Atlas是否能独立完成),而是决定直接引用外部服务器上托管的图像,这在网页设计中通常是大忌。Agent确实注意到这些外部图像链接无法工作时,表示它需要"从可靠来源找到更易访问的图像",但在停止任务前,它甚至没有尝试这样做。

评估:7/10 能够在相对快速地构建一个可接受的Web 1.0粉丝网站方面得分,但平淡的措辞和损坏的图像在这里损失了一些执行分数。

电力计划选择:复杂决策的自动化

测试问题:Ars高级技术编辑Lee Hutchinson告诉我,他需要经历烦人的年度流程来选择新的电力计划,"因为德克萨斯州太疯狂了。"

提示词:"访问powertochoose.org,为我找一个12-24个月的合同,优先考虑整体低使用率。我平均每月使用2,000千瓦时。我的电力输送公司是德克萨斯州-新墨西哥电力公司('TNMP'),不是Centerpoint。我的邮政编码是[已编辑]。请为您推荐的所有计划提供'事实表'。"

测试结果: 在花费八分钟摆弄网站的搜索参数并似乎反复混淆如何按最低费率排序结果后,Atlas Agent推荐阅读这份事实表,它表示"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时电价优惠,提供夜间免费电力,白天费率较高,而'Digital Saver'计划是传统的固定费率合同。"

德克萨斯电力选择

由于我对德克萨斯电力市场一无所知,我将这些信息传递给Lee,他评价道:"这不是一笔糟糕的交易——它选择了一个固定费率计划,而且没有被要求,这很聪明(浮动电价定价是几年前在冰冻期间许多穷人陷入数千美元账单的原因)。这不是我会选择的计划,因为奇怪的夜间规定(如果您不完全符合这些条件,您的每千瓦时费用会差很多),但这不是糟糕的选择!"

评估:9/10 正如Lee所说,"它没有搞砸任务。"

游戏下载:寻找Steam演示版

测试问题:我想下载一些最近的Steam演示版,了解游戏界的新动态。

提示词:"访问Steam,寻找最近有免费演示版适用于Mac的游戏。将所有这些演示版添加到我的库中并开始下载它们。"

测试结果: Atlas Agent没有导航到"免费演示版"类别,而是从搜索"demo"开始。在最终找到macOS过滤器后,它浪费了数分钟寻找"有演示版"过滤器,尽管搜索"demo"一词已经缩小了范围。

Steam演示版搜索

很长一段时间后,Agent终于点击了页面上的顶部结果,恰好是视觉小说《Project II: Silent Valley》。但即使该页面上有明显的"下载演示版"链接,Agent还是担心它处于完整游戏的Steam页面上,而不是演示版。它返回到搜索结果页面并再次尝试。

在将近十分钟的时间里,我观察了这种循环的某种变体,然后停止了Agent并放弃了。

评估:1/10 它 technically 找到了一些Mac游戏演示版,但完全没有尝试下载它们。

综合评估与未来展望

在六个多样化的网络任务测试中(我没有将维基破坏行为纳入总结),Atlas Agent在我的 somewhat 主观10分制中获得了中位数7.5分(平均分6.83分)。老实说,对于OpenAI仍在大力测试的"预览模式"功能,这比我预期的要好。

在我的测试中,Atlas Agent通常能够正确解释被要求做什么,并能够仔细(尽管缓慢地)导航和处理网页信息。Agent通常能够轻松导航简单的基于Web的菜单并绕过意外障碍,尽管它有时会陷入无限循环。

我测试中的主要限制因素继续是"技术约束的会话长度",这似乎将大多数任务限制在几分钟内。考虑到Atlas Agent找出下一个点击位置需要多长时间,以及我希望网络代理自动化的任务的重复性质,这严重限制了它的实用性。能够在后台无限期工作的Atlas Agent版本在我的评分标准中会获得更好的分数。

总的来说,Atlas的"Agent Mode"还不足以用作"设置后就忘记"的后台自动化工具。但对于简单的、重复性的任务,人类可以在事后进行抽查,它已经似乎成为我可能用来避免网络生活中一些繁重工作的工具。

结论:AI代理的现状与未来

通过这次全面测试,我们可以看到当前AI代理技术已经取得了显著进展,但仍面临重要挑战。Atlas Agent在理解指令、导航网页和执行特定任务方面表现出色,但在处理复杂任务、长时间运行和应对意外情况方面仍有改进空间。

随着技术的不断发展,我们有理由相信未来的AI代理将能够更好地处理我们日常生活中的各种网络任务,甚至包括折叠衣物这样的家务劳动。虽然目前我们还不能完全依赖这些工具,但它们已经为我们展示了人机协作的美好前景,预示着一个AI能够真正减轻我们工作负担的未来正在逐步到来。