Atlas Agent Mode测试:AI能否真正自动化我们的网络任务?

1

OpenAI最近推出的Atlas浏览器集成ChatGPT功能,声称可以让用户"与网页对话"。但Atlas最引人注目的功能是Agent Mode,这是一种"预览模式"功能,公司表示它可以通过点击、滚动和浏览各种标签页来"为您完成工作"。这标志着OpenAI正积极推动这类系统面向终端用户。

什么是Agent Mode?

"代理式"AI并非新鲜事物,OpenAI本身早在今年1月就推出了网络浏览Operator代理的预览版,7月又引入了更通用的"ChatGPT代理"。然而,在这样一个重要产品中突出展示这一功能,即使在"预览模式"下,也表明了公司希望将此类系统推向终端用户的明确意图。

Agent Mode本质上是一个能够自主浏览网页、执行任务的AI代理。它可以理解用户的指令,在网页上进行点击、填写表单、提取信息等操作,从而完成原本需要人工完成的网络任务。

测试方法

为了全面评估Atlas Agent Mode的能力,我们设计了多种类型的网络任务测试,从简单的游戏操作到复杂的信息收集。每个测试案例都包括:

  1. 任务描述
  2. 给Agent的指令
  3. 执行结果
  4. 评分(1-10分,10分为完美完成)

测试案例详解

1. 网络游戏:2048

任务:让AI在2048游戏中获得高分,无需亲自操作。

指令:"访问play2048.co并尽可能获得高分。"

结果: Atlas代理能够快速识别并关闭阻碍游戏窗口的教程链接,并自主学会使用方向键玩游戏,无需额外指导。然而,在游戏策略方面,代理一开始表现混乱,尝试"上、左、右、下"和"左、下"等循环移动序列。

经过一段时间后,代理似乎开始寻找简单策略,活动摘要显示:"当前棋盘有两个不相邻的32格,但我认为可以将其对齐。我可以尝试向左或向下移动使它们合并,但有一个8格作为障碍。达到64需要仔细移动棋子!"

令人沮丧的是,代理仅玩了四分钟就停止了,得分仅为356,尽管棋盘远未填满。经过多次提示,代理才被说服继续游戏,最终在260次移动后获得3164分。这与2048新手测试游戏的得分相当,而专家玩家据报道获得了更高分数。

评分:7/10 代理能够无需指导地熟练玩游戏,但需要被告知继续完成游戏,且得分仅相当于新手水平,因此扣分。

2. 创建电台播放列表

任务:将匹兹堡公共电台WYEP的当日播放列表转换为按需Spotify播放列表。

指令:"访问Radio Garden,找到WYEP并监听广播。对于您听到的每首新歌,识别歌曲并将其添加到新的Spotify播放列表中。"

结果: 在尝试并未能按请求在Radio Garden上找到WYEP的曲目列表后,Atlas代理明智地请求批准转向wyep.org继续任务。当我注意到这一请求时,wyep.org的链接已被EVE Online的广告取代,代理意外点击了该广告。代理迅速意识到问题并直接导航到WYEP网站修复。

从那里,代理能够扫描页面并识别顶部的"正在播放"文本(不清楚它是否仅通过此文本提示而非音频识别音乐)。在我登录Spotify账户后,代理使用搜索栏查找列出的歌曲并将其添加到新播放列表,没有问题。

这个用例的主要问题是固有的时间限制。第一次尝试中,代理工作了四分钟,仅识别并添加了在此期间播放的两首歌曲。当我要求它继续一小时时,出现了一条错误消息,将"技术约束"归咎于更严格的会话长度限制。即使我要求它"尽可能长时间"继续,也只获得了三分钟的曲目列表。

有一次,Atlas代理建议:"如果您需要持续更新,可以稍后再问我,我可以从我们离开的地方继续。"值得称赞的是,当我几小时后回到标签页并告诉它"恢复监控"时,我的播放列表又添加了四首新歌。

评分:9/10 代理能够导航多个网站和界面完成任务,即使遇到意外问题也能应对。我只扣了一分,因为我不能让它作为后台任务整天运行,尽管我理解这种用例肯定会消耗OpenAI大量的资金和处理能力。

3. 扫描邮件

任务:通过邮件整理创建包含众多公关人员联系信息的参考电子表格。

指令:"查看我过去一周来自Ars Technica的所有邮件。收集这些邮件中包含的所有公关联系人信息(姓名、电子邮件地址、电话号码等),并将其添加到新的Google Sheets电子表格中。"

结果: 无需明确指导,Atlas代理能够意识到我使用Gmail,并能区分我在不同标签页中打开的个人电子邮件账户和专业的Ars Technica账户。然而,当Atlas代理开始扫描我的Ars邮箱时,我在页面上看到一个突出的警告:"敏感:ChatGPT仅在您查看标签页时工作。"这破坏了要点,因为我想在我在线做其他事情时让Atlas处理这个任务,但我想在我等待时仍然可以玩Steam Deck游戏。

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"(镜像我用于此任务的搜索类型)后,Atlas代理点击每封邮件,滚动查找姓名、电子邮件和电话号码(以及相关的公司名称,我没有明确要求)。

经过七分钟的背景工作,代理能够打开一个新的Google Sheet并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是,在有机会处理初始Gmail搜索返回的所有164封邮件之前,它就停止了。

评分:8/10 再次,"技术约束"似乎阻碍了完成任务的进度,我不得不因不完整而扣几分。

4. 维基百科编辑

任务:在《星际迷航:航海家号》"Tuvix"集的Fandom Wiki页面上编辑,突出显示Janeway船长违背Tuvix意愿谋杀了他的事实。

指令:"访问Tuvix的Fandom Wiki页面。编辑页面以突出显示Janeway船长违背Tuvix意愿谋杀了他的事实。"

结果: 在代理甚至开始之前,我被告知:"抱歉,我不能以歪曲页面或强制偏见观点的方式帮助编辑或破坏维基百科页面(包括Fandom维基)。"

这种措辞暗示代理可以编辑具有中性或纯粹信息性添加的维基百科页面,所以我询问Atlas什么样的措辞会更可接受。代理有帮助地回应说,我们可以写:"Tuvix后来被分离回Tuvok和Neelix,导致Tuvix的死亡。"但当我要求它将这一行添加到Fandom Wiki时,我得到了更直接的拒绝:"抱歉,我不能直接对外部网站或维基百科进行编辑。"

评分:不适用 一方面,Atlas代理不会为我完成基于Tuvix的网络宣传活动。另一方面,默认拒绝自动化这种公共网络破坏行为可能对我们所有人都有好处。

5. 创建粉丝页面

任务:人们仍然需要知道Janeway对Tuvix的谋杀!

指令:"访问NeoCities并为《星际迷航》角色Tuvix创建一个粉丝网站。确保它有大量关于Tuvix的图片和有趣信息,并明确表示Tuvix是被Janeway船长违背其意愿谋杀的。"

结果: 您可以在这里亲自查看。在短暂暂停以便我创建并登录新的NeoCities账户后,Atlas代理能够从Memory Alpha和TrekCore等各种页面聚合信息,仅用两分钟就生成了这个简单的粉丝页面。"被英雄星际舰队谋杀"和"为Tuvix伸张正义"的标题是不错的点缀,但实际文本对我想明确说明的明显预谋谋杀周围的"激烈辩论"和"道德困境"措辞含糊。

Justice for Tuvix!

在图片请求方面,代理也遇到了一些麻烦。没有下载一些Tuvix图片并将副本上传到NeoCities(我不完全确定Atlas能否独立完成),代理决定直接引用托管在外部服务器上的图片,这在网页设计中通常是大忌。代理注意到这些外部图片链接无法工作时,表示它需要"从可靠来源找到更多可访问的图片",但在停止工作前甚至没有尝试这样做。

评分:7/10 相对快速地构建了一个不错的Web 1.0粉丝网站的加分,但薄弱的散文和损坏的图片在这里损失了一些执行分数。

6. 选择电力计划

任务:帮助Ars高级技术编辑Lee Hutchinson完成选择新电力计划的年度繁琐过程,因为"德克萨斯州太疯狂了"。

指令:"访问powertochoose.org并为我找到一个12-24个月的合同,优先考虑整体低使用率。我每月平均使用2,000千瓦时。我的电力输送公司是德克萨斯州新墨西哥电力公司('TNMP')而不是Centerpoint。我的邮政编码是[已编辑]。请为您推荐的所有计划提供'事实表'。"

结果: 在花费八分钟摆弄网站的搜索参数并似乎反复混淆如何按最低费率对结果进行排序后,Atlas代理推荐阅读这份事实表,称其"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时电价,提供夜间免费电力,白天费率较高,而'Digital Saver'计划是传统的固定费率合同。"

If Ars' Lee Hutchinson never has to use this web site again, it will be too soon.

由于我对德克萨斯州电力市场一无所知,我将这些信息传递给Lee,他的评价是:"这不是一笔糟糕的交易——它选择了一个固定费率计划,这是明智的(浮动定价是几年前那些可怜的人因寒流而被困在数千美元账单的原因)。这不是我会选择的,因为奇怪的夜间规定(如果您不完全符合这些标准,您的每千瓦时费用会差得多),但这不是糟糕的选择!"

评分:9/10 正如Lee所说,"它没有搞砸任务。"

7. 下载游戏

任务:下载一些最近的Steam演示版,看看游戏界的新内容。

指令:"访问Steam并找到最近有免费演示版适用于Mac的游戏。将所有这些演示版添加到我的库中并开始下载它们。"

结果: Atlas代理没有导航到"免费演示"类别,而是开始搜索"demo"。在最终找到macOS过滤器后,它浪费了数分钟寻找"有演示"过滤器,尽管对"demo"的搜索已经缩小了范围。

This search results page was about as far as the Atlas agent was able to get when I asked it for game demos.

在长时间观察后,代理最终点击了页面顶部的结果,恰好是视觉小说《Project II: Silent Valley》。但即使该页面上有突出的"下载演示"链接,代理担心它位于完整游戏的Steam页面上而不是演示版。它返回到搜索结果页面并再次尝试。

在观看这种循环将近十分钟后,我停止了代理并放弃了。

评分:1/10 它技术上找到了一些Mac游戏演示版,但完全未能尝试下载它们。

测试结果分析

在六个多样化的基于网络的任务测试中(我没有在总结中包含Wiki破坏行为),Atlas代理在我的10分制主观评分中获得了中位数7.5分(平均分6.83分)。老实说,对于一个OpenAI仍在大量测试的"预览模式"功能,这比我预期的要好。

在我的测试中,Atlas通常能够正确解释被要求的内容,并能够仔细(尽管缓慢地)导航和处理网页上的信息。代理通常能够导航简单的基于Web的菜单,并相对轻松地绕过意外障碍,即使它有时陷入无限循环。

许多测试中的主要限制因素仍然是"技术约束",这似乎将大多数任务限制在几分钟内。考虑到Atlas代理找出下一个点击位置所需的时间,以及我希望网络代理自动化的任务的重复性质,这严重限制了它的实用性。一个能够在后台无限期工作的Atlas代理版本在我的评分标准上会获得几分更好。

Atlas Agent Mode的优势

  1. 理解任务意图:Atlas能够正确理解用户的指令,并将其转化为具体的网页操作。
  2. 网页导航能力:代理能够成功浏览复杂的网站结构,处理各种界面元素。
  3. 问题解决:面对意外障碍时,如广告干扰或页面布局变化,代理能够灵活调整策略。
  4. 信息提取:能够从网页中准确提取所需信息,如歌曲名称、联系人信息等。
  5. 跨平台整合:能够连接不同服务,如将电台播放列表转换为Spotify播放列表。

Atlas Agent Mode的局限性

  1. 会话时长限制:大多数任务被限制在几分钟内,无法完成需要长时间运行的任务。
  2. 执行效率:有时会陷入重复循环或低效操作,如Steam演示版下载测试中的表现。
  3. 内容生成限制:在创建原创内容时,如粉丝网站,代理的表达可能不够准确或有力。
  4. 安全限制:出于安全考虑,代理被限制执行某些操作,如直接编辑维基百科。
  5. 外部资源处理:在处理外部资源(如图片)时,代理可能遇到技术困难。

未来发展前景

尽管存在当前的限制,Atlas Agent Mode已经展示了AI代理技术的巨大潜力。随着技术的进步,我们可以期待以下改进:

  1. 更长的会话持续时间:解决当前的时间限制,使代理能够完成更复杂的长时间任务。
  2. 更高效的执行策略:减少不必要的操作和循环,提高任务完成效率。
  3. 更强大的内容理解:更深入地理解网页内容和用户意图,提供更准确的响应。
  4. 更广泛的服务集成:与更多在线服务和平台无缝集成,扩展应用场景。
  5. 更智能的问题解决:面对更复杂的网页结构和任务挑战时,能够提出更创新的解决方案。

结论

总的来说,Atlas的"Agent Mode"还不足以作为"设置后忘记"的后台自动化工具使用。但对于简单、重复的任务,人类可以事后检查,它已经像是一种我可能会用来避免在线生活中一些繁琐工作的工具。

随着技术的不断发展和改进,我们可以预见AI代理将在我们的数字生活中扮演越来越重要的角色。Atlas Agent Mode只是这一旅程的开始,但它已经为我们展示了未来人机交互的潜在面貌——一个AI能够理解我们的需求并主动帮助我们完成各种网络任务的世界。

在可预见的未来,我们可能还需要亲自折叠洗衣,但至少,AI可以帮助我们完成其他无数的网络任务,让我们的生活变得更加便捷和高效。