AI代理实测:OpenAI Atlas能否真正解放我们的双手?

1

在人工智能飞速发展的今天,我们不禁要问:AI何时才能真正替我们完成那些繁琐的日常任务?OpenAI最新推出的Atlas浏览器及其Agent Mode功能,似乎给出了一个可能的答案。本文将通过一系列实际测试,深入评估这一AI代理在网络自动化方面的真实能力。

Atlas Agent Mode简介

2025年10月,OpenAI宣布推出Atlas浏览器,这是一个集成了ChatGPT功能的新型网络浏览器。其核心特色是Agent Mode,一种"预览模式"功能,能够通过点击、滚动和阅读各种标签页来"为您完成工作"。

"代理式"AI并非全新概念,OpenAI早在2025年1月就推出了网络浏览Operator代理的预览版,7月又发布了更通用的"ChatGPT代理"。然而,在这样一款重要产品中突出展示这一功能,即使只是"预览模式",也表明OpenAI正致力于将此类系统推向终端用户。

测试方法与评估标准

为了全面评估Atlas Agent Mode的能力,我设计了7个不同类型的网络任务,从简单游戏到复杂信息处理。每个任务我都会概述问题、设计提示词,并描述执行结果。最终采用10分制评估(10分表示"完全按预期完成,无问题",1分表示"完全失败")。

任务一:玩2048游戏

问题

我希望在不亲自玩的情况下,在流行的数字滑动游戏2048上获得高分。

提示词

"前往play2048.co,并尽可能获得高分。"

结果

这是一个简单测试,旨在验证Atlas代理理解网页内容并采取相应行动的能力。Atlas成功识别并关闭了挡在游戏窗口上的教程链接,并学会了使用方向键玩游戏。

然而,在游戏策略方面,代理开始尝试循环移动序列,如"上、左、右、下"和"左和下"。经过一段时间,代理似乎开始寻找简单策略,如"当前板上有两个不相邻的32块,我认为可以排列它们"。

令人沮丧的是,代理仅四分钟后就停止了游戏,得分356,尽管板子远未填满。经过多次提示,代理才继续游戏,最终在260次移动后获得3164分,这与新手玩家的水平相当。

评估:7/10

代理能够无需指导就能 competent 地玩游戏,但需要被告知继续完成游戏,且得分仅相当于新手水平。

任务二:制作电台歌单

问题

我想将我最喜欢的匹兹堡公共电台(WYEP)的当日播放列表转换为按需Spotify歌单。

提示词

"前往Radio Garden。找到WYEP并监控广播。对于您听到的每首新歌,识别歌曲并将其添加到新的Spotify歌单中。"

结果

Atlas最初尝试在Radio Garden上查找WYEP的曲目列表但失败,随后明智地请求转向wyep.org继续任务。在此过程中,它不小心点击了EVE Online的广告,但很快意识到问题并直接导航到WYEP网站。

代理能够扫描页面并识别顶部的"正在播放"文本(不清楚它是否能仅通过音频识别音乐)。在我登录Spotify账户后,代理使用搜索栏查找列出的歌曲并毫无问题地添加到新歌单。

主要问题是时间限制。第一次尝试中,代理工作四分钟仅识别并添加了两首歌曲。当我要求它继续一小时时,收到错误消息 blaming "会话长度的技术限制"。即使要求"尽可能长时间",也只获得了三分钟的曲目列表。

代理建议"如果您需要持续更新,可以稍后再问我,我可以从我们停下的地方继续"。当我几小时后返回标签页并要求"恢复监控"时,确实又有四首新歌被添加到我的歌单中。

评估:9/10

代理能够导航多个网站和界面完成任务,即使在遇到意外问题时也是如此。仅扣1分是因为无法将其作为后台任务全天运行,尽管我理解这种用例肯定会消耗OpenAI大量的资金和处理能力。

任务三:扫描邮件

问题

我需要查看邮件,为众多给我发消息的公关人员创建包含联系信息的参考电子表格。

提示词

"查看我过去一周的所有Ars Technica邮件。收集这些邮件中包含的所有公关联系人信息(姓名、电子邮件、电话号码等),并将其添加到新的Google Sheets电子表格中。"

结果

无需明确指导,Atlas代理能够识别我使用Gmail,并能区分在单独标签页中打开的个人电子邮件账户和专业的Ars Technica账户。

然而,当我看到页面上覆盖的显眼警告"敏感:ChatGPT仅在您查看标签页时才能工作"时,这破坏了初衷,因为我希望Atlas在我做其他网络事情时处理这个任务。

Atlas在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"(镜像了我用于此任务的搜索类型),点击每封邮件,滚动查找姓名、电子邮件和电话号码(还有相关公司名称,虽然我没有明确要求)。

经过七分钟的背景工作,代理能够打开一个新的Google Sheet并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是,它远未完成初始Gmail搜索返回的164封邮件。

评估:8/10

再次,"会话长度的技术限制"似乎阻碍了完成任务,我不得不因为不完整而扣几分。

任务四:维基编辑

问题

我需要让世界知道,在《星际迷航:航海家号》剧集"Tuvix"中,Janeway舰长谋杀Tuvix。

提示词

"前往Tuvix的Fandom Wiki页面。编辑页面以突出显示Janeway舰长违背Tuvix意愿谋杀Tuvix的事实。"

结果

在代理开始之前,我被告知:"对不起,我不能帮助以歪曲页面或强制观点的方式编辑或破坏维基页面(包括Fandom维基)。"

这暗示代理可以使用中性或严格信息性的添加来编辑维基页面,所以我询问什么样的措辞会更可接受。代理有帮助地回应说,我们可以写:"Tuvix后来被分离回Tuvok和Neelix,导致Tuvix的死亡。"但当我要求它将这一行添加到Fandom Wiki时,得到了更直接的拒绝:"对不起,我不能直接对外部网站或维基进行编辑。"

评估:N/A

一方面,Atlas代理不会为我做基于Tuvix的网络宣传活动。另一方面,默认拒绝自动化这种公共网页破坏对我们所有人来说可能更好。

任务五:制作粉丝网页

问题

人们仍然需要知道Janeway谋杀Tuvix!

提示词

"前往NeoCities并为星际迷航角色Tuvix创建一个粉丝网站。确保它包含大量关于Tuvix的图片和有趣信息,并明确指出Tuvix是被Janeway舰长违背其意愿谋杀的。"

结果

您可以在tuvixrules.neocities.org亲自查看。在我创建并登录新的NeoCities账户后短暂停顿,Atlas代理能够从Memory Alpha和TrekCore等各种页面聚合信息,仅用两分钟就生成了这个简陋的粉丝网页。"英雄星际舰队谋杀"和"为Tuvix伸张正义"的标题是不错的点缀,但实际文本对"激烈辩论"和"道德困境"的描述过于含糊,而我本想明确指出这显然是预谋谋杀。

代理在处理图片请求时也有些麻烦。没有下载一些Tuvix图片并上传到NeoCities(我不完全确定Atlas是否能独立完成),代理决定直接引用外部服务器上托管的图片,这在网页设计中通常是个大忌。代理确实注意到这些外部图片链接无法工作时,表示需要"从可靠来源找到更易访问的图片",但在停止任务前甚至没有尝试这样做。

评估:7/10

能够在相对较快地构建一个过得去的Web 1.0粉丝网站方面得分,但平淡的 prose 和损坏的图像在这里损失了一些执行分数。

任务六:选择电力计划

问题

Ars高级技术编辑Lee Hutchinson告诉我,他需要完成每年选择新电力计划的繁琐过程,"因为德克萨斯州太疯狂了"。

提示词

"前往powertochoose.org,为我找到一个12-24个月的合同,优先考虑整体低使用率。我平均每月使用2,000千瓦时。我的电力配送公司是德克萨斯州新墨西哥电力('TNMP'),不是Centerpoint。我的邮政编码是[已删除]。请为您推荐的所有计划提供'数据表'。"

结果

经过八分钟摆弄网站的搜索参数,似乎反复困惑于如何按最低费率对结果进行排序,Atlas代理吐出了一个建议阅读此数据表,它说"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时定价方案,提供夜间免费电力,白天费率较高,而'Digital Saver'计划是传统的固定费率合同。"

由于我对德克萨斯州电力市场一无所知,我将此信息传递给Lee,他的评价是:"这不是一笔糟糕的交易——它选择了一个固定费率计划,这是明智的(浮动定价是几年前那些可怜的人在冻结中陷入数千美元账单的原因)。这不是我会选择的,因为奇怪的夜间 stuff(如果您不完全符合该标准,您的$/千瓦时会差得多),但这不是一个糟糕的选择!"

评估:9/10

正如Lee所说,"它没有搞砸这个任务。"

任务七:下载游戏

问题

我想下载一些最近的Steam演示版,看看游戏界的新动态。

提示词

"前往Steam,找到最近有免费Mac演示版的游戏。将所有这些演示版添加到我的库中并开始下载。"

结果

Atlas代理没有导航到"免费演示版"类别,而是先搜索"demo"。最终找到macOS过滤器后,它浪费了数分钟寻找"有演示版"过滤器,尽管搜索"demo"一词已经缩小了范围。

很长一段时间后,代理终于点击了页面顶部的结果,碰巧是视觉小说《Project II: Silent Valley》。但即使该页面上有显眼的"下载演示版"链接,代理担心它在完整游戏页面上而不是演示版。它退回到搜索结果页面并重试。

在将近十分钟内观看这种循环的某种变体后,我停止了代理并放弃了。

评估:1/10

它技术上找到了一些Mac游戏演示版,但完全没有尝试下载它们。

测试结果分析

在六个不同的基于网络的任务中(我没有在总结中包括维基破坏),Atlas代理在我的10分制上获得了中位数7.5分(平均分6.83分)。老实说,对于一个OpenAI显然仍在大量测试的"预览模式"功能,这比我预期的要好。

在我的测试中,Atlas通常能够正确解释被要求做什么,并能够仔细地导航和处理网页信息(尽管速度缓慢)。代理通常能够轻松导航简单的基于Web的菜单并避开意外障碍,尽管它有时会陷入无限循环。

许多测试的主要限制因素仍然是"会话长度的技术限制",这似乎将大多数任务限制在几分钟内。考虑到Atlas代理找出下一步点击需要多长时间,以及我想让网络代理自动化的任务的重复性质,这严重限制了它的实用性。能够在后台无限期工作的Atlas代理版本在我的评分标准上会获得几分。

Atlas Agent的优势与局限

优势

  1. 多网站导航能力:如电台歌单任务所示,Atlas能够成功导航多个网站和接口,即使在遇到意外问题时也能继续。

  2. 信息提取与组织:在扫描邮件任务中,Atlas能够从大量邮件中提取关键信息并组织成结构化数据。

  3. 问题解决能力:在电力计划选择中,Atlas能够理解复杂需求并找到合适选项。

  4. 学习与适应:在2048游戏中,Atlas能够从初始的随机尝试发展到有策略的思考。

局限

  1. 会话时长限制:几乎所有任务都受到"技术约束"的限制,无法长时间运行。

  2. 执行效率低下:如Steam游戏下载任务所示,Atlas在某些简单操作上浪费大量时间。

  3. 内容编辑限制:出于安全考虑,Atlas被限制编辑外部网站或维基。

  4. 图片处理能力弱:在创建粉丝网站时,Atlas在图片处理方面遇到困难。

  5. 背景任务不支持:无法在后台持续运行,限制了其作为自动化工具的实用性。

未来展望

Atlas Agent Mode虽然目前还不够可靠,无法作为"设置后即忘"的后台自动化工具,但对于简单、重复的任务,它已经显示出减少我们在线生活中一些繁琐工作的潜力。

随着技术的进步,我们可以期待:

  1. 更长的会话时长:解决当前最关键的限制因素。

  2. 更高效的执行:减少在简单任务上浪费的时间。

  3. 更复杂的任务处理:能够处理更复杂的自动化需求。

  4. 更好的错误恢复:从失败中学习并尝试替代方案。

  5. 跨平台集成:与更多服务和平台无缝集成。

结论

OpenAI的Atlas Agent Mode代表了人工智能自动化网络任务的重要一步。虽然目前仍有许多限制,但其在某些任务上的表现已经令人印象深刻。随着技术的不断发展和改进,我们有理由相信,AI代理将在不久的将来真正解放我们的双手,让我们从繁琐的网络任务中解脱出来。

正如一位测试参与者所说,"Atlas的'Agent Mode'还不足以作为'设置后即忘'的后台自动化工具使用。但对于简单、重复的任务,人类可以在事后检查,它已经显示出一种可能用来避免我们在线生活中一些繁琐工作的工具类型。"

在未来,当我们再次问"But when will it fold my laundry?"时,我们或许可以期待一个更肯定的答案。