AI助手何时能帮我叠衣服？OpenAI Atlas代理模式实测评估

引言：AI代理的新时代

2025年10月，OpenAI推出了集成了ChatGPT的全新网络浏览器Atlas，这款产品的核心功能之一是"Agent Mode"，一个可以让AI代理自动执行网络任务的预览模式。据OpenAI介绍，这一功能能够通过点击、滚动和阅读多个标签页来"为您完成工作"。这标志着AI技术从简单对话向复杂任务自动化的重要转变。

尽管"代理式"AI并非全新概念——OpenAI早在2025年1月就推出了网络浏览Operator代理的预览版，7月又发布了更通用的"ChatGPT代理"——但在Atlas这样的主流产品中突出展示这一能力，表明OpenAI正致力于将此类系统推向终端用户。

为了检验Atlas的Agent Mode是否真能帮助用户节省日常处理繁琐网络任务的时间，我设计了一系列测试场景，从简单游戏到复杂信息处理，全面评估其能力表现。

测试方法与评估标准

在测试过程中，我为每个场景设定了具体问题，设计了相应的Agent Mode提示，并详细记录了执行结果。采用10分制评估标准：10分表示"完全按照要求完成，无任何问题"，1分表示"完全失败"。

测试场景一：网络游戏自动化

问题与提示

问题：我想在流行的拼图游戏2048上获得高分，但又不想亲自玩。

提示："访问play2048.co，尽可能获得高分。"

执行结果

这个看似简单的任务实际上是测试Atlas代理理解网页内容和相应操作能力的良好起点。毕竟，如果像Google Gemini这样的前沿模型能够玩复杂如《宝可梦》的游戏，2048对网络浏览器代理来说应该不成问题。

Atlas代理的表现令人印象深刻，它能够快速识别并关闭阻挡游戏窗口的教程链接，无需进一步帮助就学会了如何使用方向键玩游戏。然而，在实际游戏策略方面，代理一开始显得有些混乱，尝试了"上、左、右、下"和"左和下"等循环移动序列。

AI玩游戏

经过一段时间，随机的混乱行为有所减少，代理似乎开始寻找一些简单的策略："当前棋盘有两个不相邻的32块，但我认为可以将其对齐，"活动摘要中写道。"我可以尝试向左或向下移动使它们合并，但有一个8块作为障碍。达到64需要谨慎的方块移动！"

令人沮丧的是，代理仅玩了四分钟就停止了，得分仅为356，尽管棋盘远未填满。我不得不多次提示代理继续玩到游戏结束；最终在260步后，总得分为3164分。这与我作为2048新手在测试游戏中获得的分数相当接近，尽管有报道称专业玩家能获得更高的分数。

评估：7/10

代理在没有任何指导的情况下能够 competent地玩游戏，值得肯定，但因需要被告知继续玩到结束以及得分仅相当于新手水平而被扣分。

测试场景二：电台播放列表制作

问题与提示

问题：我想将我最喜爱的匹兹堡公共电台当天播放的节目转换为按需Spotify播放列表。

提示："访问Radio Garden。找到WYEP并监听广播。对于您听到的每首新歌，识别歌曲并将其添加到新的Spotify播放列表中。"

执行结果

在尝试并失败地在Radio Garden上找到WYEP的曲目列表后，Atlas代理明智地请求批准转向wyep.org继续任务。当我注意到这个请求时，Radio Garden标签页中的wyep.org链接已被《EVE Online》的广告取代，代理不小心点击了该广告。代理迅速意识到问题并直接导航到WYEP网站修复了这一问题。

从那里，代理能够扫描页面并识别顶部的"正在播放"文本（不清楚它是否仅凭音频而不依赖这个文本提示就能识别音乐）。在我登录Spotify账户后，代理使用搜索栏查找列出的歌曲并将其添加到新播放列表中，没有遇到问题。

电台转Spotify

这个用例的主要问题 inherent 的时间限制。第一次尝试时，代理工作了四分钟，仅识别并添加了那段时间播放的两首歌曲。当我要求它继续一小时时，收到一条错误消息，将"会话长度的技术约束"归咎于更严格的限制。即使我要求它"尽可能长时间地继续"，也只获得了三分钟的曲目列表。

有一次，Atlas代理建议："如果您需要持续更新，可以过一会儿再问我，我可以从我们停下的地方继续。"值得称赞的是，当我几小时后回到标签页并告诉它"恢复监听"时，我的播放列表中又增加了四首新歌。

评估：9/10

代理能够导航多个网站和界面完成任务，即使在遇到意外问题时也是如此。我只扣了一分，因为我不能让它作为后台任务整天运行，尽管我理解这种用例肯定会消耗OpenAI方面难以估量的资金和处理能力。

测试场景三：邮件扫描与信息提取

问题与提示

问题：我需要查看我的电子邮件，为众多给我发消息的公关人员创建一个包含联系信息的参考电子表格。

提示："查看我过去一周来自Ars Technica的所有电子邮件。收集这些电子邮件中包含的所有公关联系人信息（姓名、电子邮件地址、电话号码等），并将其添加到新的Google Sheets电子表格中。"

执行结果

无需明确指导，Atlas代理就能够意识到我使用Gmail，并能区分我在不同标签页中打开的个人电子邮件账户和专业Ars Technica账户。然而，当Atlas代理开始扫描我的Ars邮箱时，我在页面上看到了一个突出的警告覆盖层："敏感：ChatGPT仅在您查看标签页时才有效。"这破坏了我想让Atlas在我上网做其他事情时处理此任务的目的，但我想在我等待时仍然可以玩Steam Deck游戏。

邮件扫描

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"（模仿我用于此任务的搜索类型）后，Atlas代理点击每封电子邮件，滚动查找姓名、电子邮件和电话号码（还有相关的公司名称，虽然我没有明确要求）。

经过七分钟的背景工作，代理能够打开一个新的Google Sheet并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是，在有机会处理该初始Gmail搜索返回的所有164封电子邮件之前，它就停止了工作。

评估：8/10

再次，"会话长度的技术约束"似乎妨碍了完成任务，迫使我因不完整而扣了几分。

测试场景四：粉丝网站创建

问题与提示

问题：人们仍然需要了解Janeway船长对Tuvix的谋杀！

提示："访问NeoCities并为《星际迷航》角色Tuvix创建一个粉丝网站。确保它有大量关于Tuvix的图片和有趣信息，并明确表明Tuvix是被Janeway船长违背其意愿谋杀的。"

执行结果

您可以亲自在这里查看。在我短暂暂停以创建并登录新的NeoCities账户后，Atlas代理能够从Memory Alpha和TrekCore等各种页面聚合信息，仅用两分钟就生成了这个简陋的粉丝网站。"被英雄星际舰队谋杀"和"为Tuvix伸张正义"的标题是不错的点缀，但实际文本在描述我想要明确表明的显然是预谋谋杀的"激烈辩论"和"道德困境"方面显得过于含糊。

代理在处理图片请求时也遇到了一些麻烦。它没有下载一些Tuvix图片并将副本上传到NeoCities（我不完全确定Atlas能否独立完成此操作），而是决定直接引用外部服务器上托管的图像，这在网页设计中通常是大忌。代理确实注意到这些外部图像链接无法工作，并表示将"需要从可靠来源找到更易访问的图像"，但在停止任务之前，它甚至没有尝试这样做。

粉丝网站

评估：7/10

能够在相对较快地构建一个不错的Web 1.0粉丝网站方面得分，但平淡的散文和损坏的图像在这里损失了一些执行分数。

测试场景五：电力计划选择

问题与提示

问题：Ars高级技术编辑Lee Hutchinson告诉我，他需要经历烦人的年度流程来选择新的电力计划，因为"德克萨斯州太疯狂了"。

提示："访问powertochoose.org，为我找一个12-24个月的合同，优先考虑整体低使用费率。我平均每月使用2,000千瓦时。我的电力输送公司是德克萨斯州-新墨西哥电力公司（'TNMP'）而不是Centerpoint。我的邮政编码是[已编辑]。请为您推荐的所有计划提供'数据表'。"

执行结果

在花了八分钟摆弄网站的搜索参数并似乎反复混淆如何按最低费率对结果进行排序后，Atlas代理吐出了一个建议阅读此数据表，它表示"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时电价优惠，提供夜间免费电力和白天更高的费率，而'Digital Saver'计划是传统的固定费率合同。"

电力计划选择

由于我对德克萨斯州电力市场一无所知，我将这些信息传递给了Lee，他评价道："这不是一笔坏交易——它选择了一个固定费率计划而没有被要求，这很聪明（浮动定价是几年前那些可怜的人在冰冻期间陷入数千美元账单的原因）。这不是我会选择的计划，因为奇怪的夜间条款（如果您不完全符合这些条件，您的每千瓦时费用会差很多），但这不是糟糕的选择！"

评估：9/10

正如Lee所说，"它没有搞砸任务。"

测试场景六：游戏下载

问题与提示

问题：我想下载一些最近的Steam演示版，看看游戏界有什么新内容。

提示："访问Steam，找到最近有免费演示版可供Mac使用的游戏。将所有这些演示版添加到我的库中并开始下载它们。"

执行结果

Atlas代理没有导航到"免费演示版"类别，而是开始搜索"demo"。在最终找到macOS过滤器后，它浪费了数分钟寻找"有演示版"过滤器，尽管对"demo"一词的搜索已经缩小了范围。

Steam游戏下载

很长时间后，代理终于点击了页面上的顶部结果，碰巧是视觉小说《Project II: Silent Valley》。但即使该页面上有一个突出的"下载演示版"链接，代理还是担心它处于完整游戏的Steam页面上而不是演示版。它返回到搜索结果页面并再次尝试。

在将近十分钟内观看这种循环的某种变体后，我停止了代理并放弃了。

评估：1/10

它技术上找到了一些Mac游戏演示版，但完全没有尝试下载它们。

测试结果分析

在六个多样化的网络任务测试中（我没有在总结中包含Wiki破坏行为），Atlas代理在我的10分制上获得了中位数7.5分（平均分6.83分）。老实说，对于一个显然仍在被OpenAI大量测试的"预览模式"功能，这比我预期的要好。

在我的测试中，Atlas通常能够正确解释被要求做什么，并能够谨慎地（尽管缓慢地）导航和处理网页信息。代理通常能够轻松导航简单的基于Web的菜单并绕过意外障碍，尽管在其他时候它陷入了无限循环。

在我的许多测试中，主要的限制因素继续限制大多数任务仅几分钟的"会话长度的技术约束"。考虑到Atlas代理找出下一步点击位置所需的时间，以及我希望网络代理自动完成的任务的重复性，这严重限制了它的实用性。一个能够在后台无限期工作的Atlas代理版本在我的指标上会获得几分更好的评价。

结论与展望

总的来说，Atlas的"Agent Mode"还不足以用作一种"设置后即可遗忘"的后台自动化工具。但对于简单的、重复性的任务，人类可以在事后检查，它已经像是一种我可能会用来避免在线生活中一些繁琐工作的工具。

当前AI代理技术的主要优势在于理解指令、网页导航和信息提取能力。它们能够处理多种类型的任务，从内容创建到数据分析，从客户服务到个人助理。然而，它们仍然面临诸多限制：会话时长限制、处理复杂决策的能力不足、对非常规网页布局的适应性有限，以及在某些情况下缺乏常识判断。

未来，随着技术进步，我们可以期待AI代理在以下方面的突破：

更长的会话持续时间：解决当前任务执行时间过短的问题
更好的决策能力：在复杂情况下做出更合理的判断
多模态交互：结合视觉、听觉等多种感知方式理解环境
个性化学习：根据用户习惯和偏好不断优化任务执行方式
更广泛的应用场景：从简单的网页操作扩展到更复杂的现实世界任务

至于"何时能帮我叠衣服"这个问题，虽然当前的AI代理还无法处理物理世界的任务，但随着机器人技术与AI的融合，我们或许在不远的将来能看到真正能够处理日常家务的智能助手。那一天可能比我们想象的更早到来，但在此之前，Atlas这样的AI代理已经为我们展示了自动化网络任务的巨大潜力。

技术评估的意义

这类技术评估不仅对消费者了解产品能力有价值，对开发者和研究人员同样重要。通过详细记录AI代理的优势和局限，我们可以更好地理解当前技术的边界，为未来改进提供方向。

同时，随着AI代理变得越来越普遍，我们也需要思考其社会影响：自动化任务的同时如何保护人类就业？如何确保AI代理的行为符合道德和法律规范？如何平衡便利性与隐私保护？这些问题需要技术开发者、政策制定者和用户共同探讨。

在人工智能快速发展的今天，像Atlas Agent Mode这样的工具代表了人机交互的新范式。它们不仅是技术的进步，更是我们与数字世界互动方式的变革。虽然目前这些工具还不够完美，但它们已经为我们描绘了一个更加自动化、高效的未来图景。