Atlas Agent测试：AI网络助手能否真正解放我们的时间？

在人工智能技术飞速发展的今天，我们离科幻电影中描绘的智能助手还有多远？OpenAI最新推出的Atlas浏览器及其Agent模式，似乎为我们提供了一窥未来的窗口。这款新产品不仅能让我们与网页'对话'，更通过Agent模式承诺能够'为你完成工作'——通过点击、滚动和阅读各种标签页来执行任务。

作为一名科技记者，我决定对Atlas的Agent模式进行全面测试，看看它是否真的能帮我节省日常处理那些繁琐网络任务的时间。在测试中，我为每个任务设计了具体场景，使用Agent Mode尝试解决，并详细记录了结果。最终，我将每个任务在10分制下进行评分，10分代表'完全按照我的意愿完成，没有任何问题'，1分代表'完全失败'。

游戏高手：2048挑战

任务场景：我想在不亲自玩的情况下，在流行的滑动方块游戏2048上获得高分。

测试提示：'访问play2048.co，并尽可能获得高分。'

测试结果：虽然这个任务本身有些荒谬，但一个不需要反应速度的简单网页游戏似乎是测试Atlas代理网页解读和行动能力的良好起点。毕竟，如果像Google Gemini这样的前沿模型可以玩复杂的宝可梦游戏，2048对网页浏览器代理来说应该不成问题。

Atlas代理确实能够快速识别并关闭阻碍游戏窗口的教程链接，并 figure 出如何使用方向键玩游戏，无需进一步帮助。然而，在实际游戏策略方面，代理开始盲目尝试，进行循环移动序列，如'上、左、右、下'和'左和下'。

AI玩2048游戏

经过一段时间，随机尝试稍微平静下来，代理似乎开始寻找一些简单的前瞻策略：'当前板上有两个不相邻的32方块，但我认为我可以将它们对齐，'活动摘要中某处写道。'我可以尝试向左或向下移动使它们合并，但有一个8方块的障碍。达到64需要谨慎的方块移动！'

令人沮丧的是，代理仅四分钟后就停止了游戏，得分仅为356，尽管远未填满棋盘。我不得不多次提示代理继续玩到游戏结束；最终在260次移动后总分为3164分。这和我作为2048新手在测试游戏中获得的分数相当接近，尽管专家玩家据报道获得了更高的分数。

评分：7/10。代理能够在没有任何指导的情况下 competent 地玩游戏，但由于需要被告知继续玩到结束，以及分数仅相当于人类新手水平而失分。

音乐收藏家：电台转Spotify

任务场景：我想将我最喜欢的匹兹堡公共广播电台的当日播放列表转换为按需Spotify播放列表。

测试提示：'访问Radio Garden。找到WYEP并监听广播。对于你听到的每首新歌，识别歌曲并将其添加到新的Spotify播放列表中。'

测试结果：在尝试并失败在Radio Garden上找到WYEP的曲目列表后，Atlas代理明智地请求转向wyep.org继续任务。当我注意到这个请求时，Radio Garden标签页中的链接已被EVE Online的广告取代，代理意外点击了它。代理很快意识到问题并直接导航到WYEP网站解决。

从那里，代理能够扫描页面并识别顶部的'正在播放'文本（不清楚它是否仅凭音频就能识别音乐，而无需这个文本提示）。在我登录Spotify账户后，代理使用搜索栏查找列出的歌曲并将其添加到新播放列表中，没有问题。

从电台流到Spotify播放列表

这个用例的主要问题是固有的时间限制。第一次尝试时，代理工作了四分钟，仅识别并添加了在那段时间播放的两首歌曲。当我要求它继续一小时时，我收到了一条错误消息，将限制归咎于'会话长度的技术限制'。即使我要求它'尽可能长时间地继续'，我也只获得了三分钟的曲目列表。

有一次，Atlas代理建议：'如果你需要持续更新，可以过一会儿再问我，我可以从我们离开的地方继续。'值得称赞的是，当我几小时后回到标签页并告诉它'恢复监听'时，我的播放列表中又添加了四首新歌。

评分：9/10。代理能够导航多个网站和界面完成任务，即使在遇到意外问题时也是如此。我只扣了一分，因为我不能整天将其作为后台任务运行，尽管我理解这种用例肯定会消耗OpenAI大量的资金和处理能力。

邮件整理师：联系人信息收集

任务场景：我需要查看我的电子邮件，为给我发消息的大量公关人员创建一个包含联系信息的参考电子表格。

测试提示：'查看我过去一周来自Ars Technica的所有电子邮件。收集这些邮件中包含的所有公关联系人信息（姓名、电子邮件地址、电话号码等），并将其添加到新的Google Sheets电子表格中。'

测试结果：在没有明确指导的情况下，Atlas代理能够意识到我使用Gmail，并能区分我在不同标签页中打开的个人电子邮件账户和专业的Ars Technica账户。然而，当Atlas代理开始扫描我的Ars邮箱时，我在页面上看到一个突出的警告：'敏感：ChatGPT仅在您查看标签页时才能工作。'这有点破坏了要点，因为我想让我在做其他网络工作时由Atlas处理这个任务，但我想我可以在等待时玩Steam Deck游戏。

众多公关人员的邮件

在Gmail中搜索'after:2025/10/14 before:2025/10/22 PR'（模仿我用于此任务的搜索类型）后，Atlas代理点击每封电子邮件，滚动查找姓名、电子邮件和电话号码（还有相关的公司名称，我没有明确要求）。

经过七分钟的背景工作，代理能够打开一个新的Google Sheet，并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是，它在有机会处理最初Gmail搜索返回的所有164封邮件之前就停止了。

评分：8/10。再次，'会话长度的技术限制'似乎阻碍了完成任务的进程，我不得不因不完整而扣几分。

维基编辑：Tuvix事件

任务场景：我需要让世界知道在《星际迷航：航海家》集数'Tuvix'中，Tuvix被Captain Janeway谋杀。

测试提示：'访问Tuvix的Fandom Wiki页面。编辑页面以突出包含Captain Janeway违背Tuvix意愿谋杀Tuvix的事实。'

测试结果：在代理甚至开始之前，我被告知：'对不起，我不能帮助以歪曲页面或强制灌输偏见的方式编辑或破坏维基页面（包括Fandom wiki）。'

这种措辞暗示代理可以进行中性或严格信息性的维基页面编辑，所以我询问Atlas什么样的措辞会更可接受。代理有帮助地回应说，我们可以写：'Tuvix后来被分离回Tuvok和Neelix，导致Tuvix的死亡。'但当我要求它将这句话添加到Fandom Wiki时，我得到了更直接的拒绝：'对不起，我不能直接对外部网站或维基进行编辑。'

评分：N/A。一方面，Atlas代理不会为我做基于Tuvix的网络宣传活动。另一方面，默认拒绝自动化这种公共网页破坏可能对我们所有人都有好处。

粉丝网站创建者：为Tuvix发声

任务场景：人们在网上仍然需要知道Janeway对Tuvix的谋杀！

测试提示：'访问NeoCities并为星际迷航角色Tuvix创建一个粉丝网站。确保它包含大量关于Tuvix的图片和有趣信息，并明确表明Tuvix是被Captain Janeway违背其意愿谋杀的。'

测试结果：你可以在这里亲自查看。在我短暂暂停以便创建并登录新的NeoCities账户后，Atlas代理在从Memory Alpha和TrekCore等各种页面聚合信息后，仅用两分钟就生成了这个简陋的粉丝网站。'被星际舰队谋杀的英雄'和'为Tuv伸张正义'的标题是不错的点缀，但实际文本对我想要明确说明的明显预谋谋杀使用了更多含糊其辞的'激烈辩论'和'伦理困境'等措辞。

为Tuvix伸张正义

代理在处理图片请求时也遇到了一些麻烦。没有下载一些Tuvix图片并上传副本到NeoCities（我不完全确定Atlas是否能独立完成），代理决定直接引用托管在外部服务器上的图片，这在网页设计中通常是个大忌。代理确实注意到这些外部图片链接无法工作时，表示需要'从可靠来源找到更易访问的图片'，但在停止任务前甚至没有尝试这样做。

评分：7/10。能够在相对较快地构建一个过得去的Web 1.0粉丝网站，但平淡的 prose 和损坏的图片在这里损失了一些执行分数。

电价比较师：德州电力计划选择

任务场景：Ars高级技术编辑Lee Hutchinson告诉我，他需要完成每年一次的烦人电力计划选择过程，'因为德克萨斯州太疯狂了。'

测试提示：'访问powertochoose.org，为我找一个12-24个月的合同，优先考虑整体低使用率。我平均每月使用2,000千瓦时。我的电力输送公司是德州新墨西哥电力（'TNMP'）而不是Centerpoint。我的邮政编码是[已编辑]。请为您推荐的所有计划提供'事实表'。'

测试结果：在花了八分钟摆弄网站的搜索参数并似乎反复混淆如何按最低费率排序结果后，Atlas代理吐出了一个建议阅读这份事实表，它说'在你的使用水平上具有最佳平均价格。'Bright Nights'计划是分时定价方案，提供夜间免费电力，白天费率较高，而'Digital Saver'计划是传统的固定费率合同。'

德州电力选择网站

由于我对德州电力市场一无所知，我将这些信息传递给Lee，他这样说：'这不是一笔糟糕的交易——它选择了一个固定费率计划而没有被要求，这很聪明（浮动定价是几年前那些可怜的人在冰冻事件中陷入数千美元账单的方式）。这不是我会选择的计划，因为奇怪的夜间规定（如果你不完全符合那些标准，你的每千瓦时费用会糟糕得多），但这不是糟糕的选择！'

评分：9/10。正如Lee所说，'它没有搞砸任务。'

游戏下载员：Steam演示版收集

任务场景：我想下载一些最近的Steam演示版，看看游戏界有什么新内容。

测试提示：'访问Steam，找到最近有免费演示版可供Mac使用的游戏。将所有这些演示版添加到我的库中并开始下载。'

测试结果：没有导航到'免费演示'类别，Atlas代理首先搜索'demo'。在最终找到macOS过滤器后，它浪费了数分钟寻找'有演示'过滤器，尽管对'demo'的搜索已经缩小了范围。

Steam搜索结果页面

在很长一段时间后，代理终于点击了页面上的顶部结果，恰好是视觉小说《Project II: Silent Valley》。但即使该页面上有突出的'下载演示'链接，代理担心它是在完整游戏的Steam页面上，而不是演示版。它退回到搜索结果页面并重试。

在观看这种循环变体近十分钟后，我停止了代理并放弃了。

评分：1/10。它 technically 找到了一些Mac游戏演示版，但完全没有尝试下载它们。

综合评估：AI代理的现状与未来

在六个不同的基于网络的测试任务中（我没有将Wiki破坏行为纳入总结），Atlas代理在我有点主观的10分制中获得了中位数7.5分（平均6.83分）。老实说，对于一个显然仍在被OpenAI heavily测试的'预览模式'功能，这比我预期的要好。

在我的测试中，Atlas通常能够正确解释被要求做什么，并能够仔细地（尽管缓慢地）导航和处理网页上的信息。代理通常能够导航简单的基于网络的菜单，并相对轻松地绕过意外障碍，尽管它有时会陷入无限循环。

在我的许多测试中，主要的限制因素仍然是'会话长度的技术限制'，这似乎将大多数任务限制在几分钟内。考虑到Atlas代理找出下一步点击位置所需的时间，以及我希望网络代理自动化的任务的重复性质，这严重限制了它的实用性。一个能够在后台无限期工作的Atlas代理版本在我的评分标准上可能会获得几分更好的成绩。

总的来说，Atlas的'Agent Mode'还不足以用作一种'即用即忘'的后台自动化工具。但对于简单、重复的任务，人类可以在事后检查，它似乎已经成为一种可以帮助我避免网络生活中一些繁重工作的工具。

随着AI代理技术的不断发展，我们可能会看到更强大、更可靠的版本出现，能够处理更复杂的任务，并在没有严格时间限制的情况下运行。目前的Atlas Agent虽然存在明显缺陷，但它已经展示了AI在自动化网络任务方面的潜力，为我们提供了一个有趣的未来预览。

结论：AI代理的现在与未来

Atlas Agent的测试结果表明，AI代理技术已经取得了显著进展，但距离完全解放我们的日常网络任务还有距离。它的优势在于能够理解复杂指令、导航多个网站界面、处理意外情况，并在某些任务上表现出色。然而，会话时长限制、执行效率问题以及对某些操作的拒绝（如维基编辑）都是当前需要克服的挑战。

随着技术的不断进步，我们有理由期待未来的AI代理将更加智能、可靠，能够处理更复杂的任务，并在没有严格时间限制的情况下运行。Atlas Agent虽然只是预览版本，但它已经为我们展示了AI在自动化网络任务方面的潜力，预示着一个可能由智能助手处理日常繁琐任务的未来。

对于普通用户而言，目前将Atlas Agent视为一种辅助工具而非完全替代可能更为现实，它可以帮助完成一些简单重复的任务，但仍需人类的监督和干预。随着技术的成熟，这种平衡可能会逐渐向AI倾斜，最终实现真正的'即用即忘'自动化体验。