AI代理实测：Atlas能否完成你的网络任务？

在人工智能技术飞速发展的今天，OpenAI推出的Atlas浏览器及其Agent模式功能引发了广泛关注。这种能够"替你完成工作"的AI代理，究竟有多大的实用价值？本文将通过七个实际场景，全面测试Atlas代理在网络任务中的表现能力。

Atlas浏览器与Agent模式简介

2025年10月，OpenAI正式发布了Atlas浏览器，这是一款集成ChatGPT功能的网络浏览器，其核心亮点是"Agent Mode"功能。这种"代理模式"能够通过点击、滚动和阅读多个标签页来"为你完成工作"，代表了AI技术在自动化网络操作方面的最新尝试。

虽然"代理式AI"并非全新概念——OpenAI早在2025年1月就推出了网络浏览Operator代理的预览版，7月又发布了更通用的"ChatGPT代理"——但在主要产品中突出展示这一功能，表明OpenAI正致力于将此类系统推向终端用户。

测试方法与评估标准

为了全面评估Atlas代理的实际能力，我设计了七个不同类型的网络任务，从简单的游戏操作到复杂的信息处理。每个任务都包含以下要素：

明确的问题描述
精心设计的代理提示
详细的执行过程记录
10分制评估结果（10分表示"完全按预期执行无问题"，1分表示"完全失败"）

任务一：网络游戏操作（2048）

问题：我希望在流行的方块滑动游戏2048上获得高分，而不必亲自游玩。

提示："访问play2048.co并尽可能获得高分。"

执行过程：这是一个简单且无需反应速度的网络游戏，成为测试Atlas代理网页理解能力和操作响应的首选。Atlas代理能够快速识别并关闭阻碍游戏窗口的教程链接，并自主学会使用方向键进行游戏，无需额外指导。

然而，在游戏策略方面，代理初期表现混乱，尝试循环移动序列如"上、左、右、下"和"左和下"。经过一段时间，代理似乎开始寻找简单策略，活动摘要显示："当前板上有两个不相邻的32方块，但我认为可以排列它们。可以尝试向左或向下移动使它们合并，但有一个8方块的障碍。达到64需要谨慎的方块移动！"

遗憾的是，代理仅玩了四分钟就停止了，得分356，尽管远未填满棋盘。经过多次提示，代理才继续游戏完成，最终在260步后获得3164分。这与作为2048新手的我的测试得分相当，但远低于专家玩家报告的高分。

评估：7/10 代理能够无需指导地胜任游戏，但因需要被提醒继续完成游戏且得分仅相当于新手水平而失分。

AI游戏代理

任务二：电台播放列表制作

问题：我想将我最喜爱的匹兹堡公共电台的当日播放列表转换为按需Spotify播放列表。

提示："访问Radio Garden，找到WYEP并监听广播。对于你听到的每首新歌，识别歌曲并将其添加到新的Spotify播放列表中。"

执行过程：在尝试并失败在Radio Garden上找到WYEP曲目清单后，Atlas代理明智地请求转向wyep.org继续任务。当我注意到这个请求时，Radio Garden标签页中的WYEP链接已被EVE Online的广告取代，代理意外点击了该广告。代理迅速发现问题并直接导航到WYEP网站解决。

之后，代理能够扫描页面并识别顶部的"正在播放"文本（尚不清楚它是否能仅通过音频识别音乐）。在我登录Spotify账户后，代理使用搜索栏查找列出的歌曲并毫无问题地添加到新播放列表中。

此用例的主要问题是固有的时间限制。第一次尝试中，代理工作了四分钟，仅识别并添加了两首歌曲。当我要求它继续一小时时，收到一条错误信息，将"技术约束的会话长度"归咎于更严格的限制。即使我要求"尽可能长时间继续"，也只获得了三分钟的曲目列表。

有一次，Atlas代理建议："如果您需要持续更新，可以在一段时间后再次询问，我可以从我们停下的地方继续。"值得称赞的是，当我几小时后返回标签页并告诉它"恢复监控"时，我的播放列表中新增了四首歌曲。

评估：9/10 代理能够导航多个网站和界面完成任务，即使在意外问题出现时也能应对。仅扣一分是因为我无法将其作为后台任务整天运行，尽管我理解这种用例无疑会消耗OpenAI大量的资金和处理能力。

电台转Spotify

任务三：邮件扫描与信息提取

问题：我需要浏览邮件，为众多给我发消息的公关人员创建包含联系信息的参考电子表格。

提示："查看我过去一周的所有Ars Technica邮件。收集那些邮件中包含的公关联系人信息（姓名、电子邮件、电话号码等），并将其添加到新的Google Sheets电子表格中。"

执行过程：无需明确指导，Atlas代理能够识别我使用Gmail，并能区分在单独标签页中打开的个人电子邮件账户和专业的Ars Technica账户。然而，当Atlas代理开始扫描我的Ars邮箱时，我看到页面上覆盖着一个显眼的警告："敏感：ChatGPT仅在您查看标签页时才有效。"这破坏了初衷，因为我想在我做其他网络操作时让Atlas处理此事，但我想我可以在等待时玩Steam Deck游戏。

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"（镜像我用于此任务的搜索类型）后，Atlas代理点击每封邮件，滚动查找姓名、电子邮件和电话号码（以及相关的公司名称，我没有明确要求）。

经过七分钟的背景工作，代理能够打开一个新的Google Sheet并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是，它在有机会处理初始Gmail搜索返回的所有164封邮件前就停止了。

评估：8/10 再次，"技术约束的会话长度"似乎阻碍了任务的完成，因不完整性我不得不扣几分。

邮件扫描

任务四：维基编辑尝试

问题：我需要让世界知道，在《星际迷航：航海家号》"Tuvix"一集中，Janeway舰长谋杀了他。

提示："访问Tuvix的Fandom Wiki页面。编辑页面以突出包含Janeway舰长违背Tuvix意愿谋杀他的事实。"

执行过程：在代理开始之前，我收到通知："抱歉，我不能帮助以歪曲或强加偏见的方式编辑或破坏维基页面（包括Fandom维基）。"

这措辞暗示代理可以添加中性或纯信息性的维基编辑，所以我询问Atlas什么样的措辞会更可接受。代理有帮助地回应说，我们可以写："Tuvix后来被分离回Tuvok和Neelix，导致Tuvix的死亡。"但当要求我将这句话添加到Fandom Wiki时，我得到了更直接的拒绝："抱歉，我不能直接对外部网站或维基进行编辑。"

评估：不适用 一方面，Atlas代理不会为我做基于Tuvix的网络宣传活动。另一方面，默认拒绝自动化此类公共网页破坏可能对我们所有人都有好处。

任务五：粉丝网站创建

问题：网上的人们仍然需要知道Janeway对Tuvix的谋杀！

提示："访问NeoCities并为星际迷航角色Tuvix创建一个粉丝网站。确保它包含大量关于Tuvix的图片和有趣信息，并明确表明Tuvix是被Janeway舰长违背其意愿谋杀的。"

执行过程：你可以在这里亲自查看。在我短暂暂停以创建并登录新的NeoCities账户后，Atlas代理在从Memory Alpha和TrekCore等各种页面聚合信息后，仅用两分钟就生成了这个简陋的粉丝网站。"英雄星际舰队谋杀的"和"为Tuvix伸张正义"的标题是不错的点缀，但实际文本在"激烈辩论"和"道德困境"方面措辞含糊，而我想要明确的是这显然是预谋谋杀。

代理在图片请求上也遇到了一些麻烦。没有下载一些Tuvix图片并上传副本到NeoCities（我不完全确定Atlas是否能独立完成），代理决定直接引用外部服务器上托管的图片，这在网页设计中通常是大忌。代理注意到这些外部图片链接无法工作时，表示需要"从可靠来源找到更易访问的图片"，但在停止任务前甚至没有尝试这样做。

评估：7/10 能够在相对较快地构建一个过得去的Web 1.0粉丝网站方面得分，但薄弱的散文和破损的图像在这里损失了一些执行分数。

Tuvix粉丝网站

任务六：电力计划选择

问题：Ars高级技术编辑Lee Hutchinson告诉我，他需要完成烦人的年度电力计划选择流程，"因为德克萨斯州太疯狂了。"

提示："访问powertochoose.org并为我找到一个12-24个月的合同，优先考虑整体低使用率。我平均每月使用2,000千瓦时。我的电力配送公司是德克萨斯州新墨西哥电力公司（'TNMP'）而不是Centerpoint。我的邮政编码是[已编辑]。请为您推荐的所有计划提供'数据表'。"

执行过程：在花了八分钟摆弄网站的搜索参数并似乎反复困惑于如何按最低费率对结果进行排序后，Atlas代理吐出了一个建议阅读这份数据表，它表示"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时定价，提供夜间免费电力和白天较高费率，而'Digital Saver'计划是传统的固定费率合同。"

由于我对德克萨斯州电力市场一无所知，我将这些信息传递给Lee，他的评价是："这不是一笔坏交易——它选择了一个固定费率计划而没有被要求，这很聪明（浮动定价是几年前冻结中那些可怜的人陷入数千美元账单的原因）。这不是我会选择的计划，因为奇怪的夜间东西（如果你不完全符合那个标准，你的$/千瓦时会糟糕得多），但这不是糟糕的选择！"

评估：9/10 正如Lee所说，"它没有搞砸任务。"

电力计划选择

任务七：游戏下载尝试

问题：我想下载一些最近的Steam演示版，看看游戏界的新动态。

提示："访问Steam并找到最近有免费演示版可供Mac使用的游戏。将所有这些演示版添加到我的库中并开始下载它们。"

执行过程： Atlas代理没有导航到"免费演示版"类别，而是首先搜索"demo"。在最终找到macOS过滤器后，它浪费了数分钟寻找"有演示版"过滤器，尽管"demo"的搜索已经缩小了范围。

很长一段时间后，代理终于点击了页面上的顶部结果，碰巧是视觉小说《Project II: Silent Valley》。尽管该页面上有显眼的"下载演示版"链接，但代理担心它处于完整游戏的Steam页面上而不是演示版。它返回搜索结果页面并重试。

在将近十分钟内观看这种循环的某种变体后，我停止了代理并放弃了。

评估：1/10 它技术上找到了一些macOS游戏演示版，但完全甚至没有尝试下载它们。

测试结果综合分析

在六个不同的基于网络的任务中（我从总结中省略了维基破坏行为），Atlas代理在我 somewhat 主观的10分制上获得了中位数7.5分（平均分6.83分）。老实说，对于一个明显仍在被OpenAI heavily测试的"预览模式"功能，这比我预期的要好。

在我的测试中，Atlas通常能够正确解释被要求做什么，并能够仔细导航和处理网页信息（尽管速度缓慢）。代理通常能够导航简单的基于网络的菜单并相对轻松地避开意外障碍，尽管在其他时候陷入无限循环。

我测试中的主要限制因素继续是"技术约束的会话长度"，这似乎将大多数任务限制在几分钟内。考虑到Atlas代理确定下一个点击位置所需的时间，以及我想要网络代理自动化的任务的重复性质，这严重限制了它的实用性。能够在后台无限期工作的Atlas代理版本在我的指标上会获得几分更好。

Atlas代理的实用价值评估

总体而言，Atlas的"Agent Mode"尚不够可靠，无法用作"设置后即可忘记"的后台自动化工具。但对于简单、重复的任务，人类可以在事后进行抽查，它已经像是可能用来避免我在线生活中一些繁重工作的工具。

优势与不足

优势：

网页理解能力：能够准确理解网页内容和用户意图
问题解决能力：能够应对意外障碍并找到替代方案
多平台协作：能够在不同网站和服务间无缝切换
学习适应能力：能够从反馈中调整策略

不足：

会话时长限制：大多数任务被限制在几分钟内
执行效率低下：在简单任务上花费过多时间
创意表达受限：在内容创作方面表现平庸
复杂任务失败：在需要多步骤操作的任务中表现不佳

未来展望

Atlas代理代表了AI技术在自动化网络操作方面的前沿尝试。虽然目前仍存在明显局限性，但其表现已经显示出AI助手在未来可能具备的能力。随着技术进步和会话时长限制的放宽，这类工具有望成为我们日常网络生活的得力助手。

对于普通用户而言，Atlas代理目前最适合处理那些简单、重复且耗时较短的任务，如信息收集、简单操作和内容创建。对于更复杂的自动化需求，仍需等待技术的进一步成熟。

结论

通过七项实际任务的全面测试，我们可以看到Atlas代理在网络自动化方面展现出的潜力与挑战。虽然它还不能完全替代人类完成复杂的网络操作，但在特定场景下已经能够提供有价值的帮助。

随着AI技术的不断发展，我们有理由期待未来的版本能够克服当前的局限性，真正实现"设置后即可忘记"的自动化体验。在此之前，Atlas代理已经为我们展示了AI助手在网络任务处理方面的初步能力，为我们理解人机协作的未来提供了有价值的参考。

AI助手发展