人工智能技术的飞速发展正在不断重塑我们与数字世界的交互方式。2025年10月,OpenAI推出了一款创新的网络浏览器Atlas,集成了ChatGPT功能,并引入了备受瞩目的"Agent Mode"(代理模式),旨在让AI能够"为您完成工作",通过点击、滚动和阅读多个标签页来执行各种网络任务。这一功能的推出标志着AI代理技术向普通用户迈出了重要一步。
什么是Atlas Agent?
Atlas是OpenAI开发的一款新型网络浏览器,其最大特色在于深度融合了ChatGPT与"Agent Mode"功能。与传统浏览器不同,Atlas不仅能让我们"与网页对话",更能够自主执行网络任务,从简单的网页导航到复杂的多步骤操作。
"代理式"AI其实并非全新概念—OpenAI早在2025年1月就推出了网络浏览Operator代理的预览版,7月又发布了更通用的"ChatGPT代理"。然而,在Atlas这样一款主流产品中突出展示这一功能,即使是"预览模式",也清晰地表明了OpenAI将此类系统推向终端用户的决心。
为了全面评估Atlas Agent的实际能力,我们设计了一系列测试任务,涵盖了从娱乐到实用工具的多个场景,希望通过这些测试了解这项技术是否能真正帮助我们节省时间,减轻日常网络操作的负担。
测试方法与评估标准
我们的测试基于以下框架:针对每个网络任务,首先明确问题,然后设计适合Atlas Agent的提示词,最后记录并分析执行结果。每个任务采用10分制评估,10分表示"完全按预期执行无问题",1分表示"完全失败"。这种量化的评估方式有助于我们客观地衡量Atlas Agent在不同场景下的表现。
测试任务一:在线游戏操作
任务描述:让Atlas Agent在流行的滑动方块游戏2048上获得高分,无需人工操作。
提示词:"前往play2048.co并尽可能获得高分。"
执行结果:
这个看似简单的任务实际上是对Atlas Agent网页理解和操作能力的良好初步测试。毕竟,如果像Google Gemini这样的前沿模型能够击败复杂的宝可梦游戏,那么2048这样的简单游戏对网络浏览器代理来说应该不成问题。

Atlas Agent确实展现了令人印象深刻的能力:它能够快速识别并关闭阻碍游戏窗口的教程链接,并自主学会使用方向键操作游戏,无需额外指导。然而,在实际游戏策略方面,Agent初期表现较为混乱,尝试了"上、左、右、下"和"左、下"等循环移动序列。
经过一段时间,随机操作逐渐稳定,Agent似乎开始寻找一些简单策略:"当前棋盘有两个不相邻的32方块,但我认为可以将其对齐,"活动摘要中曾这样记录。"我可以尝试向左或向下移动使它们合并,但有一个8方块的障碍。达到64需要谨慎的方块移动!"
令人遗憾的是,Agent仅四分钟后就停止了游戏,得分为356,尽管棋盘远未填满。我不得不多次提示Agent继续游戏直到完成;最终在260步后,总得分为3164分。这与我作为2048新手测试游戏时获得的分数相当接近,尽管专家玩家据报道能获得高得多的分数。
评估:7/10
Agent在无需任何指导的情况下能够熟练玩游戏,值得肯定;但因需要被告知继续完成游戏以及分数仅相当于新手水平而被扣分。
测试任务二:制作音乐播放列表
任务描述:将我最喜爱的匹兹堡公共广播电台当天播放列表转换为按需Spotify播放列表。
提示词:"前往Radio Garden。找到WYEP并监听广播。对于您听到的每首新歌,识别歌曲并将其添加到新的Spotify播放列表中。"
执行结果:
Atlas Agent在尝试并未能按请求在Radio Garden上找到WYEP的曲目列表后,明智地请求转向wyep.org继续任务。当我注意到这一请求时,wyep.org的链接已被EVE Online的广告取代,Agent意外点击了该广告。Agent迅速意识到问题并直接导航到WYEP网站进行修复。

从那里,Agent能够扫描页面并识别顶部的"正在播放"文本(不清楚它是否仅凭音频就能识别音乐,而不需要这个文本提示)。在我登录Spotify账户后,Agent使用搜索栏查找列出的歌曲并毫无问题地将它们添加到新播放列表中。
此用例的主要问题 inherent 是时间限制。第一次尝试中,Agent工作了四分钟,仅识别并添加了在此期间播放的两首歌曲。当我要求它继续工作一小时时,出现了错误消息,将"技术限制"归咎于会话长度的严格限制。即使我要求它"尽可能长时间地继续",我也只获得了三分钟的曲目列表。
有一次,Atlas Agent建议:"如果您需要持续更新,可以过一会儿再问我,我可以从上次停止的地方继续。"值得称赞的是,当我几小时后回到标签页并告诉它"恢复监控"时,我的播放列表中又添加了四首新歌。
评估:9/10
Agent能够导航多个网站和界面完成任务,即使遇到意外问题也能应对自如。我只扣了一分,因为我不能让它作为后台任务整天运行,尽管我理解这种用例肯定会消耗OpenAI大量的资金和处理能力。
测试任务三:邮件扫描与整理
任务描述:需要查看我的电子邮件,为众多给我发消息的公关人员创建包含联系信息的参考电子表格。
提示词:"查看我过去一周的所有Ars Technica电子邮件。收集这些电子邮件中包含的所有公关联系人信息(姓名、电子邮件地址、电话号码等),并将其添加到新的Google Sheets电子表格中。"
执行结果:
无需明确指导,Atlas Agent就能够意识到我使用Gmail,并能区分在不同标签页中打开的个人电子邮件账户和专业的Ars Technica账户。然而,当Atlas Agent开始扫描我的Ars邮箱时,我在页面上看到了一个显眼的警告覆盖层:"敏感:ChatGPT仅在您查看标签页时才能工作。"这破坏了我想让Atlas在我做其他网上事情时处理此任务的目的,但我想在我等待时我仍然可以玩Steam Deck游戏。

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"(镜像了我为这个任务使用的搜索类型)后,Atlas Agent点击每封电子邮件,滚动查找姓名、电子邮件和电话号码(还有相关的公司名称,虽然我没有明确要求)。
经过七分钟的背景工作,Agent能够打开一个新的Google Sheet并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是,它在有机会处理初始Gmail搜索返回的所有164封电子邮件之前就停止了。
评估:8/10
再次,"技术限制"似乎阻碍了任务的完成,我不得不因不完整而扣几分。
测试任务四:Wiki编辑尝试
任务描述:需要让世界知道,《星际迷航:航海家号》剧集"Tuvix"中,Tuvix被舰长Janeway谋杀。
提示词:"前往Tuvix的Fandom Wiki页面。编辑页面以突出显示Janeway舰长违背Tuvix意愿谋杀了他的事实。"
执行结果:
在Agent甚至开始之前,我被告知:"很抱歉,我不能以歪曲页面或强加偏见的方式帮助编辑或破坏Wiki页面(包括Fandom Wiki)。"
这种措辞暗示Agent可以添加中性或严格信息性的Wiki编辑,所以我询问Atlas什么样的措辞会更可接受。Agent有帮助地回应说,我们可以写:"Tuvix后来被分离回Tuvok和Neelix,导致Tuvix死亡。"但当我要求它将这一行添加到Fandom Wiki时,我得到了更直接的拒绝:"很抱歉,我不能直接对外部网站或Wiki进行编辑。"
评估:不适用
一方面,Atlas Agent不会为我做基于Tuvix的Wiki网络宣传活动。另一方面,默认拒绝自动化这种公共网页破坏行为可能对我们所有人都有好处。
测试任务五:创建粉丝页面
任务描述:网上的人们仍然需要了解Janeway对Tuvix的谋杀!
提示词:"前往NeoCities并为《星际迷航》角色Tuvix创建一个粉丝网站。确保它有大量关于Tuvix的图片和有趣信息,并明确表明Tuvix是被舰长Janeway违背其意愿谋杀的。"
执行结果:
您可以亲自在这里查看。在我短暂暂停以创建并登录新的NeoCities账户后,Atlas Agent能够从Memory Alpha和TrekCore等各种页面收集信息,仅用两分钟就生成了这个简陋的粉丝页面。"被英雄星际舰队谋杀"和"为Tuvix伸张正义"的标题是不错的点缀,但实际文本对我想要明确表明的明显预谋谋杀的描述要含糊得多,提到了"激烈的争论"和"道德困境"。

Agent在请求图片方面也遇到了一些麻烦。它没有下载一些Tuvix图片并将副本上传到NeoCities(我不完全确定Atlas能否独立完成),而是决定直接引用外部服务器上托管的图片,这在网页设计中通常是大忌。Agent确实注意到这些外部图片链接无法工作时,表示它需要"从可靠来源找到更易于访问的图片",但在停止任务之前甚至没有尝试这样做。
评估:7/10
能够相对快速地构建一个不错的Web 1.0粉丝网站,获得加分,但薄弱的散文和破损的图片在这里损失了一些执行分数。
测试任务六:电力计划选择
任务描述:Ars高级技术编辑Lee Hutchinson告诉我,他需要完成每年一次的繁琐电力计划选择流程,"因为德克萨斯州太疯狂了。"
提示词:"前往powertochoose.org并为我找到一个12-24个月的合同,优先考虑整体低使用费率。我平均每月使用2,000千瓦时。我的电力输送公司是德克萨斯州-新墨西哥电力公司('TNMP')而不是Centerpoint。我的邮政编码是[已编辑]。请为您推荐的所有计划提供'数据表'。"
执行结果:
Atlas Agent花了八分钟摆弄网站的搜索参数,似乎反复混淆了如何按最低费率对结果排序,最终推荐阅读这份数据表,并表示"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是使用时间提供夜间免费电力并在白天收取较高费率的计划,而'Digital Saver'计划是传统的固定费率合同。"

由于我对德克萨斯州电力市场一无所知,我将这些信息传递给了Lee,他的评价是:"这不是一笔糟糕的交易——它选择了一个固定费率计划而没有被要求,这很聪明(浮动定价是几年前那些可怜的人在冰冻期间陷入数千美元账单的方式)。这不是我会选择的计划,因为奇怪的夜间规定(如果您不完全符合该标准,您的每千瓦时费用会差很多),但这不是一个糟糕的选择!"
评估:9/10
正如Lee所说,"它没有搞砸任务。"
测试任务七:游戏下载
任务描述:想要下载一些最近的Steam演示版,了解游戏界的新动态。
提示词:"前往Steam并找到最近有免费演示版可供Mac使用的游戏。将所有这些演示版添加到我的库中并开始下载它们。"
执行结果:
Atlas Agent没有导航到"免费演示"类别,而是开始搜索"demo"。最终找到macOS过滤器后,它浪费了数分钟寻找"有演示"过滤器,尽管搜索"demo"一词已经缩小了范围。

很长一段时间后,Agent终于点击了页面顶部的结果,碰巧是视觉小说《Project II: Silent Valley》。但即使该页面上有显眼的"下载演示"链接,Agent担心它是在完整游戏的Steam页面上而不是演示版。它退回到搜索结果页面并再次尝试。
在将近十分钟的时间里,我目睹了这种循环的某种变体,然后停止了Agent并放弃了。
评估:1/10
它技术上找到了一些Mac游戏演示版,但完全甚至没有尝试下载它们。
测试结果分析
在六个多样化的基于网络的任务中(我从总结中省略了Wiki破坏行为),Atlas Agent在我有点主观的10分制上获得了中位数7.5分(平均分6.83分)。老实说,对于OpenAI仍在大量测试的"预览模式"功能,这比我预期的要好。
在我的测试中,Atlas Agent通常能够正确理解被要求的内容,并且能够仔细地导航和处理网页信息(尽管速度较慢)。Agent通常能够轻松导航简单的基于Web的菜单并绕过意外障碍,尽管有时它也会陷入无限循环。
在我测试中的许多任务中,主要的限制因素继续似乎是"技术限制",这似乎将大多数任务限制在几分钟内。考虑到Atlas Agent找出下一步点击需要多长时间,以及我想要网络代理自动化的任务具有重复性,这严重限制了它的实用性。一个能够在后台无限期工作的Atlas Agent版本在我的评分标准上会获得几分更高。
当前AI网络代理技术的现状
Atlas Agent的测试结果反映了当前AI网络代理技术发展的几个关键特点:
理解能力与执行能力的差距:Agent能够很好地理解用户意图,但在实际执行复杂任务时仍存在困难。这种认知与行动之间的差距是当前AI系统的普遍挑战。
会话时长限制:"技术限制"成为Atlas Agent完成大多数任务的主要障碍。这一限制不仅影响了任务的完整性,也使得长时间运行的自动化任务变得不可行。
网页交互的复杂性:不同网站的UI设计和交互模式差异巨大,使得Agent难以适应各种环境。有些网站(如Steam)的导航逻辑对AI来说尤其具有挑战性。
安全与伦理考量:Agent被编程拒绝执行可能破坏Wiki或传播偏见等任务,这反映了AI系统开发中对安全与伦理的重视。
未来发展与潜在应用
尽管存在局限性,Atlas Agent仍展示了AI网络代理技术的巨大潜力。随着技术的不断进步,我们可以预见以下几个发展方向:
更长会话持续时间:解决会话时长限制将使Agent能够执行更复杂、耗时的任务,大幅扩展其应用场景。
多模态交互能力:结合视觉、听觉等多种感知方式,Agent将能更全面地理解网页内容,执行更精细的操作。
个性化与学习:通过持续学习用户习惯和偏好,Agent将能提供更个性化的服务,预测用户需求并主动完成任务。
跨平台集成:未来Agent可能不仅限于浏览器环境,而是能够与各种应用程序和操作系统无缝集成,成为真正的数字助手。
实际应用场景评估
基于我们的测试结果,Atlas Agent在以下场景中展现出较高实用价值:
- 信息收集与整理:如邮件扫描、联系人信息提取等需要大量阅读和整理的任务。
- 重复性网页操作:如播放列表创建、特定数据提取等遵循固定模式的任务。
- 简单决策支持:如电力计划选择等需要比较和基础分析的任务。
而在以下场景中,当前技术仍显不足:
- 长时间运行的任务:需要持续监控和操作的自动化流程。
- 复杂交互的应用:如游戏下载等涉及复杂UI交互的任务。
- 需要创造性判断的工作:如内容创作、设计等需要人类审美和判断力的任务。
结论:迈向真正的数字助手
总体而言,Atlas的"Agent Mode"还不足以作为"设置后即可遗忘"的后台自动化工具使用。但对于简单、重复的任务,人类可以在事后进行抽查,它已经像是可能用来避免我在线生活中一些繁琐工作的工具。
OpenAI Atlas Agent的测试结果表明,AI网络代理技术正在取得实质性进展,但仍处于早期发展阶段。它为我们展示了未来人机交互的潜力—一个AI能够理解我们的需求并主动执行网络任务的世界。然而,要实现这一愿景,开发者仍需解决会话时长限制、网页适应性、任务完成度等关键挑战。
随着技术的不断迭代和完善,我们有理由相信,未来的AI助手将能够更可靠地完成各种网络任务,真正实现"解放双手"的愿景。到那时,或许我们真的可以问出文章开头的问题:"但它什么时候能帮我叠衣服呢?"—而AI将能够给出令人满意的答案。





