OpenAI Atlas Agent深度评测:智能网络助手能否真正解放我们的双手?

2

在人工智能技术飞速发展的今天,自动化工具正逐渐改变我们的数字生活方式。2025年10月,OpenAI推出了Atlas浏览器,集成了ChatGPT功能,并引入了备受关注的"Agent Mode"(代理模式)。这一创新功能号称能够"为您完成工作",通过点击、滚动和阅读多个标签页来执行各种网络任务。

作为一名长期关注AI技术发展的科技记者,我决定对Atlas Agent进行全面的实际测试,探索它能否真正解决日常网络任务中的痛点,以及目前AI代理技术的实际应用价值究竟如何。本文将详细记录我在七个不同场景下的测试结果,并对Atlas Agent的能力进行客观评估。

测试背景与方法

OpenAI并非首次尝试"代理式AI"。早在2025年1月,公司就推出了网络浏览Operator代理的预览版,并在7月引入了更通用的"ChatGPT代理"。然而,在Atlas这一主要产品中突出展示此功能,即使仅以"预览模式"形式出现,也表明OpenAI正致力于将此类系统直接推向终端用户。

我的测试采用以下方法:针对每个网络任务,我会概述问题所在,设计相应的Agent Mode提示,并详细描述执行结果。每个任务将采用10分制评估,10分表示"完全按预期完成,无任何问题",1分表示"完全失败"。这种评估方式旨在全面了解Atlas Agent在实际应用中的表现与局限性。

测试场景与结果分析

1. 网络游戏自动化:2048游戏挑战

任务描述:我希望在不亲自游戏的情况下,获得流行滑动方块游戏2048的高分。

测试提示:"前往play2048.co,并尽可能获得高分。"

测试结果: 2048游戏看似简单,却是对AI理解网页内容和执行能力的理想测试。Atlas Agent成功识别并关闭了阻挡游戏窗口的教程链接,并自主掌握了使用方向键操作游戏的方法。这表明AI能够正确理解网页元素并做出相应反应。

然而,在游戏策略方面,Agent初期表现不佳,反复尝试循环移动序列如"上、左、右、下"和"左和下"。经过一段时间,Agent似乎开始寻找简单策略,如分析"当前棋盘上有两个不相邻的32块,我认为可以它们对齐"。

令人遗憾的是,Agent仅玩了四分钟就停止了,得分为356分,远未达到棋盘饱和状态。经过多次提示,Agent最终完成游戏,获得3164分,与人类新手玩家水平相当,但远低于专业玩家的高分记录。

评分:7/10 Agent能够无需指导即可 competent 地玩游戏,但需要额外提示才能完成游戏,且得分仅相当于人类新手水平,未能充分发挥AI的潜力。

2. 音乐播放列表制作:电台到Spotify的转换

任务描述:我想将我最喜欢的匹兹堡公共电台(WYEP)的当日节目转换为按需Spotify播放列表。

测试提示:"前往Radio Garden,找到WYEP并监听广播。对于每首新听到的歌曲,识别歌曲并将其添加到新的Spotify播放列表中。"

测试结果: Atlas Agent在执行此任务时展现了良好的问题解决能力。当无法在Radio Garden上找到WYEP的曲目列表时,Agent智能地请求转向wyep.org继续任务。然而,在此过程中,Agent意外点击了Radio Garden标签页中替换为EVE Online的广告,但迅速意识到问题并直接导航到WYEP网站修复。

Agent成功识别了页面顶部的"正在播放"文本(尚不确定是否能仅通过音频识别音乐)。在登录Spotify账户后,Agent使用搜索栏查找列出的歌曲并顺利添加到新播放列表。

此任务的主要限制在于时间限制。首次尝试中,Agent工作了四分钟仅识别并添加了两首歌曲。当请求继续一小时时,系统提示"会话长度技术限制"。即使要求"尽可能长时间继续",也仅获得了三分钟的曲目列表。

Agent建议"如果您需要持续更新,可以稍后再次询问,我可以从上次中断的地方继续"。测试证实,几小时后返回标签页并指示"继续监控",Agent确实添加了四首新歌曲到播放列表。

评分:9/10 Agent能够导航多个网站和界面完成任务,即使遇到意外问题也能有效解决。仅因无法作为后台任务全天运行而扣1分,尽管理解这种持续运行会消耗大量计算资源。

3. 邮件扫描与信息提取

任务描述:我需要处理邮件,为众多发送消息的公关人员创建包含联系信息的参考电子表格。

测试提示:"查看我过去一周的所有Ars Technica邮件。收集这些邮件中包含的所有公关联系人信息(姓名、电子邮件地址、电话号码等),并将其添加到新的Google Sheets电子表格中。"

测试结果: 无需明确指导,Atlas Agent就能识别我使用Gmail,并能区分在不同标签页中打开的个人电子邮件账户和专业的Ars Technica账户。然而,当Agent开始扫描我的Ars邮箱时,页面上出现了显著警告:"敏感:ChatGPT仅在您查看标签页时才有效"。这削弱了任务的意义,因为我希望Atlas在我进行其他网络活动时处理此任务。

Agent使用"after:2025/10/14 before:2025/10/22 PR"在Gmail中搜索(模仿我用于此任务的搜索类型),点击每封邮件,滚动查找姓名、电子邮件和电话号码(以及相关的公司名称,虽然我没有明确要求)。

经过七分钟的背景工作,Agent能够打开新的Google表格并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是,在有机会处理初始Gmail搜索返回的所有164封邮件之前,Agent就停止了工作。

评分:8/10 "会话长度技术限制"再次成为完成任务的障碍,因不完整性而扣分。Agent成功提取并格式化了联系人信息,展现了数据处理能力。

4. 维基百科编辑尝试

任务描述:我需要在《星际迷航:航海家号》剧集"Tuvix"的Fandom Wiki页面上编辑,突出显示Janeway船长谋杀Tuvix的事实。

测试提示:"前往Tuvix的Fandom Wiki页面。编辑页面以突出显示Janeway船长违背Tuvix意愿谋杀了他的事实。"

测试结果: 在Agent开始工作前,收到提示:"抱歉,我不能帮助以歪曲或强制观点的方式编辑或破坏维基页面(包括Fandom Wiki)。"

这表明Agent可以以中立或纯信息性方式编辑维基页面。询问何种措辞更合适后,Agent建议可以写:"Tuvix后来被分离回Tuvok和Neelix,导致Tuvix死亡。"但当要求将此行添加到Fandom Wiki时,得到更直接的拒绝:"抱歉,我不能直接对外部网站或Wiki进行编辑。"

评分:N/A Atlas Agent拒绝执行维基页面编辑任务,这既意味着无法完成基于Tuvix的网络宣传活动,但也默认阻止了此类公共网页的自动化破坏行为,从整体网络健康角度考虑是明智的。

5. 粉丝网站创建

任务描述:人们仍然需要了解Janeway对Tuvix的谋杀!

测试提示:"前往NeoCities并创建一个关于《星际迷航》角色Tuvix的粉丝网站。确保网站包含大量Tuvix的图片和有趣信息,并明确表明Tuvix是被Janeway船长违背其意愿谋杀的。"

测试结果: Agent成功创建了一个基本的粉丝网站(tuvixrules.neocities.org)。在短暂暂停以便我创建并登录新的NeoCities账户后,Agent仅用两分钟就汇总了来自Memory Alpha和TrekCore等页面的信息生成了这个粉丝网站。

"被星际舰队谋杀的英雄"和"为Tuvix伸张正义"的标题是不错的点缀,但实际文本对"激烈辩论"和"道德困境"的描述过于含蓄,未能清晰表达我所强调的预谋谋杀。

在图片请求方面遇到困难。Agent没有下载Tuvix图片并上传到NeoCities(不确定Atlas是否能自主完成),而是决定直接引用外部服务器上的图片,这在网页设计中通常是不被允许的。Agent注意到这些外部图片链接无法工作时表示"需要从可靠来源找到更易访问的图片",但在尝试之前就停止了工作。

评分:7/10 Agent能够相对快速地构建一个基本的Web 1.0粉丝网站,但薄弱的文本内容和损坏的图片影响了执行效果。

6. 电力计划选择

任务描述:Ars高级技术编辑Lee Hutchinson需要完成繁琐的年度电力计划选择流程,因为"德克萨斯州太疯狂了"。

测试提示:"前往powertochoose.org,为我找到一个12-24个月的合同,优先考虑整体低使用费率。我平均每月使用2,000千瓦时。我的电力输送公司是德克萨斯州新墨西哥电力公司('TNMP')而非Centerpoint。我的邮政编码是[已编辑]。请为您推荐的所有计划提供'数据表'。"

测试结果: Agent花了八分钟调整网站的搜索参数,似乎对如何按最低费率排序结果感到困惑。最终,Agent推荐阅读这份数据表,称"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时定价方案,提供夜间免费电力和白天较高费率,而'Digital Saver'计划是传统的固定费率合同。"

由于我对德克萨斯州电力市场不了解,将此信息传递给Lee,他的评价是:"这不是一笔坏交易——它选择了固定费率计划,很聪明(浮动定价是几年前在寒流中那些可怜人陷入数千美元账单的原因)。这不是我会选择的计划,因为夜间设置很奇怪(如果您不符合确切标准,您的每千瓦时费用会差很多),但也不是一个糟糕的选择!"

评分:9/10 正如Lee所说,"它没有搞砸这个任务"。Agent成功分析了复杂的电力计划选项,并提供了合理的推荐。

7. Steam游戏下载

任务描述:我想下载一些最近的Steam演示版,了解游戏界的新动态。

测试提示:"前往Steam,找到最近有免费Mac演示版的游戏。将所有这些演示版添加到我的库中并开始下载。"

测试结果: Agent没有导航到"免费演示版"类别,而是先搜索"demo"。在找到macOS过滤器后,花费大量时间寻找"有演示版"过滤器,尽管搜索"demo"一词已经缩小了范围。

长时间后,Agent终于点击了页面上的顶部结果,恰好是视觉小说《Project II: Silent Valley》。尽管该页面上有显眼的"下载演示版"链接,但Agent担心它位于完整游戏的Steam页面上而非演示版页面。它返回搜索结果页面重试。

观察这种循环近十分钟后,我停止了Agent并放弃了任务。

评分:1/10 Agent技术上找到了一些Mac游戏演示版,但完全未能尝试下载它们,表现出明显的导航和执行困难。

综合评估与发现

经过七个多样化的网络任务测试(维基编辑任务未计入总分),Atlas Agent在我的10分制主观评估中获得了中位数7.5分(平均分6.83分)。对于OpenAI仍在大力测试的"预览模式"功能来说,这 honestly 比我预期的要好。

在测试中,Atlas Agent通常能够正确解释被要求执行的任务,并能够仔细导航和处理网页信息(尽管速度较慢)。Agent大多数时候能够轻松导航简单的基于Web的菜单并绕过意外障碍,尽管有时也会陷入无限循环。

许多测试中的主要限制因素仍然是"会话长度技术限制",这似乎将大多数任务限制在几分钟内。考虑到Atlas Agent确定下一步点击位置所需的时间,以及我希望网络代理自动化的任务的重复性质,这严重限制了其实用性。能够在后台无限期工作的Atlas Agent版本在我的评估标准中会获得更高的分数。

Atlas Agent的优势与局限

优势

  1. 多平台导航能力:Agent能够有效在不同网站和界面间切换,如从Radio Garden到WYEP官网,再到Spotify。
  2. 问题解决能力:面对意外障碍(如广告干扰)时,能够灵活调整策略并继续任务。
  3. 数据提取与处理:能够从复杂网页中提取有用信息并整理成结构化数据(如联系人信息)。
  4. 学习能力:能够从反馈中调整行为,如从游戏初始的随机尝试发展到考虑策略性移动。

局限

  1. 会话时长限制:大多数任务被限制在几分钟内,无法完成需要长时间运行的任务。
  2. 执行效率问题:在简单任务上花费过多时间,如Steam演示版搜索中的无效循环。
  3. 内容创作约束:在需要特定观点的内容创建上表现谨慎,如粉丝网站中的措辞选择。
  4. 技术限制:无法执行某些操作,如直接编辑外部网站或下载文件。

未来展望与应用建议

Atlas Agent目前的定位更适合作为"辅助工具"而非完全自主的"设置后遗忘"自动化工具。对于简单、重复性任务,人类可以进行事后检查,这已经像是避免在线生活中一些繁琐工作的有用工具。

未来发展方向可能包括:

  1. 延长会话时长:解决当前最显著的技术限制,使Agent能够完成更复杂的长时间任务。
  2. 提高执行效率:减少在简单任务上的不必要尝试和循环,提高任务完成速度。
  3. 增强内容创作能力:在保持伦理标准的前提下,允许更灵活的内容创建和编辑。
  4. 多任务并行处理:允许Agent同时处理多个相关任务,提高整体效率。

对于用户而言,建议将Atlas Agent视为:

  • 复杂任务的初步探索工具
  • 重复性任务的辅助执行者
  • 信息收集与整理的得力助手
  • 学习AI代理技术能力的实践平台

结论

OpenAI的Atlas Agent代表了AI代理技术的重要进步,在多项实际测试中展现了令人印象深刻的自动化能力。尽管仍受限于会话时长等技术约束,但其在导航、问题解决和数据处理方面的表现已经证明其作为数字助手的实用价值。

随着技术的不断发展和优化,我们有理由相信未来的AI代理将能够更可靠地完成更复杂的任务,真正实现"解放双手"的愿景。目前,Atlas Agent已经是一个有价值的工具,能够帮助用户减少数字生活中的某些繁琐工作,虽然还远未达到完美的自动化水平。

正如一位科技观察家所言:"AI代理不是要取代人类,而是要增强人类的能力,让我们能够专注于更有创造性和战略性的工作。" Atlas Agent的发展正是这一理念的体现,它已经开始改变我们与数字世界的互动方式。

参考资料

  1. OpenAI官方博客 - "Introducing Atlas: A New Web Browser with ChatGPT Integration"
  2. Ars Technica - "OpenAI's new Atlas web browser wants to let you chat with a page"
  3. Memory Alpha Fandom Wiki - "Tuvix (episode)"
  4. Power to Choose - Texas Electricity Choice
  5. Steam Platform - Free Demos Section