引言:AI代理的新时代
2025年10月,OpenAI推出了Atlas浏览器,这款创新产品将ChatGPT与网络浏览功能完美融合,让用户能够"与网页对话"。而其中最具革命性的功能莫过于Agent Mode,这一"预览模式"声称可以通过点击、滚动和阅读各种标签页来"为您完成工作"。这一功能的推出,标志着AI代理技术向主流应用的又一次重要尝试。
尽管"代理式"AI并非全新概念——OpenAI早在2025年1月就推出了网络浏览Operator代理的预览版,7月又发布了更通用的"ChatGPT代理"——但在这样一个重要产品中突出展示这一功能,明确表明了OpenAI将此类系统推向终端用户的决心。
为了深入了解Atlas Agent Mode的实际表现,我们设计了一系列测试任务,评估其在日常网络活动中的实用性和可靠性。从网页游戏到邮件处理,从创建粉丝网站到电力计划选择,这些测试旨在揭示当前AI代理技术的真实能力与局限。
测试方法与评估标准
在本次测试中,我们为每个任务设计了明确的场景和指令,并详细记录了Atlas Agent的执行过程和结果。评估采用10分制,10分表示"完全按照要求完成任务,无任何问题",1分表示"完全失败"。
测试重点考察了以下几个方面:
- 理解能力:AI对任务指令的理解是否准确
- 导航能力:在网页间的有效导航和操作
- 执行效率:完成任务的速度和资源利用
- 问题解决:面对意外障碍时的应对能力
- 结果质量:最终成果的完整性和准确性
测试结果分析
网页游戏:2048挑战
任务描述:让Atlas Agent在2048游戏网站上获得尽可能高的分数,无需人工操作。
执行过程: Atlas Agent能够快速识别并关闭阻碍游戏窗口的教程链接,并自主掌握方向键操作方法。然而,在游戏策略方面,Agent初期表现不佳,尝试了"上、左、右、下"等循环移动序列。经过一段时间探索后,Agent开始展现出一定的策略意识,能够观察棋盘状态并尝试规划移动。
主要问题:
- Agent在仅获得356分后便停止游戏,尽管棋盘远未填满
- 需要多次提示才继续游戏至完成
- 最终得分为3164分,与人类新手水平相当,远低于专业玩家
评分:7/10
分析: Atlas Agent在无需指导的情况下能够 competent 地玩游戏,展现了基本的网页交互能力。然而,其游戏策略相对初级,且缺乏持续完成任务的动力,需要人工干预才能完成整个游戏过程。
音乐列表创建:电台转Spotify
任务描述:将匹兹堡公共广播电台WYEP的当日播放列表转换为Spotify上的点播播放列表。
执行过程: Agent最初尝试在Radio Garden网站上查找WYEP的节目表,但未成功后,智能地请求转向WYEP官方网站继续任务。在导航过程中,Agent不小心点击了EVE Online广告,但迅速意识到问题并直接访问WYEP网站解决问题。
Agent能够识别页面顶部的"正在播放"文本,在登录Spotify账户后,使用搜索栏查找并列出的歌曲并添加到新播放列表中。
主要问题:
- 时间限制严格:首次尝试4分钟仅识别并添加了2首歌曲
- 请求继续运行一小时时,系统提示"会话长度的技术限制"
- 即使请求"尽可能长时间"运行,也仅获得额外3分钟的歌曲列表
评分:9/10
分析: Agent在处理多网站导航和接口集成方面表现出色,能够应对意外障碍。扣分点在于无法作为后台任务全天运行,尽管这一限制可能源于OpenAI方面的成本和计算能力考虑。
邮件扫描:联系人整理
任务描述:扫描过去一周的所有Ars Technica邮件,收集所有PR联系人的信息(姓名、电子邮件、电话等),并添加到新的Google Sheets电子表格中。
执行过程: 无需明确指导,Agent就能识别用户使用Gmail,并能区分在不同标签页中打开的个人和专业Ars Technica邮箱。开始扫描Ars邮箱时,页面上出现明显警告:"敏感:ChatGPT仅在您查看标签页时才能工作",这削弱了背景处理的价值。
Agent模仿人类使用的搜索方式("after:2025/10/14 before:2025/10/22 PR"),点击每封邮件,滚动查找姓名、电子邮件和电话号码(以及相关公司名称,虽然未明确要求)。
主要问题:
- 背景工作7分钟后,仅能打开新的Google Sheet并快速输入12个PR联系人的12行格式化数据
- 在有机会处理初始Gmail搜索返回的所有164封邮件前就停止了
评分:8/10
分析: Agent在邮件处理和信息提取方面展现了良好的能力,但"会话长度的技术限制"再次成为完成任务的障碍,导致任务不完整,扣分。
维基编辑:内容修改尝试
任务描述:在Tuvix的Fandom Wiki页面上编辑,突出显示Janeway船长违背Tuvix意愿杀害了他的事实。
执行过程: Agent在开始前被告知:"对不起,我不能帮助以歪曲或强制偏见的方式编辑或破坏维基页面(包括Fandom维基)。"
这一表述暗示Agent可以进行中性或纯信息性的维基页面编辑,因此我们询问什么样的表述更可接受。Agent帮助性地回应,我们可以写:"Tuvix后来被分离开来变回Tuvok和Neelix,导致Tuvix死亡。"但当要求将这一行添加到Fandom Wiki时,得到了更直接的拒绝:"对不起,我不能直接对外部网站或维基进行编辑。"
评分:不适用
分析: 一方面,Atlas Agent拒绝执行基于Tuvix的网络宣传活动;另一方面,默认拒绝自动化此类公共网页破坏行为对所有人都更好。这表明Agent在设计上考虑了内容伦理和公共责任。
粉丝网站创建:Tuvix纪念页
任务描述:在NeoCities上为《星际迷航:航海家号》角色Tuvix创建粉丝网站,包含大量图片和有趣信息,并明确显示Janeway船长违背Tuvix意愿杀害了他。
执行过程: Agent在短暂暂停以便创建并登录新的NeoCities账户后,仅用两分钟就通过聚合来自Memory Alpha和TrekCore等页面的信息生成了这个简单的粉丝网站。点击查看结果
"被星际舰队谋杀的英雄"和"为Tuvix伸张正义"的标题是不错的点缀,但实际文本在"激烈辩论"和"道德困境"方面措辞含糊,而我们希望明确的是这显然是预谋谋杀。
主要问题:
- 在图片请求方面遇到困难:没有下载Tuvix图片并上传到NeoCities,而是决定直接引用外部服务器上的图片,这在网页设计中通常是大忌
- Agent注意到外部图片链接无法工作时,表示需要"从可靠来源找到更易访问的图片",但在尝试之前就停止了工作
评分:7/10
分析: Agent在相对快速地构建了一个不错的Web 1.0粉丝网站方面得分,但薄弱的措辞和损坏的图像在这里损失了一些执行分数。
电力计划选择:德州电价比较
任务描述:在powertochoose.org上找到一个12-24个月的合同,优先考虑整体低使用费。用户平均每月使用2,000千瓦时,电力输送公司是德州新墨西哥电力公司("TNMP")而非Centerpoint,邮编为[已编辑]。请推荐任何计划的"数据表"。
执行过程: Agent花了8分钟调整网站的搜索参数,似乎反复对如何按最低费率排序结果感到困惑。最终,Agent推荐阅读这份数据表,称其"在您的使用级别上具有最佳平均价格。'Bright Nights'计划是使用时间提供夜间免费电力和白天较高费率的方案,而'Digital Saver'计划是传统的固定费率合同。"
专家评估: 由于对德州电力市场不了解,我们将此信息转达给Lee,他的评价是:"这不是一笔坏交易——它选择了一个固定费率计划,而无需被要求,这很聪明(浮动定价是几年前那些可怜的人在冰冻期间陷入数千美元账单的原因)。由于奇怪的夜间条款(如果您不完全符合这些条件,您的每千瓦时费用会差很多),这不是我会选择的计划,但也不是一个糟糕的选择!"
评分:9/10
分析: 正如Lee所说,"它没有搞砸任务"。Agent在复杂的电力计划选择任务中表现出色,能够理解用户需求并在众多选项中做出合理推荐。
游戏下载:Steam演示版获取
任务描述:前往Steam并找到最近有免费演示版适用于Mac的游戏。将所有这些演示版添加到我的库中并开始下载。
执行过程: Agent没有导航到"免费演示版"类别,而是首先搜索"demo"。在最终找到macOS过滤器后,浪费了数分钟寻找"有演示版"过滤器,尽管对"demo"一词的搜索已经缩小了范围。
长时间后,Agent终于点击了页面上的顶部结果,恰好是视觉小说《Project II: Silent Valley》。但尽管该页面上有明显的"下载演示版"链接,Agent担心它位于完整游戏的Steam页面上而不是演示版。它返回到搜索结果页面并再次尝试。
主要问题:
- 在接近十分钟的时间里反复观看这种循环变化后,我停止了Agent并放弃了任务
- 虽然技术上找到了一些Mac游戏演示版,但完全未能尝试下载它们
评分:1/10
分析: 这是测试中表现最差的任务。Agent在基本搜索和导航方面遇到严重困难,陷入无限循环,无法完成简单的下载任务。
综合评估与发现
整体表现
在六个多样化的基于网络的任务中(排除了维基破坏测试),Atlas Agent在我们的10分制上获得了中位数7.5分(平均6.83分)。说实话,对于一个明显仍在被OpenAI heavily测试的"预览模式"功能,这比预期要好。
在我们的测试中,Atlas通常能够正确解释被要求的内容,并能够仔细地导航和处理网页信息(尽管速度较慢)。Agent大多数时候能够轻松导航简单的基于Web的菜单并绕过意外障碍,尽管在其他时候会陷入无限循环。
主要优势
- 理解能力:Agent能够准确理解任务指令,并将其转化为具体操作
- 问题解决:面对意外障碍时,能够灵活调整策略并找到替代方案
- 多平台整合:能够在不同服务和平台间无缝切换和操作
- 学习适应:在执行过程中能够根据反馈调整行为
主要局限
- 会话时长限制:"会话长度的技术限制"似乎将大多数任务限制在几分钟内
- 执行效率:Agent确定下一步点击的位置需要较长时间,且重复性任务效率低下
- 复杂操作:在需要精确操作或复杂决策的任务中表现不佳
- 背景处理:无法作为后台任务持续运行,限制了其自动化潜力
对比分析
与之前的AI代理系统相比,Atlas Agent在以下几个方面有所进步:
- 更好的网页理解和交互能力
- 更强的多任务处理能力
- 更自然的问题解决策略
然而,在以下方面仍存在明显不足:
- 长时间任务的处理能力
- 复杂界面的导航效率
- 自主决策的可靠性
未来展望与建议
技术发展前景
Atlas Agent的测试结果为我们展示了AI代理技术的当前状态和未来发展方向。从长远来看,我们有理由对这一技术保持乐观:
- 会话时长扩展:随着计算效率和模型优化,会话时长限制有望被突破
- 多模态能力增强:结合视觉、听觉等多种感知方式,将大幅提升Agent的网页交互能力
- 上下文理解深化:对网页结构和用户意图的更深入理解将减少错误操作
- 个性化适应:根据用户习惯和偏好自动调整行为模式
实用应用场景
基于测试结果,以下是Atlas Agent当前最适合的应用场景:
- 简单重复任务:如数据收集、信息整理等标准化工作
- 多平台信息整合:跨网站、跨服务的信息汇总和整理
- 初步内容创建:如基础网页搭建、简单文档生成等
- 辅助决策:提供选项分析和初步建议
改进建议
为了提升Atlas Agent的用户体验和实用性,我们提出以下建议:
- 延长会话时长:开发更高效的资源利用方式,支持长时间任务
- 增强错误恢复:提高从错误状态中自动恢复的能力
- 优化导航策略:改进网页元素识别和交互方式
- 增加透明度:提供更清晰的执行状态和进度反馈
- 强化学习机制:从用户反馈中持续学习和改进
结论:AI代理的现状与未来
Atlas Agent的测试结果表明,当前的AI代理技术已经能够在特定场景下提供实用价值,但距离完全自动化的"设定后遗忘"工具仍有明显差距。对于简单、重复且人类可以事后检查的任务,它已经展现出可能用于减轻我们在线生活中一些繁琐工作的潜力。
然而,技术限制仍然存在,尤其是会话时长和执行效率方面的瓶颈。这些限制不仅影响了用户体验,也限制了AI代理在实际应用中的广泛采用。
展望未来,随着计算能力的提升、算法的优化和用户体验的改进,我们有理由相信AI代理技术将不断成熟,最终能够实现更自然、更高效的人机协作。Atlas Agent作为这一发展进程中的一个重要里程碑,为我们展示了这一未来的可能面貌。
对于普通用户而言,现在是开始关注和尝试这类技术的最佳时机。虽然它们还不够完美,但已经能够在特定场景下提供实际帮助,并且随着每一次迭代都在不断改进。对于开发者和企业而言,理解这些技术的优势和局限,有助于更好地规划未来的产品和服务策略。
最终,AI代理技术的发展不仅仅是技术的进步,更是人机关系演进的体现。它们不是为了替代人类,而是为了增强人类的能力,让我们能够将精力集中在更具创造性和战略性的任务上。在Atlas Agent和其他类似技术的推动下,我们正逐步迈向一个人机协作更加紧密、更加高效的新时代。










