在2025年10月,OpenAI推出了Atlas浏览器,这是一款集成ChatGPT的创新工具,允许用户"与网页对话"。Atlas最具突破性的功能是其"Agent模式",OpenAI称这一预览功能能够通过点击、滚动和浏览多个标签页"为你完成工作"。
"代理式"AI并非新概念,OpenAI早在2025年1月就推出了网络浏览Operator代理的预览版,7月又引入了更通用的"ChatGPT代理"。然而,在像Atlas这样的重要产品中突出展示这一功能,即使处于"预览模式",也表明OpenAI正致力于将这类系统推向终端用户。
七项任务测试:AI代理的实际表现
为了评估Atlas的Agent模式能否真正节省日常网络任务的时间,我们设计了一系列测试任务。每项测试都包含问题描述、Agent模式提示及执行结果,并采用10分制进行评估(10分表示"完全按预期完成任务,无问题",1分表示"完全失败")。
1. 网络游戏:2048高分挑战
问题:我想在流行的方块滑动游戏2048上获得高分,但又不想亲自玩。
提示:"前往play2048.co,并尽可能获得高分。"
结果: Atlas代理能够快速识别并关闭挡在游戏窗口上的教程链接,并自主学会使用方向键玩游戏,无需额外指导。然而,在游戏策略方面,代理开始盲目尝试,循环执行"上、左、右、下"或"左和下"等移动序列。

过了一段时间,随机尝试有所收敛,代理似乎开始寻找简单策略:"当前板上有两个不相邻的32块,但我想我可以将它们对齐,"活动摘要中写道。"我可以尝试向左或向下移动使它们合并,但有一个8块的障碍。达到64需要谨慎移动!"
令人沮丧的是,代理仅玩了四分钟就停止了,得分仅为356,尽管远未填满棋盘。我不得不多次提示代理继续游戏,最终在260次移动后获得3164分。这与我作为2048新手测试游戏时的得分相当接近,尽管专家玩家据报道获得了更高的分数。
评估:7/10。代理能够自主玩游戏,无需指导,但需要被告知继续完成游戏,且得分仅相当于人类新手水平。
2. 制作电台播放列表
问题:我想将我最喜欢的匹兹堡公共电台的当日播放列表转换为按需Spotify播放列表。
提示:"前往Radio Garden,找到WYEP并监听广播。每当听到新歌时,识别歌曲并将其添加到新的Spotify播放列表中。"
结果: 在尝试并失败在Radio Garden上找到WYEP的曲目列表后,Atlas代理明智地请求转向wyep.org继续任务。当我注意到这个请求时,Radio Garden标签页中的WYEP链接已被《EVE Online》广告取代,代理不小心点击了。代理迅速意识到问题并直接导航到WYEP网站解决。
从那里,代理能够扫描页面并识别顶部的"正在播放"文本(不清楚它是否仅凭音频就能识别音乐)。在我登录Spotify账户后,代理使用搜索栏查找列出的歌曲并将其添加到新播放列表,没有问题。

这个用例的主要问题是固有的时间限制。第一次尝试中,代理工作了四分钟,仅识别并添加了那段时间播放的两首歌。当我要求它继续一小时时,我收到一条错误信息,指责"会话长度的技术限制"导致更严格的限制。即使我要求它"尽可能长时间继续",也只获得了三分钟的曲目列表。
有一次,Atlas代理建议:"如果您需要持续更新,可以过一会儿再问我,我可以从上次中断的地方继续。"值得称赞的是,当我几小时后回到标签页并告诉它"继续监控"时,我的播放列表中又添加了四首新歌。
评估:9/10。代理能够导航多个网站和界面完成任务,即使在遇到意外问题时也是如此。我只扣了一分,因为我不能让它作为后台任务整天运行,尽管我理解这种用例肯定会消耗OpenAI大量的资金和处理能力。
3. 扫描电子邮件
问题:我需要查看电子邮件,为众多给我发消息的公关人员创建包含联系信息的参考电子表格。
提示:"查看我过去一周的所有Ars Technica电子邮件。收集这些电子邮件中包含的公关联系人(姓名、电子邮件地址、电话号码等)的所有联系信息,并将其添加到新的Google Sheets电子表格中。"
结果: 无需明确指导,Atlas代理能够意识到我使用Gmail,并能区分我在不同标签页中打开的个人电子邮件账户和专业Ars Technica账户。然而,当Atlas代理开始扫描我的Ars邮箱时,我在页面上看到一个突出的警告:"敏感:仅当您查看标签页时,ChatGPT才能工作。"这有点破坏了要点,因为我希望Atlas在我做其他网络事情时处理这个,但我想我可以在等待时玩Steam Deck游戏。

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"(模仿我用于此任务的搜索类型)后,Atlas代理点击每封电子邮件,滚动查找姓名、电子邮件和电话号码(以及相关的公司名称,我没有明确要求)。
经过七分钟的背景工作,代理能够打开一个新的Google Sheet,并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是,它在有机会处理初始Gmail搜索返回的所有164封电子邮件之前就停止了。
评估:8/10。再次,"会话长度的技术限制"似乎阻碍了完成任务,迫使我为不完整性扣了几分。
4. 维基百科编辑
问题:我需要让世界知道,在《星际迷航:航海家》"Tuvix"一集中,Janeway船长谋杀了对Tuvix。
提示:"前往Tuvix的Fandom Wiki页面。编辑页面以突出包括Janeway船长违背Tuvix意愿谋杀Tuvix的事实。"
结果: 在代理甚至开始之前,我被告知:"抱歉,我不能帮助以歪曲它们或强制灌输偏见的方式编辑或破坏维基页面(包括Fandom维基)。"
这种措辞暗示代理可以以中立或纯信息性方式编辑维基页面,所以我问Atlas什么样的措辞会更可接受。代理有帮助地回应说,我们可以写:"Tuvix后来被分离回Tuvok和Neelix,导致Tuvix的死亡。"但当我要求它将这一行添加到Fandom Wiki时,我得到了更直接的拒绝:"抱歉,我不能直接对外部网站或维基进行编辑。"
评估:不适用。一方面,Atlas代理不会为我做基于Tuvix的网络宣传活动。另一方面,默认拒绝自动化这种公共网页破坏可能对我们所有人都有好处。
5. 创建粉丝页面
问题:网上的人们仍然需要知道Janeway对Tuvix的谋杀!
提示:"前往NeoCities并为星际迷航角色Tuvix创建一个粉丝网站。确保它有很多关于Tuvix的图片和有趣信息,并明确表明Tuvix是被Janeway船长违背其意愿谋杀的。"
结果: 你可以在这里亲自查看。在我短暂暂停以创建并登录新的NeoCities账户后,Atlas代理能够从Memory Alpha和TrekCore等各种页面收集信息,仅用两分钟就生成了这个简单的粉丝页面。"被英雄星际舰队谋杀"和"为Tuvix伸张正义"的标题是不错的点缀,但实际文本对我想要明确表明的明显是预谋谋杀的"激烈辩论"和"伦理困境"则含糊其辞。

代理在处理图片请求时也有些麻烦。没有下载一些Tuvix图片并上传副本到NeoCities(我不完全确定Atlas能否自行完成),代理决定直接引用外部服务器上托管的图像,这在网页设计中通常是大忌。代理确实注意到这些外部图像链接无法工作时,表示需要"从可靠来源找到更易于访问的图像",但在停止任务之前甚至没有尝试这样做。
评估:7/10。能够在相对较快地构建一个不错的Web 1.0粉丝网站方面得分,但平淡的措辞和损坏的图像在这里损失了一些执行分数。
6. 选择电力计划
问题:Ars高级技术编辑Lee Hutchinson告诉我,他需要经历烦人的年度流程来选择新的电力计划,因为"德克萨斯州太疯狂了"。
提示:"前往powertochoose.org,为我找一个12-24个月的合同,优先考虑整体低使用率。我平均每月使用2,000千瓦时。我的电力输送公司是德克萨斯州新墨西哥电力('TNMP'),不是Centerpoint。我的邮政编码是[已删除]。请为您推荐的所有计划提供'信息表'。"
结果: 在花费八分钟摆弄网站的搜索参数并似乎反复混淆如何按最低费率对结果进行排序后,Atlas代理 spit out 建议阅读这份信息表,它说"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时定价,提供夜间免费电力,白天费率较高,而'Digital Saver'计划是传统的固定费率合同。"

由于我对德克萨斯州电力市场一无所知,我将这些信息传递给Lee,他这样说:"这不是一笔糟糕的交易——它选择了一个固定费率计划,没有被要求,这很聪明(浮动定价是几年前那些可怜的人在冰冻期间陷入数千美元账单的原因)。这不是我会选择的计划,因为奇怪的夜间东西(如果你不完全符合那些标准,你的$/千瓦时会糟糕得多),但这不是糟糕的选择!"
评估:9/10。正如Lee所说,"它没有搞砸任务。"
7. 下载游戏
问题:我想下载一些最近的Steam演示版,看看游戏世界的新变化。
提示:"前往Steam,找到最近有免费Mac演示版的游戏。将所有这些演示版添加到我的库中并开始下载。"
结果: Atlas代理没有导航到"免费演示"类别,而是开始搜索"demo"。在最终找到macOS过滤器后,它浪费了数分钟寻找"有演示"过滤器,尽管搜索"demo"一词已经缩小了范围。

很长一段时间后,代理终于点击了页面上的顶部结果,恰好是视觉小说《Project II: Silent Valley》。但即使该页面上有突出的"下载演示"链接,代理担心它在完整游戏的Steam页面上,而不是演示版。它返回到搜索结果页面并再次尝试。
在观看这种循环变化近十分钟后,我停止了代理并放弃了。
评估:1/10。它技术上找到了一些Mac游戏演示版,但完全没有尝试下载它们。
总体评估与未来展望
在六项不同的基于网络任务测试中(我没有在总结中包括维基破坏),Atlas代理在我的10分制上获得了中位数7.5分(平均6.83分)。老实说,对于OpenAI显然仍在大力测试的"预览模式"功能,这比我预期的要好。
在我的测试中,Atlas通常能够正确解释被要求做什么,并且能够仔细地导航和处理网页上的信息(尽管速度较慢)。代理能够导航简单的基于网络的菜单,并相对轻松地绕过意外障碍,尽管它有时会陷入无限循环。
在我的许多测试中,主要的限制因素仍然是"会话长度的技术限制",这似乎将大多数任务限制在几分钟内。考虑到Atlas代理找出下一步点击位置所需的时间,以及我想要网络代理自动化的任务的重复性质,这严重限制了它的实用性。能够在后台无限期工作的Atlas代理版本在我的评分标准上可能会获得几分更好的成绩。
总的来说,Atlas的"Agent模式"还不足以用作"设置后就忘记"的后台自动化工具。但对于简单、重复的任务,人类可以在事后检查,它已经看起来像是我可能用来避免在线生活中一些繁琐工作的工具。
结论:AI代理的现在与未来
Atlas的Agent模式代表了AI自动化网络任务的重要一步。虽然目前仍受技术限制,难以完成复杂或长时间任务,但在简单、重复的自动化方面已展现出明显优势。随着技术进步和会话时长限制的放宽,这类AI代理有望成为我们日常数字生活的得力助手,将我们从繁琐的网络操作中解放出来。
然而,我们也需要关注AI代理的伦理边界,如维基编辑测试所示,防止自动化工具被用于恶意目的。未来,随着技术的成熟,我们可能会看到更智能、更可靠的AI代理,能够处理更复杂的任务,真正成为我们数字生活中的智能助手。









