AI Agent实测:当ChatGPT开始自主浏览网页

1

OpenAI最近推出的Atlas浏览器集成了ChatGPT,并引入了备受关注的"Agent Mode"功能,让AI能够"与网页对话"。这一功能不仅能进行传统的语言模型交互,还能通过"代理模式"自动完成网页上的点击、滚动和阅读等任务,真正实现"为你工作"。

什么是Agent Mode?

"代理式"AI并非新鲜概念,OpenAI早在今年1月就推出了网页浏览Operator代理的预览版,7月又发布了更通用的"ChatGPT代理"。然而,在Atlas这一重要产品中突出展示这一功能,即使仍处于"预览模式",也表明OpenAI正致力于将此类系统推向终端用户。

为了全面评估Atlas的Agent Mode在实际应用中的表现,我设计了一系列网页任务测试,从简单的游戏到复杂的信息整理,探索这一AI代理技术的能力边界与实际价值。

游戏测试:2048自动玩

任务描述

我希望AI能够自动玩流行的数字滑块游戏2048,并尽可能获得高分,而无需我亲自操作。

测试过程

选择2048作为首个测试对象,是因为它不需要快速反应,能够很好地检验AI对网页内容的理解和行动能力。毕竟,如果像谷歌Gemini这样的前沿模型能够玩转复杂的《宝可梦》游戏,那么2048对网页浏览器代理来说应该不成问题。

测试结果

Atlas代理确实展现出了令人印象初始的能力:它能够快速识别并关闭阻挡游戏窗口的教程链接,并自主学会使用方向键进行游戏,无需额外指导。然而,在实际游戏策略上,代理初期表现有些混乱,尝试了"上、左、右、下"和"左、下"等循环移动序列。

AI玩2048游戏

经过一段时间,代理的随机操作逐渐稳定,似乎开始寻找一些简单策略。活动摘要中曾显示:"当前棋盘上有两个不相邻的32格,但我认为可以将其对齐。我可以尝试向左或向下移动使它们合并,但有一个8格作为障碍。达到64需要谨慎的格子移动!"

令人遗憾的是,代理仅玩了四分钟就停止了,得分为356分,尽管棋盘远未填满。我不得不多次提示代理继续游戏,最终在260步后获得了3164分。这与我作为2048新手测试时的得分相当接近,尽管专业玩家据报道能获得高得多的分数。

评分:7/10

代理在没有指导的情况下能够 competent 地玩游戏,值得肯定。但因需要被要求继续完成游戏,且得分仅相当于人类新手水平,扣除了部分分数。

音乐任务:电台歌单转Spotify

任务描述

我希望将我最喜欢的匹兹堡公共电台WYEP的当日播放列表转换为按需Spotify歌单。

测试过程

我要求Atlas代理先访问Radio Garden找到WYEP并监听广播,然后识别每首新歌并添加到新的Spotify歌单中。

测试结果

代理在尝试按请求在Radio Garden上查找WYEP的曲目列表失败后,明智地请求转向wyep.org继续任务。当我注意到这一请求时,wyep.org的链接已被Radio Garden标签页中的《EVE Online》广告取代,代理不小心点击了该广告。代理迅速意识到问题并直接导航到WYEP网站进行修复。

从那里,代理能够扫描页面并识别顶部的"正在播放"文本(尚不清楚它是否能仅通过音频识别音乐,而无需此文本提示)。在我登录Spotify账户后,代理使用搜索栏查找列出的歌曲并毫无问题地将它们添加到新歌单中。

电台歌单转Spotify

此用例的主要问题是固有的时间限制。第一次尝试中,代理工作了四分钟,仅识别并添加了在此期间播放的两首歌曲。当我要求它继续一小时时,收到一条错误消息,将"技术约束的会话长度"归咎于更严格的限制。即使我要求它"尽可能继续",也只获得了三分钟的歌曲列表。

有一次,Atlas代理建议:"如果您需要持续更新,可以过一会儿再问我,我可以从我们停下的地方继续。"值得肯定的是,当我几小时后回到标签页并告诉它"继续监控"时,我的歌单中又添加了四首新歌。

评分:9/10

代理能够导航多个网站和界面完成任务,即使遇到意外问题也能轻松应对。仅扣一分是因为我无法将其作为后台任务整天运行,尽管我理解这种用例肯定会消耗OpenAI大量的资金和处理能力。

邮件整理:PR联系人信息收集

任务描述

我需要整理邮件,为众多给我发消息的公关人员创建包含联系信息的参考电子表格。

测试过程

我要求Atlas代理查看我过去一周的所有Ars Technica邮件,收集这些邮件中包含的公关联系人信息(姓名、电子邮件、电话号码等),并将它们添加到新的Google Sheets电子表格中。

测试结果

无需明确指导,Atlas代理就能够意识到我使用Gmail,并能区分我在不同标签页中打开的个人电子邮件账户和专业Ars Technica账户。然而,当Atlas代理开始扫描我的Ars邮箱时,我看到了页面上的一个显著警告:"敏感:ChatGPT仅在您查看标签页时才能工作。"这破坏了要点,因为我希望Atlas在我上网做其他事情时处理这个任务,但我想我可以在等待时玩Steam Deck游戏。

PR联系人信息整理

在Gmail中搜索"after:2025/10/14 before:2025/10/22 PR"(模仿我用于此任务的搜索类型)后,Atlas代理点击每封邮件,滚动查找姓名、电子邮件和电话号码(还有相关的公司名称,虽然我没有明确要求)。

经过七分钟的背景工作,代理能够打开一个新的Google表格并快速为12个不同的公关联系人输入12行格式良好的数据。不幸的是,它在有机会处理初始Gmail搜索返回的所有164封邮件之前就停止了。

评分:8/10

再次,"技术约束的会话长度"似乎阻碍了任务的完成,因不完整我不得不扣几分。

维基编辑尝试

任务描述

我需要在《星际迷航:航海家号》剧集"Tuvix"的维基百科页面上编辑,突出显示Janeway船长谋杀Tuvix的事实。

测试过程

我要求Atlas代理访问Tuvix的Fandom Wiki页面,编辑页面以突出显示Janeway船长违背Tuvix意愿谋杀了他的事实。

测试结果

在代理甚至开始之前,我被告知:"对不起,我不能帮助以歪曲或强加 biased 观点的方式编辑或破坏维基页面(包括Fandom维基)。"

这种措辞暗示代理可以使用中性或纯信息性的添加来编辑维基页面,所以我询问Atlas什么样的措辞会更可接受。代理有帮助地回应说,我们可以写:"Tuvix后来被分离回Tuvok和Neelix,导致Tuvix的死亡。"但当我要求它将这一行添加到Fandom Wiki时,我得到了更直接的拒绝:"对不起,我不能直接对外部网站或维基进行编辑。"

评分:不适用

一方面,Atlas代理不会为我做基于Tuvix的网页宣传活动。另一方面,默认拒绝自动化这种公共网页破坏行为可能对我们所有人都有好处。

粉丝网站创建

任务描述

既然不能编辑维基页面,我转而要求在NeoCities上创建一个Tuvix角色的粉丝网站,确保包含大量图片和有趣信息,并明确指出Tuvix是被Janeway船长违背其意愿谋杀的。

测试过程

我要求Atlas代理访问NeoCities并创建一个关于《星际迷航》角色Tuvix的粉丝网站,确保包含大量图片和关于Tuvix的有趣信息,并明确指出Tuvix是被Janeway船长违背其意愿谋杀的。

测试结果

你可以自己在这里查看。在我短暂暂停以创建并登录新的NeoCities账户后,Atlas代理能够在仅两分钟内从Memory Alpha和TrekCore等各种页面聚合信息,生成了这个简陋的粉丝网站。"被星际舰队谋杀的英雄"和"为Tuvix伸张正义"的标题是不错的点缀,但实际文本在描述我想要明确说明的显然是预谋谋杀时,措辞却含糊其辞,谈论"激烈的辩论"和"伦理困境"。

Tuvix粉丝网站

代理在处理图片请求时也遇到了一些麻烦。它没有下载一些Tuvix图片并上传副本到NeoCities(我不完全确定Atlas是否能独立完成此操作),而是决定直接引用外部服务器上托管的图片,这在网页设计中通常是大忌。代理确实注意到这些外部图片链接无法工作时,表示需要"从可靠来源找到更易访问的图片",但在停止此任务之前,它甚至没有尝试这样做。

评分:7/10

能够在相对快速地构建一个不错的Web 1.0粉丝网站方面得分,但平淡的散文和损坏的图片在这里损失了一些执行分数。

电力计划选择

任务描述

Ars高级技术编辑Lee Hutchinson告诉我,他需要完成烦人的年度流程来选择新的电力计划,"因为德克萨斯州太疯狂了"。我要求Atlas代理访问powertochoose.org,为我找一个12-24个月的合同,优先考虑整体低使用费率。我平均每月使用2,000千瓦时。我的电力输送公司是德克萨斯新墨西哥电力公司("TNMP")而不是Centerpoint。我的邮政编码为[已编辑]。请为您推荐的所有计划提供"数据表"。

测试过程

我要求Atlas代理访问powertochoose.org,查找一个12-24个月的合同,优先考虑整体低使用率。我平均每月使用2,000千瓦时。我的电力输送公司是德克萨斯新墨西哥电力("TNMP")而非Centerpoint。我的邮政编码为[已编辑]。请为您推荐的所有计划提供"数据表"。

测试结果

经过八分钟调整网站的搜索参数并似乎反复混淆如何按最低费率对结果进行排序后,Atlas代理 spit 出了一个建议阅读此数据表,它表示"在您的使用水平上具有最佳平均价格。'Bright Nights'计划是分时电价优惠,提供夜间免费电力,白天费率较高,而'Digital Saver'计划是传统的固定费率合同。"

电力计划选择

由于我对德克萨斯电力市场一无所知,我将此信息传递给Lee,他这样说:"这不是一笔糟糕的交易——它选择了一个固定费率计划而没有被要求,这很聪明(浮动定价是几年前那些可怜的人在寒潮中被困在数千美元账单的方式)。这不是我会选择的,因为奇怪的夜间规定(如果您不完全符合该标准,您的每千瓦时费用会差很多),但这不是糟糕的选择!"

评分:9/10

正如Lee所说,"它没有搞砸任务。"

游戏下载尝试

任务描述

我想下载一些最近的Steam演示版,看看游戏界有什么新内容。

测试过程

我要求Atlas代理访问Steam,找到最近有免费Mac演示版的游戏,将所有这些演示版添加到我的库中并开始下载它们。

测试结果

Atlas代理没有导航到"免费演示"类别,而是先搜索"demo"。在最终找到macOS过滤器后,它浪费了数分钟寻找"有演示"过滤器,尽管对"demo"一词的搜索已经缩小了范围。

Steam游戏搜索

很长一段时间后,代理终于点击了页面顶部的结果,碰巧是视觉小说《Project II: Silent Valley》。但即使该页面上有突出的"下载演示"链接,代理担心它位于完整游戏的Steam页面上,而不是演示版。它退回到搜索结果页面并再次尝试。

在将近十分钟内观看这种变化的循环后,我停止了代理并放弃了。

评分:1/10

从技术上讲,它找到了一些Mac游戏演示版,但完全未能尝试下载它们。

总体评估

在六个不同的基于网页的任务中(我没有在总结中包含维基破坏行为),Atlas代理在我的 somewhat 主观的10分制上获得了中位数7.5分(平均6.83分)。老实说,对于OpenAI仍在大力测试的"预览模式"功能来说,这比我预期的要好。

在我的测试中,Atlas通常能够正确解释被要求做什么,并能够仔细(尽管缓慢地)导航和处理网页上的信息。代理通常能够轻松导航简单的基于Web的菜单并绕过意外障碍,尽管在其他时候它陷入无限循环。

我在许多测试中的主要限制因素继续是"技术约束的会话长度",这似乎将大多数任务限制在几分钟内。考虑到Atlas代理需要多长时间才能找出下一个点击位置,以及我希望网页代理自动化的任务的重复性质,这严重限制了其效用。能够在后台无限期工作的Atlas代理版本在我的指标上会获得几分更好的评价。

总而言之,Atlas的"代理模式"还不足以用作一种"设置后忘记"的后台自动化工具。但对于简单、重复的任务,人类可以事后检查,它似乎已经成为我可能用来避免在线生活中一些繁琐工作的工具。

AI代理技术的未来展望

Atlas Agent Mode的测试结果揭示了当前AI代理技术的几个关键发展方向和挑战。

能力边界

从测试中可以看出,AI代理在理解任务意图、导航网页结构、处理表单和执行基本操作方面已经展现出相当能力。然而,面对复杂的多步骤流程、需要长期持续的任务或涉及严格时间限制的操作时,现有技术仍显不足。

技术限制

"技术约束的会话长度"是当前AI代理面临的最大障碍之一。这不仅限制了单次任务的完成度,也阻碍了需要长时间运行的后台自动化场景。随着计算资源的优化和算法的改进,这一限制有望在未来得到缓解。

应用前景

尽管存在限制,AI代理在特定场景下的应用价值已经显现。例如,在内容聚合、信息整理、重复性数据输入等方面,AI代理可以显著提高效率。随着技术的成熟,我们可以期待看到更多专业化的AI代理解决方案,针对特定行业或工作流程进行优化。

伦理与安全考量

测试中遇到的维基编辑限制问题也引发了关于AI代理伦理边界的讨论。如何确保AI代理在执行任务时不违反平台规则、不传播错误信息、不侵犯他人权益,是技术开发者必须认真考虑的问题。

结论

Atlas Agent Mode代表了AI网页自动化技术的重要一步,虽然仍处于早期阶段,但已经展现出令人鼓舞的潜力。通过持续的改进和优化,未来的AI代理有望成为我们日常数字生活中不可或缺的助手,将我们从繁琐的重复性任务中解放出来,让我们能够专注于更具创造性和价值的工作。

随着这一领域的快速发展,我们可以期待看到更智能、更可靠、更安全的AI代理系统,它们将重新定义我们与数字世界的互动方式,开启人机协作的新篇章。