AI代理浏览器测试:Atlas能否真正自动化你的网络任务?

1

在人工智能技术飞速发展的今天,我们不禁要问:AI何时才能真正帮我折叠衣物?OpenAI最新推出的Atlas浏览器及其Agent Mode功能,似乎为这个问题提供了部分答案。作为一款集成了ChatGPT的智能浏览器,Atlas不仅能让用户"与页面聊天",更通过Agent Mode这一"预览模式"功能,承诺能够通过点击、滚动和阅读各种标签页来"为你完成工作"。

本文将深入测试Atlas的Agent Mode功能,通过七个实际场景评估其自动化网络任务的能力。从游戏2048到创建粉丝网站,从扫描邮件到下载Steam游戏,我们将全面考察AI代理的导航能力、执行效率和局限性。

Atlas Agent Mode简介

"代理式"AI并非新鲜事物。OpenAI本身早在今年1月就推出了网络浏览Operator代理的预览版,7月又引入了更通用的"ChatGPT代理"。然而,在这样一个重要产品中突出展示这一功能——即使是在"预览模式"下——也表明OpenAI正致力于将这类系统推向终端用户。

Atlas Agent Mode的核心优势在于其能够理解网页内容并采取相应行动,无需用户一步步指导。这种能力对于日常繁琐的网络任务具有巨大潜力,但实际表现如何?让我们通过具体测试来一探究竟。

测试场景一:玩2048游戏

任务描述:我想在流行的方块滑动游戏2048上获得高分,而不必亲自玩游戏。

测试结果:虽然这个任务本身有些 silly,但不需要反应速度的网络游戏似乎是对Atlas代理理解网页内容并采取相应行动能力的良好初步测试。毕竟,如果像Google Gemini这样的前沿模型能够打败《宝可梦》这样复杂的游戏,那么2048对网络浏览器代理来说应该不成问题。

Atlas代理确实能够快速识别并关闭阻碍游戏窗口的教程链接,并弄清楚如何使用箭头键玩游戏,无需进一步帮助。然而,在实际游戏策略方面,代理开始盲目尝试,反复尝试"上、左、右、下"和"左和下"等循环序列。

经过一段时间,这种随机尝试有所减少,代理似乎在寻找一些简单的前瞻性策略:"当前棋盘上有两个不相邻的32方块,但我想我可以将它们对齐,"活动摘要中某处写道。"我可以尝试向左或向下移动使它们合并,但有一个8方块的障碍。达到64需要仔细的方块移动!"

令人沮丧的是,代理只玩了四分钟就停止了游戏,最终得分为356,尽管棋盘远未填满。我不得不多次提示代理,才说服它将游戏进行到底;最终在260步后获得了3164分。这与我作为2048新手在测试游戏中获得的分数相当相似,尽管专家玩家据报道获得了更高的分数。

评分:7/10。代理能够没有任何指导地熟练玩游戏,但因其需要被告知继续玩到完成,以及得分仅达到新手人类水平而失分。

测试场景二:制作电台播放列表

任务描述:我想将我最喜欢的匹兹堡公共电台的当日播放列表转换为按需Spotify播放列表。

测试结果:在尝试并未能按要求在Radio Garden上找到WYEP的曲目列表后,Atlas代理明智地请求批准继续前往wyep.org以完成任务。当我注意到这个请求时,Radio Garden标签页中的wyep.org链接已被《EVE Online》的广告取代,代理不小心点击了该广告。代理迅速意识到问题并直接导航到WYEP网站进行修复。

从那里,代理能够扫描页面并识别顶部的"正在播放"文本(不清楚它是否仅通过此文本提示而非音频就能识别音乐)。在我登录Spotify账户后,代理使用搜索栏查找列出的歌曲并将其添加到新播放列表中,没有问题。

此用例的主要问题是固有的时间限制。在第一次尝试中,代理工作了四分钟,只识别并添加了在该期间播放的两首歌曲。当我要求它继续一小时时,我收到了一条错误消息,将"技术限制"归咎于更严格的会话长度限制。即使我要求它"尽可能长时间地继续",我也只获得了三分钟的更多曲目列表。

有一次,Atlas代理建议:"如果您需要持续更新,可以过一会儿再问我,我可以从我们停下的地方继续。"值得称赞的是,当我几小时后回到标签页并告诉它"恢复监控"时,我的播放列表中又添加了四首新歌。

评分:9/10。代理能够导航多个网站和界面完成任务,即使遇到意外问题也能应对。我只扣了一分,因为我不能让这个任务整天作为后台任务运行,尽管我理解这种用例肯定会消耗OpenAI大量的资金和处理能力。

测试场景三:扫描邮件

任务描述:我需要查看我的电子邮件,为许多给我发消息的公关人员创建一个包含联系信息的参考电子表格。

测试结果:在没有明确指导的情况下,Atlas代理能够意识到我使用Gmail,并且能够区分我在不同标签页中打开的个人电子邮件账户和专业的Ars Technica账户。然而,当Atlas代理开始扫描我的Ars邮箱时,我在页面上看到了一个突出的警告: