周四,OpenAI 推出了一项名为 Operator 的新功能,可让 ChatGPT 控制虚拟浏览器来执行现实世界的任务,例如订餐或预订航班。但到目前为止,它的目标客户是富人。
该工具目前仅向美国的 Pro 订阅者提供(200 美元/月),标志着该公司首次涉足自主网络浏览领域。
它凸显了分层金融系统的出现,支付更多费用的人可以获得最好的人工智能功能。与此同时,低付费用户只能使用功能较差的型号——可以说不那么民主.
该系统通过operator.chatgpt.com运行,用户可以在其中要求ChatGPT处理各种在线杂务。
过去已经有一些尝试做类似的事情,从Openi插件存储兑现大型行动模型的承诺由兔子普及。尽管如此,它们对 API 的依赖使得它们的设置不方便且具有挑战性。
其不同之处在于它的工作原理。 Operator 不像其前身那样依赖 API,而是控制基于云的浏览器,像人类一样单击按钮并填写表单。
每次操作员做出动作时,它都会截取屏幕截图,向您展示它正在做什么。
例如,如果您需要预订一场比赛的门票,人工智能将打开自己的浏览器,转到特定站点,查找相关游戏,并在要求您确认付款之前找到最佳选项。
它还将通过视觉证据引导您完成决策过程。如果事情不顺利,有一个“控制”按钮可以让人们抓住方向盘。
为了在其他人失败的地方取得成功,OpenAI 必须构建自己的人工智能模型,以直观地理解网络浏览器显示的信息,并通过键盘和鼠标输入控制操作。新模型由 GPT-4o 提供支持,被命名为计算机用户代理 (CUA)。
这不仅仅是遵循脚本。人工智能可以阅读和理解网站布局,适应不同的设计,甚至处理意外的弹出窗口或错误消息。
该系统展示了一些令人印象深刻的派对技巧。将你凌乱的手写购物清单的照片交给它,它不仅会使用 GPT-Vision 来阅读它,而且实际上会从你喜欢的杂货店订购所有东西。
OpenAI 已与多家公司合作,以确保其平台上的顺利运行。
当预订乘车或点餐时,人工智能可以毫无问题地导航 Uber 和 DoorDash 等服务,因为它已预先配置为了解这些服务的界面。
但是,对于不受支持的网站,系统仍然尝试使用其浏览器控制功能来完成任务。这就是 Operator 击败其他替代方案的地方。
像往常一样,OpenAI 分享了一些基准:它击败了其他最先进的模型,在 OSWorld(处理标准操作系统的熟练程度)上得分为 38.1%,而最佳竞争对手的得分为 22%,在 WebArena 上得分为 58.1%(处理 e - 商业网站),而竞争对手则为 36.2%。
也就是说,该团队强调 Operator 仍处于研究预览阶段,因此预计会出现错误和错误。
一个潜在的症结可能会让注重安全的用户犹豫不决:您需要信任 Operator 来提供您的登录凭据。
云浏览器需要访问您的帐户才能完成任何操作,并且由于它与本地浏览器不兼容,因此使用信任 OpenAI 不存储敏感数据的小指承诺的远程 Web 浏览器登录可能看起来有点危险。
该功能很快就会在更广泛的范围内推出,接下来是 Plus 订阅者。开发人员也不会被排除在外——OpenAI 计划在未来几周内通过其 API 发布 Operator,这可能会催生新一代人工智能驱动的自动化工具。
OpenAI 表示,越来越多的实例超出了云网络浏览控制范围。该团队在演示中表示,他们还在努力扩大人工智能代理的范围,超越当前的通用助理。
编辑者塞巴斯蒂安·辛克莱和乔什·奎特纳