OpenAI新AI代理Operator：能力有限仍需人工辅助

基本功能介绍

OpenAI给予我一周时间测试其新推出的AI代理系统Operator（操作员），这是一个旨在独立完成网络任务的智能系统。Operator是目前最接近科技行业对AI代理愿景的产品——能够自动化处理生活中的繁琐任务，让人们能够专注于真正热爱的事情。然而，根据实际使用体验，真正"自主"的AI系统仍未实现。

技术特点与局限

Operator采用了全新的模型，结合了GPT-4的视觉理解能力和o1的推理能力。在基础任务方面表现不错，能够完成按钮点击、菜单导航和表单填写等操作。与Anthropic和Google的同类产品相比，运行速度更快。

以汽车为例，Operator就像配备定速巡航的汽车——只能在特定情况下短暂自动驾驶，距离完全自动驾驶还有很大差距。OpenAI表示，Operator频繁暂停是刻意设计，因为其底层AI类似ChatGPT，无法持续可靠地独立运作，且容易产生幻觉。

实际应用测试

在搬家期间的测试中，我请Operator协助处理各项事务。在购买停车证时，系统能够准确导航至相关网页，但需要频繁授权和填写个人信息。预订餐厅时，虽然成功找到合适的希腊餐厅，但整个过程需要回答超过六个问题。

合作与限制

某些网站（如TaskRabbit、Expedia、Reddit和YouTube）会阻止Operator访问。但Instacart、Uber和eBay等公司已与OpenAI建立合作，允许Operator代表用户访问其平台。这表明部分企业已开始为AI代理时代做准备。

信任与安全问题

在实际使用中，Operator出现了一些严重的判断失误。例如，在寻找停车场时，系统推荐的位置实际步行距离远超其声称的"几分钟"，且价格超出预算。

这也是为什么OpenAI不向助手开放敏感信息访问权限。如果没有人工干预，类似的错误可能导致用户遭受经济损失。这种不可靠性是实现真正自主AI代理的主要障碍。

虽然Operator在网络浏览方面展现出令人印象深刻的能力，但在AI模型可靠性得到根本改善之前，用户仍需持续协助AI代理工作，这与其减轻人工负担的初衷相悖。