OpenAI给予我一周时间测试其新推出的AI代理系统Operator(操作员),这是一个旨在独立完成网络任务的智能系统。Operator是目前最接近科技行业对AI代理愿景的产品——能够自动化处理生活中的繁琐任务,让人们能够专注于真正热爱的事情。然而,根据实际使用体验,真正"自主"的AI系统仍未实现。
Operator采用了全新的模型,结合了GPT-4的视觉理解能力和o1的推理能力。在基础任务方面表现不错,能够完成按钮点击、菜单导航和表单填写等操作。与Anthropic和Google的同类产品相比,运行速度更快。
以汽车为例,Operator就像配备定速巡航的汽车——只能在特定情况下短暂自动驾驶,距离完全自动驾驶还有很大差距。OpenAI表示,Operator频繁暂停是刻意设计,因为其底层AI类似ChatGPT,无法持续可靠地独立运作,且容易产生幻觉。
在搬家期间的测试中,我请Operator协助处理各项事务。在购买停车证时,系统能够准确导航至相关网页,但需要频繁授权和填写个人信息。预订餐厅时,虽然成功找到合适的希腊餐厅,但整个过程需要回答超过六个问题。
某些网站(如TaskRabbit、Expedia、Reddit和YouTube)会阻止Operator访问。但Instacart、Uber和eBay等公司已与OpenAI建立合作,允许Operator代表用户访问其平台。这表明部分企业已开始为AI代理时代做准备。
在实际使用中,Operator出现了一些严重的判断失误。例如,在寻找停车场时,系统推荐的位置实际步行距离远超其声称的"几分钟",且价格超出预算。
这也是为什么OpenAI不向助手开放敏感信息访问权限。如果没有人工干预,类似的错误可能导致用户遭受经济损失。这种不可靠性是实现真正自主AI代理的主要障碍。
虽然Operator在网络浏览方面展现出令人印象深刻的能力,但在AI模型可靠性得到根本改善之前,用户仍需持续协助AI代理工作,这与其减轻人工负担的初衷相悖。