测试还发现提示词的质量会明显影响任务乐成率,比方园地预订任务中,添加具体时间和使用指引后,乐成率从 3/10 提升至 8/10。
体系在处置处罚不认识的 UI 界面和文本编辑时体现欠佳,常出现试错和低效使用,文本编辑任务的乐成率仅为 4/10。
为了更好地量化 Operator 的性能指标,发布会上的演示职员也提到了 OS World 测试和 Web Arena 测试。 OS World 用于评估 AI 智能体在 Linux 等使用体系上的导航本领, Operator 得分 38.1%,高于其他公开体系但低于人类水平(72.4%)。
Web Arena 则是测试评估 AI 智能体在电商网站和外交论坛等网站的导航本领, Operator 得分 58.1%,同样高出其他公开 AI 体系但未达人类水平。