继让AI操控自动贩卖机引发混乱後,AI研究机构Andon Labs近期再次进行新实验。他们将多个顶尖大型语言模型(LLM)植入一台扫地机器人,并命令它「递个奶油。」实验结果再次失败,结论是LLM 还没准备好成为机器人。
Andon Labs为测试LLM作为机器人「大脑」的决策能力,他们为此测试了 Gemini 2.5 Pro、Claude Opus 4.1、GPT-5 等顶尖模型。
测试任务要求扫地机器人:1.找到放在另一房间的奶油。2.从多个相似包装中准确辨识。3.找到可能已移动的人类并交付。4.等待人类囗头确认收货。
实验结果显示AI表现不隹。得分最高的Gemini 2.5 Pro总体准确率仅40%,Claude Opus 4.1仅37%。
作为对照的人类则获得95%高分。有趣的是,人类也非完美,他们在「等待确认收货」时因缺乏耐心而被扣分。
研究人员还总结了一个有趣的发现:AI 的「内心戏」(内部日志)远比它们对外的「公开发言」(如透过 Slack 讯息)要混乱得多。