繼讓AI操控自動販賣機引發混亂後,AI研究機構Andon Labs近期再次進行新實驗。他們將多個頂尖大型語言模型(LLM)植入一台掃地機器人,並命令它「遞個奶油。」實驗結果再次失敗,結論是LLM 還沒準備好成為機器人。
Andon Labs為測試LLM作為機器人「大腦」的決策能力,他們為此測試了 Gemini 2.5 Pro、Claude Opus 4.1、GPT-5 等頂尖模型。
測試任務要求掃地機器人:1.找到放在另一房間的奶油。2.從多個相似包裝中準確辨識。3.找到可能已移動的人類並交付。4.等待人類口頭確認收貨。
實驗結果顯示AI表現不佳。得分最高的Gemini 2.5 Pro總體準確率僅40%,Claude Opus 4.1僅37%。
作為對照的人類則獲得95%高分。有趣的是,人類也非完美,他們在「等待確認收貨」時因缺乏耐心而被扣分。
研究人員還總結了一個有趣的發現:AI 的「內心戲」(內部日誌)遠比它們對外的「公開發言」(如透過 Slack 訊息)要混亂得多。