帳號:
密碼:
最新動態
產業快訊
CTIMES/SmartAuto / 新聞 /
互動式儀表板革新AI訓練 RLHF模型性能大幅提升60%
 

【CTIMES/SmartAuto 籃貫銘 報導】   2026年02月09日 星期一

瀏覽人次:【849】

由阿爾托大學(Aalto University)、特倫托大學(University of Trento)與KTH皇家理工學院組成的研究團隊,近日於《Computer Graphics Forum》期刊發表重大進展。該研究透過「互動式視覺化儀表板」優化人類回饋強化學習(RLHF),能使AI模型的訓練性能提升高達60%。

研究指出,賦予人類訓練者更直觀的操作介面與自主權,不僅能產出更優質的AI行為,還能顯著加快訓練進程,目前該研究的相關代碼已同步開源。

這項研究針對現行AI模型訓練的痛點提出解決方案。目前的RLHF主要依賴使用者在兩個AI輸出間進行「二選一」的簡單比較,藉此引導系統達成目標。然而,阿爾托大學教授Antti Oulasvirta指出,這種傳統方法效率極低,且使用者無法掌握AI可能輸出的全貌,導致訓練者難以釐清最終應達成的具體目標,如同在資訊不足的情況下盲目摸索。

為了突破框架,研究團隊開發出一套增強型的視覺化工具,將訓練過程從「被動選擇」轉為「主動探索」。博士研究員Jan Kompatscher解釋,該工具利用人類卓越的視覺數據處理能力,讓受測者在訓練機器人模擬骨架(如練習步行或後空翻)時,能全面查閱可能的動作目錄、回溯已做的決定,並參考系統建議的新對比項,不再侷限於單調的兩兩對稱比較。

實驗數據顯示,這套互動式介面展現了強大的訓練效能。在相同的訓練時間內,雖然受測者認為新工具的操作難度略高,但其提供回饋的資訊含量更豐富。受測者以此方式訓練出的模擬機器人,在動作精準度與表現上比傳統方法高出60%。

Kompatscher強調,賦予使用者對整組行為表達偏好的權力,是提升RLHF效率的關鍵,這讓人類能更精準地傳達對複雜行為的期望。

這項研究成果為AI對齊技術開闢了新路徑,證明結合人類認知能力與賦予操作能動性(Agency),能有效改善AI工具的開發品質。Oulasvirta教授總結道,讓人類在訓練過程中擁有更完整的視野與主控權,將是打造更符合人類需求之AI系統的基石。隨著開源代碼的釋出,這項技術預計將對未來AI模型訓練流程產生深遠影響。

相關新聞
AW 2026首爾開幕 人形機器人與物理AI平台集體亮相
富采2025年淨損27.1億元 鎖定「3+1」高價應用拚轉盈
Swagelok流體系統強化產業韌性 應對AI基礎建設挑戰
國家高速量子運算4大戰略揭曉 國內外協力加速商業化
鏈結產學研打造創新平台 金屬中心嘉年華展示智慧製造與淨零技術
相關討論
  相關文章
» Microchip AVR SD系列為功能安全而生的入門級微控制器,降低系統在實現功能安全應用時的複雜度及成本
» 6G波形設計與次微米波通道量測
» 微控制器脫胎換骨 MCU撐起智慧防護網
» 高頻記憶體如何重塑2026半導體版圖
» 關鍵科技趨勢:半導體產業的七大觀察


刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2026 遠播資訊股份有限公司版權所有 Powered by O3  v3.20.2048.18.97.9.174
地址:台北數位產業園區(digiBlock Taipei) 103台北市大同區承德路三段287-2號A棟204室
電話 (02)2585-5526 #0 轉接至總機 /  E-Mail: webmaster@ctimes.com.tw