麻省理工學院(MIT)研究團隊開發出一種名為SEED-SET的自動化測試框架,能精確識別AI決策支持系統在處理社會群體時可能產生的不公平現象。這項技術利用大型語言模型(LLM)作為人類價值觀代理,協助決策者在電力分配或城市規劃等高風險領域,為AI治理提供系統化的解決方案。
隨著AI在決策優化中的應用日益廣泛,系統往往能找出成本最低或效率最高的策略。然而,MIT團隊指出,技術上的「最優解」未必等同於社會的正義。
例如,一項旨在優化成本的電力調度方案,可能會無意中導致低收入社區比高收入地區承擔更高的停電風險,這種「未知的未知」正是目前AI監管中最難防範的隱形地雷,若無系統性測試,難以在部署前察覺。
為了解決這一難題,這套全稱為「可擴展系統級倫理測試實驗設計」的SEED-SET框架採用了階層式結構,將評估拆解為客觀與主觀兩部分。客觀模型負責評估成本、可靠性等量化技術指標,而主觀模型則專注於利害關係人的偏好與公平感知。這種分離設計讓系統能在減少人工干預的同時,生成更能反映人類真實價值的測試場景,平衡了經濟效益與道德標準。
在主觀評估環節,SEED-SET創新地引入了LLM作為人類評估者的代理人。研究人員將不同用戶群體的價值觀編寫成自然語言提示詞,引導模型進行成千上萬次的模擬對比與場景篩選。
相較於容易因疲勞而產生判斷不一致的人類評估者,LLM代理能高效且穩定地識別出最具代表性的風險案例,並根據不同的社會文化背景或政策偏好,動態調整其測試重點。
實驗結果顯示,在電力網路與城市交通路由系統的實測中,SEED-SET產生的關鍵測試案例數量是傳統策略的兩倍以上,並成功挖掘出許多被其他自動化方法忽視的倫理衝突。
MIT航太系副教授Chuchu Fan指出,單靠訓練數據或固定護欄已不足以保障AI安全,實驗證明SEED-SET能隨著用戶偏好的改變,精準捕捉到截然不同的風險場景,展現出極強的適應性。
這項由美國國防高等研究計劃署(DARPA)部分資助的研究,將在國際學習表徵會議(ICLR)上正式發表。研究團隊表示,下一步將進行更大規模的用戶研究,確認該框架生成的場景是否能實質幫助決策者優化系統。未來,團隊計畫將此技術擴展至更複雜的大規模決策系統評估中,確保在AI加速普及的趨勢下,科技進步不以犧牲弱勢群體的公平性為代價。