中國武漢大學與四川省公路規劃勘察設計研究院的科研團隊聯合發表了名為「SVII-3D」的全新框架,成功解決了低成本街景圖像在三維定位上的精度難題。該技術透過先進的視覺語言模型(VLM)與幾何引導精鍊機制,能在稀疏影像中實現分米級(decimeter-level)的3D定位精度,並自動診斷設施的運行狀態。這項突破為大規模、低成本構建城市基礎設施數位雙生(Digital Twin)提供了高效的技術路徑。
在智慧城市與設施生命週期管理中,精確的資產數位化至關重要。傳統技術面臨兩難:光學雷達(LiDAR)系統雖然精準但成本極高;而基於圖像的傳統方法雖成本低廉,卻往往存在公尺級的定位誤差,且難以捕捉細粒度的狀態資訊。SVII-3D框架的出現,正是為了在低成本的稀疏影像基礎上,克服魯棒性不足、定位不準以及缺乏狀態識別能力的挑戰,從而實現高品質的自動化設施管理。
SVII-3D的核心技術之一在於結合了LoRA微調的開集檢測(Open-set detection)與空間注意力匹配網路。這種設計讓系統即使在觀測視角有限、圖像數據稀疏的情況下,也能強韌地關聯不同視角的觀察結果,準確識別目標物。這項技術有效解決了傳統方法在複雜城市環境中容易出現的誤報或漏報問題,大幅提升了物體識別的可靠性與完整性。
...
...
| 使用者別 | 新聞閱讀限制 | 文章閱讀限制 | 出版品優惠 |
| 一般使用者 | 10則/每30天 | 0則/每30天 | 付費下載 |
| VIP會員 | 無限制 | 25則/每30天 | 付費下載 |

