微软开发出名为Magma的新型生成式AI,能自主控制机器人并处理其感测器资讯,朝向ChatGPT等AI透过机器人与现实世界互动的目标迈进一大步。
 |
透过微软Magma的生成式AI技术,自主控制机器人进行取拿物品的动作。(来源:微软展示影片) |
Magma可处理文字、图像和影片等多模态数据,并在视觉空间世界中规划和行动,例如执行UI导航或操控机器人等任务。微软表示,Magma能有效地从公开的视觉和语言数据中转移知识,将语言和空间智能结合起来,以应对复杂的任务。
Magma是从大型语言模型和聊天机器人转向「AI代理」的趋势的一部分,AI代理可以代表人类执行任务。但这项技术仍存在技术限制,例如OpenAI最近发布的AI代理Operator,虽然设计用於浏览网际网路并执行任务,但仍需要大量的人工监督。
尽管如此,根据微软的测试,Magma AI在UI导航和机器人操控任务上创造了新的最隹结果,表现优於专为这些任务量身定制的先前模型。微软发布的影片显示,该AI能将塑胶蘑??放入金属碗中,并将抹布推过台面。
除了操控机器手臂外,Magma还可以用於透过实时视频提供协助,例如在真实的西洋棋游戏中提供帮助,或在客厅中建议如何放松几个小时。
然而,微软的研究人员也承认,Magma AI并非完美无缺。例如,他们设计的测试都非常具体,而且教学影片中的身份和活动分布并不代表全球人类和社会的多样性。