CTIMES/SmartAuto - NVIDIA以其人工智慧研究论文荣获NeurIPS奖项:人工智能,機器學習,GPU,CPU,NVIDIA

│新东西市集│东西讲座│影音频道│出版中心│智动化专区│

元件次系统自动控制

最新动态

【东西讲座】1/10 智慧眼镜风云再起：重新认识光场显示技术

解析2025产业趋势：MIC所长 x CTIMES编辑

产业快讯

整合创新X智造未来TIMTOS 2025 聚焦AI新商机

汽配及移动科技产业，叁展热烈报名中!

CTIMES/SmartAuto / 新闻 /

NVIDIA以其人工智慧研究论文荣获NeurIPS奖项

【CTIMES / SMARTAUTO ABC_1 报导】 2022年11月30日星期三

浏览人次：【2653】

NVIDIA Research 的两篇论文，一篇关於探索基於扩散的生成式人工智慧 (AI) 模型，另一篇则是关於训练通用式 AI 代理，因其对 AI 和机器学习领域的贡献而荣获 NeurIPS 2022 奖项。

NVIDIA 凭藉人工智慧研究荣获 NeurIPS 奖项

NeurIPS 大会本周在美国新奥尔良 (New Orleans) 举行实体活动，而下周将於线上进行举办，而 NVIDIA 的作者群将叁加其中超过 60 场的演讲、研究海报发布及研讨会活动。

产生图像、文字或影片的合成资料，是贯穿 NVIDIA 多篇论文的一大关键主题。其他主题还包括强化学习、资料收集与扩充、天气模型与联合学习。

NVIDIA 学习与感知研究部门??总裁 Jan Kautz 表示：「AI 是一项极其重要的技术，NVIDIA 从生成式 AI 到自主式 AI 代理等各个领域，都取得快速的进展。此外，我们在生成式 AI 方面，不单推进我们对基础模型的理论有更进一步的理解，还产出了实际贡献，这将让人们能够更为轻松地建立逼真的虚拟世界以及模拟内容。」

重新构思基於扩散的生成模型设计

基於扩散的模型已经成为生成式 AI 的一项突破性技术。NVIDIA 的研究人员因在分析扩散模型设计的工作中，针对显着提高这些模型的效率及品质提出改进措施，而荣获 Main Track 杰出论文奖。

该论文将扩散模型的组件拆解为模组化设计，帮助开发人员找出调整的方式，以提高整个模型效能的过程。研究人员表示，经过他们的调整之後，能够在评估 AI 生成影像品质的指标方面获得创纪录的成果。

在基於《Minecraft》的模拟套件中，训练通用式 AI 代理

虽然研究人员长期以来，一直使用《星际争霸》、《Dota》和围棋等电玩游戏环境来训练自主式 AI 代理，但这些代理通常只擅长执行少数的任务。因此，NVIDIA 的研究人员改为使用全球最广受欢迎的游戏《Minecraft》，为通用式 AI 代理开发了一个具扩充性的训练框架，使得这个代理能够顺利执行各种开放式任务。

这个名为 MineDojo 的框架，使得 AI 代理能够利用一个由七千多个维基百科页面、数百万个 Reddit 讨论串以及 30 万个小时的游戏纪录所组成的庞大线上资料库，学习《Minecraft》的灵活玩法。这个研究项目荣获 NeurIPS 委员会所颁发的杰出资料集和基准论文奖。

MineDojo 框架背後的研究人员，创建了一个名为 MineCLIP 的大型基础模型，用於验证概念。游戏玩家通常会在逐字稿中叙述画面中的动作，而这个模型学会了将 YouTube 上，《Minecraft》的游戏画面片段与影片逐字稿串连起来。该团队利用 MineCLIP 模型，能够训练一个强化学习代理在无任何人为介入的情况下，於《Minecraft》中执行多项任务。

创建复杂的 3D 形状以妆点虚拟世界

同样在 NeurIPS 大会中展出的，还有生成式 AI 模型 GET3D，它可以根据用於训练它的 2D 图片类别，像是建筑物、汽车或动物，立即合成出 3D 形状。AI 生成的物体具有极为写实的纹理和复杂的几何细节，且以时下受欢迎的绘图软体应用中使用的三角形网格来建立。这麽一来，用户便能轻松地将这些形状汇入 3D 渲染器以及游戏引擎，以便进行後续的编辑工作。

GET3D 之所以得名，是因为它能够生成显式纹理 3D 网格 (Generate Explicit Textured 3D meshes)，研究人员在 NVIDIA A100 Tensor 核心 GPU 上使用从不同相机角度拍摄，约 100 万张 3D 形状的 2D 图片进行训练。在单个 NVIDIA GPU 上运行推论时，该模型每秒可生成大约 20 个物体。

AI 生成的物体可用於放置在以 3D 方式呈现的建筑物、户外空间或整个城市内，这些是为游戏、机器人、建筑和社群媒体等产业设计的数位空间。

控制材料和照明，改进逆向渲染工作流程

NVIDIA Research 在六月於新奥尔良 (New Orleans) 召开的最新一届 CVPR 大会上，发表了逆向渲染方法 3D MoMa。它让开发人员能够创建由三个不同部分所组成的 3D 物体：3D 网格模型、覆盖在模型上的材料及照明。

该团队後续在拆解 3D 物体的材料和照明方面更取得了重大的进展，这反过来又让创作者在物体於场景中移动时，以交换材料或调整照明的方式编辑 AI 生成形状的能力。这项工作仰赖於利用 NVIDIA RTX GPU 的加速光线追踪技术，为模型制作更加写实的着色效果。

提高语言模型生成文字的事实准确性

在 NeurIPS 发表的另一篇论文研究中，展示了预先训练语言模型的一大挑战：AI 生成文字的事实准确性。

为生成开放式文字而训练的语言模型，通常会产生出内有不符合事实资讯的文字，原因在於 AI 只是在单字之间建立起关联性，以预测字句里接下来的内容。NVIDIA 的研究人员在这篇论文中，提出了克服这项限制的技术，对於将这类模型部署到实际应用程式前来说是非常必要的。

研究人员建立了第一个自动基准，来衡量用於开放式文字生成语言模型的事实准确性，并发现有着数十亿个叁数的大型语言模型，比起小型语言模型所生成的文字，其事实准确性更高。该团队提出了事实增强训练这项新技术，再加上新式采样演算法，共同帮助训练语言模型生成准确的文字，并且证明事实错误率从 33% 降至 15% 左右。

關鍵字：人工智能機器學習 GPU CPU NVIDIA