CTIMES/SmartAuto - NVIDIA AI平台强化NeMo Megatron框架大型语言模型功能:NVIDIA

│新东西市集│东西讲座│影音频道│出版中心│智动化专区│

元件次系统自动控制

最新动态

【文章精选】诌：绿色回收与半导体科技的新未来

【东西讲座】11/29 智慧制造与资讯安全

产业快讯

整合创新X智造未来TIMTOS 2025 聚焦AI新商机

汽配及移动科技产业，叁展热烈报名中!

CTIMES/SmartAuto / 新闻 /

NVIDIA AI平台强化NeMo Megatron框架大型语言模型功能

【CTIMES / SMARTAUTO ABC_1 报导】 2022年07月29日星期五

浏览人次：【2944】

大型语言模型（large language model；LLM）的规模和复杂性日益增加，NVIDIA 今日宣布推出NeMo Megatron框架的更新内容，更新後可加快训练速度达30%。这些更新内容包括两项开创性技术及一项超叁数工具，用在任意GPU数量的LLM训练最隹化及扩展，为使用NVIDIA AI平台训练与部署模型提供新的功能。

大型语言模型 (large language model; LLM) 的规模和复杂性日益增加，NVIDIA 今日宣布推出 NeMo Megatron 框架的更新内容，更新後可加快训练速度达 30%。

全球最大的开放科学、开放取用的多语言模型BLOOM，内有1,760亿个叁数，日前在NVIDIA AI平台进行训练，能够产出46个语言及13种程式语言的文字。NVIDIA AI平台亦支援其中一个拥有5,300亿个叁数的强大Transformer语言模型，即Megatron-Turing NLG模型（MT-NLG）。

LLM是当今最重要的先进技术之一，模型内有数兆个叁数，可以从文字中进行学习。但开发LLM是个昂贵且耗时的过程，须运用深厚的技术能力、分散式基础设施与完整堆叠才得以完成。

LLM在推动即时生成内容、文字摘要、客服聊天机器人与透过对话式人工智慧（AI）介面的问答等领域，却能带来莫大的好处。为了推动 LLM 的发展，AI领域的开发人员不断运用包含Megatron-LM、Apex与其他GPU加速函式库的NVIDIA AI平台来创新开发工具，像是微软DeepSpeed、Colossal-AI、Hugging Face BigScience及Fairscale。

在NVIDIA AI平台推出新的最隹化内容後，能解决整个堆叠中现有的多项痛点。NVIDIA期待持续与AI社群合作，让每个人都能运用LLM的强大实力。

最新的NeMo Megatron更新内容可加快30%的GPT-3模型训练速度，模型从220亿个叁数，大至1兆个叁数都可顺利运行。现在使用1,024个NVIDIA A100 GPU，只要24天就能训练出多达1,750亿个叁数的模型，相较於过往版本，训练时间缩短10天，相当於约25万个GPU运算小时。

NeMo Megatron是一个快速、高效且易用的端到端容器化框架，用於收集资料、训练大型模型、按照业界标准基准评估模型，与以最先进的延迟与传输量表现进行推论。

使用NeMo Megatron，便能在多种GPU丛集配置上轻松处理并复制LLM的训练和推论作业。目前抢先体验的客户可以取得这些功能，在NVIDIA DGX SuperPODs、NVIDIA DGX Foundry及Microsoft Azure云端环境中运行，并且即将开放支援其他云端平台。

目前已开放在NVIDIA LaunchPad上体验这些功能。NVIDIA LaunchPad是一项免费的计画，提供使用者短期内使用NVIDIA加速基础设施中的多个实作实验室。

NeMo Megatron是NeMo的一部分。NeMo是用於为对话式AI、语音AI和生物学打造高效能与灵活应用程式的开源框架。

更新项目包括两项用於最隹化及扩展LLM训练的新技术，即序列平行（sequence parallelism；SP）与选择性激发再运算（selective activation recomputation；SAR）。

藉由察觉先前未进行平行化的transformer层区域在序列维度上是各自独立，序列平行扩大了tensor级模型的平行性。

沿着序列维度拆分这些层就能进行分散运算，而最重要的是，这些区域的激发记忆体分布於tensor平行装置上。由於以分散方式加以激发，可将更多激发作用保留用於反向运算，而不用重新运算。

不同的激发作用需要不同的操作次数来重新运算，选择性激发再运算改善因记忆体限制而部分被迫重新运算，而非全部激发的情况。除了增加检查点和重新运算整个transformer层，亦可建立检查点及重新运算每个transformer层中，占用大量记忆体但重新运算的成本不高的部分。

要配合高度最隹化的推论策略，才能发挥LLM的强大实力。使用者可以轻松将训练好的模型用於推论，并且利用p-tuning及prompt tuning功能对不同的使用情况进行最隹化调整。

这些功能可以取代微调，让LLM可以适应新的使用情况，无需繁琐地对完整预先训练好的模型进行微调。该技术不会更动原始模型里的叁数，便能避免发生因微调模型而出现的灾难性「遗忘」问题。

在分散式基础设施中找出适合LLM的模型配置非常耗时。NeMo Megatron推出一项超叁数工具，可以自动寻找最隹的训练和推论配置，且无需修改程式码。如此一来，LLM只要一上线便能接受训练以进行推论收敛，不用浪费时间去寻找高效的模型配置。

NeMo Megatron使用启发式方法和经验网格，在不同叁数之间寻找有着最隹传输量的配置：资料平行、tensor 平行、流程平行、序列平行、微批次大小与激发检查点层的数量（包括选择性激发重新运算）。

在NGC的容器上使用超叁数工具与NVIDIA测试，在不到24小时内便替一个有着175B GPT-3模型达到最隹训练配置。与使用完全激发重新运算的一般配置相比，传输量速度提高20%到30%。使用最新技术，让具有超过20B叁数的模型速度可再加快10%到20%。

超叁数工具亦能找出推论过程中，有着最高传输量或最低延迟的模型配置。模型可以获得延迟和传输量限制资讯，而该工具将会推荐合适的配置。

關鍵字： NVIDIA