大型语言模型(large language model;LLM)的规模和复杂性日益增加,NVIDIA 今日宣布推出NeMo Megatron框架的更新内容,更新後可加快训练速度达30%。这些更新内容包括两项开创性技术及一项超叁数工具,用在任意GPU数量的LLM训练最隹化及扩展,为使用NVIDIA AI平台训练与部署模型提供新的功能。
|
大型语言模型 (large language model; LLM) 的规模和复杂性日益增加,NVIDIA 今日宣布推出 NeMo Megatron 框架的更新内容,更新後可加快训练速度达 30%。 |
全球最大的开放科学、开放取用的多语言模型BLOOM,内有1,760亿个叁数,日前在NVIDIA AI平台进行训练,能够产出46个语言及13种程式语言的文字。NVIDIA AI平台亦支援其中一个拥有5,300亿个叁数的强大Transformer语言模型,即Megatron-Turing NLG模型(MT-NLG)。
LLM是当今最重要的先进技术之一,模型内有数兆个叁数,可以从文字中进行学习。但开发LLM是个昂贵且耗时的过程,须运用深厚的技术能力、分散式基础设施与完整堆叠才得以完成。
LLM在推动即时生成内容、文字摘要、客服聊天机器人与透过对话式人工智慧(AI)介面的问答等领域,却能带来莫大的好处。为了推动 LLM 的发展,AI领域的开发人员不断运用包含Megatron-LM、Apex与其他GPU加速函式库的NVIDIA AI平台来创新开发工具,像是微软DeepSpeed、Colossal-AI、Hugging Face BigScience及Fairscale。
在NVIDIA AI平台推出新的最隹化内容後,能解决整个堆叠中现有的多项痛点。NVIDIA期待持续与AI社群合作,让每个人都能运用LLM的强大实力。
最新的NeMo Megatron更新内容可加快30%的GPT-3模型训练速度,模型从220亿个叁数,大至1兆个叁数都可顺利运行。现在使用1,024个NVIDIA A100 GPU,只要24天就能训练出多达1,750亿个叁数的模型,相较於过往版本,训练时间缩短10天,相当於约25万个GPU运算小时。
NeMo Megatron是一个快速、高效且易用的端到端容器化框架,用於收集资料、训练大型模型、按照业界标准基准评估模型,与以最先进的延迟与传输量表现进行推论。
使用NeMo Megatron,便能在多种GPU丛集配置上轻松处理并复制LLM的训练和推论作业。目前抢先体验的客户可以取得这些功能,在NVIDIA DGX SuperPODs、NVIDIA DGX Foundry及Microsoft Azure云端环境中运行,并且即将开放支援其他云端平台。
目前已开放在NVIDIA LaunchPad上体验这些功能。NVIDIA LaunchPad是一项免费的计画,提供使用者短期内使用NVIDIA加速基础设施中的多个实作实验室。
NeMo Megatron是NeMo的一部分。NeMo是用於为对话式AI、语音AI和生物学打造高效能与灵活应用程式的开源框架。
更新项目包括两项用於最隹化及扩展LLM训练的新技术,即序列平行(sequence parallelism;SP)与选择性激发再运算(selective activation recomputation;SAR)。
藉由察觉先前未进行平行化的transformer层区域在序列维度上是各自独立,序列平行扩大了tensor级模型的平行性。
沿着序列维度拆分这些层就能进行分散运算,而最重要的是,这些区域的激发记忆体分布於tensor平行装置上。由於以分散方式加以激发,可将更多激发作用保留用於反向运算,而不用重新运算。
不同的激发作用需要不同的操作次数来重新运算,选择性激发再运算改善因记忆体限制而部分被迫重新运算,而非全部激发的情况。除了增加检查点和重新运算整个transformer层,亦可建立检查点及重新运算每个transformer层中,占用大量记忆体但重新运算的成本不高的部分。
要配合高度最隹化的推论策略,才能发挥LLM的强大实力。使用者可以轻松将训练好的模型用於推论,并且利用p-tuning及prompt tuning功能对不同的使用情况进行最隹化调整。
这些功能可以取代微调,让LLM可以适应新的使用情况,无需繁琐地对完整预先训练好的模型进行微调。该技术不会更动原始模型里的叁数,便能避免发生因微调模型而出现的灾难性「遗忘」问题。
在分散式基础设施中找出适合LLM的模型配置非常耗时。NeMo Megatron推出一项超叁数工具,可以自动寻找最隹的训练和推论配置,且无需修改程式码。如此一来,LLM只要一上线便能接受训练以进行推论收敛,不用浪费时间去寻找高效的模型配置。
NeMo Megatron使用启发式方法和经验网格,在不同叁数之间寻找有着最隹传输量的配置:资料平行、tensor 平行、流程平行、序列平行、微批次大小与激发检查点层的数量(包括选择性激发重新运算)。
在NGC的容器上使用超叁数工具与NVIDIA测试,在不到24小时内便替一个有着175B GPT-3模型达到最隹训练配置。与使用完全激发重新运算的一般配置相比,传输量速度提高20%到30%。使用最新技术,让具有超过20B叁数的模型速度可再加快10%到20%。
超叁数工具亦能找出推论过程中,有着最高传输量或最低延迟的模型配置。模型可以获得延迟和传输量限制资讯,而该工具将会推荐合适的配置。