账号:
密码:
最新动态
产业快讯
CTIMES/SmartAuto / 新闻 /
NVIDIA AI平台强化NeMo Megatron框架大型语言模型功能
 

【CTIMES / SMARTAUTO ABC_1 报导】    2022年07月29日 星期五

浏览人次:【2944】

大型语言模型(large language model;LLM)的规模和复杂性日益增加,NVIDIA 今日宣布推出NeMo Megatron框架的更新内容,更新後可加快训练速度达30%。这些更新内容包括两项开创性技术及一项超叁数工具,用在任意GPU数量的LLM训练最隹化及扩展,为使用NVIDIA AI平台训练与部署模型提供新的功能。

大型语言模型 (large language model; LLM) 的规模和复杂性日益增加,NVIDIA 今日宣布推出 NeMo Megatron 框架的更新内容,更新後可加快训练速度达 30%。
大型语言模型 (large language model; LLM) 的规模和复杂性日益增加,NVIDIA 今日宣布推出 NeMo Megatron 框架的更新内容,更新後可加快训练速度达 30%。

全球最大的开放科学、开放取用的多语言模型BLOOM,内有1,760亿个叁数,日前在NVIDIA AI平台进行训练,能够产出46个语言及13种程式语言的文字。NVIDIA AI平台亦支援其中一个拥有5,300亿个叁数的强大Transformer语言模型,即Megatron-Turing NLG模型(MT-NLG)。

LLM是当今最重要的先进技术之一,模型内有数兆个叁数,可以从文字中进行学习。但开发LLM是个昂贵且耗时的过程,须运用深厚的技术能力、分散式基础设施与完整堆叠才得以完成。

LLM在推动即时生成内容、文字摘要、客服聊天机器人与透过对话式人工智慧(AI)介面的问答等领域,却能带来莫大的好处。为了推动 LLM 的发展,AI领域的开发人员不断运用包含Megatron-LM、Apex与其他GPU加速函式库的NVIDIA AI平台来创新开发工具,像是微软DeepSpeed、Colossal-AI、Hugging Face BigScience及Fairscale。

在NVIDIA AI平台推出新的最隹化内容後,能解决整个堆叠中现有的多项痛点。NVIDIA期待持续与AI社群合作,让每个人都能运用LLM的强大实力。

最新的NeMo Megatron更新内容可加快30%的GPT-3模型训练速度,模型从220亿个叁数,大至1兆个叁数都可顺利运行。现在使用1,024个NVIDIA A100 GPU,只要24天就能训练出多达1,750亿个叁数的模型,相较於过往版本,训练时间缩短10天,相当於约25万个GPU运算小时。

NeMo Megatron是一个快速、高效且易用的端到端容器化框架,用於收集资料、训练大型模型、按照业界标准基准评估模型,与以最先进的延迟与传输量表现进行推论。

使用NeMo Megatron,便能在多种GPU丛集配置上轻松处理并复制LLM的训练和推论作业。目前抢先体验的客户可以取得这些功能,在NVIDIA DGX SuperPODs、NVIDIA DGX Foundry及Microsoft Azure云端环境中运行,并且即将开放支援其他云端平台。

目前已开放在NVIDIA LaunchPad上体验这些功能。NVIDIA LaunchPad是一项免费的计画,提供使用者短期内使用NVIDIA加速基础设施中的多个实作实验室。

NeMo Megatron是NeMo的一部分。NeMo是用於为对话式AI、语音AI和生物学打造高效能与灵活应用程式的开源框架。

更新项目包括两项用於最隹化及扩展LLM训练的新技术,即序列平行(sequence parallelism;SP)与选择性激发再运算(selective activation recomputation;SAR)。

藉由察觉先前未进行平行化的transformer层区域在序列维度上是各自独立,序列平行扩大了tensor级模型的平行性。

沿着序列维度拆分这些层就能进行分散运算,而最重要的是,这些区域的激发记忆体分布於tensor平行装置上。由於以分散方式加以激发,可将更多激发作用保留用於反向运算,而不用重新运算。

不同的激发作用需要不同的操作次数来重新运算,选择性激发再运算改善因记忆体限制而部分被迫重新运算,而非全部激发的情况。除了增加检查点和重新运算整个transformer层,亦可建立检查点及重新运算每个transformer层中,占用大量记忆体但重新运算的成本不高的部分。

要配合高度最隹化的推论策略,才能发挥LLM的强大实力。使用者可以轻松将训练好的模型用於推论,并且利用p-tuning及prompt tuning功能对不同的使用情况进行最隹化调整。

这些功能可以取代微调,让LLM可以适应新的使用情况,无需繁琐地对完整预先训练好的模型进行微调。该技术不会更动原始模型里的叁数,便能避免发生因微调模型而出现的灾难性「遗忘」问题。

在分散式基础设施中找出适合LLM的模型配置非常耗时。NeMo Megatron推出一项超叁数工具,可以自动寻找最隹的训练和推论配置,且无需修改程式码。如此一来,LLM只要一上线便能接受训练以进行推论收敛,不用浪费时间去寻找高效的模型配置。

NeMo Megatron使用启发式方法和经验网格,在不同叁数之间寻找有着最隹传输量的配置:资料平行、tensor 平行、流程平行、序列平行、微批次大小与激发检查点层的数量(包括选择性激发重新运算)。

在NGC的容器上使用超叁数工具与NVIDIA测试,在不到24小时内便替一个有着175B GPT-3模型达到最隹训练配置。与使用完全激发重新运算的一般配置相比,传输量速度提高20%到30%。使用最新技术,让具有超过20B叁数的模型速度可再加快10%到20%。

超叁数工具亦能找出推论过程中,有着最高传输量或最低延迟的模型配置。模型可以获得延迟和传输量限制资讯,而该工具将会推荐合适的配置。

關鍵字: NVIDIA 
相关新闻
印尼科技领导者与NVIDIA合作推出国家人工智慧Sahabat-AI
NVIDIA发表新AI工具 助力机器人学习和人形机器人开发
NVIDIA AI Blueprint协助开发视觉AI代理 以提高效率、最隹化流程并创造空间
印度机器人生态系利用NVIDIA创新 从仓储自动化到最後一哩路配送
NVIDIA乙太网路技术加速被应用於建造全球最大AI超级电脑
comments powered by Disqus
相关讨论
  相关文章
» SiC MOSFET:意法半导体克服产业挑战的颠覆性技术
» 超越MEMS迎接真正挑战 意法半导体的边缘AI永续发展策略
» 光通讯成长态势明确 讯号完整性一测定江山
» 分众显示与其控制技术
» 新一代Microchip MCU韧体开发套件 : MCC Melody简介


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK8BO70IOMYSTACUKF
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw