NVIDIA(辉达)宣布一连串新技术与合作夥伴,将推论的潜在市场拓展至全球3,000 万部超大规模伺服器,同时大幅降低由深度学习技术所驱动的各种服务成本。
NVIDIA 创办人暨执行长黄仁勋在 2018 GTC 发表开幕演说时,阐述深度学习推论如何透过在资料中心、车用以及如机器人和无人机等嵌入式装置上,新增语音辨识、自然语言处理、推荐系统与影像辨识等技术支援,持续仰赖 GPU 加速。
对此,NVIDIA 宣布新版 TensorRT 推论软体并将其整合至 Google 热门的TensorFlow 框架中。 NVIDIA 也宣布将针对最受欢迎的语音辨识框架 Kaldi 进行 GPU 最隹化。此外,NVIDIA 与 Amazon、Facebook 以及 Microsoft 等夥伴的密切合作,也将让开发人员更容易将 ONNX 格式与 WinML 模型透过 GPU 进行加速。
NVIDIA ??总裁暨加速运算部门总经理 Ian Buck 表示:「针对量产深度学习推论技术所推出的 GPU 加速,即便在处理最庞大的神经网路时,也能即时且以最低成本运行,透过迅速支援更智慧的应用与框架,NVIDIA 不仅能提升深度学习的技术品质,同时还能协助降低全球 3,000 万部超大规模伺服器的营运成本。」
TensorRT与TensorFlow的整合
NVIDIA 揭露 TensorRT 4 软体能为多种应用程式进行深度学习推论加速。TensorRT能提供 INT8 与 FP16 精准的推论内容,让资料中心成本最高可减少70%(1)。
TensorRT 4 能用来快速进行最隹化、验证以及将训练完成的类神经网路部署到超大规模资料中心、嵌入式装置和车用 GPU 平台。在处理包括电脑视觉、神经机器翻译、自动语音辨识、语音合成与推荐系统等常见应用时,新版软体在执行深度学习推论的速度是 CPU 的190倍(2)。
为进一步加快研发效率,NVIDIA 与 Google 的工程师携手将 TensorRT 整合到 TensorFlow 1.7,让用户更容易在 GPU 上运行各种深度学习推论应用。
Google 工程部总监 Rajat Monga 表示:「TensorFlow 团队正与 NVIDIA 密切合作,将 NVIDIA GPU 的最隹效能带给深度学习的用户。TensorFlow 与 NVIDIA TensorRT 的整合目前已能在Volta Tensor Core 技术与 NVIDIA 深度学习平台上提供高达8倍的推论吞吐量(与低延迟目标中的GPU执行相比),从而实现TensorFlow中GPU的最高效能。」
NVIDIA 已着手优化全球顶尖语音框架 Kaldi,能在 GPU 上发挥更高的效能。GPU 语音加速不仅代表将为消费者提供更精准且实用的虚拟助理,同时也代表资料中心营运商将藉此降低部署成本。
全球各领域企业开发人员正在运用 TensorRT 探取资料中的情资,并为企业与消费者部署各种智慧服务。
NVIDIA 工程师与包括 Amazon、Facebook以及 Microsoft等公司密切合作,确保运用各种 ONNX 框架的开发人员,包括 Caffe 2、Chainer、CNTK、MXNet和Pytorch的用户,现在都能轻易部署至 NVIDIA 的深度学习平台上。
SAP 机器学习部门经理 Markus Noga 表示:「针对 TensorRT基於深度学习在 NVIDIA Tesla V100 GPU 上运行 SAP 所推荐的应用程式之评测,我们发现在推论速度与吞吐量比 CPU 平台快 45 倍。我们相信 TensorRT 能为我们的企业顾客大幅提升生产力。」
Twitter Cortex团队经理 Nicolas Koumchatzky 表示:「运用GPU让我们的平台能建构媒体认知能力,不光是大幅缩短媒体深度学习模型的训练时间,还让我们在推论期间就能即时了解影片的内容。」
Microsoft 近期宣布对 Windows 10程式导入 AI 支援。NVIDIA与 Microsoft 合作开发多款 GPU 加速工具,协助开发人员在 Windows 程式中加入更多智慧功能。
NVIDIA 宣布针对 Kubernetes 推出 GPU 加速,以促进多云 GPU 丛集上的企业推论部署。NVIDIA 将 GPU 强化的技术贡献给开源社群,藉以支持 Kubernetes 社群。
此外,打造 MATLAB 软体的 MathWorks 宣布将 TensorRT 与该软体进行整合。工程师与科学家现在能透过包括 NVIDIA DRIVE、Jetson以及Tesla等平台自动生产出高效能推论引擎。
资料中心的管理者必须不断在效能与效率之间取得平衡,藉以让伺服器机群达到最大的生产力。在执行各种深度学习推论应用与服务时,透过 NVIDIA Tesla GPU 加速的伺服器能取代数个机架的 CPU 伺服器,空出宝贵的机架空间并降低对能源与冷却的需求。
TensorRT 也能部署在 NVIDIA DRIVE 自驾车与 NVIDIA Jetson 嵌入式平台。每个框架上的深度学习神经网路都能在资料中心的 NVIDIA DGX系统上进行训练,并部署从机器人到自驾车所有种类的装置上,在边缘进行即时推论。
透过TensorRT,开发人员能专注於研发新颖的深度学习应用,而不用费心为推论部署进行繁琐的效能调校。以极快速度执行INT8 或 FP16精准度的推论,大幅降低延迟,这对包括嵌入式与车用平台上,处理物体侦测与路线规划等功能至关重要。