Nvidia发布超大规模推理平台,AI推理速度提升40倍!

Nvidia推出用于语音、影片、图片以及推荐服务的Tensorrt超大规模推理平台(Tensorrt Hyperscale Inference Platform),其使用的Tesla GPU提供高速处理深度学习工作负载的能力,而推理最佳化引擎TensorRT则可以充分利用Tesla GPU的性能,处理影片串流、语音和推荐系统等应用,并为Nvidia DeepStream SDK提供实验基础。

Nvidia提到,现在大规模数据中心可以借助超大规模推理平台的能力,使用增强的自然语言互动,并直接获取查询的答案,而非只是一些预存的可能候选答案。

超大规模推理平台由三个主要部分组成,Tesla T4 GPU、TensorRT 5以及TensorRT推理服务器。Tesla T4 GPU拥有320个Turing Tensor Cores以及2560个CUDA核心,提供灵活的FP32、FP16、INT8和INT4的多精度计算,其推理速度是相同耗能CPU的40倍。

而TensorRT 5则是推理最佳化程序和Runtime引擎,TensorRT 5支持Turing Tensor Core,针对多精度工作负载扩展了神经网络最佳化,能低延迟提供推荐系统、语音识别和机器翻译等高吞吐量的应用服务,并且TensorRT还能将使用32或是16位元数据训练的模型,为Tesla T4和P4上最佳化成INT8操作,以及在Tesla V100上最佳化为FP16。同时还赋予DeepStream SDK利用Tesla GPU,同时译码和分析影片串流。

TensorRT推理服务器是容器化的微服务软件,可以在数据中心环境让应用程序使用人工智能模型。TensorRT推理服务器是一个可以立即执行的容器,其提供的微服务可以让使用者透过API,在一个或是多个GPU上,使用Caffe2、TensorRT和TensorFlow等任何支持ONNX标准的框架进行推理。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();