多用途的入门级推理
NVIDIA A2 Tensor Core GPU 具有低功耗、小尺寸和高性能的特点,可为在边缘部署 NVIDIA AI 的智能视频分析 (IVA) 提供入门级推理功能。该 GPU 采用半高 PCIe 4.0 卡的设计,并提供 40-60 瓦的低热设计功耗 (TDP) 配置功能,能为大规模部署中的不同服务器带来通用的推理加速能力。
推理性能提升高达 20 倍
部署 AI 推理技术的目的是通过智能、实时的体验为消费者打造更便利的生活。与 CPU 服务器相比,搭载 NVIDIA A2 Tensor Core GPU 的边缘和入门级服务器可提供高达 20 倍的推理性能,可立即将服务器升级到能处理现代 AI 的水平。
单卡 NVIDIA A2 Tensor Core GPU 对比双路至强金牌 6330N CPU
系统配置:[CPU:HPE DL380 Gen10 Plus,双路至强金牌 6330N @2.2GHz,512GB DDR4]
自然语言处理:BERT-Large(seq-len:384,SQuAD:v1.1)| TensorRT 8.2,精度: INT8, BS:1 (GPU) | OpenVino 2021.4,精度: INT8, BS:1 (CPU)
文本转语音:Tacotron2 + Waveglow E2E 通道(输入长度:128)| PyTorch 1.9,精度: FP16, BS:1 (GPU) | PyTorch 1.9,精度: FP32, BS:1 (CPU)
计算机视觉:EfficientDet-D0(COCO,512x512)| TensorRT 8.2,精度: INT8, BS:8 (GPU) (GPU) | OpenVINO 2021.4,精度: INT8, BS:8 (CPU)
在智能边缘实现更高的 IVA 性能
在智慧城市、制造和零售等智能边缘用例中,搭载 NVIDIA A2 GPU 的服务器最高可将性能提升 1.3 倍。与前几代 GPU 相比,运行 IVA 工作负载的 NVIDIA A2 GPU 最高可将性价比和能效分别提升 1.6 倍和 10%,从而改善部署效率。
IVA 性能(以 NVIDIA T4 为标准)
系统配置:[Supermicro SYS-1029GQ-TRT,双路至强金牌 6240 处理器 @2.6GHz,512GB DDR4,1 个 NVIDIA A2 或 1 个 NVIDIA T4] | 使用 Deepstream 5.1 测量的性能。网络:ShuffleNet-v2 (224x224)、MobileNet-v2 (224x224)。 | 流水线通过视频截取和解码、预处理、批处理、推理和后处理来代表端到端性能。
系统配置:[Supermicro SYS-1029GQ-TRT,双路至强金牌 6240 处理器 @2.6GHz,512GB DDR4,1 个 NVIDIA A2 或 1 个 NVIDIA T4] | 使用 Deepstream 5.1 测量的性能。网络:ShuffleNet-v2 (224x224)、MobileNet-v2 (224x224)。 | 流水线通过视频截取和解码、预处理、批处理、推理和后处理来代表端到端性能。
针对服务器进行优化
针对 5G 边缘和工业环境这样空间和散热要求受限制的入门级服务器,NVIDIA A2 为其推理工作负载和部署进行了优化。A2 提供了在低功耗范围内运行的半高外形,从 60 瓦到 40 瓦的 TDP,使其成为众多服务器的理想选择。
更低的功耗和可配置的 TDP
技术规格
1 采用稀疏技术
2 将在后续 vGPU 版本中支持