NVIDIA DLA(Deep Learning Accelerator–深度学习加速器)
GPU graphics processing unit
CPU缓存(Cache Memoney)位于CPU与内存之间的临时存储器,它的容量比内存小但交换速度快
ARM:是Advanced RISC Machines Limited公司推出的一种RISC处理器体系结构即相关技术
Soc :System on Chip
图一
sy: 内核CPU使用率
us: 用户CPU使用率
id: 空闲CPU使用率
total: 总内存
free: 空闲内存
used: 已使用内存
buff/cache: 缓存内存,富余内存
load average: 0.09, 0.05, 0.05 负载不要超过CPU 核数 * CPU个数, 三个数字平均值 1分钟,5分钟,15分钟,一般只看第1个值
注释:cpu中cpu能够并行处理的事务的数量应该是cpu个数*cpu核数
图二
按顺序运行以下3个步骤,压测DLA1+2
1. /usr/src/tensorrt/bin/trtexec --onnx=/usr/src/tensorrt/data/resnet50/ResNet50.onnx --useDLACore=0 --allowGPUFallback --explicitBatch --int8 --saveEngine=resnet50.plan
2. /usr/src/tensorrt/bin/trtexec --useDLACore=0 --allowGPUFallback --explicitBatch --loadEngine=resnet50.plan --iterations=60000
参数:--iterations=【数字】,通过设置更大的数字可以延长测试时间。
3. /usr/src/tensorrt/bin/trtexec --useDLACore=1 --allowGPUFallback --explicitBatch --loadEngine=resnet50.plan --iterations=60000
参数:--iterations=【数字】,通过设置更大的数字可以延长测试时间。
图三
/usr/src/tensorrt/bin/trtexec --onnx=/usr/src/tensorrt/data/resnet50/ResNet50.onnx --explicitBatch --avgRuns=300
图四
stress-ng -c 11 -l 80 --timeout 1h
图五
memtester 20G 1
图六
留言与评论(共有 0 条评论) “” |