GPU云服务器深度学习性能模子初探 - WESWOO—跨境电商独立站专家，提供shopify liquid专业开发方案

Planning your online business goals with a specials

Kristin Weswoo

Aug 30, 2023

本文凭证实测数据劈头探讨了在弹性GPU云服务器上深度学习的性能模子，希望可以辅助人人科学选择GPU实例的规格。

一、靠山得益于GPU壮大的盘算能力，深度学习近年来在图像处置、语音识别、自然语言处置等领域取得了重大突GPU服务器险些成了深度学习加速的标配。若何提供一个合适的实例规格，从而以最高的性价比提供应深度学习客户，是我们需要思量的一个问题，本文试图从CPU、内存、磁盘这三个角度对单机GPU云服务器的深度学习训练和展望的性能模子做了劈头的剖析，希望能对实例规格的选择提供一个科学的设计模子。下面是我们使用主流的学习框架在NVIDIA GPU上做的一些深度学习的测试。涉及NVCaffe、MXNet主流深度学习框架，测试了多个经典CNN网络在图像分类领域的训练和推理以及RNN网络在自然语言处置领域的训练。二、训练测试我们使用NVCaffe、MXNet主流深度学习框架测试了图像分类领域和自然语言处置领域的训练模子。 2.1 图像分类我们使用NVCaffe、MXNet测试了图像分类领域的CNN网络的单GPU模子训练。 NVCaffe和MXNet测试使用ImageNet ILSVRC2012数据集，训练图片1281167张，包罗1000个分类，每个分类包罗1000张左右的图片。 2.1.1 CPU+Memory 2.1.1.1 NVCaffe NVCaffe是NVIDIA基于BVLC-Caffe针对NVIDIA GPU尤其是多GPU加速的开源深度学习框架。LMDB名堂的ImageNet训练集巨细为240GB ，验证集巨细为9.4GB。我们使用NVcaffe对AlexNet、GoogLeNet、ResNet50、Vgg16四种经典卷积神经网络做了图像分类义务的模子训练测试。划分对比了差异vCPU和Memory设置下的训练性能。性能数据单元是Images/Second(每秒处置的图像张数)。图中标注为10000指的是迭代次数10000次，其它都是测试迭代次数为1000次。 2.1.1.2 MXNet MXNet的数据集使用RecordIO名堂，ImageNet训练集 93GB ，验证集 3.7GB。我们使用网络Inception-v3(GoogLeNet的升级版)做了图像分类的训练测试。划分对比了差异vCPU和Memory设置下的训练性能。数据单元是Samples/Second(每秒处置的图像张数)。 2.1.2 磁盘IO 我们在阿里云GN5(P100)实例上使用NVCaffe测试了GoogLeNet网络模子在NVMe SSD内陆盘、SSD云盘和高效云盘上的训练性能，测试效果如下(性能数据单元是Images/Second)： 2.2 自然语言处置我们使用MXNet测试了RNN网络的LSTM模子的训练，使用PennTreeBank自然语言数据集。PennTreeBank数据集的文本语料库包罗近100万个单词，单词表被限制在10000个单词。划分对比了差异vCPU和Memory设置下的训练性能：三、推理测试 3.1 图像分类我们使用NVCaffe测试了图像分类领域的CNN网络的模子推理。测试使用ImageNet ILSVRC2012数据集，验证测试图片 50000张。 3.1.1 CPU+Memory 我们使用NVcaffe对AlexNet、GoogLeNet、ResNet50、VGG16四种经典卷积神经网络做了图像分类的推理测试。划分对比了差异vCPU和Memory设置下的训练性能。数据单元是Images/Second(每秒处置的图像张数)。 3.1.2 磁盘IO 我们使用NVCaffe测试了GoogLeNet网络在NVMe SSD内陆盘、SSD云盘和高效云盘上的图像分类推理性能，测试效果如下(数据单元是Images/Second)：四、数据预处置测试在训练模子之前，往往要对训练数据集做数据预处置，统一数据名堂，并做一定的归一化处置。我们使用NVCaffe对ImageNet ILSVRC2012数据集做了数据预处置的测试，划分对比了NVMe SSD内陆盘、SSD云盘和高效云盘的数据预处置时间，数据单元是秒，数据如下：五、数据剖析 5.1 训练 5.1.1 图像分类从NVCaffe和MXNet的测试效果来看，图像分类场景单纯的训练阶段对CPU要求不高，单GPU 只需要4vCPU就可以。而内存需求则取决于深度学习框架、神经网络类型和训练数据集的巨细：测试中发现NVCaffe随着迭代次数的增多，内存是不停增大的，然则内存需求增大到一定水平，对性能就不会有什么提升了，其中NVCaffe AlexNet网络的训练，相比其它网络对于内存的消耗要大得多。相比之下MXNet的内存占用则要小的多(这也是MXNet的一大优势)，93G预处置过的训练数据集训练历程中内存占用不到5G。对于磁盘IO性能，测试显示训练阶段NVMe SSD内陆盘、SSD云盘性能基本靠近，高效云盘上的性能略差1%。因此训练阶段对IO性能的要求不高。 5.1.2 自然语言处置从MXNet的测试效果来看，对于PennTreeBank这样规模的数据集，2vCPU 1GB Mem就能知足训练需求。由于自然语言处置的原始数据不像图像分类一样是大量高清图片，自然语言处置的原始数据以文本文件为主，因此自然语言处置对内存和显存的要求都不高，从我们的测试来看，4vCPU 30GB 1GPU规格基本知足训练阶段需求。 5.2 推理 5.2.1 图像分类从NVCaffe的图像分类推理测试来看，除AlexNet 2vCPU刚刚够用外，其它网络2vCPU对性能没有影响，而9.4GB的验证数据集推理历程中内存占用也许是7GB左右，因此对大部门模子来看，2vCPU 30GB 1GPU规格基本知足图像分类推理的性能需求。对于磁盘IO性能，推理性能NVMe SSD内陆盘、SSD云盘很靠近，但高效云盘差15%。因此推理阶段至少应该使用SSD云盘保证性能。 5.2.2 自然语言处置对于自然语言处置，参考训练性能需求，我们应该可以推测2vCPU 30GB 1GPU规格应该也能知足需求。 5.3 数据预处置从NVCaffe对ImageNet ILSVRC2012数据集做数据预处置的测试来看，数据预处置阶段是IO麋集型，NVMe SSD内陆盘比SSD云盘快25%，而SSD云盘比高效云盘快10%。六、总结深度学习框架众多，神经网络类型也是种类繁多，我们选取了主流的框架和神经网络类型，实验对单机GPU云服务器的深度学习性能模子做了劈头的剖析，结论是：深度学习训练阶段是GPU运算麋集型，对于CPU占用不大，而内存的需求取决于深度学习框架、神经网络类型和训练数据集的巨细;对磁盘IO性能不敏感，云盘基本能够知足需求。深度学习推理阶段对于CPU的占用更小，然则对于磁盘IO性能相对较敏感，由于推理阶段对于延迟有一定的要求，更高的磁盘IO性能对于降低数据读取的延时进而降低整体延迟有很大的辅助。深度学习数据预处置阶段是IO麋集型阶段，更高的磁盘IO性能能够大大缩短数据预处置的时间。

Nginx、Apache的工作原理以及Nginx为何比Apache高效

Manage your online banking

Morbi lorem proin morbi tempor risus. Nisl lobortis diam id faucibus pretium vitae suspendisse sed accumsan. Sodales morbi tristique elit cursus gravida. Ullamcorper commodo eget pulvinar pretium. Condimentum rhoncus commodo amet nec auctor nibh vel mi blandit.

Neque ultrices nunc condimentum morbi risus tincidunt. Vel arcu lacus non ornare. Porttitor in rhoncus magna augue adipiscing.

Manage your time so you’ll get more done in less time
Cut expenses without sacrificing quality
Attract and retain quality, high-paying customers

GPU云服务器深度学习性能模子初探
by weswoo

Planning your online business goals with a specials

Manage your online banking

开始您的独立站品牌出海

GPU云服务器深度学习性能模子初探 by weswoo

Planning your online business goals with a specials

Manage your online banking

开始您的独立站品牌出海

GPU云服务器深度学习性能模子初探
by weswoo