只要3千(美元),顶级GPU可扩展的深度学习计算机抱回家

如果你曾经用过,或是打算在训练机器学习任务时使用aws/azure/gcloud,你就知道昂贵的gpu价格有多高。如果经常开关机器,会对正在进行的任务有很大的干扰。原文作者jeff chen有一种更好的方法:搭建自己的深度学习计算机。它比上述方法便宜10倍,而且使用方便。下面就让我们仔细分析一下。
这是深度学习计算机系列的第一篇(共有三篇)。第二部分将讲述“如何搭建自己的计算机”,第三部分是“如何评估性能”。
自制深度学习计算机的内部
只要3千(美元),顶级gpu可扩展的深度学习计算机抱回家
我自己花3千美元搭建的机器配置如下所示,其中有一个1080 ti gpu、一个12核的cpu,一个64g的ram和1 tb m.2 ssd。除此之外你还可以再加三个gpu。
价格对比
假设这台只有一个gpu的机器在未来三年不会折旧,下表显示,如果你至少用了一年后,它会便宜10倍,其中包括电费。亚马逊的aws会给予长期使用者优惠,如果你买了好几年的aws服务,也许能便宜4—6倍,但仍然是一笔不小的费用。计算之后我们发现,有四个gpu的机器版本能在一年内便宜21倍!
自己打造的计算机和aws的费用对比。根据不同的使用需求,一个gpu的版本可以便宜4—10倍,而四个gpu的版本可以便宜9—21倍。aws全年订阅可享受65折优惠,三年可享受4折优惠。假设电费为0.2美元/千瓦时,一个gpu一小时消耗1kw的电,四个gpu一小时消耗2kw。额外加入的gpu按700美元算,不加折旧率。
但是这样也有一些缺点,例如下载速度会变慢,因为这并不在主干网上,静态ip需要远程接入,可能几年之后你想更新gpu,即使这样,省下的花费也很值得。
如果你想在深度学习计算机上运用2080ti,它会贵一点,但仍然是划算的。
云gpu每小时3美元,不用的时候也得交钱
亚马逊的aws ec2的gpu费用为每小时3美元,或者一个月大约2100美元。在斯坦福,我用它研究我的语义分割项目,最终账单为1000美元。我还在另一个项目上试过谷歌云,最终花了1800美元,这还是我非常节约地在用,每次结束时都会关掉机器。但还是肉疼啊!
即使关上了机器,你仍需要每月为机器支付0.1美元/gb的存储费用,所以我每月在里面充100美元,防止数据丢失。
几个月就回本
如果自己搭建了3千美元、含有一个gpu机器,如果经常使用,两个月后就会收支平衡。更不用提两个月后它还没有折损。所以权衡下来,还是四个gpu的版本更实惠,它不到一个月就能收回成本。
你的gpu性能和aws不分上下
700美元的英伟达1080 ti的速度就比英伟达的v100 云gpu(使用新一代volta技术)少了10%,这是因为云gpu在实例和gpu之间的io很慢,所以即使是这样,v100在理论上也会比现实中快1.5—2倍。由于你用的是m.2 ssd,io在自己的电脑上就会非常快。
v100的显存为16gb,而1080 ti是11gb。但是如果能把batch的尺寸调小一些,模型就更高效,11gb也是可以的。
与在线租上一代英伟达k80相比,1080 ti的训练速度比它快了4倍。我在基准测试中验证了它的速度快了3—4倍。k80的显存只有12gb,相对于1080ti的11gb,优势并不大。
aws之所以这么贵是因为亚马逊强制使用更贵的gpu
数据中心之所以这么贵的原因:他们并不使用geforce 1080 ti。英伟达禁止在数据中心使用geforce和titan卡,所以亚马逊和其他供应商只能用8500美元的gpu,所以收取的租金就很贵。
自己搭建比购买要好
同样,你还要考虑在哪里购买计算机或搭建自己的机器,搭建机器最难的部分就是找到适合机器学习的部分,确保能正常工作。而组装过程就更容易了,几个小时就能搞定。
在价格下跌时出手
每年有新产品发布时,上一代硬件总会降价。例如,当amd推出threadripper 2 cpu时,1920x处理器的价格从800美元直接腰斩到400美元。所以,可以选择这个时候购买需要的硬件。
搭建能提供更多选择,可以扩展
我看了一些现成的机器,其中一些无法用四个gpu,或者不能进行优化。还有一些cpu没有36+的pcle线程,或者主板不能插四个gpu,或者功率不够1400w、cpu低于八核等等问题。在下一篇文章中,我会讨论不同部分的选择有哪些细微差别。
设计时还可考虑一些搭配美感,我个人觉得有些机箱很丑……不仅要降低噪音,还要支持机器学习。sata3 ssd的读写速度为每秒600mb,而m.2 pcie ssd快了5倍,并达到了每秒3.4gb。
结语
在下一篇文章中,我会讨论如何为搭建机器选择组件,请继续关注!
faq
为什么深度学习计算机的可扩展性很重要?
如果你不知道需要多少计算力,最好的方法就是搭建一个只有一个gpu的机器,然后逐渐增加。
为什么选择有四个gpu的机器?
如果你能承担所需费用,可以根据需要随意增减gpu。我只是找到了合适的主板,可以支持四个gpu。
网友讨论
自己动手丰衣足食,还能省下一大笔钱,听上去不错,不过这种方法有无劣势呢?
网友_untom_表示:
“目前来说,自己买机器确实便宜,这是毋庸置疑的。但是aws解决的问题是大规模的。如果你所在的领域需要数十个、甚至上百个机器,而不是四台机器,那么你只能选择aws或其他云服务,除非你能自己买400个gpu。”
另外网友spaturno说:
“如果你现在每六个月就要用到100倍的计算力,持续一周,哪种更划算?”
网友currentaccount123:
“两种方法我都买不起。”(手动再见)

2020年,磷酸铁锂电池的转折
传欧菲光华南厂即将出售给立讯精密
区块链技术用在汽车共享上的好处有哪些
点亮1亿智能照明灯?无限亮好大的口气!
中国科创威胁到美国领先地位
只要3千(美元),顶级GPU可扩展的深度学习计算机抱回家
《僵尸世界大战》尸潮大军来袭 华硕X570主板带你御敌
凌阳30万重金奖励全国大学生电子竞赛的部分获奖参赛队
挑战英特尔霸主地位 AMD推出Naples欲抢夺服务器芯片市场
贸泽备货GaN Systems的新款GS-EVB-AUD-xx1-GS 音频评估板
最小的燃料电池
一种小型平面变压器/电感器的设计详细介绍
改变我工作方式的Git小技巧
2018年植保无人机保持着蓬勃之势,大疆行业领头地位依旧稳固
为什么现在越来越多的企业选择PCBA包工包料呢?
旗舰级云自动化平台Navops Launch 2.0全面上市
鸿蒙进度问题才是行内人士关注的焦点
医疗电源模块的选择与应用
eMMC的结构和电源配置
丰田和宝马合作研发燃料电池