首页 科技正文

嘉兴考试培训网:工程之道:旷视天元框架亚线性显存优化手艺剖析

Sunbet 科技 2020-05-13 14:50:49 4 0

机械之心公布

旷视研究院

基于梯度检查点的亚线性显存优化方式 [1] 由于较高的盘算/显存性价比受到关注。MegEngine 经由工程扩展和优化,发展出一套行之有用的加强版亚线性显存优化手艺,既可在盘算存储资源受限的条件下,轻松训练更深的模子,又可使用更大 batch size,进一步提升模子性能,稳固 batchwise 算子。使用 MegEngine 训练 ResNet18/ResNet50,显存占用划分最高降低 23%/40%;在更大的 Bert 模子上,降幅更是高达 75%,而分外的盘算开销险些稳定。


深度神经网络训练是一件庞大的事情,它体现为模子的时间庞大度和空间庞大度,划分对应着盘算和内存;而训练时内存占用问题是漂浮在深度学习社区上空的一块乌云,若何拨云见日,最大降低神经网络训练的内存占用,是一个绕不开的课题。
GPU 显卡等硬件为深度学习提供了必须的算力,但硬件自身有限的存储,限制了可训练模子的尺寸,尤其是大型深度网络,由此诞生出一系列相关手艺,好比亚线性显存优化、梯度累加、夹杂精度训练、分布式训练,举行 GPU 显存优化。
其中,亚线性显存优化方式 [1] 由于较高的盘算/显存性价比备受关注;旷视基于此,经由工程扩展和优化,发展出加强版的 MegEngine 亚线性显存优化手艺,轻松把大模子甚至超大模子装进显存,也可以毫无压力使用大 batch 训练模子。
这里将围绕着深度学习框架 MegEngine 亚线性显存优化手艺的工程实现和实验数据,从手艺靠山、原理、使用、展望等多个方面举行首次深入解读。
靠山
在深度学习领域中,随着训练数据的增添,需要响应增添模子的尺寸和庞大度,举行模子「扩容」;而 ResNet [2] 等手艺的出现在算法层面扫清了训练深度模子的障碍。不停增添的数据和连续创新的算法给深度学习框架带来了新挑战,能否在模子训练时有用行使有限的盘算存储资源,尤其是削减 GPU 显存占用,是评估深度学习框架性能的主要指标。
在盘算存储资源一定的情况下,深度学习框架有几种降低显存占用的常用方式,其示例如下:

转载说明:本文转载自互联网,若有侵略你的利益,请发邮件至本站邮箱,本站24小时内将予删除。,

Sunbet

Sunbet www.817603.com Sunbet(www.sunbet.red)是进入Sunbet的官方站点。Sunbet开放Sunbet会员开户网址、Sunbet代理开户、Sunbet手机版下载、Sunbet电脑客户端下载等业务。

版权声明

本文仅代表作者观点,
不代表本站Sunbet的立场。
本文系作者授权发表,未经许可,不得转载。

发表评论

评论列表(0人评论 , 4人围观)
☹还没有评论,来说两句吧...