关于Pre-trained模型加速模型学习的建议

首先，为什么要调整模型？
像卷积神经网络( cnn )这样的深度学习模型具有大量的参数；一般称之为超参数，因为它们不是固定值，需要迭代优化。通常可以通过网格搜索的方法来查找这些超参数的最佳值，但需要大量硬件和时间开销。那么，一个真正的数据科学家是否满足于只是猜测这些超参数呢？答案当然是否定的。
改进模型的最佳方法之一是，基于专业团队的设计和体系结构上来进行改进，但这些专业的知识往往需要对某一领域具有深入的了解，且通常需要有强大的硬件支持。一般这些专业的团队都喜欢把他们的训练好的模型（pre-trained model）开源出来，无偿提供给别人使用。基于这些pre-trained model来做研究和应用，可以省去大量的时间和资源。
深度学习技巧
这里分享几种方法，如何基于预训练好的模型来降低深度学习模型训练时间，提升模型的准确性:
1、选择最适用于做pre-trained模型的网络结构：了解迁移学习（transfer learning）的优点，或者一些强大的cnn网络结构。主要考虑，有些领域之间看起来不明显，但领域之间却共享一些具有潜在特性（share potential latent features）。
2、使用较小的学习率：由于预先训练的权重（weights）通常比随机初始化的权重更好，因此调整需要更精细！如何选择主要取决于training landscape和学习的进展情况，但需要仔细检查每个epoch的training errors，分析如何能让模型达到收敛。
3、使用dropout：就像ridge和lasso正则化技术对于回归模型一样，对于所有模型都存在需要优化的参数alpha或dropout。这是一个超参数，取决于需要解决的具体问题，只能通过不停实验的方法得到。先对超参数做比较大的调整（gridsearch时选择一个比较大的变化范围），比如np. logspace()，然后像上面的一样减小学习速率。循环上述过程直到找到最优值。
4、限制权重大小：可以限制某些层的权重的最大范数(绝对值)，可以提升模型泛化的能力。
5、不要改变第一层网络的权值：神经网络的第一个隐含层倾向于捕捉通用和可解释（universal and interpretable）的特征，如形状、曲线或交叉（shapes、curves and interactions），这些特征通常与跨域（domains）相关。应该经常把这些特征放到一边，把重点放在进一步优化meta latent level在水平上。这可能意味需要添加隐藏层！
6、修改输出层：把模型参数替换成适用于要解决新领域的新的激活函数和输出大小。但是，不要把自己局限于最明显的解决方案中。比如，尽管mnist只需要10个输出类，但这些数字有共同的变化，允许有12 - 16个类可能会更好地解决这些问题，并提高模型性能！
keras中的技巧
如何在keras mnist中修改dropout和限制权重的大小：
dropout最佳实践
1、使用20–50 %的，比较小的dropout，建议20 %的输入（inputs）。值取得太小，不起作用；值取得太大，不好收敛。
2、在输入层和隐藏层上使用dropout。这一方法已被证明可以提高深入学习的效果。
3、使用较大的（带衰减率）学习速率（learning rate with decay），以及较大的动量（momentum）。
4、限制模型的权重！大的学习速率容易导致梯度爆炸。通过对网络权值施加约束(如最大范数正则化（max-norm regularization），其大小为5 )可以改善结果。
5、使用更大的网络。在较大的网络上使用dropout，可能会获得更好的性能，从而使模型有更多的机会学习独立表示（independent representations）。
给一个例子，如何在keras中修改mnist模型最后一层，输出14个类别：
如何在网络的最初五层中固定网络的权值（freeze weights）：
此外，可以将该层的学习速率设置为零，或者使用参数的自适应学习算法，如adadelta或adam。这有点复杂，在caffe等其他平台上可以更好地实现。
预训练模型库
keras
kaggle list https://www.kaggle.com/gaborfodor/keras-pretrained-models
keras application：https://keras.io/applications/
opencv example：https://www.learnopencv.com/keras-tutorial-fine-tuning-using-pre-trained-models/
tensorflow
vgg16：https://github.com/ry/tensorflow-vgg16
inception v3：https://github.com/tensorflow/models/blob/master/inception
resnet：https://github.com/ry/tensorflow-resnet
torch
loadcaie：https://github.com/szagoruyko/loadcaffe
caffe
model zoo：https://github.com/bvlc/caffe/wiki/model-zoo
tensorboard的graph的可视化
了解模型的整体结构通常很重要。下面给出一个例子，如何直接使用python可视化训练的模型：
http://nbviewer.jupyter.org/github/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/deepdream/deepdream.ipynb

原文标题：基于pre-trained模型加速模型学习的6点建议
文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

风电场上的无线测温的操控及无线测温技术
大线径绕线电感在使用中发热大会影响使用吗
iPhone15系列国行售价曝光
联智通达科技LX-R3S嵌入式主板介绍
华为与拓维信息携手推进OpenHarmony在公路领域生态建设
关于Pre-trained模型加速模型学习的建议
Altera宣布启动其设计解决方案网路，加速客户FPGA、SoC等产品的创新
什么是编码器呢？如何测量旋转量和旋转速度？
怎么知道手表中框防水性能是否符合要求
工业物联网的构建需要注意什么问题
华为鲁勇:5G建设要适度超前,业务创新不是简单复制
去中心化的预言机网络Chainlink将彻底颠覆各个行业
创新设计小Tips：不用电解电容也能构建LED驱动电路
Flex电源模块推出面向工业应用的微型DC-DC转换器
智能化农业灌溉及环境监测一体化物联网系统
高压水阻柜为何会出现汽化现象?
瑞萨又不玩了，宣布退出低电压MOSFET市场
区块链对于老百姓的理财有什么影响
工厂生产车间对讲广播系统
iPhone 12 mini或将采用残缺版A 14处理器，去掉耳机充电头设备