经常会收到一些比较简要的技术咨询,描述了是什么任务,发现用bert粗暴精调效果不好之后,问我有什么办法可以提升。
在面对第一把梭就失败时,我通常是这么判断的:
如果效果差的很离谱,比如二分类准确率在60%以下,那大概率是模型有问题,开始用小数据集debug 如果有点效果,但一言难尽,那估计是数据有问题,要不然噪声多,要不然是真的难,可以自己看一下训练集,如果人看完后在几秒内都不能给出答案,就别太指望模型可以做好 在第一把效果还行的情况下,推荐尝试以下策略:
in-domain further pre-train:利用同领域下的无监督数据继续mlm预训练,这个方法我真的百试不厌,一般用一两百万的数据就能提升1-2个点 within-task further pre-training:利用不同领域的同任务数据预先精调,选通用一些的一般也有提升 multi-task fine-tuning:利用不同任务预先精调 layer-wise decreasing layer rate:每层学到的知识都是不同的,前面几层会更通用,所以学的时候可以用小一点的学习率,防止灾难性遗忘 features from different layers:把不同层的输出集成起来,不过这个方法不一定有提升 长文本处理:截断或使用层次化编码 以上这些方法,都出自复旦邱锡鹏老师的《how to fine-tune bert for text classification?》,该文进行了各种详细的实验,得出了不少有用的结论,推荐大家去学习。即使有的方法在论文数据集中表现一般,在自己的数据上也可以尝试。
五分钟看完东风标致308S C-NCAP碰撞测试全过程
MSO2000B系列示波器的性能特点及应用范围
dfrobotESP8266 WiFi物联网开发板简介
神州云动:海信五期CRM启动采销财一体化平台深度应用
无线+蓝牙+双耳立体声,最方便的运动耳机理应如此
简述六种优雅的精调方法
GPS中频信号采集及分析系统设计知识分享
比亚迪半导体荣获2021年度最具影响力IC设计企业奖
富士康如何走好自己的工业互联网之路?
干货!一文读懂AI计算机视觉技术,“视觉五虎将”值得关注
购买笔记本注意事项!(谨防奸商!)
2018年度中国10项重大科学进展专家解读
随着新能源汽车的使用量越多 出现的问题也变得越来越多
热缩套管实际应用的绝缘效果怎么样
讲解PADS Layout相关文件输出
AutoScaling 弹性伸缩附加与分离RDS实例
高新区党工委副书记卢铁城一行赴芯进电子参观调研
功率电感器分别有哪两种额定电流?
是德科技半导体设计和测试北京实验室正式开放
电子产品为什么要使用导热材料,其原因为何