机器学习算法那家强因子分解机（FM算法）工业落地能力最强

文 | 石塔西
源 | 夕小瑶的卖萌屋
尽管bert为代表的预训练模型大肆流行，但是身处工业界才会知道它落地有多难，尤其是qps动辄几百的在线推荐、搜索系统，哪怕在大厂也很难在线上系统见到它们。
今天就想反其道而行之，谈谈工业界搜索、推荐、广告这类核心场景中落地能力最强的算法（之一）：因子分解机（fm）。我不敢说它是最简单的（fm的确很简单），但是作为一个推荐算法调参工程师，掌握fm一定是性价比最高的。我推崇fm算法的原因，有以下三点：
功能齐全
众所周知，推荐算法有三个应用领域：召回、粗排、精排。推荐算法千千万，但是有的算法只能用于召回，有的算法只能用于排序。像fm这样实现三个领域全覆盖的多面手，目前为止，孤陋寡闻的我尚不知道有第二个。但是需要强调的是，我们不能只训练一个fm排序模型，然后直接拿这个排序模型用于召回。尽管都是基于fm算法，但是fm召回与排序，有以下不同：
使用的特征不同
fm召回，由于未来要依赖faiss进行线上检索，所以不能使用user与doc的交叉特征。只有如此，我们才能独立计算user embedding与doc embedding
fm排序，则没有这方面的限制，可以使用user与doc的交叉特征。是的，你没看错。因为fm所实现自动二阶交叉，仅能代表“共现”。但是user与doc之间还有其他形式的交叉，比如user tag与doc tag之间的重合度，喂入这样的交叉，对于排序性能提升，仍然有很大帮助。
使用的样本不同
训练fm做排序时，必须使用“曝光未点击”这样的“真负”样本。
训练fm做召回时，起码不能只使用“曝光未点击”做负样本。大部分的负样本必须通过随机采样得到。个中原因见我的文章《负样本为王：评facebook的向量化召回算法》。
使用的loss不同
fm排序时，由于负样本是真实的，可以采用ctr预估那样的point-wise loss
fm召回时，由于负样本是随机采样得到的，存在一定的噪声，最好采用bpr, hinge这样的pair-wise loss。
性能优异
推荐系统的两大永恒主题，“记忆”与“扩展”，fm也能实现全覆盖。
fm存在一阶项，实际就是lr，能够“记忆”高频、常见模式
fm存在feature embedding。如我在《无中生有：论推荐算法中的embedding思想》据说，embedding是提升推荐算法“扩展性”的法宝。fm通过feature embedding，能够自动挖掘低频、长尾模式。在这一点上，基于embedding的二阶交叉，并不比dnn的高阶交叉，逊色多少。
便于上线
现在深度学习是推荐领域的宠儿，lr/fm/gbdt这样的传统机器学习算法，不招人待见。
dnn虽然性能优异，但是它有一个致命缺点，就是上线困难。训练的时候，各位调参侠，把各种酷炫的结构，什么attention, transformer, capsule，能加上的都给它加上，看着离线指标一路上涨，心里和脸上都乐开了花，却全然无视旁边的后端工程师恨得咬紧了牙根。模型越复杂，离线和线上指标未必就更好，但是线上的时间开销肯定会增加，轻则影响算法与后端的同事关系（打工人何苦为难打工人），重则你那离线指标完美的模型压根没有上线的机会。虽说，目前已经有tf serving这样的线上serving框架，但是它也不是开箱即用的，也需要一系列的性能调优，才能满足线上的实时性要求。
所以，如果你身处一个小团队，后端工程人员的技术能力不强，dnn的线上实时预测，就会成为一个难题，这个时候，fm这样的传统机器学习算法，就凸显出其优势。
fm排序，虽然理论上需要所有特征进行二阶交叉，但是通过公式化简，可以在 o(n)的时间复杂度下完成。n是样本中非零的特征数目，由于推荐系统中的特征非常稀疏，所以预测速度是非常快的。
召回，由于候选集巨大，对于实时性的要求更高。很多基于dnn的召回算法，由于无法满足线上实时生成user embedding的需求，只能退而离线生成user embedding ，对于用户实时兴趣的捕捉大打折扣。fm召回，这时就显现其巨大的优势。事先把doc embedding计算好，存入faiss建立索引，user embedding只需要把一系列的feature embedding相加就可以得到，再去faiss中进行top-k近邻搜索。fm召回，可以实现基于用户最新的实时兴趣，从千万量级候选doc中完成实时召回。
总结与参考
由于以上优点，我心目中，将fm视为推荐、搜索领域的瑞士军刀。风头上虽然不及dnn那么抢眼，但是论在推荐系统中发挥的作用，丝毫不比dnn逊色，有时还能更胜一筹。fm有如此众多的优点，优秀的调参侠+打工人，还等什么，还不赶快学起来。想迅速掌握fm，我推荐如下参考文献：
掌握fm原理，推荐读美团的博客《深入ffm原理与实践》。ffm的部分可以忽略，在我看来，ffm更像是为了kaggle专门训练的比赛型选手，损失了fm的很多优点。这就好比，奥运会上的射击冠军，未必能够胜任当狙击手一样。
fm用于召回，推荐读《推荐系统召回四模型之：全能的fm模型》。注意，如我所述，fm虽然万能，但是fm排序与fm召回，在特征、样本、loss都存在不同，不可能训练一个fm排序就能直接拿来做召回。这一点，《全能fm》一文没有提到，需要读者特别注意。
如果想亲手实践，可以尝试alphafm。该项目只不过是作者八小时之外的课外作品，却被很多公司拿来投入线上实际生产环境，足见该项目性能之优异和作者功力之深厚，令人佩服。强烈建议不满足只当“调参侠”的同学，通读一遍alphafm的源代码，一定收获满满。
[1] https://zhuanlan.zhihu.com/p/165064102
[2] https://zhuanlan.zhihu.com/p/320196402
[3] https://link.zhihu.com/?target=https%3a//tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html
[4] https://zhuanlan.zhihu.com/p/58160982
[5] https://link.zhihu.com/?target=https%3a//github.com/castellanzhang/alphafm
原文标题：谈谈工业界落地能力最强的机器学习算法
文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

传统数据存储管理系统和大数据存储管理系统区别
区块链互操作性的三个类别
选用合适的导热材料
用旧电池换绿色盆栽
使用NI LabVIEW FPGA创建高速控制系统以用于MEMS微快门测试
机器学习算法那家强因子分解机（FM算法）工业落地能力最强
果粉福音，iOS10.3终于来了，虽为测试版，但惊喜不断！
物联网中的网关是什么，它有什么作用
5G的概念_5G时代将会带来什么变革
西门子推出十字对开门冰箱KM49EA95TI，容量大，价格非常平民
祝贺同星获得第九届中国创新创业大赛产业技术创新专业赛（工业机器人技术专场）全国二等奖
安防监控视频结构化那些事儿
三种耦合方式下放大电路交流负载线的特性
如何保证专用企业网络的稳定？
万达告别房地产！楼市变天！千亿万达告别房地产！马云重磅入局租房市场！地产大佬们该醒醒了！
食品中重金属快速检测设备的功能特点是什么
NVIDIA Triton 系列文章（4）：创建模型仓
钟产生芯片GM5351A 精准可靠的本土时钟产生芯片解决方案
2019“黑锋”创造了无人机竞速比赛的多项奇迹
实战用华硕AX86U解决家庭网络卡顿痛点

机器学习算法那家强 因子分解机（FM算法）工业落地能力最强

机器学习算法那家强因子分解机（FM算法）工业落地能力最强