CVPR2019新作:一种基于视频流的自监督特征表达方法

本文为新栏目——将门好声音第5期。
作者是来自将门计算机视觉社群的群友、中科院计算技术研究所vipl课题组博士生——李勇。本文中,他将为大家介绍中科院计算所vipl组的cvpr2019新作:一种基于视频流的自监督特征表达方法,通过利用巧妙的自监督约束信号,得到提纯的面部动作特征用于微表情识别。
如果你也想与广大群友分享自己的研究工作、文章观点、出坑经验,随时与群主小姐姐联系!只要内容合适,我“门”送你头条出道!
著名心理学家paul ekman和研究伙伴w.v.friesen,通过对脸部肌肉动作与对应表情关系的研究,于1976年创制了“面部运动编码系统”,而利用微表情的“读心术”正是基于这一研究体系。由于该领域有限的数据集和高昂的标注成本,有监督学习的方法往往会导致模型过拟合。本文中,将为大家介绍中科院计算所vipl组的cvpr2019新作:作者提出了一种基于视频流的自监督特征表达方法,通过利用巧妙的自监督约束信号,得到提纯的面部动作特征用于微表情识别。
李勇,中国科学院计算技术研究所视觉信息处理与课题组博士研究生,导师为常虹副研究员以及山世光研究员,研究方向为开放场景下的人脸表情分析。在攻读博士学位期间,李勇在 cvpr, tip 等会议及期刊上发表过多篇学术论文,其已发表的会议文章均被录取为口头报告。此外,李勇获得acm multimedia 2017 亲属关系识别国际竞赛冠军。
论文信息:
yong li, jiabei zeng, shiguang shan, xilin chen. “self-supervised representation learning from videos for facial action unit detection”, cvpr 2019, pp. 10924-10933, long beach, california, usa, june 16-20, 2019.
论文链接:
http://openaccess.thecvf.com/content_cvpr_2019/papers/li_self-supervised_representation_learning_from_videos_for_facial_action_unit_detection_cvpr_2019_paper.pdf
一、研究背景
面部运动编码系统(facs,facial action coding system)从人脸解剖学的角度,定义了44个面部动作单元(action unit,简称au)用于描述人脸局部区域的肌肉运动。
图1. 面部动作单元示例
如图1所示,au9表示“皱鼻”,au12表示“嘴角拉伸”。各种动作单元之间可以自由组合,对应不同的表情。如“au4(降低眉毛)+au5(上眼睑上升)+au24(嘴唇相互按压)”这一组合对应“愤怒”这一情绪状态。
面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了au识别问题的研究进展,其原因在于不同的au分布在人脸的不同区域,表现为不同强度、不同尺度的细微变化。具体来说,为一分钟的人脸视频标注一个au,需要耗费一名au标注专家30分钟。目前学术界已发布的au数据集只包含了有限的采集对象,以及有限的人脸图像(如2017年cmu发布的gft数据集有96个人,约35,000张人脸图像)。
当前已有的工作多采用人脸区域分块、注意力机制等方法学习人脸局部区域的au特征,这类方法在训练阶段需要利用精确标注的au标签,由于目前业界发布的au数据集人数及图像总量不足,采用监督学习方法训练得到的模型往往呈现出在特定数据集上的过拟合现象,这无疑限制了其实际使用效果。
我们提出了一种能够在不依赖au标签的前提下,从人脸视频数据中自动学习au表征的方法(twin-cycle autoencoder,简称tcae)。tcae用于后续的au识别任务时,只需要利用训练数据训练一个分类器即可,显著减少了所需的训练数据,并提升了模型的泛化能力。
二、方法概述
如图2所示,该方法以两帧人脸图像(源图,目标图)之间的运动信息为监督信号,驱使模型提取出用于解码运动信息的图像特征。这个方法的理念在于,模型只有感知并理解了人脸图像中各个面部动作单元的状态(au是否激活),才能够将源图的面部动作转换为目标图像的面部动作。
图2. tcae 设计图
考虑到两帧人脸图像之间的运动信息包含了au以及头部姿态的运动分量,tcae通过利用巧妙的自监督约束信号,使得模型能够分离出au变化引起的运动分量,以及头部姿态变化引起的运动分量,从而得到提纯的au特征。与其他监督方法,tcae可以利用大量的无标注人脸视频,这类视频是海量的。与半监督或者弱监督方法相比, tcae采用了自监督信号进行模型训练,避免了对数据或者标签的分布做出任何假设。
三、算法详解
如图3所示,tcae包含四个阶段,分别是特征解耦,图像重建,au循环变换,以及姿态(pose)循环变换。
图3. tcae的四个阶段示意图,四个阶段分别是特征解耦,图像重建,au循环变换,以及姿态循环变换。
给定两张人脸图像,tcae在特征解耦阶段使用编码器得到每张图像的au特征以及姿态特征,随后,两帧图像的au特征被送入au解码器,用于解码出au位移场;两帧图像的姿态特征被送入姿态解码器,用于解码出姿态位移场。考虑到au的变化是稀疏的,且au位移场的数值与姿态位移场相比更小,我们为au位移场添加了l1约束:
在目标图重建阶段,tcae通过线性组合au位移场和pose位移场,得到源图和目标图之间的整体位移场,进行图像重建:
在au循环变换阶段,仅变换了au的人脸图像被重新变换到源图,由此我们获得一个像素层面的一致性约束:
另外,对于变换了au的人脸图像,其au特征应该接近目标图像的au特征,其姿态特征应该和源图的姿态特征一致,由此我们获得一个特征层面的一致性约束:
同理,在pose循环变化阶段,我们同样可以获得类似的像素及特征层面的一致性约束:
四、实验结果
多个数据集上的实验证明,tcae能够成功提取出人脸图像的au及姿态特征。如图4所示,给定两张人脸图像(源图,目标图),tcae能够仅仅改变源图的au或者头部姿态。可视化的au位移场呈现出运动方向的多样性。
图4. 可视化结果在au识别任务上,tcae取得了与监督方法可比的性能。
表1及表2的结果表明,tcae明显优于其他自监督方法。在gft数据集(该数据集存在大范围的头部姿态变化)上,tcae的性能优于其他监督方法。
表1. bp4d及disfa数据集评测结果
(评测标准:f1 值 (%))
表2. gft及emotionet数据集评测结果(评测标准:f1 值 (%) )
五、总结与展望
tcae通过自监督的方法学习到了鲁棒的au表征,实验证明该au表征是鲁棒的,适用于au分类任务的。可视化结果表明,tcae具有潜在的人脸表情编辑价值。另外,tcae在训练阶段使用了大量的无标签数据(近6000人,约10,000,000张图像),由此可见使用自监督方法训练模型时数据利用的效率需要进一步提高,这一点在bert的实验分析中也得到了印证:
good results on pre-training is 》1,000x to 100,000 more expensive than supervised training.

现在谈人工智能为时过早吗
WiFi技术发展有两个关键节点 高通改进了WiFi连接的三种方式
康桥半导体推出全新C3120 LED驱动芯片系列
多用途超声波微型雾化器,Ultrasonic Nebulizer
三款不同的小米手机的区别解析
CVPR2019新作:一种基于视频流的自监督特征表达方法
英伟达跨界医疗AI 首先从医学及卫生保健领域入手
“你好,自然美” 自拍旗舰vivo S10系列正式发布
基于I2C总线的CMOS图像传感器接口电路设计
50个三菱PLC常见问题解答
台积电入股中芯9月曾在港密谈和解
感应耐压的必要性
投资300亿!又一半导体项目落地重庆
招投标资讯│智慧物联装备产业楼及园区东中门卫装饰装修工程
基于瑞萨电子的通用型微控制器的简介
LTpowerCAD设计工具的回路补偿特性的介绍
意法半导体物联网解决及方案
SERDES的引脚数量和通道优势
ROHM旗下蓝碧石半导体微控制器入门套件“SK-AD01”开始网售电容式开关系统的导入更轻松!
专家揭秘:STM32启动过程全解