谷歌研究人员利用3d卷积网络打造视频生成新系统,只需要视频的第一帧和最后一帧,就能生成完整合理的整段视频,是不是很神奇?
漫画书秒变动画片了解一下?
想象一下,现在你的手中有一段视频的第一帧和最后一帧图像,让你负责把中间的图像填进去,生成完整的视频,从现有的有限信息中推断出整个视频。你能做到吗?
这可能听起来像是一项不可能完成的任务,但谷歌人工智能研究部门的研究人员已经开发出一种新系统,可以由视频第一帧和最后一帧生成“似是而非的”视频序列,这个过程被称为“inbetween”。
“想象一下,如果我们能够教一个智能系统来将漫画自动变成动画,会是什么样子?如果真实现了这一点,无疑将彻底改变动画产业。“该论文的共同作者写道。“虽然这种极其节省劳动力的能力仍然超出目前最先进的水平,但计算机视觉和机器学习技术的进步正在使这个目标的实现越来越接近。”
原理与模型结构
这套ai系统包括一个完全卷积模型,这是是受动物视觉皮层启发打造的深度神经网络,最常用于分析视觉图像。它由三个部分组成:2d卷积图像解码器,3d卷积潜在表示生成器,以及视频生成器。
图1:视频生成模型示意图
图像解码器将来自目标视频的帧映射到潜在空间,潜在表示生成器学习对包含在输入帧中的信息进行合并。最后,视频生成器将潜在表示解码为视频中的帧。
研究人员表示,将潜在表示生成与视频解码分离对于成功实现中间视频至关重要,直接用开始帧和结束帧的编码表示生成视频的结果很差。为了解决这个问题,研究人员设计了潜在表示生成器,对帧的表示进行融合,并逐步增加生成视频的分辨率。
图2:模型生成的视频帧序列图,对于每个数据集上方的图表示模型生成的序列,下方为原视频,其中首帧和尾帧用于生成模型的采样。
实验结果
为了验证该方法,研究人员从三个数据集中获取视频 - bair机器人推送,kth动作数据库和ucf101动作识别数据集 - 并将这些数据下采样至64 x 64像素的分辨率。每个样本总共包含16帧,其中的14帧由ai系统负责生成。
研究人员为每对视频帧运行100次模型,并对每个模型变量和数据集重复10次,在英伟达tesla v100显卡平台上的训练时间约为5天。结果如下表所示:
表1:我们报告了完整模型和两个基线的平均fvd,对每个模型和数据集重复10次,每次运行100个epoch,表中fvd值越低,表示对应生成视频的质量越高。
表2:使用直接3d卷积和基于的替代方法的模型的平均ssim
rnn(sdvi)或光流(sepconv和superslomo),数值越高越好。
研究人员表示,ai生成的视频帧序列在风格上与给定的起始帧和结束帧保持一致,而且看上去说得通。“令人惊喜的是,这种方法可以在如此长的时间段内实现视频生成,”该团队表示,“这可能给未来的视频生成技术研究提供了一个有用的替代视角。”
电池系统集中的充电管理,有利于解决电动汽车安全问题
车用半导体市场每年将创造10%的成长,至2024年将成长为103亿美元
mate60pro怎么样值不值得买,Mate60 pro使用测评
5G手机芯片供应受阻,交期延长至30周以上
JESD204B调试笔记(实用版)
谷歌研究人员利用3D卷积网络打造视频生成新系统
一文让你检测IC产品参数值发生偏移
哈工大宁波智能装备研究院揭牌并加快余姚智能制造经济的发展
物联网将对零售行业产生变革性的影响
胶料UL认证,硅胶认证
Zaxis Isaac HD真空衰减气密测试多功能检漏仪的优点有哪些
小米汽车su7整车扭转刚度 小米汽车su7和保时捷对比哪个好
瑞深航空携植保无人机全新机型登陆日本
市场上常见的气体传感器类型
绝缘电阻,吸收比和极化指数之间的关系
奔驰新款大G上市 裸车售价超160万
通富微电子上半年实现营收34.78亿元并成功导入国内外十余家知名新客户
小米6最新消息,亮银色高逼格小米6,量产亦非宜事,只可远观啊!
华为手环B5更多细节曝光,引领商务、健康、时尚三大领域潮流
中国制造业高质量发展人才白皮书正式发布