1月27日,第33届 aaai(aaai 2019)在美国夏威夷召开,其中百度共有15篇论文被收录。
aaai于1979年成立,是国际人工智能领域的顶级国际会议。这一协会如今在全球已有超过6000名的会员,汇集了全球最顶尖的人工智能领域专家学者,一直是人工智能界的研究风向标,在学术界久负盛名。
本届大会共收到7700余篇有效投稿,其中7095篇论文进入评审环节,最终有1150篇论文被录用,录取率为近年最低仅为16.2%。百度共获得15篇论文被收录的成绩。其中有5位作者受邀在主会做 oral 形式报告,另有10位作者将携论文在主会以 spotlight poster 形式做报告。
在百度此次收录的15篇论文中,内容涉及智能出行、机器学习、视频建模、无人驾驶、自然语言处理、智能医疗等多个领域。
自然语言处理领域
百度这次被aaai收录的论文《modeling coherence for discourse neural machine translation》,提出了一种篇章级别的翻译模型,能够使得篇章内的句子之间保持良好的连贯性和一致性。这是由于翻译一些文档、演讲之类的文本时,通常需要虑句子之间的衔接性和连贯性。而传统的翻译模型通常都是将一个句子当做单独的翻译单元,忽视了句子之间的关联性。
具体来说,该论文提出了一种多轮解码方案,在第一轮解码中单独生成每个句子的初步翻译结果,在第二轮解码中利用第一轮翻译的结果进行翻译内容润色,并且提出使用增强式学习模型来奖励模型产生篇幅更一致的译文。最终在演讲文本的测试集合上,论文提出的模型不仅能够提升句子级别1.23 bleu,同时能够提升篇章级别2.2 bleu。通过实验分析,本文提出的翻译模型确实能产生篇章更加连贯和一致的句子。
此模型是基于 transformer 模型设计的。首先,训练流程中的一个 batch 为一篇文章中的所有句子,在第一轮解码中,采用标准的 transformer 模型生成单个句子的初步翻译结果。在第二轮解码中,将第一轮产生的译文合并成一个句子,构成此篇章翻译的参考译文。同时将初步翻译结果作为一个额外的 multi-head attention 机制,加入到 decoder 的解码流程中。通过这个步骤,在第二轮解码的过程中,在翻译单个句子时,能够考察其他句子可能产生的翻译结果,进而调整当前句子的文本输出概率,尽量使得翻译结果更一致。最终利用 self-critical 的学习机制,鼓励模型生成篇章一致性的译文。值得一提的是,不仅仅是第二轮解码中可以使用增强式学习机制,在第一轮解码中也可以鼓励模型产生更一致的译文。
本文首次在学术和工业界提出解决神经网络翻译中的篇章一致性和连贯性问题,并且提出了一种通用的解码框架,通过多轮解码和增强式学习策略,使得模型能产生良好的篇章连贯和一致性的译文。同时,本文还提出了若干评估篇章连贯和一致性的评价方法,有利于促进相关的研究工作发展。
目前的在线翻译引擎基本都是针对单个句子进行解码翻译,并不能保证一篇文章翻译出来后句子之间有很好的连贯性,采用本文提出的方法,能够使得篇章级别的翻译文本阅读起来更流畅,句子之间的连贯性更好。
无人车驾驶领域
为了能在复杂的城市交通中安全有效地行驶,无人车必须对周围交通体(机动车,自行车,行人等等)的行为轨迹做出可靠的预测。一个十分重要又具有挑战性的任务就是探索各种各样的交通体的不同的行为特征并能对它们做出及时准确的预测,进而帮助无人车做出合理的行驶决策。
为了解决这个问题,《trafficpredict: trajectory prediction for heterogeneous traffic-agents》的作者提出了基于 lstm 的路径预测算法 trafficpredict。他们的方法是用实例层来学习个体的运动规律和它们之间的交互,用类别层来学习同一类别的个体的运动的相似性,从而进一步优化对个体的预测结果。
他们采集了一个复杂路况下的交通数据集,正常行驶的汽车通过 lidar 采集的连续帧数据经过标注得到。问题设定为观察交通体[0 : tobs]时间段内的运动轨迹,预测 [tobs + 1 : tpred]的运动轨迹。对于一个时间段的数据,首先把数据组织成一个4d graph。
这个 graph 包含两个层,一个是实例层,一个是类别层。在实例层中,每一个个体看成一个节点,每一帧中个体之间通过边连接,相邻帧的同一个体也通过边连接。在类别层中,同一帧中相同类别的个体把信息汇总到一个超节点中,超节点会总结经验,进而反向改善每一个个体的预测结果,相邻帧的同一个超节点也通过边连接。4d graph 通过边捕捉个体在空间上的交互信息,在时间上的连续信息,和在类别上的相似信息,通过节点和超节点汇总和分析这些信息。
本文提出的方法把多类别交通体的路线预测统一到一个框架之下,通过构建空间和时间维度上的4d graph,充分利用交通体自身的运动模式和与周围交通体交互的信息,并通过超节点总结概括同类别运动相似性来改善个体的结果,从而对每个交通体的轨迹预测精度有了较大提高。另外,本文还发布了多类别体的复杂城市交通的路线数据集。
目前自动驾驶的测试场景都是比较规则和简单的交通场景:有清晰的车道线,红绿灯,交通参与体比较单一。但是,很多城市交通,比如中国或印度的城市交通,具有很高的复杂度。尤其在一些十字路口,自行车、三轮车、汽车、公交车交互前进。本文针对多类别体城市交通提出的的路径预测算法,为无人车在复杂交通场景下的导航提供了更为精确的指导,进而可以提升自动驾驶系统的安全性。
视频建模
深度学习在静态图像理解上取得了巨大成功,然而高效的视频时序及空域建模的网络模型尚无定论。不同于已有的基于 cnn+rnn 或者 3d 卷积网络的方法,《stnet: local and global spatial-temporal modeling for action recognition》 一文提出了兼顾局部时空联系以及全局时空联系的视频时空联合建模网络框架 stnet。
具体而言,stnet 将视频中连续 n 帧图像级联成一个 3n 通道的“超图”,然后用 2d 卷积对超图进行局部时空联系的建模。为了建立全局时空关联,stnet 中引入了对多个局部时空特征图进行时域卷积的模块。特别地,我们提出了时序 xception 模块对视频特征序列进一步建模时序依赖。在 kinetics 动作识别数据集的大量实验结果表明,stnet 能够取得 state-of-the-art 的识别性能,同时 stnet 在计算量与准确率的折衷方面表现优异。此外实验结果验证了 stnet 学习到的视频表征能够在 ucf101 上有很好的迁移泛化能力。
stnet 提出了局部和全局时空联系联合建模的概念,能得到更具判别力的视频表征,有效的提高视频动作识别的性能。同时,stnet 的设计兼顾了计算量与识别准确率的折衷,具有很好的实用价值。stnet 作为一个 backbone 网络结构,可以应用在用 video2vector、视频识别等方面。
附:被 aaai 2019收录的百度15篇论文题目
lmodeling coherence for discourse neural machine translation
ljoint representation learning for multi-modal transportation recommendation
lsphmc: spectral hamiltonian monte carlo
lstnet: local and global spatial-temporal modeling for action recognition
ltrafficpredict: trajectory prediction for heterogeneous traffic-agents
lread, watch, and move: reinforcement learning for temporally grounding natural language descriptions in videos
laddressing the under-translation problem from the entropy perspective
lunderstanding story characters, movie actors and their versatility with gaussian representations
ljoint extraction of entities and overlapping relations using position-attentive sequence labeling
loversampling for imbalanced data via optimal transport
lmulti-agent discussion mechanism for natural language generation
lsign-full random projections
linteractive attention transfer network for cross-domain sentiment classification
lexploiting the contagious effect for employee turnover prediction
ldistant supervision for relation extraction with linear attenuation simulation and non-iid relevance embedding
机器学习和人工智能的关系解析
数字电路PCB设计中的EMI控制技术分析
中科睿芯“高通量计算平台”助力新乡市及河南省数字经济发展
realme将发布的真我GT 5G旗舰手机 由杨幂代言
苹果又重新受到投资者的追捧转而看好苹果数字服务发展前景
第33届AAAI 2019在美国夏威夷召开,百度共有15篇论文被收录
中国移动与芯启源、华为、浪潮、澜起科技正式签约,成立移动云联合实验室
红米Note4X将在印度发布, 与中国红米Note4略有不同
英特尔自动驾驶汽车安全决策模型已经获得全球范围内相关单位的认可
中国有燃料电池汽车吗?国内市场拐点何时来临?
日本在仿真机器人方面取得重大突破
应用在网络摄像机领域中的国产音频ADC芯片
找方案 | 基于 ams OSRAM AS7050 + SFH7074 的心率血氧检测方案
课室管控如此简单!5个校区500多间教室怎么管理?
2012财富世界500强:中国大陆上榜公司超日本
HP5347A大量销售HP5347A频率计HP5347A
AP2813双路降压恒流驱动器
城市场景中自动驾驶车辆基于高精度地图的视觉语义定位
单相异步电动机和三相异步电动机的维护有什么不同?
基于S12的简易数字示波器的设计方案