OpenAI举办的首届迁移学习竞赛Retro Contest结束

openai举办的首届迁移学习竞赛retro contest结束,在全部229支队伍里,来自中国的团队获得了冠亚军。冠军是一个6人团队,其中有南京大学和阿里巴巴搜索事业部的研究人员;亚军是中科院的两名研究生。
这个竞赛的目标,是评估强化学习算法从以往的经验中泛化的能力。具体说,就是让ai玩视频游戏《刺猬索尼克》,这是世嘉公司开发的一款竞速式2d动作游戏,其基本上模拟马里奥的游戏方式,玩家在尽可能短的时间内到达目的地,索尼克可以通过不停加速来快速完成关卡。最后可能需要对抗boss。
冠军方案展示:由南大和阿里研究人员组成的dharmaraja队的agent,学习穿越游戏中海洋废墟区域(aquatic ruin zone)。agent已经在游戏的其他关进行过预训练,但这是第一次遇到这一关。
openai的这个竞赛retro contest从2018年4月5日发布,持续时间为2个月。开始有923支队伍报名,但最终只有229个提交了解决方案。openai的自动评估系统对这些结果进行了评估。为了避免参赛者拟合数据集,评审时使用了完全不同的数据集。此外,openai还将前十名的最终提交结果进行了再测试,让这些agents在11个由游戏设计师特别设计的关卡中,分别进行了3次测试,每次都从环境中随机生成初始状态。最终得到的排名如下:
前五名排名
其中,冠军dharmaraja在测试和评审中始终排名第一,mistake以微弱的优势战胜aborg取得第二。这张图显示了排名前三的三个方案的agent在同一个关卡学习的情况。红点代表初期,蓝点代表后期。从上到下分别是dharmaraja、aborg和mistake。
所有关卡平均下来,这几支队伍的学习曲线是这样的:
值得注意的是,dharmaraja和aborg在开始阶段分数相近,而mistake的则要低很多。这是因为前两支队伍的方法,是对预训练网络进行微调(使用ppo),而mistake则是从零开始训练(使用rainbow dqn)。mistake的学习曲线提前结束,是因为他们在12小时的时候时间用完了。
openai对这次的竞赛的评价是,从整体看,虽然参赛队伍尝试了很多方法,但主要的结果都来自对现有算法(如ppo和rainbow)的微调或扩展。同时,结果也显示了我们还有很长的路要走:训练后ai玩的最高成绩是4,692分,而理论最好成绩是10,000分。
但是,获胜的解决方案是一般的机器学习方法,而不是针对这次竞赛进行的hacking,表明作弊是不可能的,也就证实了openai的sonic基准是机器学习研究界一个值得去关注的问题。
获奖团队及方案:ppo和rainbow优化
dharmaraja(法王)是一个6人组成的团队:qing da、jing-cheng shi、anxiang zeng、guangda huzhang、run-ze li 和 yang yu。其中,qing da和anxiang zeng来自阿里巴巴搜索事业部ai团队,他们最近与南京大学副教授yang yu合作,研究如何将强化学习用于现实世界问题,尤其是电子商务场景。
dharmaraja的解决方案是联合ppo的变体。ppo(proximal policy optimization,近端策略优化算法),是此前openai为强化学习提出的一类新的策略梯度法,可以通过与环境的交互在样本数据中进行转换,使用随机梯度下降优化替代目标函数(surrogate objective function)。标准的策略梯度法是在每一个数据样本上执行一次梯度更新,而ppo的新目标函数可以在多个训练步骤(epoch)中实现小批量(minibatch)的更新。ppo 拥有置信域策略优化(trpo)的一些好处,但更加容易实现,也更通用,并且有更好的样本复杂度。openai研究人员认为,考虑到总体的复杂度、操作简便性和 wall-time,ppo 是比在线策略梯度法更好的选择。
在ppo的基础上,dharmaraja的解决方案做了一些改进。首先,使用rgb图像而不是灰度图做输入。其次,使用了稍微扩大的动作空间,并使用更常见的按钮组合。第三,使用了增强奖励功能,奖励agent访问新的状态(根据屏幕的感知散列来判断)。
除了这些改进外,团队还尝试了许多东西,比如deepmimic,使用yolo进行对象检测,以及一些针对索尼克游戏的特定想法。不过这些方法并没有特别起效。
代码:https://github.com/eyounx/retrocodes
mistake
mistake队有两名成员,peng xu和qiaoling zhong。他们都是研二的学生,来自中国科学院网络数据科学与技术重点实验室。
他们的解决方案是基于rainbow基准。rainbow是deepmind对dqn算法进行的组合改良。deepmind的实验表明,从数据效率和最终性能方面来说,rainbow能够在atari 2600基准上提供最为先进的性能。
mistake团队进行了一些有助于提升性能的修改:n对n步q-learning的更好的值;额外添加了一层cnn层到模型,这使得训练速度更慢但更好;dqn目标更新间隔更短。此外,团队还尝试与rainbow进行联合训练,但发现这样做实际上降低了性能。
代码:https://github.com/xupe/mistake-in-retro-contest-of-openai

瑞萨电子发布全新RZ/T2L工业用MPU 可通过EtherCAT通信实现快速、准确的实时控制
第二代Mesh家用无线,大户型住宅和多层别墅无线覆盖方案
IBM数据分析新算法 9TB数据20分钟完成
鸿蒙2.0系统手机Beta正式发布 怎么申请鸿蒙系统?
土壤剖面水分仪是什么,它的作用是什么
OpenAI举办的首届迁移学习竞赛Retro Contest结束
变电站智能轨道机器人巡检系统具备哪些功能?
WVTR-W3水蒸气透过率测试仪的产品特点说明
苹果准备扩产iPhone 7、8系列机型对战国产手机
大公链底层技术是怎么一回事
二十六位嘉宾的精彩分享 首届G60科创走廊集成电路科技创“芯”大会圆满闭幕
介绍采用瑞萨RA2L1作为专用加解密协处理器的方案
Enclustra FPGA SoM为工业X射线源技术赋能,推动性能提升
中国电信多方布局推进F5G全面到来
荣耀10青春版采用2400万像素AI高清自拍镜头拥有幻彩渐变的效果
LED导热工程塑料如何提升高散热的效果呢?
如何利用5G为物流节省成本
FMCW激光雷达完胜ToF激光雷达,是真是假?
深圳得润电子在盐投资建设得润华麟电路项目
射频到底是怎么设计的?