(文章来源:教育新闻网)
加州大学伯克利分校的一组研究人员本周开放了使用增强数据进行强化学习(rad)的资源。在随附的论文中,作者说此模块可以改善任何现有的强化学习算法,并且与google ai的planet相比,rad可以实现更好的计算和数据效率,以及uc berkeley和deepmind最近发布的尖端算法(如deepmind的dreamer和slac)。
研究人员说,rad在15个deepmind控制环境中的通用基准上取得了最先进的结果,并在性能和数据效率方面达到或超过了每个基准。它部分地通过为视觉观察应用数据增强来做到这一点。关于rad的论文的合著者包括michael“ misha” laskin,kimin lee和berkeley ai research联合主任以及协变创始人pieter abbeel。
rad星期四在预印本仓库arxiv上发布。数据增强对于卷积神经网络(cnn)的发展非常重要,以应对诸如go这类游戏中的机器人抓取和实现人类水平性能的挑战。
“这是第一次,我们证明,仅在deepmind控制套件和openai procgen基准测试上,仅数据增强一项就可以显着提高从像素操作的rl方法的数据效率和通用性,而无需对底层rl算法进行任何更改,论文读到。“通过使用同一数据点的多个扩充视图作为输入,cnn被迫学习其内部表示形式中的一致性。这样就产生了可视化表示,可以提高泛化性,数据效率和转移学习。”
数据增强技术可在不收集新数据的情况下增加训练数据集的多样性。作者指出:“我们发现,仅凭数据的多样性就可以使代理商专注于来自高维观测的有意义的信息,而无需改变强化学习方法。”对于强化学习的机器学习子来说,这是繁忙的一周。
本周早些时候,纽约大学的研究人员发布了关于arxiv的工作,该工作应用了数据增强功能,他们说在deepmind控制套件上也能达到最新的结果。在本周的全数字国际学习表示会议(iclr)上,谷歌ai研究人员介绍了用于测量强化学习算法可靠性的方法,华为ai研究人员介绍了adversarial autoaugment以改进数据增强策略。
abbeel还与iclr合作撰写了许多强化算法论文,其中包括hippo,它可以一次训练多个级别的强化学习算法,还涉及关于强化学习和策略优化的论文,这些论文涉及数据增强。在一系列不同的发展中,本周早些时候,salesforce发布了《人工智能经济学家》,这是该公司声称能够创建最佳税收政策的强化学习。
SpaceX星舰SN10稳定落到指定地点,却意外爆炸
家电行业转型升级 智慧显示终端开始抢占智能家居控制入口
PCB打样中表面贴装技术的不同优势
德国行业联盟发布直流供电工厂示范项目规划
限频差分探头N2060Apro 新品上市!
研究人员开源RAD以改进及强化智能学习算法
全球首款可折叠柔性屏手机柔派将亮相“中国科技第一展”高交会
GaN 硅桥反向恢复测量
盘点了全球在创新方面持续探索和布局的71家知名企业
消防泵控制柜具有哪些作用
来看一下170A电源模块的MCU主控板
全新第三代荣威RX5开启预售,搭载3颗地平线征程3芯片
S3C44B0的初始化程序的理解
三星Galaxy S20曝光采用了方正的设计在背部加入了一枚ToF镜头
借助NVIDIA CloudXR重新构想增强现实和虚拟现实
MWC2019:OPPO携重磅成果亮相MWC Nubia展出骁龙855小屏旗舰机
STM32硬件IIC操作解析
AMD Sempron处理器
第三代自适应模块化智造产线!
大众全新T-Roc最新消息:有望搭载全新的48V轻度混合动力系统重磅来袭!新车将于9月正式发布