美国陆军面向未来多域作战概念研发了一种高效的地面机器人学习模型,该模型提出基于强化学习的策略,可有效减少当前训练强化学习策略的不可预测性,使自主智能体能够推理并适应不断变化的战场条件。
强化学习是智能体(agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习技术具备解决复杂问题的能力,近年来在如围棋、象棋和电子游戏等领域有较为长足的发展。美国陆军将这种强化学习技术应用在地面机器人面临着两个巨大挑战。首先是算法的限制。在强化学习中,策略梯度方法(policy gradient methods)是连续空间可伸缩算法的基础,但是现有技术无法支持更广泛的决策目标,例如风险敏感性、安全约束、对先验知识的探索和发散。其次就是数据量的问题。强化学习需要大量的样本复杂性,而美国陆军多域作战概念和下一代战斗车辆(ngcv)项目目前数据匮乏并不支持现有训练机制。
在陆军多域作战概念和ngcv项目中应用强化学习,训练机制必须提高连续空间中的样本效率和可靠性,arl通过将现有的策略搜索方案推广到通用工具,取得了重要突破。研究人员为通用程序开发了新的策略搜索方案,并且还确定了其样本复杂度。由此产生的策略搜索方案减少了奖励积累的波动性,形成了对未知领域的有效探索和先验的机制。值得注意的是,地面机器人获取数据的成本很高。减少奖励积累的波动性,确保以有效的方式探索未知领域,或者吸收以前的经验,都将有助于打破强化学习中现行实践的样本效率壁垒。通过减少随机抽样的数量,可以实现策略优化。
这项研究为强化学习中的经典策略梯度定理做出了贡献。装备有强化学习功能的自主机器人将能够协助战士在未来战场上进行侦察探索和风险评估。研究人员下一步计划在强化学习中将更广泛的决策目标纳入多主体设置,并研究强化学习主体之间的交互设置如何在团队之间产生协同和对抗性推理。
十进制有权码
我国LED显示屏技术还存在哪些问题
我们应该如何设定才能使加工成品质量更加完善
MWC2015快速充电引关注 各大品牌纷纷秀技术
Wolfson电源管理IC获三星M1 PMP采用
美国陆军研发了一种高效的地面机器人学习模型
RabbitMQ通信模型中的work模型
近期最值得关注的手机创新技术大盘点
可变身摩托车机器人预计2020年商用
小米5c得到客户这样的评价,可能会打破所有人常规印象
iphone8和小米mix2,同样的全面屏,你会选谁呢?
找方案 | 基于安森美半导体NCP1618多模式PFC 500W设计方案
matlab小波去噪函数实例
关于云数据存储的漏洞及避免漏洞方法
教你如何抵消OFDM系统的失真
新应用新技术加持 PCB下半年营运添柴火
制冷压缩机的PLC控制改造
解读Gartner 2024年十大战略技术趋势
小康集团的智能工厂蕴藏大世界 部署了总共800多台自动化机器人
MAX1434 全差分输入10位模数转换器(ADC)