deepmind 公司因为研制出会下棋的人工智能alphago和alphazero而声名鹊起,如今他们将注意力转向了另一种棋盘游戏:强权外交(diplomacy),也被称为外交或者外交风云,是经典的桌面游戏之一。该游戏与围棋不同,它是七人游戏,需要游戏玩家既竞争又合作,并且每回合玩家都会同时进行移动,因此,每个玩家都必须推理其他玩家的想法,非常复杂。
研制一个能玩外交游戏的人工智能软件,deepmind公司的计算机专家andrea tacchetti表示:“与游戏go或国际象棋相比,这是一个本质上不同的问题。” 去年12月,tacchetti和合作者在neurips会议上就其系统发表了一篇论文,该论文介绍了能玩外交游戏的ai系统策略。
“外交”是一种策略游戏,在欧洲地图上划分为75个省。玩家建立并动员军队占领各省,直到控制了大部分补给中心的玩家获胜。玩家每回合写下自己的行动,然后执行。他们可以攻击或防御对方玩家,或者支援对方玩家的进攻和防御,建立联盟。在完整版中,玩家可以协商,为了方便人工智能研究,deepmind公司使用了简单版的“no press”策略,不需要人工智能软件发布策略与其他玩家进行沟通。
从历史上看,人工智能使用人工制定的策略来发挥决策作用。2019年,蒙特利尔研究所的mila通过使用深度学习系统取得了胜利。他们基于150000个人类游戏的数据集,训练了一个称为dipnet的神经网络来模仿人类。deepmind从dipnet版本开始,使用强化学习(一种反复试验)来完善它。但是,仅通过反复试验来探索可能性会带来问题。因此,他们调整了强化学习算法。在训练过程中,他们在每一步中都对对手的可能举动进行采样,计算出在这些情况下平均效果最佳的行动,然后训练自己的权重以偏向于此行动。经过训练,它跳过了采样过程,仅根据其学习的知识进行工作。tacchetti说:“我们论文的信息是:我们可以在这样的环境中进行强化学习。” 他们设计的一个ai玩家与六个dipnet的ai赢了30%的时间(有14%的机会)。一个dipnet对抗他们的七个,仅赢得了3%的时间。
今年4月,facebook将在iclr会议上发表一篇论文,描述他们在“no press”版本的外交游戏中的研究成果。他们建立了类似dipnet的网络,但是没有添加强化学习的元素,而是添加了一个“searchbot”搜索玩家策略,searchbot通过玩几回合来评估玩家的每种潜在策略(假设每个人都根据神经网络的首选选择后续行动)。策略不是一个最佳行动组合,而是由50个可能行动组成的一组概率(由神经网络建议)。
在真实游戏中进行这样的探索会减慢searchbot的速度,但可以使它更优于dipnet。searchbot在外交游戏网站上与人类进行了匿名比赛,在玩家中排名前2%。facebook的计算机专家、论文的共同作者亚当·勒勒(adam lerer)说:“这是第一个被证明具有能与人类竞争的机器人。”
标准化无线网络的选择方案
物联网设备内部存在怎样的威胁
有哪些分体式降噪耳机推荐?最值得入手的分体式降噪耳机
纵目科技泊车产品通过两项重要认证并获得证书
摩托罗拉骁龙888旗舰的细节介绍
DeepMind又出AI大招
常用的电子灌封胶胶水有哪些
库卡CEO提前离职,侮辱了中国人的智商
剖析物联网开发板的原理图设计
2023 中国国际橡塑展:DOMO 化学扩大 TECHNYL®产品系列,以满足中国市场对 电动汽车和可持续解决方案的强劲需
称重传感器的功能作用及应用范围
自主车企主要的OEM电池策略
PCIe传输速率和有效带宽科普
直流电动机介绍
PLC编程中OB块、FC块、FB块、DB块的使用原则
【技术分享】深入解读无线通信中的天线① — 初识天线
CAN转PROFINET网关在港机控制系统的应用
基于Python 超简单格式化代码
小鹏汽车为何使用三元锂电池代替磷酸铁锂电池
SlimPort技术或将赶超MHL