【新智元导读】最近,Facebook的研究人员开发了一个玩德州扑克的人工智能,可以轻松击败人类玩家,它跟DeepMind的AlphaZero有何不同?今天我们就来看下。
近年来人工智能发展迅猛,很多重复性的工作都被AI自动化了,人类工作要被机器替代的说法也「甚嚣尘上」,而现在,打打扑克也不行了?
最近,Facebook 的研究人员开发了一个名为「Recursive Belief-based Learning」(ReBeL)的通用人工智能框架,德州扑克玩的相当溜。
根据Facebook的说法,这个框架在单挑无限制的德州
扑克游戏中明显优于人类表现,而且使用的领域知识比之前任何扑克人工智能都要少。
他们断言 ReBeL 是开发通用多代理交互技术的一种方法,该算法可以部署在大规模、多代理环境中,预期的应用范围也很广,从拍卖、谈判、网络安全到自动驾驶都能用上。
AlphaZero在不完全信息游戏中表现「差点意思」
目前,将强化学习与搜索相结合,在人工智能模型训练和测试方面,已经取得了一些进展。
强化学习代理是通过最大化回报来学习的,而搜索是从开始到目标状态的导航过程。例如,DeepMind 的 AlphaZero 使用强化学习和搜索技术在国际象棋、围棋等游戏中实现了SOTA效果。
但是之前的组合方法在应用于不完全信息的游戏如扑克(甚至是石头、剪子、布)时就不那么奏效了,因为它做出了一些在这种情况下不成立的假设。
任何给定动作的价值取决于它被选择的概率,更一般地说,取决于整个游戏策略,而围棋游戏的搜索空间是有限的,并且每一个动作的价值可以在被选之前评估出来。
基于信念的递归学习击败顶尖人类玩家
ReBeL将「游戏状态」的概念进行了扩展,它包括了代理基于常识和其他代理的政策对他们可能处于何种状态的置信度。
ReBeL通过自我强化学习训练了两个网络:一个价值网络和一个政策网络。它在自我对弈中使用两种模型进行搜索。结果是一种简单,灵活的算法,研究人员声称该算法能够在大规模的两人不完全信息游戏中击败顶尖的人类玩家。
从更高层次上来讲,ReBeL 运行于公共置信状态而不是世界状态(即游戏状态)。公共置信状态(PBSs)将「状态价值」的概念推广到像扑克这样的不完全信息游戏中,PBS是在可能的动作和状态的有限序列(也称为历史记录)上的常见知识概率分布,可提供发生不同结果的可能性。
在完全信息游戏中,PBS可以提取到历史记录,而在两人零和游戏中,PBS可以有效地提取到世界状态。扑克中的PBS是玩家可以做出的一系列决定,以及特定手牌,底池和筹码时他们的结果。
ReBeL在每个游戏开始时都会生成一个与原始游戏相同的「子游戏」,只是它起源于最初的PBS。该算法通过运行「均衡查找」算法的迭代并使用训练后的价值网络在每次迭代中取近似值来击败对手。
与世界上最好的单挑扑克玩家之一的Dong Kim相比,ReBeL在7500手牌中每手玩的时间超过了2秒,决策所需的时间从不超过5秒。Facebook以前的
扑克游戏系统Libratus的最高得分为147,而ReBeL对人类的平均每场比赛盲注(强迫下注)得分为165(标准差为69)。
担心被拿去赌钱,Facebook决定不公开源码
在实验中,研究人员对ReBeL进行了单挑无限制,Liar’s Dice和残局游戏的基准测试,这是无限制德州扑克的一种变体,两个玩家可以在四轮投注中的前两轮进行检查或叫牌。
研究小组使用了多达128台带有8个显卡的电脑来生成模拟游戏数据,并在训练期间随机分配赌注和堆栈大小(从5,000到25,000个芯片)。ReBeL 在整场比赛中接受训练,并且有20,000美元可以下注。
出于对作弊的担心,Facebook 团队决定不发布用于扑克的 ReBeL 代码库。相反,他们将 Liar’s Dice 的实现开放了。Facebook的研究人员相信ReBeL将使得德州扑克在强化学习研究领域更受欢迎。
「虽然人工智能算法已经存在,可以在扑克游戏中取得超人的表现,但这些算法通常假设参与者拥有一定数量的筹码或使用一定的赌注大小」。
而在实战中,你的筹码数量是不定的,所以需要重新训练算法,这种情况下想进行实时对战就有困难了。但是,ReBeL 可以在几秒钟内计算任意任意赌注大小的策略。
参考链接:
https://arxiv.org/pdf/2007.13544.pdf
https://venturebeat.com/2020/07/28/facebook-develops-ai-algorithm-that-learns-to-play-poker-on-the-fly/
举报/反馈——本文tag标签——扑克