欢迎光临散文网 会员登陆 & 注册

动态Size算法:一项GTO技术突破

2023-08-24 21:36 作者:GTOWizard  | 我要投稿


动态Size算法是一种革命性的新型扑克算法,它可以在每个决策点自动简化策略树,并提供最高的 EV 的下注size。

易于执行的简单策略总是会胜过难以执行的复杂策略。

自从各种基于浏览器的GTO学习工具问世以来,大多数扑克玩家都会遇到这样一个问题:复杂的GTO解策略树很难理解,而且几乎不具备可实施性。 而相对简单的GTO解策略树虽然容易研究,但稳健性较差,不能告诉你最佳size是多大或者如何应对不同的size。

GTOWizard团队利用人工智能的力量优雅地解决了这个问题。通过动态Size算法,现在我们可以做到两全其美。


功能概述

动态Size算法最终产出一个干净简单的策略,它确保我们关心的每个下注size都已在起始参数中被考虑,并最终剔除所有不必要的size。

GTOWizard AI应用的动态Size算法有几个关键特性:

  • 在每个决策点自动简化最佳下注或加注size。

  • 可选择你想要的下注size个数。

  • 可自定义的size列表以供求解器选择。

  • 可指定求解器应在何时何处使用动态size算法。

  • 支持即时重新求解节点。

  • 支持在训练中对抗我们自定义的解算结果。


当在GTOWizard AI中选择了默认动态size选项时,我们直接可以获得给定场景的最高 EV size,无需输入任何size或手动创建策略树。 比如我们选择最终输出2个size,则意味着求解器会在大量size选项中自行比较,在最终输出的树中会包含最多两个最优size,并且可以根据需要进行自定义。

当然你也可以自行输入自己在实际游戏中偏爱的size列表,然后让 GTO Wizard AI 告诉你哪种size最适合每种情况。 你将看到不同牌面上会有不同的size选择倾向,这意味着你可以很容易地基于动态size算法不断优化自己的实际游戏策略树。

动态 VS 自动

GTOWizard AI中有两种自动简化选项:动态和自动,它们本质上其实是相同的算法。在这两种情况下,求解器都会从预设置的下注或加注size列表中进行搜索,以找到每个节点的最佳size。主要区别在于,动态模式允许用户自定义应考虑的下注size,以及在每个决策点应使用的size个数。


自动:GTOWizard AI确定应使用多少个size,并根据 SPR 调整预设的size列表。求解器会在每次决策时自动简化为最佳下注或加注size。对于新用户来说,这通常是最佳选择。

动态:你可以选择想要的下注或加注size,以及解算器应考虑的size列表。求解器会自动简化每个决策点的最佳下注size。此选项为进阶用户提供更多可能。

问题

对于那些不熟悉求解器的人来说,可能会对这个功能产生一些疑惑,比如为什么传统求解器不能直接告诉我们最佳下注size呢?

扑克是一个非常复杂的游戏,因此我们需要抽象下注策略树以使其可计算。对于经典的求解器,使用者必须准确设置起始size这一参数。

但是我们怎么知道该给(传统)求解器设置多少和多大的下注size呢?这是问题的核心。

针对一个多size的复杂策略树,比较经典的简化方法是,使用solver之前选择的频率最高的size进行单一size策略rerun,或者单独重新rerun每个size并选择相对损失最少 EV 的那个。然而,这个过程是漫长而乏味的。翻后树可能需要被重新求解数千次,以优化每个决策点的下注和加注size。

显然,这样的方法并不方便,这也是我们开发动态Size算法的原因。

我们是怎么找到最优size的

动态Size算法会扫描每个可用的下注size,消除对策略增加最少价值的下注或加注size。这个过程不断重复,不断删除最没有价值的size,直到仅保留所需数量的size个数。

通常这将是一个非常长的运算过程。然而,借助人工智能的力量,我们可以非常快速地估算出每种下注策略的价值。

为了找到最优size,我们比较每个可用size的频率、EV 和移除遗憾以生成一组特征,用作专有机器学习算法的输入。该算法的输出告诉我们要删除哪个size。然后,我们使用 GTO Wizard AI 重新求解策略树,重复该过程,直到只剩下1-2个最优size。 最终的结果是一个高效、简单、最优的下注策略。

基准测试

下一个问题则是:这个算法的精确性如何?我们进行了广泛的基准测试来找出答案! 总结如下:

与最优单一size策略相比,动态Size算法在河牌圈的平均 EV 损失仅为 0.05%pot。与使用 8 种不同size的复杂河牌策略相比,它的平均 EV 损失仅为 0.30%pot,这优于任何固定的单一size策略。

并且我们很高兴地发现,在GTOWizard AI与 Slumbot 对抗时,表现最好的150,000 手牌使用的是动态size算法输出的单一size结果,这意味着我们在每个节点仅使用一种下注尺度。从理论上讲,复杂的策略应该优于简单的策略,但比赛规则的7 秒行动限制使得更简单的方法可以达到更高的精确度,在更小的方差下展现更优的性能!


总结

扑克玩家有时担心他们会因为简化策略而损失EV,现在我们可以根据经验自信地说事实恰恰相反。请放心,简化的策略可以提高你的学习体验和实际赢率。 当你开始消除游戏中不必要的复杂性而专注于最重要的事情时,你会发现自己的准确性和信心都随之飞跃。


动态Size算法:一项GTO技术突破的评论 (共 条)

分享到微博请遵守国家法律