简论人工智能对学习扑克策略的影响。

zhaoyue0o0o · 發表於 2021-4-21 06:32

註冊論壇會員，發現更多精彩

您需要登錄才可以下載或查看，沒有賬號？立即注册

×

写这遍文章只是抛砖引玉，我一个学费都退了的二流牌手的扑克心得。希望能帮助大家成长。很多年前，我高二，记得翻开的第一本书是道尔布朗森的超级系统，只记得封面的第一句是，欢迎来到扑克世界，激进的赢钱的扑克世界。而2017年年初，master 败尽群雄，六十连胜，柯洁有一番言论甚合我意，我们希望和人工智能共同学习。master 没有学过任何的棋理，有四个系统决定他落子。如果有兴趣的朋友，你们可以看一下。可你们感知一下，如果普通围棋手。在master 的指导下，下了几百万手棋。那么他的水平会不会接近最优。我自己本人就是这样训练出来的二流牌手我不知道别人的学习方法是什么，而我的学习方法，就是在我早期打牌的时候，我的辅助会自动读取桌面，读取筹码结构，得出基于最优情况下的范围。这是我的参考步骤1，何时运用参考步骤一呢，一个当我不了解对手的时候，二当对手足够强。 sharkscope会显示出对手是否为赢钱玩家，如果对手显示是赢钱玩家。我自然会使用步骤一，做出基于标准最优情况的范围。第二步，。玩家分类。刚开始的时候，我只是照搬一的策略，然后开很多桌，磨一个生活费。随着水平的进步，哦对市面上能找到的中文书我基本都看过。很多都是十遍以上。于是我自己发展出了玩家分类，简单来说，玩家分类系统是一个剥削策略。核心在于下面一句话傻逼各种各样。职业玩家都一样。在这种情况下，我们对娱乐玩家采用针对娱乐玩家的定制数据。的剥削策略。这里要提到一个工具叫做 hm 2 ，他可以定制到各个位置的公开加注范围，三次加注范围，而我在得到这些范围后会和最优范围去比对。如果一个动作偏离了最优范围，那么他的策略我们会尝试剥削它的漏洞，我会举两个简单的例子你看到mp 玩家公开加注a20对手感知会加注所有的ax那么翻牌后他有a 频率会增加，面对后面位置的3bet更难抵抗（如果面对3bet fold 和面对3bet call 也会决定我们采用不同的3bet 范围）（如果 open 30 拿到88➕aq➕ 百分之5 很难抵抗。）而shark scope 会让我们得出种族趋势（就是职业多桌玩家倾向于在没有位置的情况下fold 3bet ，娱乐玩家倾向于买一个希望）而最优剥削的跟注系统来自于nce（有兴趣的可以搜索一下这个软件）我们定制出很多自动记录对手某一个动作频率的笔记，当牌桌上显示这个笔记的时候，直接调整我们的范围。基于标准策略的最优跟注频率（这个源自于数学，理论上来说一手牌跟注只跟加注数量，死钱多少范围有关。）当我们知道这里标准情况下的最优跟注范围时，依然考虑玩家分类。我会简单说一些参数（对手强度，剩余对手强度， icm，后续游戏影响，多桌数量，你对其他人是否有优势）这些参数决定了我是否会玩边缘牌。比如比赛前期我在 co 盖掉了k9s 如果我有10张桌子自然无所谓，而如果只有5张，我可能会玩。又比如一个对手push 我拿到一手从数学上来说足够跟注的牌，后面对手足够强，我call 希望拿下，后面对手都是娱乐玩家我fold 因为活着我就对他们有优势。因为每一个筹码量都有一个最优解，而筹码量越短，最优解越容易被解出来，世界上最顶尖的玩家会租一台服务器，然后算上几个月得到一个很大很大的数据库。当打牌的时候会直接调用这个数据库。来帮助他们做决定。当然他们求解的数据依然进过压缩。因为这样的学习模式，所以我很多数学方面非常差，这也很容易解释。因为我根本没有学习过数学，而是每一道题我都会直接得到答案，而人又是可以自动学习的，当你知道很多答案的时候你自然能够类推其他答案，而在越来越多的情况下，你会生成基于本能的抓漏洞的能力。比如一道数学题，你们是求解方法，而我直接得到了答案，然后我会从答案去尝试推断求解方法。抓漏洞的能力会通过这样一个步骤培养。（也比如两人hu ，40bb对手open 百分之100 。抓漏洞， gto可能85到90多对手多open 了百分之10，如果我也open 100 我会怕什么呢。（其实我是拿2到8 三到j） opend 这些牌本来不该open 但是我认为对手弃牌太多，我害怕被对手频繁的3bet 因为我大多数情况下鸡毛都没有所以嗯考虑 3bet （size range 频率等）这种反复的正反博弈来获得最大化的期望值。简单的讨论了一点，标准最优策略，对人类学习的帮助，我会看心情更新第二部。基于人工智能增加的扑克策略。不保证跳票

BTCD · 發表於 2021-4-21 06:46

沙发

BTCD · 發表於 2021-4-21 06:57

这个gto写的比较清楚，信任82老师，感谢82老师，智游城就是需要这样的大神引导我们这些小

山冲水 · 發表於 2021-4-21 07:14

留名，看大神。

t54352 · 發表於 2021-4-21 07:37

等下慢慢研究，对机器人类似的打法非常有兴趣。

好多鱼 · 發表於 2021-4-21 07:53

很有趣

我是Jsli · 發表於 2021-4-21 08:06

老人家了只看了前1/3部分后面gto还没看zhaoyue思路才是online 的方向现场用不上扑克讲数学混德扑圈的墙爷出来也整两句

Hebe · 發表於 2021-4-21 08:27

看了职牌和AI的直播，感觉AI技术是日益完善了，估计以后线上就不用玩了。

我是Jsli · 發表於 2021-4-21 08:38

终于看完了关于gto的描述还是误导了吧老朱之前gto非常清楚了1.gto是一个平衡状态,通常与最佳打法不是一回事.2.傻逼各种各样.职业玩家都一样(这里赞一个).所以你看最佳打法千奇百怪.3.当扑克双方的一方脱离gto(一个平衡状态),作为扑克的另外一方,也应该脱离gto这个平衡状态,采取对应的针对打法,最大利益化.关于3补充一下当HU的一方自觉或者不自觉偏离gto平衡状态另一方的最佳策略一定也应偏离gto平衡状态.Gto不是扑克的最佳策略Gto仅仅是HU双方在一个可能的平衡状态下的最佳策略.

1025 · 發表於 2021-4-21 08:51

学习了

		自動登錄	找回密碼
密碼			立即注册

简论人工智能对学习扑克策略的影响。

註冊論壇會員，發現更多精彩

📢 重要聲明

服務條款

廣告合作