NashPG: A Policy Gradient Method with Iteratively Refined Regularization for Finding Nash Equilibria

ArXi:2510.18183v2 Announce Type: replace Finding Nash equilibria in two-player zero-sum imperfect-information games remains a central challenge in multi-agent reinforcement learning. Recent multi-round regularization methods offer a promising direction, yet existing approaches either require full enumeration of the game tree or rely on non-policy-gradient inner solvers that underperform in practice, leaving a scalable policy-gradient-based solution open.