Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces

ArXi:2603.10199v1 Announce Type: new Policy Dual Averaging (PDA) offers a principled Policy Mirror Descent (PMD) framework that naturally admits value function approximation than standard PMD, enabling the use of approximate advantage (or Q-) functions while retaining strong convergence guarantees. However, applying PDA in continuous state and action spaces remains computationally challenging, since action selection involves solving an optimization sub-problem at each decision step.