On the Sample Complexity of Differentially Private Policy Optimization

ArXi:2510.21060v3 Announce Type: replace-cross Policy optimization (PO) is a cornerstone of modern reinforcement learning (RL), with diverse applications spanning robotics, healthcare, and large language model