Robust Regularized Policy Iteration under Transition Uncertainty

ArXi:2603.09344v1 Announce Type: new Offline reinforcement learning (RL) enables data-efficient and safe policy learning without online exploration, but its performance often degrades under distribution shift. The learned policy may visit out-of-distribution state-action pairs where value estimates and learned dynamics are unreliable.