VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

ArXi:2602.10693v3 Announce Type: replace-cross Off-policy updates are inevitable in reinforcement learning (RL) for large language models (LLMs) due to rollout staleness from asynchronous