AI RESEARCH

Reference-Sampled Boltzmann Projection for KL-Regularized RLVR: Target-Matched Weighted SFT, Finite One-Shot Gaps, and Policy Mirror Descent

arXiv CS.LG • May 05, 2026

ArXi:2605.02469v1 Announce Type: new Online reinforcement learning with verifiable rewards (RLVR) turns checkable outcomes into a scalable