Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity

ArXi:2605.00365v1 Announce Type: new Reinforcement Learning with Verifiable Rewards (RLVR) has achieved substantial gains in single-attempt accuracy (Pass) on reasoning tasks, yet often suffers from reduced multi-sample coverage (Pass), indicating diversity collapse. We identify a structural cause for this degradation: common RLVR objectives, such as GRPO, are indifferent to how probability mass is distributed among correct solutions. Combined with stochastic