Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

ArXi:2601.20829v2 Announce Type: replace-cross As Reinforcement Learning with Verifiable Rewards (RLVR) substantially improves the reasoning abilities of large language models (LLMs), a new bottleneck emerges