AI RESEARCH

Near-Future Policy Optimization

arXiv CS.LG • April 23, 2026

ArXi:2604.20733v1 Announce Type: new Reinforcement learning with verifiable rewards (RLVR) has become a core post-