AI RESEARCH

Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning

arXiv CS.LG • April 13, 2026

ArXi:2604.08926v1 Announce Type: new Post-

Read Full Article

← Back to AI News Leader