Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

ArXi:2510.04072v3 Announce Type: replace-cross Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early