Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

ArXi:2604.27998v1 Announce Type: new Latent reasoning offers a efficient alternative to explicit reasoning by compressing intermediate reasoning into continuous representations and substantially shortening reasoning chains. However, existing latent reasoning methods mainly focus on supervised learning, and reinforcement learning in latent space remains highly unstable.