Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

ArXi:2605.04077v1 Announce Type: cross Reinforcement learning with verifiable rewards (RLVR) has become a central paradigm for improving reasoning and code generation in large language models, and GRPO-style