f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

ArXi:2602.05946v3 Announce Type: replace Recent work shows that preference alignment objectives can be interpreted as divergence estimators between aligned (preferred) & unaligned (less-preferred) distributions, yielding a principled recipe for designing alignment losses. However, this view has so far been limited to preference-based supervision. We extend it to general LLM alignment, including reinforcement learning with verifiable rewards (RLVR), where alignment feedback is given only as scalar rewards. We