AI RESEARCH

DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training

arXiv CS.LG • April 28, 2026

ArXi:2512.03847v2 Announce Type: replace Reinforcement learning (RL) has shown strong performance in LLM post-