MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

ArXi:2603.06194v1 Announce Type: cross Subjective multi-turn dialogue tasks, such as emotional, require conversational policies that adapt to evolving user states and optimize long-horizon interaction quality. However, reinforcement learning (RL) for such settings remains challenging due to the absence of reliable process supervision. Outcome-only