Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

ArXi:2603.08518v1 Announce Type: new While standard reinforcement learning optimizes a single reward signal, many applications require optimizing a nonlinear utility $f(J_1^\pi,\dots,J_M^\pi)$ over multiple objectives, where each $J_m^\pi$ denotes the expected discounted return of a distinct reward function. A common approach is concave scalarization, which captures important trade-offs such as fairness and risk sensitivity. However, nonlinear scalarization In this work we identify and overcome this bias barrier in concave-scalarized multi-objective reinforcement learning.