SteerRM: Debiasing Reward Models via Sparse Autoencoders

ArXi:2603.12795v1 Announce Type: new Reward models (RMs) are critical components of alignment pipelines, yet they exhibit biases toward superficial stylistic cues, preferring better-presented responses over semantically superior ones. Existing debiasing methods typically require re