Swap-guided Preference Learning for Personalized Reinforcement Learning from Human Feedback

ArXi:2603.12595v1 Announce Type: cross Reinforcement Learning from Human Feedback (RLHF) is a widely used approach to align large-scale AI systems with human values. However, RLHF typically assumes a single, universal reward, which overlooks diverse preferences and limits personalization. Variational Preference Learning (VPL) seeks to address this by