SIPO: Stabilized and Improved Preference Optimization for Aligning Diffusion Models

ArXi:2505.21893v3 Announce Type: replace Preference learning has garnered extensive attention as an effective technique for aligning diffusion models with human preferences in visual generation. However, existing alignment approaches such as Diffusion-DPO suffer from two fundamental challenges