Mind the Generative Details: Direct Localized Detail Preference Optimization for Video Diffusion Models

ArXi:2601.04068v3 Announce Type: replace Aligning text-to-video diffusion models with human preferences is crucial for generating high-quality videos. Existing Direct Preference Otimization (DPO) methods rely on multi-sample ranking and task-specific critic models, which is inefficient and often yields ambiguous global supervision. To address these limitations, we propose LocalDPO, a novel post-