Diffusion-DRF: Free, Rich, and Differentiable Reward for Video Diffusion Fine-Tuning

ArXi:2601.04153v2 Announce Type: replace Video diffusion alignment has been heavily relied on scalar rewards. These rewards are typically derived from learned reward models in human preference datasets, requiring additional