World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

ArXi:2604.24764v1 Announce Type: new Recent video foundation models nstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we