Generate Any Scene: Scene Graph Driven Data Synthesis for Visual Generation Training

ArXi:2412.08221v4 Announce Type: replace-cross Recent advances in text-to-vision generation excel in visual fidelity but struggle with compositional generalization and semantic alignment. Existing datasets are noisy and weakly compositional, limiting models' understanding of complex scenes, while scalable solutions for dense, high-quality annotations remain a challenge. We