3D-Layout-R1: Structured Reasoning for Language-Instructed Spatial Editing

ArXi:2603.22279v1 Announce Type: cross Large Language Models (LLMs) and Vision Language Models (VLMs) have shown impressive reasoning abilities, yet they struggle with spatial understanding and layout consistency when performing fine-grained visual editing. We