From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

ArXi:2510.17439v3 Announce Type: replace-cross Existing vision-language-action (VLA) models act in 3D real-world but are typically built on 2D encoders, leaving a spatial reasoning gap that limits generalization and adaptability. Recent 3D integration techniques for VLAs either require specialized sensors and transfer poorly across modalities, or inject weak cues that lack geometry and degrade vision-language alignment. In this work, we