CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors

ArXi:2604.21241v1 Announce Type: cross Vision--Language--Action (VLA) models often use intermediate representations to connect multimodal inputs with continuous control, yet spatial guidance is often injected implicitly through latent features. We propose $CorridorVLA$, which predicts sparse spatial anchors as incremental physical changes (e.g., $\Delta$-positions) and uses them to impose an explicit tolerance region in the