MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model

ArXi:2603.18892v1 Announce Type: cross Spatial reasoning is foundational for Vision-Language Models (VLMs), particularly when deployed as Vision-Language-Action (VLA) agents in physical environments. However, existing benchmarks predominantly focus on elementary, single-hop relations, neglecting the multi-hop compositional reasoning and precise visual grounding essential for real-world scenarios. To address this, we