Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation

ArXi:2603.23202v1 Announce Type: new Despite advances in Vision-Language-Action (VLA) models, robotic manipulation struggles with fine-grained tasks because current models lack mechanisms for active visual attention allocation. Human gaze naturally encodes intent, planning, and execution patterns -- offering a powerful supervisory signal for guiding robot perception. We