Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

ArXi:2603.10340v1 Announce Type: cross Vision-Language-Action (VLA) models nstrate impressive zero-shot generalization but frequently suffer from a "Precision-Reasoning Gap" in cluttered environments. This failure is driven by background-induced feature dilution, where high-frequency semantic noise corrupts the geometric grounding required for precise manipulation. To bridge this gap, we propose Concept-Gated Visual Distillation (CGVD), a