AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

ArXi:2512.03794v3 Announce Type: replace-cross Vision-Language Models (VLMs) have achieved remarkable success in visual question answering tasks, but their reliance on large numbers of visual tokens