TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models

ArXi:2512.16523v2 Announce Type: replace-cross Vision-Language Models (VLMs), such as CLIP, have achieved impressive zero-shot recognition performance but remain highly susceptible to adversarial perturbations, posing significant risks in safety-critical scenarios. Previous