TAME: Test-Time Adversarial Prompt Tuning via Mixture-of-Experts for Vision-Language Models

ArXi:2605.17577v1 Announce Type: new Large-scale pre-trained Vision-Language models (VLMs), such as CLIP, exhibit strong zero-shot generalization, yet remain highly vulnerable to imperceptible adversarial perturbations, raising serious safety concerns for open-world deployment. To enhance robustness without requiring downstream task-specific re