RedDiffuser: Auditing Multimodal Safety Failures in Vision-Language Models via Reinforced Diffusion

ArXi:2503.06223v5 Announce Type: replace Large Vision-Language Models (VLMs) are increasingly deployed in open-ended environments, where ensuring reliable safety under multimodal inputs is critical. However, existing evaluations remain largely instruction-centric, focusing on explicit malicious queries while overlooking a realistic and underexplored risk: whether safety alignment remains robust under harmful contextual exposure.