Adversarial Attacks on Multimodal Large Language Models: A Comprehensive Survey

ArXi:2603.27918v1 Announce Type: cross Multimodal large language models (MLLMs) integrate information from multiple modalities such as text, images, audio, and video, enabling complex capabilities such as visual question answering and audio translation. While powerful, this increased expressiveness