LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

ArXi:2509.25896v3 Announce Type: replace As Vision-Language Models (VLMs) move into interactive, multi-turn use, safety concerns intensify for multimodal multi-turn dialogue, which is characterized by concealment of malicious intent, contextual risk accumulation, and cross-modal joint risk. These characteristics limit the effectiveness of content moderation approaches designed for single-turn or single-modality settings.