Medical Context Distorts Decisions in Clinical Vision Language Models

ArXi:2605.17436v1 Announce Type: cross Vision-language models (VLMs) are increasingly proposed for clinical decision, yet their reliability in real-world scenarios that require integrating both visual and textual context from medical records remains poorly characterized. This paper identifies three failure modes: (1) modality over-reliance on text over images, (2) spurious reliance on irrelevant clinical history, and (3) prompt sensitivity across semantically equivalent inputs.