Less Is More? Selective Visual Attention to High-Importance Regions for Multimodal Radiology Summarization

ArXi:2603.29901v1 Announce Type: cross Automated radiology report summarization aims to distill verbose findings into concise clinical impressions, but existing multimodal models often struggle with visual noise and fail to meaningfully improve over strong text-only baselines in the FINDINGS $\to$ IMPRESSION transformation. We challenge two prevailing assumptions: (1) that visual input is always better, and (2) that multimodal models add limited value when findings already contain rich image-derived detail.