Feature-level Interaction Explanations in Multimodal Transformers

ArXi:2603.13326v1 Announce Type: cross Multimodal Transformers often produce predictions without clarifying how different modalities jointly a decision. Most existing multimodal explainable AI (MXAI) methods extend unimodal saliency to multimodal backbones, highlighting important tokens or patches within each modality, but they rarely pinpoint which cross-modal feature pairs provide complementary evidence (synergy) or serve as reliable backups (redundancy