Multi-Modal Image Fusion via Intervention-Stable Feature Learning

ArXi:2603.23272v1 Announce Type: new Multi-modal image fusion integrates complementary information from different modalities into a unified representation. Current methods predominantly optimize statistical correlations between modalities, often capturing dataset-induced spurious associations that degrade under distribution shifts. In this paper, we propose an intervention-based framework inspired by causal principles to identify robust cross-modal dependencies.