Retrieving to Recover: Towards Incomplete Audio-Visual Question Answering via Semantic-consistent Purification

ArXi:2604.10695v1 Announce Type: new Recent Audio-Visual Question Answering (AVQA) methods have advanced significantly. However, most AVQA methods lack effective mechanisms for handling missing modalities, suffering from severe performance degradation in real-world scenarios with data interruptions. Furthermore, prevailing methods for handling missing modalities predominantly rely on generative imputation to synthesize missing features.