Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

ArXi:2601.19821v2 Announce Type: replace Audio--Visual Question Answering (AVQA) is a challenging multimodal task that requires jointly reasoning over audio, visual, and textual information in a given video to answer natural language questions. Inspired by recent advances in Video QA, many existing AVQA approaches primarily focus on visual information processing, leveraging pre-trained models to extract object-level and motion-level representations.