PRIMED: Adaptive Modality Suppression for Referring Audio-Visual Segmentation via Biased Competition

ArXi:2605.07154v1 Announce Type: new Referring Audio-Visual Segmentation (Ref-AVS) seeks to localize and segment target objects in video frames based on visual, auditory, and textual referring cues. The task is challenging because the relevance of different modalities varies across referring expressions and scenes, while existing methods typically treat multimodal cues as homogeneous inputs for fusion, prompting, or reasoning, making them vulnerable to irrelevant or misleading modalities.