TB-AVA: Text as a Semantic Bridge for Audio-Visual Parameter Efficient Finetuning

ArXi:2605.11572v1 Announce Type: new Audio-visual understanding requires effective alignment between heterogeneous modalities, yet cross-modal correspondence remains challenging when temporally aligned audio and visual signals lack clear semantic correspondence. We propose to use text as a semantic anchor for audio-visual representation learning. To this end, we