Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation

ArXi:2510.19592v2 Announce Type: replace Multimodal large language models (MLLMs) nstrate strong video understanding by attending to visual tokens relevant to textual queries. To directly adapt this for localization in a