Mamba-VMR: Multimodal Query Augmentation via Generated Videos for Precise Temporal Grounding

ArXi:2603.22121v1 Announce Type: cross Text-driven video moment retrieval (VMR) remains challenging due to limited capture of hidden temporal dynamics in untrimmed videos, leading to imprecise grounding in long sequences. Traditional methods rely on natural language queries (NLQs) or static image augmentations, overlooking motion sequences and suffering from high computational costs in Transformer-based architectures.