VisionCoach: Reinforcing Grounded Video Reasoning via Visual-Perception Prompting

ArXi:2603.14659v1 Announce Type: cross Video reasoning requires models to locate and track question-relevant evidence across frames. While reinforcement learning (RL) with verifiable rewards improves accuracy, it still struggles to achieve reliable spatio-temporal grounding during the reasoning process. Moreover, improving grounding typically relies on scaled