Score2Instruct: Scaling Up Video Quality-Centric Instructions via Automated Dimension Scoring

ArXi:2506.21011v2 Announce Type: replace Classical video quality assessment methods generate a numerical score to judge a video's perceived visual fidelity and clarity. Yet, a score fails to describe the video's complex quality dimensions, restricting its applicability. Benefiting from the human-friendly linguistic output, adapting video large multimodal models to VQA via instruction tuning has the potential to address this issue. The core of the approach lies in the video quality-centric instruction data.