OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

ArXi:2604.11102v1 Announce Type: new Current multimodal large language models (MLLMs) have nstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded scripts remains a significant challenge. This paper