Scene-Action Prompt Fusion for Coherent Text-to-Video Storytelling

ArXi:2503.06310v4 Announce Type: replace Generating coherent long-form video sequences from discrete text prompts remains challenging due to difficulties in maintaining temporal coherence, semantic consistency, and scene-action continuity across segments. We propose a novel storytelling framework that integrates scene and action prompts through dynamics-inspired prompt mixing.