Lumos-1: On Autoregressive Video Generation with Discrete Diffusion from a Unified Model Perspective

ArXi:2507.08801v2 Announce Type: replace-cross Autoregressive large language models (LLMs) have unified a vast range of language tasks, inspiring preliminary efforts in autoregressive (AR) video generation. Existing AR video generators either diverge from standard LLM architectures, depend on bulky external text encoders, or incur prohibitive latency due to next-token decoding. In this paper, we