Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

ArXi:2505.23606v4 Announce Type: replace Unified generation models aim to handle diverse tasks across modalities -- such as text generation, image generation, and vision-language reasoning -- within a single architecture and decoding paradigm. Autoregressive unified models suffer from slow inference due to sequential decoding, and non-autoregressive unified models suffer from weak generalization due to limited pretrained backbones. We