Semantic Generative Tuning for Unified Multimodal Models

ArXi:2605.18714v1 Announce Type: new Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing