Golden RPG: Confidence-Adaptive Region-Aware Noise for Compositional Text-to-Image Generation

ArXi:2604.25314v1 Announce Type: new Compositional text-to-image (T2I) generation requires a model to honour multiple sub-prompts that describe distinct image regions. Recent work shows that the \emph{starting noise} of a diffusion model carries significant semantic information: ``golden'' noise predicted from text can substantially raise prompt fidelity.