Diverse Text-to-Image Generation via Contrastive Noise Optimization

ArXi:2510.03813v3 Announce Type: replace-cross Text-to-image (T2I) diffusion models have nstrated impressive performance in generating high-fidelity images, largely enabled by text-guided inference. However, this advantage often comes with a critical drawback: limited diversity, as outputs tend to collapse into similar modes under strong text guidance. Existing approaches typically optimize intermediate latents or text conditions during inference, but these methods deliver only modest gains or remain sensitive to hyperparameter tuning. In this work, we