Deep Dreams Are Made of This: Visualizing Monosemantic Features in Diffusion Models

ArXi:2605.08218v1 Announce Type: new This paper proposes latent visualization by optimization (LVO), a mechanistic interpretability technique that extends feature visualization by optimization - originally developed for convolutional neural networks - to latent diffusion models. LVO employs sparse autoencoders (SAEs) to disentangle polysemantic layer representations into monosemantic features.