If Dense Models are better for Coding, why are Qwen-Coders MoE?

Hi all, have been reading here for over two years and finally have a question I can't find an answer to. Qwen 3.5 27B and Gemma 4 31B have been the latest examples of dense models performing much accurately and in general tasks requiring higher precision, where vast knowledge isn't of highest priority.