RX 580 + llama.cpp Vulkan hitting ~16 t/s on Qwen3.5-4B Q4_K_M — tried everything, seems to be a hard Vulkan/RADV ceiling
r/LocalLLaMA
•
Generative AI
Open Source AI
Estou postando isso caso alguém encontre uma solução que eu ainda não tenha tentado. Gosto de testar modelos pequenos em hardware antigo só para ver até onde consigo levá-los, então isso é mais um experimento divertido do que uma configuração de produção. Dito isso, ainda adoraria extrair mais desempenho dele. Minha configuração: AMD RX 580 8GB (RADV POLARIS10, gfx803) 16GB de RAM Zorin OS (Linux) llama.cpp com backend Vulkan Modelo: unsloth/Qwen3.5-4B Q4_K_M (~2,5GB) O problema: Estou obtendo uma velocidade de saída consistente de ~16 t/s, independentemente do que eu tente.