Running a Local LLM on RISC-V: Building llama.cpp on a Banana Pi F3 (Part 1)

Verachten.fr/2026/02/27/running-a-local-llm-on-risc--building-llama-cpp-on-a-banana-pi-f3-part-1/ TL;DR I built llama.cpp from source on a Banana Pi F3 (SpacemiT K1, riscv64), ran TinyLlama 1.1B, and got an OpenAI-compatible API server running at ~8.5 tokens/second (8.29 in benchmarks, 8.76 on short queries). There’s a build gotcha with RISC-V vector extensions and float16 that will bite you if you follow the generic instructions. This is Part 1 of a series about running AI locally on RISC-V hardware. Previously, on "Docker Captain vs.