HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds

ArXi:2508.12782v2 Announce Type: replace Large language models (LLMs) perform well on step-by-step reasoning benchmarks such as mathematics and code generation, yet their ability to carry out robust long-horizon planning under realistic constraints remains insufficiently evaluated. Existing planning benchmarks often rely on abstract domains or interactive feedback, obscuring end-to-end planning failures and feasibility errors. We