EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

ArXi:2601.06565v2 Announce Type: replace Large language models are increasingly applied to various development scenarios. However, in on-chain transaction scenarios, even a minor error can cause irreversible loss for users. Existing evaluations often overlook execution accuracy and safety. We