Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

ArXi:2604.17338v1 Announce Type: cross Unlike code completion, debugging requires localizing faults and applying targeted edits. We observe that frontier LLMs often regenerate correct but over-edited solutions during debugging. To evaluate how far LLMs are from precise debugging, we