Synthetic Sandbox for Training Machine Learning Engineering Agents

ArXi:2604.04872v1 Announce Type: cross As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model