SNAPO: Smooth Neural Adjoint Policy Optimization for Optimal Control via Differentiable Simulation

ArXi:2605.06570v1 Announce Type: new Many real-world problems require sequential decisions under uncertainty: when to inject or withdraw gas from storage, how to rebalance a pension portfolio each month, what temperature profile to run through a pharmaceutical reactor chain. Dynamic programming solves small instances exactly but scales exponentially in state dimensions. Black-box reinforcement learning handles high-dimensional states but trains slowly and produces no sensitivities. We