Model-Driven Policy Optimization in Differentiable Simulators via Stochastic Exploration

ArXi:2605.07520v1 Announce Type: new Differentiable planning enables gradient-based optimization of decision-making problems by leveraging differentiable models of system dynamics. However, in highly nonlinear and hybrid discrete-continuous domains, the resulting optimization landscapes are often ill-conditioned, with flat regions and sharp transitions that hinder effective optimization.