Physics-Informed Causal MDPs for Sequential Constraint Repair in Engineering Simulation Pipelines

ArXi:2604.17910v1 Announce Type: cross Off-policy learning in constrained MDPs with large binary state spaces faces a fundamental tension: causal identification of transition dynamics requires structural assumptions, while sample-efficient policy learning requires state-space compression. We