Bridging Domain Gaps with Target-Aligned Generation for Offline Reinforcement Learning

ArXi:2605.13054v1 Announce Type: cross Cross-domain offline reinforcement learning aims to adapt a policy from a source domain to a target domain using only pre-collected datasets, where environment dynamics may differ. A key challenge is to leverage source data while reducing distributional mismatch, particularly when the target dataset is extremely limited.