SegDAC: Visual Generalization in Reinforcement Learning via Dynamic Object Tokens

ArXi:2508.09325v4 Announce Type: replace-cross Visual reinforcement learning policies trained on pixel observations often struggle to generalize when visual conditions change at test time. Object-centric representations are a promising alternative, but most approaches use fixed-size slot representations, require image reconstruction, or need auxiliary losses to learn object decompositions. As a result, it remains unclear how to learn RL policies directly from object-level inputs without these constraints.