Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning

ArXi:2605.09640v1 Announce Type: cross Recent studies suggest that Reinforcement Fine-Tuning (RFT) is inherently resilient to catastrophic forgetting than Supervised Fine-Tuning (SFT). However, whether RFT (e.g., GRPO) can effectively overcome forgetting in challenging visual continual learning settings, such as class-incremental learning (CIL) and domain-incremental learning (DIL), remains an open problem. Through a pilot study, we confirm that while RFT consistently outperforms SFT, it still suffers from non-negligible forgetting.