Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning

ArXi:2604.18978v1 Announce Type: cross Scaling critic capacity is a promising direction for enhancing off-policy reinforcement learning (RL). However, larger critics are prone to overfitting and unstable in replay-buffer-based bootstrap