Co-Evolution of Policy and Internal Reward for Language Agents

ArXi:2604.03098v1 Announce Type: cross Large language model (LLM) agents remains fundamentally bottlenecked by sparse and delayed rewards. Existing methods typically address this challenge through post-hoc credit assignment or external reward models, which provide limited guidance at inference time and often separate reward improvement from policy improvement. We propose Self-Guide, a self-generated internal reward for language agents that s both inference-time guidance and