Contextual Counterfactual Credit Assignment for Multi-Agent Reinforcement Learning in LLM Collaboration

ArXi:2603.06859v1 Announce Type: new Cooperative multi-agent reinforcement learning (MARL) systems powered by large language models (LLMs) are frequently optimized via sparse terminal-only feedback. This shared signal entangles upstream decisions, obstructing accurate decision-level credit assignment. To address this trajectory-level diffusion, we