Group-Relative Contextual Bandit Policy Gradient for Homepage Recommendation

Towards AI • April 05, 2026

AI Research Reinforcement Learning

Efficient Reinforcement Learning from Relative Slate Quality in Contextual Bandits