SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning

ArXi:2605.18299v1 Announce Type: cross Search-augmented reasoning agents interleave internal reasoning with calls to an external retriever, and their performance relies on the quality of each issued query. However, under outcome-reward reinforcement learning, every search decision in a rollout shares the same trajectory-level reward, leaving individual queries without step-specific credit.