FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

ArXi:2602.01566v2 Announce Type: replace Deep research is emerging as a representative long-horizon task for large language model (LLM) agents. However, long trajectories in deep research often exceed model context limits, compressing token budgets for both evidence collection and report writing, and preventing effective test-time scaling. We