LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

ArXi:2506.18841v3 Announce Type: replace-cross Ultra-long generation by large language models (LLMs) is a widely demanded scenario, yet it remains a significant challenge due to their maximum generation length limit and overall quality degradation as sequence length increases. Previous approaches, exemplified by LongWriter, typically rely on ''teaching'', which involves supervised fine-tuning (SFT) on synthetic long-form outputs.