Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

ArXi:2510.06499v2 Announce Type: replace-cross Large Language Models (LLMs) have achieved remarkable success through imitation learning on vast text corpora, but this paradigm creates a