Brevity Constraints Reverse Performance Hierarchies in Language Models

ArXi:2604.00025v1 Announce Type: cross Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4%age points despite 10-100x parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that