PRM-as-a-Judge: A Dense Evaluation Paradigm for Fine-Grained Robotic Auditing

ArXi:2603.21669v1 Announce Type: cross Current robotic evaluation is still largely dominated by binary success rates, which collapse rich execution processes into a single outcome and obscure critical qualities such as progress, efficiency, and stability. To address this limitation, we propose PRM-as-a-Judge, a dense evaluation paradigm that leverages Process Reward Models (PRMs) to audit policy execution directly from trajectory videos by estimating task progress from observation sequences.