Consistency as a Testable Property: Statistical Methods to Evaluate AI Agent Reliability

ArXi:2605.10516v1 Announce Type: new This paper establishes a rigorous measurement science for AI agent reliability, providing a foundational framework for quantifying consistency under semantically preserving perturbations. By leveraging $U$-statistics for output-level reliability and kernel-based metrics for trajectory-level stability, we offer a principled approach to evaluating agents across diverse operating conditions.