PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

ArXi:2605.16551v1 Announce Type: new Evaluating LLM-based agents remains challenging because identifying meaningful failure cases often requires substantial human effort to design realistic test scenarios. Prior works primarily focus on automatically discovering agent failures induced by adversarial users, while overlooking queries with real user intents that also trigger agent failures. We