Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

ArXi:2605.17110v1 Announce Type: cross Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Existing clustering methods, which primarily rely on semantic taxonomies or embeddings, often fail to capture such latent capability requirements due to a misalignment between surface-level semantics and actual model performance.