UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities

ArXi:2603.23160v1 Announce Type: new Benchmarking AI systems in multi-turn interactive scenarios is essential for understanding their practical capabilities in real-world applications. However, existing evaluation protocols are highly heterogeneous, differing significantly in dataset formats, model interfaces, and evaluation pipelines, which severely impedes systematic comparison. In this work, we present UniDial-EvalKit (UDE), a unified evaluation toolkit for assessing interactive AI systems.