XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

ArXi:2510.15148v2 Announce Type: replace-cross Omni-modal large language models (OLLMs) aim to unify audio, vision, and text understanding within a single framework. While existing benchmarks primarily evaluate general cross-modal question-answering ability, it remains unclear whether OLLMs achieve modality-invariant reasoning or exhibit modality-specific biases. We