V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models

ArXi:2504.06148v3 Announce Type: replace Recent advancements in Multimodal Large Language Models (MLLMs) have nstrated impressive capabilities in visual-text processing. However, existing static image-text benchmarks are insufficient for evaluating their dynamic perception and interactive reasoning abilities. We