CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving

ArXi:2605.10426v1 Announce Type: cross Vision-Language-Action (VLA) models have emerged as a promising paradigm for end-to-end autonomous driving. However, existing reasoning mechanisms still struggle to provide planning-oriented intermediate representations: textual Chain-of-Thought (CoT) fails to preserve continuous spatiotemporal structure, while latent world reasoning remains difficult to use as a direct condition for action generation.