DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving

ArXi:2605.10564v1 Announce Type: new End-to-end autonomous driving systems are increasingly integrating Vision-Language Model (VLM) architectures, incorporating text reasoning or visual reasoning to enhance the robustness and accuracy of driving decisions. However, the reasoning mechanisms employed in most methods are direct adaptations from general domains, lacking in-depth exploration tailored to autonomous driving scenarios, particularly within visual reasoning modules.