What You Think is What You See: Driving Exploration in VLM Agents via Visual-Linguistic Curiosity

ArXi:2605.03782v1 Announce Type: new To navigate partially observable visual environments, recent VLM agents increasingly internalize world modeling capabilities into their policies via explicit CoT reasoning, enabling them to mentally simulate futures before acting. However, relying solely on passive reasoning over visited states is insufficient for sparse-reward tasks, as it lacks the epistemic drive to actively uncover the ``known unknown'' required for robust generalization.