SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

ArXi:2603.23483v1 Announce Type: cross Agentic multimodal large language models (MLLMs) (e.g., OpenAI o3 and Gemini Agentic Vision) achieve remarkable reasoning capabilities through iterative visual tool invocation. However, the cascaded perception, reasoning, and tool-calling loops