MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval

ArXi:2603.13349v1 Announce Type: cross Visual Document Retrieval (VDR) requires representations that capture both fine-grained visual details and global document structure to ensure retrieval efficacy while maintaining computational efficiency. Existing VDR models struggle to balance effectiveness and efficiency when processing high-resolution documents: they often either lose fine-grained information or generate an excessive number of visual tokens, resulting in significant indexing overhead and high retrieval latency.