FastOCR: Dynamic Visual Fixation via KV Cache Pruning for Efficient Document Parsing

ArXi:2605.17447v1 Announce Type: cross Vision-Language Models (VLMs) have shown strong promise on Optical Character Recognition (OCR), yet the sheer number of visual tokens required to encode dense documents incurs prohibitive inference cost. Existing pruning methods rely on physical eviction, e.g., permanently discarding visual tokens during the prefill stage.