Revisiting Multimodal Positional Encoding in Vision-Language Models

ArXi:2510.23095v3 Announce Type: replace Multimodal position encoding is essential for vision-language models, yet there has been little systematic investigation into multimodal position encoding. We conduct a comprehensive analysis of multimodal Rotary Positional Embedding (RoPE) by examining its two core components: position design and frequency allocation.