ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

ArXi:2505.20032v2 Announce Type: replace-cross Tactile sensing provides local essential information that is complementary to visual perception, such as texture, compliance, and force. Despite recent advances in visuotactile representation learning, challenges remain in fusing these modalities and generalizing across tasks and environments without heavy reliance on pre-trained vision-language models. Moreover, existing methods do not study positional encodings, thereby overlooking the multi-stage spatial reasoning needed to capture fine-grained visuotactile correlations. We