Tactile Modality Fusion for Vision-Language-Action Models

ArXi:2603.14604v1 Announce Type: cross We propose TacFiLM, a lightweight modality-fusion approach that integrates visual-tactile signals into vision-language-action (VLA) models. While recent advances in VLA models have