SVL: Spike-based Vision-language Pretraining for Efficient 3D Open-world Understanding

ArXi:2505.17674v2 Announce Type: replace Spiking Neural Networks (SNNs) provide an energy-efficient way to extract 3D spatio-temporal features. However, existing SNNs still exhibit a significant performance gap compared to Artificial Neural Networks (ANNs) due to inadequate pre-