Neptune: Advanced ML Operator Fusion for Locality and Parallelism on GPUs

ArXi:2510.08726v2 Announce Type: replace-cross Operator fusion has become a key optimization for deep learning, which combines multiple deep learning operators to improve data reuse and reduce global memory transfers. However, existing tensor compilers struggle to fuse complex reduction computations involving loop-carried dependencies, such as attention mechanisms.