CCCL: In-GPU Compression-Coupled Collective Communication

ArXi:2604.17172v1 Announce Type: cross Collective communication incurs significant overhead in LLM workloads. Although overlapping communication with computation in application-level is a common strategy, it often requires substantial code modifications and is impractical for many workloads (e.g., tensor and expert parallelism). We present CCCL, a built-in compression-based collective communication library that s operations such as allreduce, alltoall, and send/rec without requiring any user-side changes, thereby enabling seamless adoption in existing applications.