PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization

ArXi:2605.06582v1 Announce Type: new Many operations on sensory data -- comparison, memory, retrieval, and reasoning -- are naturally expressed over discrete symbolic structures. In language this interface is given by tokens; in audio, it must be learned. Existing audio tokenizers rely on quantization, clustering, or codec reconstruction, assigning tokens locally, so sequence consistency, compactness, length control, termination, and edit similarity are rarely optimized directly.