CAF-Score: Calibrating CLAP with LALMs for Reference-free Audio Captioning Evaluation

ArXi:2603.19615v1 Announce Type: cross While Large Audio-Language Models (LALMs) have advanced audio captioning, robust evaluation remains difficult. Reference-based metrics are expensive and often fail to assess acoustic fidelity, while Contrastive Language-Audio Pre