BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

ArXi:2506.09487v3 Announce Type: replace-cross This paper presents BemaGANv2, an advanced GAN-based vocoder designed for high-fidelity and long-term audio generation, with a focus on systematic evaluation of discriminator combination strategies. Long-term audio generation is critical for applications in Text-to-Music (TTM) and Text-to-Audio (TTA) systems, where maintaining temporal co- herence, prosodic consistency, and harmonic structure over extended durations remains a significant challenge.